Fade Temple
@小差小差- Posts
- Categories
- Galleries
- Dixit
-
Jul 9, 2017
机器学习(Week9)-误差检测与推荐系统(Anomaly Detection & Recommender Systems)
Lecture1: Anomaly Detection 问题描述 已经有一组样本数据\({x^{(1)}, x^{(2)},\dots,x^{(m)}}\) 给出一个新的样本数据\(x_{test}\),判断这个样本数据是否为异常数据(abnormal/anomalous) 模型 定义一个模型\(p(x)\)表示这个样本为正常样本的概率,定义一个阈值\(\epsilon\),做为正常样本和异常样本的分界线,即如果\(p(x) \lt \epsilon\),则样本\(x\)为异常样本 例子 诈骗检测: \(x^{(i)}\)表示用户i的行为采样数据 从已有数据中学习出模型\(p(x)\) 从中找出\(p(x) \lt \epsilon\)的用户即为可疑用户 如果我们找出太多的异常用户,那么我们要适当减少\(\epsilon\)的值 高斯分布(Gaussian Distribution) 高斯分布为一个钟型的曲线,表示为\(\mathcal{N}(\mu,\sigma^2)\) 对于一个变量\(x \in \mathbb{R}\),如果它的概率分布服务从高斯分布,则表示为 \[\class{myMJSmall}{x \sim \mathcal{N}(\mu, \sigma^2)}\] 其中\(\mu\)为均值,也是高斯曲线的中点,\(\sigma^2\)为方差,\(\sigma\)为标准差,体现为高斯曲线的胖廋程度...
Read More -
Jun 16, 2017
上海迪士尼
最幸福的不是来上海玩,而是明明是周五,却可以不上班! 最初决定去上海迪士尼玩,是因为抢了一张美团的门票优惠券。随后加上已经半年没有出去玩过,工作状态也十分不佳,渐定下行程,周五出发。 也许是阴天转多云的天气,温和如水。正午吃过灌汤包后的愉悦心情,与外滩的宏伟地标建筑,不禁恋上了这坐南方大城市。随之而来的是逃离北京的一缕思绪。 也许是自己放松的身体和心态,在这座充满着现气息而又夹杂着传统和异域风采的大都市里晃荡着,不知不觉已经过了半天的时光。 又或许只是酒店周边的环境和明天即将进入迪士尼乐园的憧憬,让夕阳无限美好,黄昏也五彩斑斓。 南方的水乡如此地吸引着我,仿佛自己数着这个村落的桥,可以度过整个夏天。 可是我却离开像这样一样美丽的家乡,八载有余。说来也讽刺,几乎没有半点悔意。 也许这诚如所言,心怡的是久违的,习惯了就成了自然。离开才有思念,不在身边才念念不忘。 闹钟醒来,催我醒来。6点半的光景,却日上三竿。好天气,却也是燥热的天气。 迪士尼的早晨是人山人海。 不过后来发现迪士尼开放的时候都是人山人海,不论早晨,中午还是晚上。 匆匆穿行于园区各个景点,像爱丽丝,对所有景点都有期待,而大部分的项目都出乎意料。 期间夹杂着拿FP经过漫长队伍时的庆幸,二刷超喜欢项目时的兴奋,错过焰火表演,暗暗觉得下次一定还会再来的憧憬。 等到游人渐少,广播响起,是离开的时候了,一天匆忙,却很充实,只是累坏了。 酒店的大巴拉着我们,我们回头望着隐去的城堡,城堡应该也要入眠了,晚安。 上海回来的好几天里,都会关注着迪士尼APP上的排队动态,可能出于一种买东西的心理:我们排的队,是不是排长了,也可能还是对那些最爱的项目念念不忘。 无论如何,不虚此行!
Read More -
Jun 15, 2017
机器学习(Week8)-无监督学习(Unsupervised Learning)
Lecture1: Clustering 无监督学习:介绍 无监督学习的样本区别于有监督学习的是每一个样本没有标签。 如有监督学习的样本表示为\(\{(x^{(1)}, y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)}),\cdots,(x^{(m)},y^{(m)})\}\) 则无监督学习的样本表示为\(\{x^{(1)}, x^{(2)},x^{(3)},\cdots,x^{(m)}\}\) 应用 市场划分(Market segmentation) 社交网络划分(Social network analysis) 组织计算机集群(Organizing computer clusters) 天文数据分析(Astronomical data analysis) K-均值算法(K-Means Algorithm) 基本步骤 随机选取两个点(分为两类),这两个点称之为聚类中心(cluster centroids) 聚类分配:将样本数据根据距离聚类中心的远近分成两类 移动聚类中心:根据聚类分配划分的两个集合,算出各自的均值,将聚类中心移至该点 重复聚类分配和移动聚类中心两个步骤,直到聚类中心不再变化 变量符号定义 \(K\):分类的数量...
Read More -
Jun 11, 2017
机器学习(Week7)-支持向量机/SVM(Support Vector Machines)
Lecture1: Support Vector Machines 优化目标(Optimization Objective) 逻辑回归 \[\class{myMJSmall}{ h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}} }\] 如果\(y = 1\),则\(h_\theta(x) \approx 1\), \(\theta^Tx \gg 0\) 如果\(y = 0\),则\(h_\theta(x) \approx 0\), \(\theta^Tx \ll 0\) 对于单个样本的代价函数 \[\class{myMJSmall}{...
Read More -
Jun 4, 2017
机器学习(Week6)-偏差与方差(Bias vs. Variance)
Lecture1: Bias vs. Variance 下一步需要做什么 假设使用线性回归来预测房价,当训练好的预测函数无法应用于新房子的房价预测(预测值与实际偏差很大)时,我们应该如何改进? 获取更多的样本数据 减少特征项,保留更重要的特征项 添加特征项 加入多项式(\(x_1^2,x_2^2,x_1x_2\)等等) 增大\(\lambda\)值 减小\(\lambda\)值 但如何选择以上这些方法呢? 机器学习诊断: 诊断程序会评价学习算法是否有效,并给你下一步应该如何改进提供指引; 虽然实现会花点时间,但对提高算法很有帮助 评估假设函数 实际工作中由于太多特征无法画出曲线,所以需要有一种方法识别过拟合(high variance) 将样本数据分成两组: 一组训练集(70%); 一组是测试集(30%),表示为\((x_{test}^{(i)}, y_{test}^{(i)})\) 使用训练集学习得到参数\(\theta\)和预测函数 线性回归时,使用测试集计算代价函数:\(J_{test}(\theta) = \frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_\theta(x_{test}^{(i)}) - y_{test}^{(i)})^2\) 分类回归问题时,使用测试集计算代价函数:\(J_{test}(\theta)...
Read More