Back to Posts

机器学习(Week6)-偏差与方差(Bias vs. Variance)

Posted in Tech

Lecture1: Bias vs. Variance

下一步需要做什么

  • 假设使用线性回归来预测房价,当训练好的预测函数无法应用于新房子的房价预测(预测值与实际偏差很大)时,我们应该如何改进?

获取更多的样本数据
减少特征项,保留更重要的特征项
添加特征项
加入多项式(\(x_1^2,x_2^2,x_1x_2\)等等)
增大\(\lambda\)值
减小\(\lambda\)值

  • 但如何选择以上这些方法呢?

机器学习诊断: 诊断程序会评价学习算法是否有效,并给你下一步应该如何改进提供指引; 虽然实现会花点时间,但对提高算法很有帮助

评估假设函数
  • 实际工作中由于太多特征无法画出曲线,所以需要有一种方法识别过拟合(high variance)

将样本数据分成两组: 一组训练集(70%); 一组是测试集(30%),表示为\((x_{test}^{(i)}, y_{test}^{(i)})\)
使用训练集学习得到参数\(\theta\)和预测函数
线性回归时,使用测试集计算代价函数:\(J_{test}(\theta) = \frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_\theta(x_{test}^{(i)}) - y_{test}^{(i)})^2\)
分类回归问题时,使用测试集计算代价函数:\(J_{test}(\theta) = -\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}\left[ y_{test}^{(i)}log(h_\theta(x_{test}^{(i)})) + (1-y_{test}^{(i)})log(1-h_\theta(x_{test}^{(i)}) \right]\)
还可以使用误分率(Misclassification error or 0/1 Misclassification error)来计算测试集:
\(err(h_\theta(x),y) = \begin{cases} 1 & h_\theta(x) \ge 0.5 \, and\, y=0 \, or\, h_\theta(x) \lt 0.5 \,and\, y=1 \\ 0 & otherwise \end{cases}\\ \text{Test Error} = \dfrac{1}{m_{test}} \sum^{m_{test}}_{i=1} err(h_\theta(x^{(i)}_{test}), y^{(i)}_{test})\)

模型选择
  • 例如我们以下线性回归模式,如何选择多项式的最高幂次?

\(h_\theta(x) = \theta_0 + \theta_1 x\)
\(h_\theta(x) = \theta_0 + \theta_1 x + \theta_2 x^2\)
\(h_\theta(x) = \theta_0 + \theta_1 x + \theta_2 x^2 + \theta_3 x^3\)
\(\vdots\)
\(h_\theta(x) = \theta_0 + \theta_1 x + \theta_2 x^2 + \cdots + \theta_{10}x^{10}\)

假设我们按之前的模型求出来\(\theta^{(1)},\theta^{(2)},\cdots,\theta^{(10)}\),并使用这些值计算出测试集合的误差\(J_{test}(\theta^{(1)}),J_{test}(\theta^{(2)}),\cdots,J_{test}(\theta^{(10)})\),则我们可以选择一个\(J\)最小的做为我们目标模型。

  • 问题:如果我们使用测试集选出最合适的模型,那再使用测试集评估,是否有失公平?

解决此问题:将样本数据分成三组:训练集(60%),交叉验证集(Cross validation set)(20%),测试集(20%)
使用训练集学习以上各个模型的\(\theta\)值
使用交验验证集找取错误最小的模型
使用测试集评估模型泛化能力

诊断和解决欠拟合和过拟合的问题(Bias vs. Variance)
  • 随着多项式的度数增加(degree of the polynomial),\(J_{train}\)和\(J_{cv}\)的变化如图

bias vs. variance

正规化与拟合问题
  • 选择\(\lambda\)值

创建一系列的\(\lambda\)值:\(\lambda \in \{ 0, 0.01,0.02,0.04,0.08,0.16,0.64,1.28,2.56,5.12,10.24\}\)
像之前一样选取多种不同多项式的模型
每一个\(\lambda\)代入每一个模型,求出\(\theta\)值
使用这些计算出来的\(\theta\)值(假设函数),算出交叉验证集合的\(J_{cv}(\theta)\),注意,计算\(J\)时,\(\lambda=0\)
选出最优的模型和最优的\(\lambda\)
使用测试集合,来评估选出来的模型和\(\lambda\)值的泛化能力

lambda

学习曲线(Learning Curves)
  • 欠拟合情况下,样本数量与训练集错误,测试集错误的关系

high_bias

如果算法模型处理欠拟合状态,那么增加样本并不会有太大的改善

  • 过拟合情况下,样本数量与训练集错误,测试集错误的关系

high_variance

如果算法模型处于过拟合状态,那么可以通过增加样本来改善

回顾

获取更多的样本数据: 解决过拟合问题
减少特征项,保留更重要的特征项: 解决过拟合问题
添加特征项: 解决欠拟合问题
加入多项式(\(x_1^2,x_2^2,x_1x_2\)等等): 解决欠拟合问题
增大\(\lambda\)值: 解决过拟合问题
减小\(\lambda\)值: 解决欠拟合问题

神经网络中的拟合问题

参数过少的神经网络更容易引起欠拟合问题,不过他的计算量较小
大型神经网络(多个隐藏层,多个参数)更容易引起过拟合问题,需要使用正规化(\(\lambda\))来解决

Lecture2: Machine learning system design

创建垃圾邮件分类器

设计方案:选取10000~50000个单词,每一个单词是否存在做为一个输入特征,那么我们就会有10000~50000个特征,通过训练集中的这些特征训练出对应的预测函数(或者神经网络);给定对应的输入特征向量,即可预测此邮件是否为垃圾邮件

  • 如何改善这个分类器

收集更多的数据(例如honeypot项目),但更多数据并不一定会有所改善
寻找更相关的特征,例如邮件的头信息等
输入使用更复杂的算法进行处理,比如不区分大小写,单复数等
以上不能靠直觉猜出哪个方法更有效,只能通过不断尝试来获取最做优解

错误分析

先用简单的算法快速实现,并在交叉验证集上测试
画出对应的学习曲线,分析并寻找有效的改善方法
错误分析:人工核实那些错误预测的验证集样例,找出共性,针对性地增加特征,或者对输入数据进行处理

偏斜类(Skewed classes)

当某一分类在样本集中占比特别小时,称之为偏斜类
偏斜类的存在导致无法判断错误率减少是否真正的改善了算法

衡量偏斜类的错误率
\[\class{myMJSmall}{ \begin{array}{c|c|c} & \text{Actual class 1} & \text{Actual class 0} \\ \hline \text{Predicted 1} & \text{true positive} & \text{false positive} \\ \hline \text{Predicted 0} & \text{false negative} & \text{true negative} \end{array} }\]
  • 查准率(Precision)
\[\class{myMJSmall}{\dfrac{\text{True Positives}}{\text{Total number of predicted positives}} = \dfrac{\text{True Positives}}{\text{True Positives}+\text{False positives}} }\]
  • 召回率(Recall)
\[\class{myMJSmall}{\ \dfrac{\text{True Positives}}{\text{Total number of actual positives}}= \dfrac{\text{True Positives}}{\text{True Positives}+\text{False negatives}} }\]
  • 权衡

以上两个指标可以很好的衡量算法是否工作。我们期望这两个指标越高越好
如果提高预测为1的阈值,例如\(h_\theta(x) \ge 0.7\)时,才预测为1,其它结果预测为0,则这将导致查准率上升,召回率下降;反之,如果将阈值调小成0.3,则查准率下降,召回率上升。
可以使用F值(F score/F1 score)来衡量阈值是否合适: \(\text{F Score} = 2\dfrac{PR}{P + R}\)

数据

  • 我们需要多少数据来训练?

一般而言,一个较差的算法,使用大量的样本进行训练,会比一个优秀算法,只用少量数据训练来得更有效

我们选择的特征应该包含足够多的信息,例如给定一个输入,对应领域的专家可以准确预测结果

如果我们选择一个低偏差(low-bias)模型(一般含有大量的特征,多层隐藏层等),那么越多的数据,我们得到的预测函数将会越精准

学习资料

课件和笔记 Octave编程作业

Read Next

机器学习(Week5)-反向传播(BP)