【机器学习】理解方差、偏差且其泛化误差的关系

https://blog.csdn.net/ChenVast/article/details/81385018

符号	涵义
$x$	测试样本
$D$	数据集
$y_{D}$	$x$ 在数据集中的标记
$y$	$x$ 的真实标记
$f$	训练集 $D$ 学得的模型
$f\left ( x;D\right )$	由训练集 $D$ 学得的模型 $f$ 对 $x$ 的预测输出
$\bar{f}$ $\left ( x \right )$	模型 $f$ 对 $x$ 的期望预测输出

方差

在一个训练集 D上模型 f对测试样本 x的预测输出为 f(x;D), 那么学习算法 f对测试样本 x的 期望预测 为:

上面的期望预测也就是针对不同数据集 D, f 对 x的预测值取其期望（平均预测）。

使用样本数相同的不同训练集产生的方差为:

偏差

期望预测与真实标记的误差称为偏差(bias), 为了方便起见, 我们直接取偏差的平方:

泛化误差

以回归任务为例, 学习算法的平方预测误差期望为:

对算法的期望泛化误差进行分解:

令噪声为零， $\varepsilon =y_{D}-y=0$ ，所以红色区域的等于零。

最后剩下 $E(f;D)=\varepsilon ^{2}+bias^{2}+var$ ,结果为泛化误差 = 偏差 + 方差 + 噪声

偏差、方差、噪声

偏差：度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力。
方差：度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。
噪声：表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。

图解偏差与方差

	低方差	高方差
低偏差	数据点集中+数据点落在预测点上	数据不集中+数据点部分落在预测点上（预测的准确率不高）
高偏差	数据点集中+数据点与预测点存在距离（预测不准）	数据点不集中+数据点基本不落在预测点上（预测不准）

方差和偏差与拟合

拟合程度	方差	偏差	原因	解决办法
欠拟合		过高	训练不足，偏差主导泛化误差	集成学习；加深加迭代；加特征；降低正则化；
过拟合	过高		训练过多，方差主导泛化误差	降低模型复杂度；加正则惩罚项；加训练集；减特征；提高正则化

参考：

http://www.cnblogs.com/makefile/p/bias-var.html#fn2

【机器学习】理解方差、偏差且其泛化误差的关系相关推荐

机器学习基础-方差偏差
偏差&方差在统计学里面有两个衡量模型的重要指标,分别是偏差Bias 和方差Variance. 偏差:表示每次模型学习到的数据跟真实数据之间的差距. 方差:表示每次模型学习到的数据之间的差距 ...
机器学习模型的误差分析-逼近误差、泛化误差、优化误差
逼近误差模型最好能逼近真实模型到什么程度考虑target function和能从假设空间中学到的the best function的距离而已经证明一层隐藏层(+一层输出层)也能很好地拟合任何函数 ...
机器学习：算法中的泛化误差、偏差、方差、噪声的理解（超详细）
摘要:在现实任务中,我们往往有多种学习算法可供选择,甚至对同一个学习算法,当使用不同的参数配置时,也会产生不同的模型,那么,我们该如何选用哪一个学习算法,使用哪一种参数配置呢?这就是机器学习中的&qu ...
《菜菜的机器学习sklearn课堂》随机森林应用泛化误差调参实例
随机森林随机森林 - 概述集成算法概述 sklearn中的集成算法随机森林分类器 RandomForestClassifier 重要参数控制基评估器的参数 n_estimators:基评估器的 ...
机器学习中的偏差和方差是什么？
机器学习中的偏差和方差是什么? 机器学习全部是关于给定输入数据(X)和给定输出数据(Y),然后去寻找一个最佳映射函数(F),这个映射函数通常也被叫做目标函数. 任何机器学习算法的预测误差可以分解为三部 ...
机器学习偏差、方差、泛化误差的完整总结
综述机器学习算法的最终目标是最小化期望损失风险(即机器学习模型在任意未知测试样本上的表现),但由于数据的真实分布我们通常是不知道的,我们可用的信息来自于训练数据,因此,机器学习的学习目标往往会转化为 ...
机器学习中的偏差、方差以及泛化误差
在机器学习中学习器的实际预测结果与样本的真实输出往往存在误差(error) 学习器在训练集上的误差称为"训练误差"(training error)or "经验误差&quo ...
【机器学习－西瓜书】二、偏差-方差分解；泛化误差
2.5偏差与方差关键词:偏差-方差分解:泛化误差 . 偏差-方差分解是解释算法泛化性能的一种重要工具.偏差-方差分解试图对学习算法的期望泛化错误率进行拆解. 泛化误差可分解为:偏差,方差与噪声之和. ...
转载：理解机器学习中的偏差与方差
学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, ...