• 直译

Bias:偏见,乖离率,偏重

Variance:方差、分歧、不一致

Tradeoff:权衡、参数折衷;(公平)交易;技术经济研究

  • 准确

准确是两个概念:准、确。

准是bias小,就是偏差小;

确是variance小,就是分歧小,一致性强。

Bias和Variance是针对Generalization(一般化,泛化)来说的。

在机器学习中,我们用训练数据集去训练(学习)一个model(模型),通常的做法是定义一个Loss function(误差函数),通过将这个Loss(或者叫error)的最小化过程,来提高模型的性能(performance)。然而我们学习一个模型的目的是为了解决实际的问题(或者说是训练数据集这个领域(field)中的一般化问题),单纯地将训练数据集的loss最小化,并不能保证在解决更一般的问题时模型仍然是最优,甚至不能保证模型是可用的。这个训练数据集的loss与一般化的数据集的loss之间的差异就叫做generalization error。而generalization error又可以细分为Bias和Variance两个部分。

  • 统计误差的理论

在机器学习的模型与数据背后的真实规律之间总会存在差异,在科学人的前提下,这种差异来源还剩下三个:随机误差、偏差、方差。

偏差和方差与欠拟合和过拟合紧密相关。

因为随机误差是不可消除的客观存在,在数学层面就只剩偏差和方差,需要寻求偏差和方差之间的权衡(Bias-Variance Tradeoff)。

  1. 随机误差

随机误差是数据本身的噪音带来的,这种误差是不可避免的。

一般认为随机误差服从高斯分布,记作
ϵ ∼ N ( 0 , σ ϵ ) \epsilon ∼ N(0, \sigma_{\epsilon}) ϵ∼N(0,σϵ​)

因此,若有变量 y作为预测值,以及 X 作为自变量(协变量),那么我们将数据背后的真实规律 f 记作
y = f ( X ) + ϵ y = f(X) + \epsilon y=f(X)+ϵ

随机误差是一种自然哲学领域的无可奈何,偏差和方差则是统计学上的一种选择。也就是噪声(Noise)

  1. 偏差Bias

偏差面熟的是通过学习拟合出来的结果的期望,与真实规律之间的差距:
B i a s ( X ) = E [ f ^ ( X ) ] − f ( X ) Bias(X) = E[\hat{f}(X)] - f(X) Bias(X)=E[f^​(X)]−f(X)

偏差是一种针对单个结果评价的角度,刻画了学习算法本身的拟合能力。是模型带来的。

  1. 方差Variance

方差描述的是通过学习拟合出来的结果自身的不稳定性:
V a r ( X ) = E [ ( f ^ ( X ) − E [ f ^ ( X ) ] ) 2 ] Var(X) = E[(\hat{f}(X) - E[\hat{f}(X)])^2] Var(X)=E[(f^​(X)−E[f^​(X)])2]

方差是对多次结果综合考察的角度,刻画了数据扰动所造成的影响。是数据带来的。

对于均方误差:
E r r ( X ) = E [ ( y − f ^ ( X ) ) 2 ] = E [ ( f ( X ) + ϵ − f ^ ( X ) ) 2 ] = ( E [ f ^ ( X ) − f ( X ) ] ) 2 + E [ ( f ^ ( X ) − E [ f ^ ] ) 2 ] + σ ϵ 2 = B i a s 2 + V a r i a n c e + R a n d o m E r r o r Err(X) = E[(y-\hat{f}(X))^2]\\ = E[(f(X) + \epsilon -\hat{f}(X))^2]\\ = (E[\hat{f}(X) - f(X)])^2 + E[(\hat{f}(X)- E[\hat{f}])^2] + \sigma^2_{\epsilon}\\ =Bias^2 + Variance + Random Error Err(X)=E[(y−f^​(X))2]=E[(f(X)+ϵ−f^​(X))2]=(E[f^​(X)−f(X)])2+E[(f^​(X)−E[f^​])2]+σϵ2​=Bias2+Variance+RandomError

  • 图形描述统计学

将机器学习任务描述维打靶活动:

根据相同算法、不同的数据集训练出的模型,对童年谷一个样本进行预测,每个模型作出的预测相当于一次打靶。

左上角图片是偏差、方差都小,在有无限数据、完美模型算法的前提下是可以实现的理想状态。

另外三个是现实。

  • 权衡

训练误差是0当然好,但不存在,因为至少还有随机误差,哪怕随机误差都为0,训练数据还有误差。

发现平凡是唯一的答案,不找完美只找平衡点:

  • Reference

  1. 谈谈 Bias-Variance Tradeoff
  2. Understanding the Bias-Variance Tradeoff
  3. 知乎 J JR

Bias-Variance Tradeoff(方差、偏差、误差)通俗理解相关推荐

  1. AI学习笔记——Bias and Variance tradeoff (方差偏差的平衡)

    上一篇文章介绍了机器学习中需要理解的几个重要概念,这些概念在训练模型的过程中至关重要,尤其是Bias 和 Variance 的分析,关系到在机器学习的过程的实际操作中,如何优化训练模型. 1.Bias ...

  2. Bias/variance tradeoff

    Bias/variance tradeoff 线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合. 尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能 ...

  3. 统计视角下的Bias Variance Tradeoff 和它在KNN模型中的体现

    统计视角下的Bias Variance Tradeoff 和它在KNN模型中的体现 前言 一.Bias Variance Tradeoff 1. 真实数据分布和取样的假设 2. 统计理论中的Bias和 ...

  4. 机器学习中关于偏差、方差和误差的理解

    在模型预测中,模型可能出现的误差来自两个主要来源:   1.因模型无法表示基本数据的复杂度而造成的偏差(bias);   2.因模型对训练它所用的有限数据过度敏感而造成的方差(variance).   ...

  5. 偏见方差的权衡(Bias Variance Tradeoff)

    统计学习中有一个重要概念叫做residual sum-of-squares RSS看起来是一个非常合理的统计模型优化目标.但是考虑k-NN的例子,在最近邻的情况下(k=1),RSS=0,是不是

  6. A detailed derivation for the Bias Variance tradeoff Decomposition

    Introduction 在 ESL和 ISLR中,都给出了对于 bias和 variance的讨论,并给出这样的结论: Err(X)=Var(f^(X))+Bias(f^(X))2+Var(ϵ)Er ...

  7. Bias Variance Tradeoff

    统计学习中有一个重要概念叫做residual sum-of-squares RSS看起来是一个非常合理的统计模型优化目标.但是考虑k-NN的例子,在最近邻的情况下(k=1),RSS=0,是不是k-NN ...

  8. DL中的Bias Variance

    Bias Variance Trade-off Prediction Error motivation bias variance comparison derivation Analysis los ...

  9. 理解Bias(偏差),Error(误差),和Variance(方差)的区别和联系?

    内容导读 最近听机器学习课程时听到这三个概念一开始有点模糊.感觉没理解透,所以自己又查了点资料,消化了一下,然后做了个笔记.Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,其 ...

最新文章

  1. bzoj1875 边点互换+矩乘
  2. [转]定了!2020年,6种将死的编程语言!
  3. Android4.2.2的Stagefright维护编解码器的数据流
  4. 【博弈论】【SG函数】bzoj1777 [Usaco2010 Hol]rocks 石头木头
  5. 一个简单的PHP购物车系统
  6. Oracle性能调优
  7. 《万物互联》——1.3 什么样的物体可以接入物联网
  8. position based dynamics
  9. 如何实现一个文件系统
  10. Loadrunner11破解
  11. umi+Ant Design Mobile+rem搭建移动端H5框架
  12. 盛世昊通谈跨界造车风潮,不同车企到底打什么主意
  13. python中冒号报错_Python初学者 冒号报错
  14. 用什么方法可以将Word转换成PDF文档?
  15. TensorFlow 中的 LRNOp
  16. 为什么行程码不能显示到县级,工信部回应
  17. idea打开项目,项目(project)栏不显示项目项目名和项目结构
  18. Mac 本地下载安装Nginx
  19. npm ERR! code EINTEGRITY 错误原因记录
  20. 腾讯云轻量级服务器宝塔快速部署网站

热门文章

  1. 如何写优雅的代码(序)——自语
  2. 语义分割系列24-PointRend(pytorch实现)
  3. 黑马C++项目实操演讲比赛流程管理系统
  4. [数据库] mysql必知必会(一):常用命令
  5. 【沃顿商学院学习笔记】管理学——07腐败控制理论The Control Theories of Corruption
  6. 鸿蒙系统hifi,Apple Music将迎来重大更新 HiFi无损音质即将上线?
  7. 如何选择移动广告平台,对比参数详细罗列
  8. StarRocks 社区架构出炉,等你通关升级!(内含领奖方式)
  9. iOS中Block的使用注意事项
  10. 天太机器人吴志诚_2018年机器人行业十大风云人物