一、理解bias和vias
二、如何解决bias和vias大的问题
三、testing error的比较
四、training error和testing error的性质和各自的类比
五:结论:

一、理解bias和vias

Bias:准心(你的准心和靶心的距离)
Variance:准度(你的某次射击位置和准心的距离)

data的bias(数据的偏差):可以理解为个体偏差,因为一次学习用到的数据少,每次学习用到的数据都不同,每次学习的结果都不同。
个体偶然,整体必然。

大数据偏差效应弱,小数据偏差效应强(大数据使得打靶范围缩小了,但仍在正确区域内)
用绝对的大数据所得到的结果,不会有variance
你可以这样理解上面那句话:你把所有的点都画在图上,不就能直接描绘出一条曲线了吗?这条曲线就是靶心,就是真理。(绝对的大数据使得打靶范围,变成了一个点)

简单的model:准心差 ,准度好
原因
准心差:
(打靶角度理解)简单的model,发挥空间更小,也就是他的打靶范围小,样本再大,也只能找到在这个范围里最好的准心。
(不从打靶角度理解),model太简单,只能在简单model集合里找到最好的结果。

准度好:
(打靶角度理解)打靶范围小,再偏也偏不到哪里去。
(不从打靶角度理解)即使样本很小,数据容易偏差,然而由于model简单,不容易受到不同组data个体偏差的影响。

复杂的model:准心好,准度差
原因:
准心好:
(打靶角度理解)复杂的model,发挥空间更大,也就是他的打靶范围大,包含了简单model的范围,在大数据下(个体偏差得到平均),容易找到更接近靶心的准心。
(不从打靶角度理解)model更复杂,可以在更大的集合里找到最好的结果。

准度差:
(打靶角度理解)但是,由于打靶范围大,在小数据下(有个体偏差),可能偏离靶心。
(不从打靶角度理解)单次样本小,数据容易偏差,由于model复杂,容易受到不同组data个体偏差的影响。

二、如何解决bias和vias大的问题

如何解决bias大的问题(随之而来的是vias变大):
1、修改你的model,让它变得更复杂(加其它参数,1次式变为2、3次式)

如何解决vias大的问题(随之而来的是bias变大):
1、可以增加单组的data数。小数据to大数据,这样可以减小偏差效应。
2、regularzation正则化,使你的曲线变得平滑。言外之意:就是让你所有的曲线具有同一个特征,让你的model的集合变小,也就是打靶范围变小。

三、testing error的比较
你测试出的testing error,和卖给别人应用的testing error是不一样的,原则上:可大可小。由于你测试是小数据,应用是大数据。小数据存在偶然性。

但是事实上,你把这个结果拿出去给别人应用,别人往往会得到一个更大的testing error。

原因:
应用的testing error,类比就是:你的射击位置和靶心的距离,或者你的拟合曲线和真理曲线的差异。

一般来说,你的training data和testing data来源会比较接近,也就是个体差异比较小。类比就是:如果你都用来training,他们俩会得到在靶上比较近的两个点,他们俩会得到类似的拟合曲线。
测试的testing error,类比就是:你的射击位置和另一个比较近的射击位置的距离,或者你的拟合曲线和另一个比较近的拟合曲线的差异。(但是这只是近似,因为真正的用来判断误差的点,并不在那个学习结果里,而是有一个training error)

四、training error和testing error的性质和各自的类比

性质:
model越复杂:
training error越小
个体的testing error越大,越分散
整体的testing error越小。

类比:
training error:能找到的和这组数据拟合最好的拟合曲线和不在曲线上的点的误差 。 靶子上的所有的点自带的误差。
自己的testing error:一个和拟合曲线类似的曲线和拟合曲线的距离。 一个和射击位置接近的射击位置和射击位置的距离。(但是这只是近似,因为真正的用来判断误差的点,并不在那个学习结果里,而是有一个training error)
应用的testing error(个体):拟合曲线和真理曲线的差异。 射击点和靶心的距离
应用的testing error(整体):model中最好的拟合曲线和真理曲线的差异。准心和靶心的距离。

五:结论:
1、每一次学习,肯定会产生误差。要平衡bias和vias。
目的:在最小的bias下,找到一个不大的vias。

2、绝对的复杂model+绝对的大数据=绝对的正确学习
model绝对复杂,但数据量不够:
你的model集合很大,但是每组数据肯定有个体偏差,求得的结果会有vias
就好像你有圆滑的曲线(model),但是并没有所有数据。
就好像你有最大的射击范围,但寥寥几次射击,并没法击中靶心

数据量够,但model不够复杂:
你的数据量很大,或者你有很多组数据,但是你的model集合不够大,你的model永远不可能是正确地model,你和真正的学习之间有一个bias
就好像你有所有数据,但是你没有圆滑的曲线(model)把他们连起来。
就好像你有最好的枪法,但是你的射击范围不包括靶心

3、事实上,往往你拿出去应用的testing error,要大于你自己测试的testing error

4、本文姑且认为:无论是多组数据,还是一组大数据,产生的效应都是减少viariance,而且效应一样。只不过一个是同一准度打靶多次平均,间接提高准度,一个是直接提高射击准度。
但是!根据另一个理论:1.一组数据分组多次取平均,也可以减少viariance;2.同样的数据量,分组的viariance小一点。
这个后面再讨论。总之它们都是提高准度的效应

【机器学习】如何理解vias和bias?相关推荐

  1. 对于大规模机器学习的理解和认识

    这篇文章,9分转载转述:很少有自己的见解: 首先先露怯:自己真正是去年开始接触机器学习当中的深度学习当中的卷积神经网络当中的前向预测部分: 不过,刚才看完了这里的讨论,(知乎,对于大规模机器学习的理解 ...

  2. 机器学习是什么?我对机器学习的理解

    第一次听到机器学习这个名词的时候,很恍惚,不知道它到底是什么? 我对机器学习的理解 机器学习是什么? 机器学习的工作流程是什么? 在机器学习中对于数据集的理解 数据分割 什么是特征工程? 特征工程分类 ...

  3. 人工智能AI、机器学习模型理解

    人工智能就是机器学习和大数据: 机器学习是什么:就是算法模型: 算法模型是什么: 俗地说,模型就是机器学习采用的算法."模型文件"一般说的是这个算法用到的各种输入.输出数据的值. ...

  4. 机器学习系列:误差分析(Bias and Variance)和模型调优

    目录 1.误差分析(Bias and Variance) 2. 模型调优 2.1 问题举例: 2.2 如何选择正确并且高质量方法 2.3 假设: 3 斯坦福自动驾驶直升机例子​ 1.误差分析(Bias ...

  5. NLP≠NLU,机器学习无法理解人类语言

    来源:图灵人工智能  编译:吴彤 校对:暮 编辑:琰琰 长期以来,我们一直在与机器沟通:编写代码--创建程序--执行任务. 然而,这些程序并非是用人类"自然语言"编写的,像Java ...

  6. 机器学习:理解逻辑回归及二分类、多分类代码实践

    作者 | caiyongji   责编 | 张红月 来源 | 转载自 caiyongji(ID:cai-yong-ji) 本文的概念相对简单,主要侧重于代码实践.现实生活中不止有预测的问题还有分类的问 ...

  7. 理解偏差(Bias)和方差(Variance)

    1. 定义和公式[1] 符号 测试样本 训练集 在数据集中的标记(人工标记) 的真实标记(上帝视角,我们凡人没办法完美知晓) 训练集上学得模型在上的预测输出 学习算法的期望预测 这里解释一下和的区别, ...

  8. 机器学习(十五) - Bias vs. Variance

    Diagnosing Bias vs. Variance 讲完模型选择,我们接下来讲讲如何去诊断我们算法出现的问题到底是一个high bias(underfitting)的问题还是一个high var ...

  9. 对“基于复杂网络的机器学习”的理解(机器学习、复杂网络、人工智能)

    本篇文章只是"基于复杂网络的机器学习"的入门级文章,没有任何算法内容和繁杂公式,对小白超级友好,也可以用来入门"复杂网络"和"机器学习"(超 ...

最新文章

  1. Android自定义视图四:定制onMeasure强制显示为方形
  2. Facebook大牛、HipHop作者赵海平加入阿里巴巴
  3. 007_Buzz事件
  4. 2:IDEA生成springboot项目,修改启动图标和网页端口
  5. Leetcode | 513. Find Bottom Left Tree Value
  6. HTML class和id
  7. 拳王虚拟项目公社:有没免费虚拟资源池,虚拟资源平台该选择什么,虚拟资源整合赚钱
  8. NOIP2018 游记
  9. 3d激光雷达开发(icp匹配)
  10. wpf 网易云歌词_网易云音乐粉丝半年涨500万,隔壁老樊为何成今年乐坛最大黑马 | 案例池...
  11. 【项目实战】基于 springboot + mybatis + mysql 的电脑商城项目(附源码)
  12. matplotlib画图使用微软雅黑字体
  13. 佳能7660cdn 评价_佳能LBP7660Cdn说明书
  14. 3dmax:3dmax三维VR渲染设置之摄像机设置(修改摄像机、创建摄像机及其基本参数{视野、正交投影、镜头、环境范围、剪切平面、多过程效果、运动模糊、景深参数、运动模糊参}解释等)图文教程之详细攻略
  15. STM32解析航模遥控器的PPM信号
  16. mysql on.000002_mysql | 同乐学堂
  17. 用你的浏览器来静态分析网站源码——初级漏洞赏金猎人指南
  18. 中等职业学校计算机课程标准,全市中等职业学校信息技术课程标准内涵解析与教学设计培训会议成功举办...
  19. php artisan nohup,artisan命令生成和redis消息订阅和任务调度
  20. 入门电机系列之3舵机

热门文章

  1. GNU系统下DL_POLY的编译
  2. 【锁】悲观锁与乐观锁实现
  3. word批量转换为html,批量Word转HTML – ConvertWordToHTML[Update: Word转换工具]
  4. 网络分析仪测试线损_手把手教你用2端口网络分析仪进行阻抗调试分析--网络分析仪维修...
  5. java中字节数组转换为字符串
  6. 笔记整理--Linux守护进程
  7. android app排行榜 易观智库,易观发布4月移动App月活增幅排行榜
  8. Linux热键详解:Tab键,Ctrl+c、Ctrl+d
  9. Promise的使用方法
  10. 利用最小二乘法进行线性拟合