在机器学习中,如果样本量不足,我们利用模型学习到的结果就有可能是错误的,因为样本不足的情况下,规则会有很多。也就是我们如果用f表示真是的规则,用g表示利用模型学习到的规则。那么我们希望g和f越接近越好,可是我们并不知道f到底是什么?如果样本不足,机器是没法学习的。

例如:

给你123,输出为246。有人会说那就是对应元素乘以2,这是一种规则。还有别的规则,第一个数字是原来数的第二位,后面两位分别是原来数字后两位乘以2.还有很多别的规则,规则不唯一,学习就会失效,我们可以利用hoeffding inequality不等式来估计一下学习到的g和f很接近的概率有多大。

Ein就是采用g假设时候误差,Eout就是采用f时候的误差。从这个不等式可以知道,样本越大,得到g和f接近的概率就越大,样本越小,就越小。可以用这个公式大概计算一下样本的数量。dvc也是一个重要的参数,也不能太大,如果太大,样本就需要更多。

一般情况下,样本数量大约等于10dvc就可以了,但是上面的公式计算的结果就会大很多。

dvc就是表示VC dimension。感知机算法的dvc等于d+1,d就是数据的维度。

深度学习与VC维

对于神经网络,其VC维的公式为:

dvc = O(VD),其中V表示神经网络中神经元的个数,D表示weight的个数,也就是神经元之间连接的数目。(注意:此式是一个较粗略的估计,深度神经网络目前没有明确的vc bound)

举例来说,一个普通的三层全连接神经网络:输入是1000维,隐藏层有1000个nodes,输出为1个node,则它的VC维大约为O(1000*1000*1000)。

可以看到,神经网络的VC维相对较高,因而它的表达能力非常强,可以用来处理任何复杂的分类问题。根据上一节的结论,要充分训练该神经网络,所需样 本量为10倍的VC维。如此大的训练数据量,是不可能达到的。所以在20世纪,复杂神经网络模型在out of sample的表现不是很好,容易overfit。

但现在为什么深度学习的表现越来越好。原因是多方面的,主要体现在:

  • 通过修改神经网络模型的结构,以及提出新的regularization方法,使得神经网络模型的VC维相对减小了。例如卷积神经网络,通过修改 模型结构(局部感受野和权值共享),减少了参数个数,降低了VC维。2012年的AlexNet,8层网络,参数个数只有60M;而2014年的GoogLeNet,22层网络,参数个数只有7M。再例如dropout,drop connect,denosing等regularization方法的提出,也一定程度上增加了神经网络的泛化能力。
  • 训练数据变多了。随着互联网的越来越普及,相比于以前,训练数据的获取容易程度以及量和质都大大提升了。训练数据越多,Ein越容易接近于 Eout。而且目前训练神经网络,还会用到很多data augmentation方法,例如在图像上,剪裁,平移,旋转,调亮度,调饱和度,调对比度等都使用上了。
  • 除此外,pre-training方法的提出,都促进了深度学习。

但即便这样,深度学习的VC维和VC Bound依旧很大,其泛化控制方法依然没有强理论支撑。但是实践又一次次证明,深度学习是好用的。所以VC维对深度学习的指导意义,目前不好表述,有一 种思想建议,深度学习应该抛弃对VC维之类概念的迷信,尝试从其他方面来解释其可学习型,例如使用泛函空间(如Banach Space)中的概率论。

参考:http://www.thebigdata.cn/JiShuBoKe/14027.html

机器学习中样本的样本量的估计相关推荐

  1. 机器学习中样本的样本量的估计(VC维)

    转自:http://blog.csdn.net/uestc_c2_403/article/details/72859021 在机器学习中,如果样本量不足,我们利用模型学习到的结果就有可能是错误的,因为 ...

  2. 【机器学习】机器学习中样本不平衡,怎么办?

    在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人 其实是非常少的.这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人, ...

  3. 机器学习中样本不平衡,怎么办?

    在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人 其实是非常少的.这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人, ...

  4. 【干货】机器学习中样本比例不平衡的处理方法

    推荐阅读时间:5min~12min 主要内容:机器学习中样本比例不平衡的处理方法 在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1. 这种现象往往是由于本 ...

  5. 机器学习中样本不平衡处理办法

    在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题. 数据不平衡问题主要存在于有监督机器学习任务中.当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类 ...

  6. 概率论概念及机器学习中样本相似性度量之马氏距离

    均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...

  7. 统计学相关概念及机器学习中样本相似性度量之马氏距离

    均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...

  8. envi最大似然分类_闲谈最大后验概率估计(MAP estimate)amp;极大似然估计(MLE)和机器学习中的误差分类...

    上一篇文章中提到了一个有趣的实验,简单来说就是1-100中有若干个数字是"正确的",只告诉其中一部分"正确的"数字,去猜全部"正确的"数字. ...

  9. 机器学习中的数学——点估计(二):矩估计

    分类目录:<机器学习中的数学>总目录 相关文章: · 点估计(一):基础知识 · 点估计(二):矩估计 · 点估计(三):极大似然估计/最大似然估计(Maximum Likelihood ...

最新文章

  1. ABAP-获取用户的组织结构权限
  2. [转]linux(centos)搭建SVN服务器
  3. 干货|对某杀猪盘的渗透测试
  4. 网页设计html加音频,HTML5网页中如何嵌入音频,视频?
  5. python函数与模块学习_Python函数与模块学习1
  6. 深圳 | 腾讯AI Lab招聘CVCG研究员及实习生
  7. Notepad++ 使用心得
  8. 抖音春晚红包百亿互动量级背后,火山引擎浮出水面
  9. bzoj2588: Spoj 10628. Count on a tree 主席树
  10. Sicily 6271
  11. 机器学习训练数据集图片标注工具推荐
  12. h5.v2.php,最新H5影视双端PHP源码 可封装APP
  13. 自动驾驶(二十)---------Waymo数据集
  14. 记一次修复Mac和Win7双系统启动菜单的经历
  15. 家里wifi网速越来越慢_家里网速变得很慢怎么排查原因
  16. Dubbo——服务暴露的实现原理
  17. 苹果电脑安装双系统有必要吗?
  18. 第08课:Retained 消息和 LWT
  19. DRM DUMB相关说明
  20. Android RSA加密解密的 工具类的使用

热门文章

  1. 如何在iOS应用中使用自定义字体
  2. 【图像加密】正交拉丁方+二维Arnold置乱图像加密【含GUI Matlab源码 813期】
  3. UnityShader之毛绒绒效果
  4. Windows下msysGit安装
  5. ie8和html5的兼容性,ie8网页兼容性不完全指南
  6. java JDK 1.8 版本
  7. 在职人员如何发表期刊论文
  8. js进阶 发送短信案例 自动跳转页面
  9. 7-68 城市间紧急救援 (25 分)
  10. 如何安装并使用SeetaFace 开源人脸识别代码【中科院计算机所山世光老师团队研发】