机器学习中样本的样本量的估计

在机器学习中，如果样本量不足，我们利用模型学习到的结果就有可能是错误的，因为样本不足的情况下，规则会有很多。也就是我们如果用f表示真是的规则，用g表示利用模型学习到的规则。那么我们希望g和f越接近越好，可是我们并不知道f到底是什么？如果样本不足，机器是没法学习的。

例如：

给你123，输出为246。有人会说那就是对应元素乘以2，这是一种规则。还有别的规则，第一个数字是原来数的第二位，后面两位分别是原来数字后两位乘以2.还有很多别的规则，规则不唯一，学习就会失效，我们可以利用hoeffding inequality不等式来估计一下学习到的g和f很接近的概率有多大。

Ein就是采用g假设时候误差，Eout就是采用f时候的误差。从这个不等式可以知道，样本越大，得到g和f接近的概率就越大，样本越小，就越小。可以用这个公式大概计算一下样本的数量。dvc也是一个重要的参数，也不能太大，如果太大，样本就需要更多。

一般情况下，样本数量大约等于10dvc就可以了，但是上面的公式计算的结果就会大很多。

dvc就是表示VC dimension。感知机算法的dvc等于d+1，d就是数据的维度。

深度学习与VC维

对于神经网络，其VC维的公式为：

dvc = O(VD)，其中V表示神经网络中神经元的个数，D表示weight的个数，也就是神经元之间连接的数目。(注意：此式是一个较粗略的估计，深度神经网络目前没有明确的vc bound)

举例来说，一个普通的三层全连接神经网络：输入是1000维，隐藏层有1000个nodes，输出为1个node，则它的VC维大约为O(1000*1000*1000)。

可以看到，神经网络的VC维相对较高，因而它的表达能力非常强，可以用来处理任何复杂的分类问题。根据上一节的结论，要充分训练该神经网络，所需样本量为10倍的VC维。如此大的训练数据量，是不可能达到的。所以在20世纪，复杂神经网络模型在out of sample的表现不是很好，容易overfit。

但现在为什么深度学习的表现越来越好。原因是多方面的，主要体现在：

通过修改神经网络模型的结构，以及提出新的regularization方法，使得神经网络模型的VC维相对减小了。例如卷积神经网络，通过修改模型结构(局部感受野和权值共享)，减少了参数个数，降低了VC维。2012年的AlexNet，8层网络，参数个数只有60M；而2014年的GoogLeNet，22层网络，参数个数只有7M。再例如dropout，drop connect，denosing等regularization方法的提出，也一定程度上增加了神经网络的泛化能力。
训练数据变多了。随着互联网的越来越普及，相比于以前，训练数据的获取容易程度以及量和质都大大提升了。训练数据越多，Ein越容易接近于 Eout。而且目前训练神经网络，还会用到很多data augmentation方法，例如在图像上，剪裁，平移，旋转，调亮度，调饱和度，调对比度等都使用上了。
除此外，pre-training方法的提出，都促进了深度学习。

但即便这样，深度学习的VC维和VC Bound依旧很大，其泛化控制方法依然没有强理论支撑。但是实践又一次次证明，深度学习是好用的。所以VC维对深度学习的指导意义，目前不好表述，有一种思想建议，深度学习应该抛弃对VC维之类概念的迷信，尝试从其他方面来解释其可学习型，例如使用泛函空间（如Banach Space）中的概率论。

参考：http://www.thebigdata.cn/JiShuBoKe/14027.html

机器学习中样本的样本量的估计相关推荐

机器学习中样本的样本量的估计(VC维)
转自:http://blog.csdn.net/uestc_c2_403/article/details/72859021 在机器学习中,如果样本量不足,我们利用模型学习到的结果就有可能是错误的,因为 ...
【机器学习】机器学习中样本不平衡，怎么办？
在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人其实是非常少的.这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人, ...
机器学习中样本不平衡，怎么办？
在银行要判断一个"新客户是否会违约",通常不违约的人VS违约的人会是99:1的比例,真正违约的人其实是非常少的.这种分类状况下,即便模型什么也不做,全把所有人都当成不会违约的人, ...
【干货】机器学习中样本比例不平衡的处理方法
推荐阅读时间:5min~12min 主要内容:机器学习中样本比例不平衡的处理方法在机器学习中,常常会遇到样本比例不平衡的问题,如对于一个二分类问题,正负样本的比例是 10:1. 这种现象往往是由于本 ...
机器学习中样本不平衡处理办法
在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题. 数据不平衡问题主要存在于有监督机器学习任务中.当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类 ...
概率论概念及机器学习中样本相似性度量之马氏距离
均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...
统计学相关概念及机器学习中样本相似性度量之马氏距离
均值.标准差.方差: 样本均值描述的是集合的中间点.平均值.均值的信息是有限的,有时候甚至是完全没有参考意义的,比如各统计局最喜欢发布的平均工资.年收入等等,只有个文字游戏而已. 标准差描述的是样本集 ...
envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...
上一篇文章中提到了一个有趣的实验,简单来说就是1-100中有若干个数字是"正确的",只告诉其中一部分"正确的"数字,去猜全部"正确的"数字. ...
机器学习中的数学——点估计（二）：矩估计
分类目录:<机器学习中的数学>总目录相关文章: · 点估计(一):基础知识 · 点估计(二):矩估计 · 点估计(三):极大似然估计/最大似然估计(Maximum Likelihood ...

机器学习中样本的样本量的估计

深度学习与VC维

机器学习中样本的样本量的估计相关推荐

最新文章

热门文章