机器学习基石（林轩田）第七章笔记与感悟总结

7.1 VC尺寸 - VC尺寸的定义

我们上个周证明了艾因约等于Eout的，即测试的表现和训练的表现相似。

在成长函数在某个地方有break point和N足够大的时候。

意义在于之后介绍的VC维度。

我们以后就不用B（N，k）的的这种麻烦的写法了，只需要使用NR个（K-1）这种简单的写法。因为N^（K-1）是最大的上限。

vc bound，在我们H set中有h发生坏事情的概率很小，无论我么选择什么g，发生坏事情的概率都很小。

几个条件，让我们的学习可以做的到。

1）有ķ

2）N足够大

3）好的演算法，使恩波较小

我们还需要好一点的运气。

VC Dimension试图将个别最大的K，的前一个位置，的正式名称。

当数据N小的时候，有可能被破碎掉，即出现K = 2，（XX，oo，XO，ox）的情况。

当N大的时候，实际上Ñ等价于K，这里我没太懂？为什么一定不能被shatter?????

这里看最后的2D情况，为什么是三个点？四个点肯定不能破碎，因为四个点的有效（N）只有14种，没有到达16种。

但是三种也有可能是下图的6种情况啊

原因在于取下图的最大可能的有效值。

有限的vc D有什么好处？

如下图三句英语1）与演算法无关，即便糟糕的演算法导致Ein很大，它也能确保Ein约等于Eout，

2）与资料是如何分布无关

3）与未知的目标˚F无关

7.2 VC维度 - 感知器的VC维度

二维平面（X1，X2）

线性可分，最后如果能收敛，Ein为0。

对于2D Perceptron，我们知道它的dvc = 3。如果资料够大的话，就能得到结论。

弹幕：这里的VC维是3数据的维数是2也就是常说的2分类是这个意思吧？

答：是吧

PLA能用在多维，不只是二维的数据点。怎么证明呢？

1维dvc = 2

2维dvc是3

猜想Dvc = d + 1

我们只要找到一组资料，为d + 1笔。这一大笔资料能被假设设定给粉碎掉，说明dvc> = d + 1

2D有（0,0）（1,0），（0,1）这三个点

注意到X的逆矩阵存在！

那么存在有什么意义呢？，

回忆shatter的意义，我们给任何一种xxoo的y时，我们总能找到一个w与X相乘能够等于y

结论是我们能找到一个特殊的X，使之能够被粉碎推导出dvc> = d + 1

原本我们三个点能够粉碎，但是多了一个点，变成4个点就不行。

我们证明了X4一定要是OO

也就是说，今天我们把X4表示成其他三个向量的线性组合时，这个线性依赖的关系会限制二分法产生的数量。

正因为d + 2这一个向量可以用前d + 1个表示，前d + 1个确定了最后一个也就确定了，这样所有的d + 2个向量永远也不能遍历所有情况

7.3 VC维度 - VC维度的物理直觉

d + 1实际上就是感知器的维度.dvc = d + 1，例如2D Perceptron的dvc是3

这些假说

vc D对于二分类的有效的自由度。

衡量这个自由度，告诉我们这个假设设定到底能够产生多少二分法。

定义模型自由度是，模型当中可以自由变动的参数的个数，即我们的机器需要通过学习来决定模型参数的个数。

Positive rays有一个可以调的“旋钮”，这个旋钮是a

正面间隔有两个可以调的旋钮。

DVC表示我们大概可以由多少旋钮。

d + 1是WT矩阵的秩，也就是WT矩阵的最大线性无关组的维数。

感谢楼上!!听懂了...... X·Wt = y X数据是N维，X | Y就是N + 1维，所以Wt也就是N + 1维，Dvc就是Wt的满秩情况...所以是N +1

打碎的意思也就是说有些W效果是一样的，跟其他W是线性相关的

7.4 VC维度 - 解释VC维度

算出了Eout的的最坏的情形是多少。我们也只关注最坏的情形。

我们讲根号里的叫做模型复杂性

我们的ħ有多么的强，大家就是Ω那么多。

其中括号里的ħ代表的是DVC

很高的几率，Eout的的要小于Ein+Ω（）

这就是过拟合的理论依据吧

神奇的结论，实际上只要10倍的资料就能够达到我们的要求。而理论上高速我们要10000倍的DVC才能达到要求。

解读机器学习基础概念：VC维的来龙去脉