林轩田机器学习基石笔记5 - Training versus Testing

Recap and Preview

机器学习流程图

第一节课，介绍机器学习是要找到最好的g，使g≈f(目标函数)，保证E_out(g)≈0。第二节课，找方法使E_in≈0，如PLA和pocket。第四节课，将E_in(g)和E_out(g)联系起来，E_in(g)≈E_out(g)。

将机器学习分成两个主要问题：

1.E_in(g)和E_out(g)是否足够接近

2.怎么让E_in(g)越小

M:hypothesis set的数量

当M很小的时候，坏事情发生很少，即E_in(g)和E_out(g)是足够接近(问题1)。演算法选择有限，则不一定能找到让E_in(g)≈0的g(问题2)。当M很大的时候，演算法选择很多，更容易选到让E_in(g)≈0的g(问题2)。但是坏事情发生的几率增加，就无法保证E_in(g)和E_out(g)是足够接近(问题1)。

所以选择适合的M是很重要的，不能太大也不能太小。

Effective Number of Line

B代表遇到了不好的事情，将所有的B or,即只要遇到不好的事情就都不好。如果坏事不重叠，最大值就是发生各个坏事的概率相加。当M为无限大的时候，上方不等式右边值会很大，E_in(g)和E_out(g)就不接近。但是BAD events B_m的方式扩大了上界。坏事情是互相叠起来的。直接加，上限就过分大。

要找出不同的BAD events之间的重叠部分,将无限个hypothesis分成有限类。

例子，在平面上用直线将点隔开。如果平面上只有一个点x₁,那么只有两条线，一条线使x₁是圈，一条线使x₁是叉。

如果平面上是2个点，则是4条线。

如果平面上是3个点，则是8条线。

但是，对于有的情况，少于8条线。

如果平面上是4个点，无法找到线分成16个类别，最多只有14条线。

发现，有效直线的数量一定满足≤2^N,N为点的数量。用effectiove(N)替换M,霍夫丁不等式可以写成：

而effective(N)≤2^N,所以不等式右侧接近0，则E_in(g)和E_out(g)接近。即使有无限多条线，只要可以换成effective(N),机器学习也是有可能的。

Effective Number of Hypotheses

dichotomy,二分，用一条线把点分成两部分(圈圈、叉叉)。hypotheses H对输入空间所有值进行取值，dichotomy H只对n个特定的点取值。h的大小可能是无限的，而d的最大值是2_N。能不能用dichotomy set的大小把M换掉？

N代表输入点的个数。m_H就是上文提到的有效线的数量。m_H(N)称为成长函数，代表在N个点的集合中，某集合的dichotomy最大的值，上界为2_N。

计算成长函数：

Positive Rays,有一个门槛值，门槛值左右为+1和-1。N个点把线切成N+1个区域段，则有N+1种dichotomy。远小于2_N。

Positive Intervals，对某一个范围内表示+1，范围外是-1。如果两个点不在一段里就是N+1取2端放两个取值点，如果两个取值点放在一段里面则线上点全部都是叉。

Convex Sets，凸的集合里面是+1(blue)，凸的集合以外是-1(red)。左侧是Convex,右侧不是Convex。

一种可能的输入，在一个圆上分布x,而所有分类情况都能被hypotheses set覆盖，称作shattered。圆上有几个取﹢点，就用几边形把他们连接起来。所有总能找到一个数据集分布使得hypotheses set对N个输入所有分类情况都能做到。如果找到一个数据分布集，hypotheses set对N个输入所有分类情况都能做到，成长函数就是2_N。

Break Point

四种不同的成长函数：

对于positive rays和positive intervals属于polynomial(多项式)，当N够大的时候，m_H(N)增长的不快，exp下降的快，所有右侧值(坏事发生的几率)越来越小，可能很接近0。convex sets属于exponential(指数式)。m_H(N)指数增长exp指数下降，不确保N足够大的时候E_in和E_out就很接近。那么2D perceptrons属于polynomial还是exponential？

对于2D perceptrons，3个点，可以做出8种所有的dichotomy，4个点无法做出所有16个点的dichotomy。那么4就称作break point(5,6,7…同)。只要k个点无法做出所有dichotomy那么k+n个点也无法做出。对于break point，m_H(k)<2^k。

满足m_H(k)≠2^k的k的最小值就是break point。四种不同的成长函数的break points:

猜想，break points 可能跟成长函数的成长速度有关。positive rays 的break point 是2，成长速度是O(N)。positive intervals的break point 是3，成长速度是 O(N²)。那么2D perceptrons 的break points 是4，成长速度是不是 O(N³)?

Summary