台大·林轩田·机器学习基石·第二讲

第二讲···感知机学习算法

2-1 Perceptron hypothesis set

对于银行是否决定要给申请者信用卡问题，对于输入数据（例如申请者的个人信息，年龄，性别，收入，工作情况等）可用一组特征表示，不妨表示为:

X = (x1, x2, x3,···, xd)

即可视为每一维数据是该申请者对应每一项条件的分数，设想是根据每一维数据的重要程度不同，每一维数据与一个权值相乘，最后的总和可视为该申请者的得分，若得分超过某一阈值，则输出同意借贷信用卡，否则拒绝。

这种感知机模型的设立易于理解，与生活实际相通，最后得到上图最后的模型，当加权和超过阈值，差为正数，输出为1，否则负数为-1，分别代表两种结果。

继续将上式简化，将+1作为申请者的另外一个特征的值，只不过这个值是常数，且该特征对应的权重为负的阈值。如下图所示:

最终，sign函数内部为两个向量的內积值，即权重向量与特征数值向量的內积。

可知感知机模型是个线性分类器，以上图为例，拥有两个特征，在二维平面内，不同的参数w可生成不同的直线，在高维空间中依旧如此，且直线两侧不同颜色代表是不同的预测结果值，因此称作线性分类器。

2-2 Perceptron learning algorithm

有了上一节设定的感知机模型之后，我们同时也拥有很多的data，还有相应的label，接下来就是根据所得到的data，用机器学习算法在感知机模型中找到一组最好的参数，可以使得该模型有很好的预测结果。

但是W参数是多维度的，每个维度都有无穷个的取值，因此，用穷举的办法找到最佳的W是不太可行的。

所以就采用另外一个办法，先假设一个初始的参数W，根据data慢慢修改W的值，来使模型越来越准确。
我们假设给W一个初始值，初始值可以任意，例如可以全部都取值为零，将这一组参数记为W0。

回顾上节知识，参数W为权重向量，包括第零维的负的阈值，x为data中的一个向量，为某一个个体的特征的分数，包括第零维1，W与x的內积若为正数，代入sign函数之后为1，即表明这组参数W所构成的感知机，在预测当前这个例子x时，输出记过为1，当然输出结果可能正确也可能错误。

在我们假定了初始参数W0之后，让拥有这组参数的感知机去一个个预测data中的每一个个体，W与x皆为高维空间中的向量，两者內积类比于平面向量的內积。若找到一个个体，W0与该个体向量內积与该个体的label异号，说明感知机在这个个体的预测上面有问题，说明需要适当调整W0向量的值。

若感知机预测的结果为正，而实际label为-1，则说明两向量夹角太小，导致向量內积大于0，因此要适当增加向量之间的夹角，方法就是W向量加上x向量与x向量的label相乘，此和来作为新的W的值，到此W参数更新一次，感知机结果为负数的时候，也是同理，公式仍然保持一致。

在每一轮更新中，感知机找到一个预测错误样本即可，再根据此样本进行更新，之后再进行新的一轮。直到便利所有data中的样本，所有的样本都被感知机预测正确，到此结束。

过程如图所示：

2-3 Guarantee of PLA

让PLA算法可以停下来的条件就是确实存在一组参数向量可以使感知机对所有个体都预测正确，假设这一组参数为Wf{W}_fWf，代表就是我们通过算法想要模拟的最佳的参数向量。

因此对于任意一个个体（xn,yn{x}_n,{y}_nxn,yn）都有 yn{y_n}yn=sign(WfT⋅xn)sign({W^T_f·x_n})sign(WfT⋅xn) 代表全部预测正确。

上图证明了随着W{W}W的不断更新，其与Wf{W}_fWf的內积越来越大，一定程度上代表W{W}W与Wf{W}_fWf越来越接近，不过两向量內积的增大除了向量夹角变小之外，向量的长度变大也会有影响。

上图证明了向量长度的确在增长，不过根据前两页的公式，我们可以得到如下推导：

WfT⋅WT≥WfT⋅WT−1+minn(yn⋅WfT⋅xn){W_f^T}\cdot{W_T}\geq{W_f^T}\cdot{W_{T-1}}+\underset{n}{min}(y_n\cdot{W_f^T}\cdot{x_n})WfT⋅WT≥WfT⋅WT−1+nmin(yn⋅WfT⋅xn)
≥WfT⋅WT−2+2minn(yn⋅WfT⋅xn)\geq{W_f^T}\cdot{W_{T-2}}+2\underset{n}{min}(y_n\cdot{W_f^T}\cdot{x_n})≥WfT⋅WT−2+2nmin(yn⋅WfT⋅xn)
≥WfT⋅WT−3+3minn(yn⋅WfT⋅xn)\geq{W_f^T}\cdot{W_{T-3}}+3\underset{n}{min}(y_n\cdot{W_f^T}\cdot{x_n})≥WfT⋅WT−3+3nmin(yn⋅WfT⋅xn)
…………
≥WfT⋅W0+Tminn(yn⋅WfT⋅xn)\geq{W_f^T}\cdot{W_{0}}+T\underset{n}{min}(y_n\cdot{W_f^T}\cdot{x_n})≥WfT⋅W0+Tnmin(yn⋅WfT⋅xn)
≥Tminn(yn⋅WfT⋅xn){\geq}T\underset{n}{min}(y_n\cdot{W_f^T}\cdot{x_n})≥Tnmin(yn⋅WfT⋅xn)

两边同时除以∥Wf∥\lVert{W_f}\rVert∥Wf∥可以得到：
WfT⋅WT∥Wf∥{W_f^T}\cdot{W_T} \over \lVert{W_f}\rVert∥Wf∥WfT⋅WT≥\geq≥Tminn(yn⋅T\underset{n}{min}(y_n\cdotTnmin(yn⋅WfT∥Wf∥{W_f^T} \over \lVert{W_f}\rVert∥Wf∥WfT⋅xn)\cdot{x_n})⋅xn)………………………………………………………………………（1）

令ρ=minn(yn⋅WfT⋅xn)\rho=\underset{n}{min}(y_n\cdot{W_f^T}\cdot{x_n})ρ=nmin(yn⋅WfT⋅xn)：

(1)式子为WfT⋅WT∥Wf∥{W_f^T}\cdot{W_T} \over \lVert{W_f}\rVert∥Wf∥WfT⋅WT≥\geq≥T⋅ρT\cdot\rhoT⋅ρ ………………………………………………………………………………（2)

同时由于：
∥WT∥2≤∥WT−1∥2+maxn∥xn∥2\lVert{W_T}\rVert^2\leq\lVert{W_{T-1}}\rVert^2+\underset{n}{max}\lVert{x_n}\rVert^2∥WT∥2≤∥WT−1∥2+nmax∥xn∥2
≤∥WT−2∥2+2maxn∥xn∥2\leq\lVert{W_{T-2}}\rVert^2+2\underset{n}{max}\lVert{x_n}\rVert^2≤∥WT−2∥2+2nmax∥xn∥2
…………
≤∥W0∥2+Tmaxn∥xn∥2\leq\lVert{W_0}\rVert^2+T\underset{n}{max}\lVert{x_n}\rVert^2≤∥W0∥2+Tnmax∥xn∥2
≤Tmaxn∥xn∥2\leq{T}\underset{n}{max}\lVert{x_n}\rVert^2≤Tnmax∥xn∥2…………………………………………………………………………………………（3）

令R2=maxn∥xn∥2R^2=\underset{n}{max}\lVert{x_n}\rVert^2R2=nmax∥xn∥2：
(3)式为∥WT∥2≤T⋅R2\lVert{W_T}\rVert^2\leq{T}\cdot{R^2}∥WT∥2≤T⋅R2
即∥WT∥≤T⋅R\lVert{W_T}\rVert\leq{\sqrt{T}}\cdot{R}∥WT∥≤T⋅R …………………………………………………………………………………（4）

结合(2)(4)：
WfT∥Wf∥{W_f^T} \over \lVert{W_f}\rVert∥Wf∥WfT⋅\cdot⋅WT∥WT∥{W_T} \over \lVert{W_T}\rVert∥WT∥WT≥\geq≥T⋅constant{\sqrt{T}}\cdot{constant}T⋅constant
其中constant=constant=constant=ρR\rho\over{R}Rρ

说明随着计算的迭代，参数向量的确是与Wf{W_f}Wf越来越接近，单位向量內积不断增大，且不会超过1。

2-4 Non-separable data

当数据集不可分时，采用贪心的策略对参数WWW进行更新，通过比较更新之后和更新之前感知机对data预测的结果，来得到是否要对参数进行更新，若感知机预测效果更差则保留原来的参数，若效果变好则新的参数代替旧的参数WWW，以此进行足够的次数。

过程如下图所示：

注明：
文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程