前言

这篇文章是对李航老师《统计学习方法》做的笔记整理，当然本人也才刚刚入门机器学习，其中难免会出现一些错误，欢迎大家批评指正啦！

一、感知机模型

1.1 定义

假设输入空间(特征空间)是：x⊆Rnx\subseteq R^nx⊆Rn 输出空间是：y={−1,+1}y=\{-1,+1\}y={−1,+1}由输入到输出空间的函数： f(z)=sign(w⋅x+b)f(z) = sign(w\cdot x+b)f(z)=sign(w⋅x+b)称为感知机。
其中，符号函数为:
sign(x)={+1x≥0−1x≤0sign(x)=\left\{ \begin{aligned} +1 & &x\geq0 \\ -1 & &x\leq0 \end{aligned} \right. sign(x)={+1−1x≥0x≤0

1.2 几何解释

线性方程：w⋅x+b=0w\cdot x+b=0w⋅x+b=0在超平面S中,w为法向量，b为截距，分离正负类。
图：
Note(关于线性方程的解释):在超平面S上的点，可用n维向量x表示，它与该超平面法向量w的内积为常数,可定义为-b。

二、感知机学习策略

2.1 数据集的线性可分

给定一个数据集：T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\}T={(x1,y1),(x2,y2),...,(x3,y3)}其中:
xiϵX=Rn,yiϵY={+1,−1},i=1,2,...,N.\begin{aligned} &x_{i}\epsilon X =R^n,y_{i}\epsilon Y=\{+1,-1\},i=1,2,...,N. \end{aligned} xiϵX=Rn,yiϵY={+1,−1},i=1,2,...,N.
若存在某个超平面S,满足:
w⋅x+b=0w\cdot x+b=0w⋅x+b=0
能够将数据集的正实例点和负实例点完全正确地划分到超平面两侧，即对于实例i，有：
{w⋅xi+b>0yi=+1\left\{ \begin{aligned} w\cdot x_{i}+b&>0 \\y_{i} =+1 \end{aligned} \right.{w⋅xi+byi=+1>0

2.2 感知机学习策略

定义损失函数：
(1)自然选择：损失函数定义为误分类点数目，但其不是w,b 的连续导数，不宜优化。
(2)另一选择：误分类点到超平面的总距离。
距离公式为：
1∣∣w∣∣⋅∣w⋅x0+b∣\frac {1}{||w||}\cdot|w\cdot x_{0}+b| ∣∣w∣∣1⋅∣w⋅x0+b∣
由于误分类点：
(xi,yi)满足：−yi⋅(w⋅xi+b)>0(x_{i},y_{i})满足：-y_{i}\cdot (w\cdot x_{i}+b)>0 (xi,yi)满足：−yi⋅(w⋅xi+b)>0
那么误分类点距离超平面距离为：
−1∣∣w∣∣⋅yi⋅(w⋅xi+b)-\frac {1}{||w||}\cdot y_{i}\cdot (w\cdot x_{i}+b) −∣∣w∣∣1⋅yi⋅(w⋅xi+b)
故总距离：
−1∣∣w∣∣⋅∑xiϵMyi⋅(w⋅xi+b)-\frac {1}{||w||}\cdot \sum_{x_{i}\epsilon M}y_{i}\cdot (w\cdot x_{i}+b) −∣∣w∣∣1⋅xiϵM∑yi⋅(w⋅xi+b)
得出损失函数(不考虑1/||w||):
L(w,b)=−∑xiϵMyi⋅(w⋅xi+b)L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}\cdot (w\cdot x_{i}+b) L(w,b)=−xiϵM∑yi⋅(w⋅xi+b)

三、感知机学习算法

3.1 感知机学习算法的原始形式

输入:训练数据集:T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\} T={(x1,y1),(x2,y2),...,(x3,y3)}
其中：
xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N.学习率η(0<η≤1)\begin{aligned} x_{i}\epsilon X\epsilon R^n,y_{i}\epsilon Y=\{+1,-1\},i=1,2,...,N. \end{aligned}\\ 学习率\eta(0<\eta \le1) xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N.学习率η(0<η≤1)
输出:
w,b;感知机模型f(x)=sign(w⋅x+b)w,b;感知机模型f(x)=sign(w\cdot x+b)w,b;感知机模型f(x)=sign(w⋅x+b)
算法步骤：
(1)选初始值w0,b0(2)在训练集中选取数据(xi,yi)(3)若yi(w⋅xi+b)≤0，则有：w:=w+ηyixi;b:=b+ηyi(4)转至(2),直至训练集中没有误分类点\begin{aligned} (1)&选初始值w_{0},b_{0}\\ (2)&在训练集中选取数据(x_{i},y_{i})\\ (3)&若y_{i}(w\cdot x_{i}+b)\le 0，则有：\\ w&:=w+\eta y_{i} x_{i};\\ b&:=b+\eta y_{i}\\ (4)&转至(2),直至训练集中没有误分类点 \end{aligned} (1)(2)(3)wb(4)选初始值w0,b0在训练集中选取数据(xi,yi)若yi(w⋅xi+b)≤0，则有：:=w+ηyixi;:=b+ηyi转至(2),直至训练集中没有误分类点
Note：该算法采用随机梯度下降任选一个超平面w,b，然后极小化目标函数。
▽wL(w,b)=−∑xiϵMyixi▽bL(w,b)=−∑xiϵMyi\begin{aligned} &\bigtriangledown _{w}L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}x_{i}\\ &\bigtriangledown _{b}L(w,b)=-\sum_{x_{i}\epsilon M}y_{i} \end{aligned} ▽wL(w,b)=−xiϵM∑yixi▽bL(w,b)=−xiϵM∑yi

3.2 算法的收敛性

证明经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型
将b并入权重向量w,记作：
w^=(wT,b)T\hat{w}=(w^T,b)^Tw^=(wT,b)T
其中可以得到:
x^=(xT,1)T,x^ϵRn+1,w^ϵRn+1,w^⋅x^=w⋅x+b\hat{x}=(x^T,1)^T,\hat{x}\epsilon R^{n+1},\hat{w}\epsilon R^{n+1},\hat{w}\cdot \hat{x}=w\cdot x+b x^=(xT,1)T,x^ϵRn+1,w^ϵRn+1,w^⋅x^=w⋅x+b
定理:
设训练数据集：
T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\}T={(x1,y1),(x2,y2),...,(x3,y3)}
是线性可分的,其中：
xiϵX=Rn+1,yiϵY={−1,+1},i=1,2,...,N.x_{i}\epsilon X=R^{n+1}, y_{i}\epsilon Y=\{-1,+1\},i=1,2,...,N. xiϵX=Rn+1,yiϵY={−1,+1},i=1,2,...,N.
则:
(1)存在满足条件∣∣w^opt∣∣=1的超平面:w^opt⋅x^=wopt⋅x+bopt=0;并且存在γ>0,对所有i=1,2,...,N有:yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)≥γ(2)令R=max1≤i≤N∣∣xi^∣∣,感知机算法在训练集的误分类次数K满足:k≤(Rγ)2\begin{aligned} (1)&存在满足条件||\hat{w}_{opt}||=1的超平面: \hat{w}_{opt}\cdot \hat{x}=w_{opt}\cdot x+b_{opt}=0;\\ &并且存在\gamma>0,对所有i=1,2,...,N 有: y_{i}(\hat{w}_{opt}\cdot \hat{x_{i}})=y_{i}(w_{opt}\cdot x_{i}+b_{opt})\ge \gamma\\ (2)&令R=\mathop{max}\limits_{1\le i\le N}||\hat{x_{i}}||,感知机算法在训练集的误分类次数K满足: k\le (\frac{R}{\gamma})^2 \end{aligned} (1)(2)存在满足条件∣∣w^opt∣∣=1的超平面:w^opt⋅x^=wopt⋅x+bopt=0;并且存在γ>0,对所有i=1,2,...,N有:yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)≥γ令R=1≤i≤Nmax∣∣xi^∣∣,感知机算法在训练集的误分类次数K满足:k≤(γR)2
定理表明：
(1)：误分类的次数k是有上界的，当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的；线性不可分数据集，则迭代震荡。
(2)：感知机算法存在许多解，既依赖于初值，也依赖于迭代过程中误分类点的选择顺序。
(3)：为得到唯一的超平面，需要增加约束，如SVM。

3.3 感知机的对偶形式

输入:训练数据集:
T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\} T={(x1,y1),(x2,y2),...,(x3,y3)}
其中
xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N学习率η(0<η≤1)\begin{aligned} x_{i}\epsilon X\epsilon R^n,y_{i}\epsilon Y=\{+1,-1\},i=1,2,...,N \end{aligned}\\ 学习率\eta(0<\eta \le1) xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N学习率η(0<η≤1)
输出:
α,b;感知机模型f(x)=sign[∑j=1Nαjyjxj⋅x+b]\begin{aligned} \alpha ,b;感知机模型 f(x)=sign[\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot x+b] \end{aligned} α,b;感知机模型f(x)=sign[j=1∑Nαjyjxj⋅x+b]
其中
α=(α1,α2,...,αN)\alpha =(\alpha _{1},\alpha _{2},...,\alpha _{N}) α=(α1,α2,...,αN)
算法步骤:
(1)α:=0,b:=0(2)在训练集中选取数据(xi,yi)(3)如果yi[∑j=1Nαjyjxj⋅xi+b]≤0,则有:αi:=αi+ηb:=b+ηyi(4)转至(2)直到没有误分类数据。\begin{aligned} (1)&\alpha :=0,b:=0\\ (2)&在训练集中选取数据(x_{i},y_{i})\\ (3)&如果y_{i}[\sum_{j=1}^N \alpha _j y_{j} x_{j} \cdot x_{i} +b]\le 0 ,则有:\\ &\alpha _{i} :=\alpha_{i}+\eta\\ &b:=b+\eta y_{i}\\ (4)&转至(2)直到没有误分类数据。 \end{aligned}\\ (1)(2)(3)(4)α:=0,b:=0在训练集中选取数据(xi,yi)如果yi[j=1∑Nαjyjxj⋅xi+b]≤0,则有:αi:=αi+ηb:=b+ηyi转至(2)直到没有误分类数据。
可以预先将训练集中实例间的内积计算出来并以矩阵形式存储，即Gram矩阵
G=[xi,xj]N×NG=[x_{i},x_{j}]_{N\times N}G=[xi,xj]N×N

【统计学习方法笔记】——第二章感知机相关推荐

统计学习方法笔记第二章-感知机
统计学习方法笔记第二章-感知机 2.1 感知机模型 2.2感知机学习策略 2.2.1数据集的线性可分型 2.2.2感知机学习策略 2.3感知机学习算法 2.3.1感知机算法的原始形式 2.3.2算法的 ...
李航《统计学习方法》第二章课后答案链接
李航<统计学习方法>第二章课后答案链接李航统计学习方法第二章课后习题答案 http://blog.csdn.net/cracker180/article/details/787 ...
一篇详解带你再次重现《统计学习方法》——第二章、感知机模型
个性签名:整个建筑最重要的是地基,地基不稳,地动山摇. 而学技术更要扎稳基础,关注我,带你稳扎每一板块邻域的基础. 博客主页:七归的博客专栏:<统计学习方法>第二版--个人笔记创作不易 ...
李航统计学习方法第2章感知机
第2章感知机介绍感知机模型, 叙述感知机的学习策略, 特别是损失函数; 最后介绍感知机学习算法,包括原始形式和对偶形式, 证明算法的收敛性. 感知机模型 f ( x ) = s i g n ( w ...
李航统计学习方法笔记第一章
1. 统计学习及监督学习概论 1.什么是统计学习统计学习是关于计算机基于数据构建的统计模型并运用模型进行预测分析的一门学科 2.什么是学习如果一个系统能够通过执行某个过程来改进它的性能,这就是学习 ...
李航《统计学习方法》第二版实战（mnist为例）
具体理论内容为<统计学习方法>第二章"感知机": ''' 数据集:Mnist 训练集数量:60000 测试集数量:10000 --------------------- ...
机器学习理论《统计学习方法》学习笔记：第二章感知机
<统计学习方法>学习笔记:第二章感知机 2 感知机 2.1 感知机模型 2.2 感知机学习策略 2.2.1 数据的线性可分性 2.2.2 感知机学习策略 2.3 感知机学习算法 2.3. ...
电信保温杯笔记——《统计学习方法（第二版）——李航》第16章主成分分析
电信保温杯笔记--<统计学习方法(第二版)--李航>第16章主成分分析介绍总体主成分分析基本思路直观解释定义主要性质主成分个数规范化变量样本主成分分析样本主成分的定义 ...
电信保温杯笔记——《统计学习方法（第二版）——李航》第17章潜在语义分析
电信保温杯笔记--<统计学习方法(第二版)--李航>第17章潜在语义分析论文介绍单词向量空间话题向量空间话题向量空间文本在话题向量空间的表示从单词向量空间到话题向量空间的线 ...
统计学习方法——第1章（个人笔记）
统计学习方法--第1章统计学习及监督学习概论 <统计学习方法>(第二版)李航,学习笔记 1.1 统计学习 1.特点 (1)以计算机及网络为平台,是建立在计算机及网络上的: (2)以数据为 ...

【统计学习方法笔记】——第二章感知机

目录

前言

一、感知机模型

1.1 定义

1.2 几何解释

二、感知机学习策略

2.1 数据集的线性可分

2.2 感知机学习策略

三、感知机学习算法

3.1 感知机学习算法的原始形式

3.2 算法的收敛性

3.3 感知机的对偶形式

【统计学习方法笔记】——第二章感知机相关推荐

最新文章

热门文章

【统计学习方法笔记】——第二章 感知机

目录

前言

一、感知机模型

1.1 定义

1.2 几何解释

二、 感知机学习策略

2.1 数据集的线性可分

2.2 感知机学习策略

三、感知机学习算法

3.1 感知机学习算法的原始形式

3.2 算法的收敛性

3.3 感知机的对偶形式

【统计学习方法笔记】——第二章 感知机相关推荐

最新文章

热门文章

【统计学习方法笔记】——第二章感知机

二、感知机学习策略

【统计学习方法笔记】——第二章感知机相关推荐