【统计学习方法笔记】——第二章 感知机
目录
- 前言
- 一、感知机模型
- 1.1 定义
- 1.2 几何解释
- 二、 感知机学习策略
- 2.1 数据集的线性可分
- 2.2 感知机学习策略
- 三、感知机学习算法
- 3.1 感知机学习算法的原始形式
- 3.2 算法的收敛性
- 3.3 感知机的对偶形式
前言
这篇文章是对李航老师《统计学习方法》做的笔记整理,当然本人也才刚刚入门机器学习,其中难免会出现一些错误,欢迎大家批评指正啦!
一、感知机模型
1.1 定义
- 假设输入空间(特征空间)是:x⊆Rnx\subseteq R^nx⊆Rn 输出空间是:y={−1,+1}y=\{-1,+1\}y={−1,+1}由输入到输出空间的函数: f(z)=sign(w⋅x+b)f(z) = sign(w\cdot x+b)f(z)=sign(w⋅x+b)称为感知机。
其中,符号函数为:
sign(x)={+1x≥0−1x≤0sign(x)=\left\{ \begin{aligned} +1 & &x\geq0 \\ -1 & &x\leq0 \end{aligned} \right. sign(x)={+1−1x≥0x≤0
1.2 几何解释
线性方程:w⋅x+b=0w\cdot x+b=0w⋅x+b=0在超平面S中,w为法向量,b为截距,分离正负类。
图:
Note(关于线性方程的解释):在超平面S上的点,可用n维向量x表示,它与该超平面法向量w的内积为常数,可定义为-b。
二、 感知机学习策略
2.1 数据集的线性可分
- 给定一个数据集:T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\}T={(x1,y1),(x2,y2),...,(x3,y3)}其中:
xiϵX=Rn,yiϵY={+1,−1},i=1,2,...,N.\begin{aligned} &x_{i}\epsilon X =R^n,y_{i}\epsilon Y=\{+1,-1\},i=1,2,...,N. \end{aligned} xiϵX=Rn,yiϵY={+1,−1},i=1,2,...,N.
若存在某个超平面S,满足:
w⋅x+b=0w\cdot x+b=0w⋅x+b=0
能够将数据集的正实例点和负实例点完全正确地划分到超平面两侧,即对于实例i,有:
{w⋅xi+b>0yi=+1\left\{ \begin{aligned} w\cdot x_{i}+b&>0 \\y_{i} =+1 \end{aligned} \right.{w⋅xi+byi=+1>0
2.2 感知机学习策略
- 定义损失函数:
(1)自然选择:损失函数定义为误分类点数目,但其不是w,b 的连续导数,不宜优化。
(2)另一选择:误分类点到超平面的总距离。
距离公式为:
1∣∣w∣∣⋅∣w⋅x0+b∣\frac {1}{||w||}\cdot|w\cdot x_{0}+b| ∣∣w∣∣1⋅∣w⋅x0+b∣
由于误分类点:
(xi,yi)满足:−yi⋅(w⋅xi+b)>0(x_{i},y_{i})满足:-y_{i}\cdot (w\cdot x_{i}+b)>0 (xi,yi)满足:−yi⋅(w⋅xi+b)>0
那么误分类点距离超平面距离为:
−1∣∣w∣∣⋅yi⋅(w⋅xi+b)-\frac {1}{||w||}\cdot y_{i}\cdot (w\cdot x_{i}+b) −∣∣w∣∣1⋅yi⋅(w⋅xi+b)
故总距离:
−1∣∣w∣∣⋅∑xiϵMyi⋅(w⋅xi+b)-\frac {1}{||w||}\cdot \sum_{x_{i}\epsilon M}y_{i}\cdot (w\cdot x_{i}+b) −∣∣w∣∣1⋅xiϵM∑yi⋅(w⋅xi+b)
得出损失函数(不考虑1/||w||):
L(w,b)=−∑xiϵMyi⋅(w⋅xi+b)L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}\cdot (w\cdot x_{i}+b) L(w,b)=−xiϵM∑yi⋅(w⋅xi+b)
三、感知机学习算法
3.1 感知机学习算法的原始形式
- 输入:训练数据集:T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\} T={(x1,y1),(x2,y2),...,(x3,y3)}
其中:
xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N.学习率η(0<η≤1)\begin{aligned} x_{i}\epsilon X\epsilon R^n,y_{i}\epsilon Y=\{+1,-1\},i=1,2,...,N. \end{aligned}\\ 学习率\eta(0<\eta \le1) xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N.学习率η(0<η≤1) - 输出:
w,b;感知机模型f(x)=sign(w⋅x+b)w,b;感知机模型f(x)=sign(w\cdot x+b)w,b;感知机模型f(x)=sign(w⋅x+b) - 算法步骤:
(1)选初始值w0,b0(2)在训练集中选取数据(xi,yi)(3)若yi(w⋅xi+b)≤0,则有:w:=w+ηyixi;b:=b+ηyi(4)转至(2),直至训练集中没有误分类点\begin{aligned} (1)&选初始值w_{0},b_{0}\\ (2)&在训练集中选取数据(x_{i},y_{i})\\ (3)&若y_{i}(w\cdot x_{i}+b)\le 0,则有:\\ w&:=w+\eta y_{i} x_{i};\\ b&:=b+\eta y_{i}\\ (4)&转至(2),直至训练集中没有误分类点 \end{aligned} (1)(2)(3)wb(4)选初始值w0,b0在训练集中选取数据(xi,yi)若yi(w⋅xi+b)≤0,则有::=w+ηyixi;:=b+ηyi转至(2),直至训练集中没有误分类点 - Note:该算法采用随机梯度下降任选一个超平面w,b,然后极小化目标函数。
▽wL(w,b)=−∑xiϵMyixi▽bL(w,b)=−∑xiϵMyi\begin{aligned} &\bigtriangledown _{w}L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}x_{i}\\ &\bigtriangledown _{b}L(w,b)=-\sum_{x_{i}\epsilon M}y_{i} \end{aligned} ▽wL(w,b)=−xiϵM∑yixi▽bL(w,b)=−xiϵM∑yi
3.2 算法的收敛性
- 证明经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型
- 将b并入权重向量w,记作:
w^=(wT,b)T\hat{w}=(w^T,b)^Tw^=(wT,b)T
其中可以得到:
x^=(xT,1)T,x^ϵRn+1,w^ϵRn+1,w^⋅x^=w⋅x+b\hat{x}=(x^T,1)^T,\hat{x}\epsilon R^{n+1},\hat{w}\epsilon R^{n+1},\hat{w}\cdot \hat{x}=w\cdot x+b x^=(xT,1)T,x^ϵRn+1,w^ϵRn+1,w^⋅x^=w⋅x+b - 定理:
设训练数据集:
T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\}T={(x1,y1),(x2,y2),...,(x3,y3)}
是线性可分的,其中:
xiϵX=Rn+1,yiϵY={−1,+1},i=1,2,...,N.x_{i}\epsilon X=R^{n+1}, y_{i}\epsilon Y=\{-1,+1\},i=1,2,...,N. xiϵX=Rn+1,yiϵY={−1,+1},i=1,2,...,N.
则:
(1)存在满足条件∣∣w^opt∣∣=1的超平面:w^opt⋅x^=wopt⋅x+bopt=0;并且存在γ>0,对所有i=1,2,...,N有:yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)≥γ(2)令R=max1≤i≤N∣∣xi^∣∣,感知机算法在训练集的误分类次数K满足:k≤(Rγ)2\begin{aligned} (1)&存在满足条件||\hat{w}_{opt}||=1的超平面: \hat{w}_{opt}\cdot \hat{x}=w_{opt}\cdot x+b_{opt}=0;\\ &并且存在\gamma>0,对所有i=1,2,...,N 有: y_{i}(\hat{w}_{opt}\cdot \hat{x_{i}})=y_{i}(w_{opt}\cdot x_{i}+b_{opt})\ge \gamma\\ (2)&令R=\mathop{max}\limits_{1\le i\le N}||\hat{x_{i}}||,感知机算法在训练集的误分类次数K满足: k\le (\frac{R}{\gamma})^2 \end{aligned} (1)(2)存在满足条件∣∣w^opt∣∣=1的超平面:w^opt⋅x^=wopt⋅x+bopt=0;并且存在γ>0,对所有i=1,2,...,N有:yi(w^opt⋅xi^)=yi(wopt⋅xi+bopt)≥γ令R=1≤i≤Nmax∣∣xi^∣∣,感知机算法在训练集的误分类次数K满足:k≤(γR)2 - 定理表明:
(1):误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的;线性不可分数据集,则迭代震荡。
(2):感知机算法存在许多解,既依赖于初值,也依赖于迭代过程中误分类点的选择顺序。
(3):为得到唯一的超平面,需要增加约束,如SVM。
3.3 感知机的对偶形式
- 输入:训练数据集:
T={(x1,y1),(x2,y2),...,(x3,y3)}T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{3},y_{3})\} T={(x1,y1),(x2,y2),...,(x3,y3)}
其中
xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N学习率η(0<η≤1)\begin{aligned} x_{i}\epsilon X\epsilon R^n,y_{i}\epsilon Y=\{+1,-1\},i=1,2,...,N \end{aligned}\\ 学习率\eta(0<\eta \le1) xiϵXϵRn,yiϵY={+1,−1},i=1,2,...,N学习率η(0<η≤1)
输出:
α,b;感知机模型f(x)=sign[∑j=1Nαjyjxj⋅x+b]\begin{aligned} \alpha ,b;感知机模型 f(x)=sign[\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot x+b] \end{aligned} α,b;感知机模型f(x)=sign[j=1∑Nαjyjxj⋅x+b]
其中
α=(α1,α2,...,αN)\alpha =(\alpha _{1},\alpha _{2},...,\alpha _{N}) α=(α1,α2,...,αN) - 算法步骤:
(1)α:=0,b:=0(2)在训练集中选取数据(xi,yi)(3)如果yi[∑j=1Nαjyjxj⋅xi+b]≤0,则有:αi:=αi+ηb:=b+ηyi(4)转至(2)直到没有误分类数据。\begin{aligned} (1)&\alpha :=0,b:=0\\ (2)&在训练集中选取数据(x_{i},y_{i})\\ (3)&如果y_{i}[\sum_{j=1}^N \alpha _j y_{j} x_{j} \cdot x_{i} +b]\le 0 ,则有:\\ &\alpha _{i} :=\alpha_{i}+\eta\\ &b:=b+\eta y_{i}\\ (4)&转至(2)直到没有误分类数据。 \end{aligned}\\ (1)(2)(3)(4)α:=0,b:=0在训练集中选取数据(xi,yi)如果yi[j=1∑Nαjyjxj⋅xi+b]≤0,则有:αi:=αi+ηb:=b+ηyi转至(2)直到没有误分类数据。 - 可以预先将训练集中实例间的内积计算出来并以矩阵形式存储,即Gram矩阵
G=[xi,xj]N×NG=[x_{i},x_{j}]_{N\times N}G=[xi,xj]N×N
【统计学习方法笔记】——第二章 感知机相关推荐
- 统计学习方法笔记第二章-感知机
统计学习方法笔记第二章-感知机 2.1 感知机模型 2.2感知机学习策略 2.2.1数据集的线性可分型 2.2.2感知机学习策略 2.3感知机学习算法 2.3.1感知机算法的原始形式 2.3.2算法的 ...
- 李航《统计学习方法》第二章课后答案链接
李航<统计学习方法>第二章课后答案链接 李航 统计学习方法 第二章 课后 习题 答案 http://blog.csdn.net/cracker180/article/details/787 ...
- 一篇详解带你再次重现《统计学习方法》——第二章、感知机模型
个性签名:整个建筑最重要的是地基,地基不稳,地动山摇. 而学技术更要扎稳基础,关注我,带你稳扎每一板块邻域的基础. 博客主页:七归的博客 专栏:<统计学习方法>第二版--个人笔记 创作不易 ...
- 李航 统计学习方法 第2章 感知机
第2章 感知机 介绍感知机模型, 叙述感知机的学习策略, 特别是损失函数; 最后介绍感知机学习算法,包括原始形式和对偶形式, 证明算法的收敛性. 感知机模型 f ( x ) = s i g n ( w ...
- 李航统计学习方法笔记第一章
1. 统计学习及监督学习概论 1.什么是统计学习 统计学习是关于计算机基于数据构建的统计模型并运用模型进行预测分析的一门学科 2.什么是学习 如果一个系统能够通过执行某个过程来改进它的性能,这就是学习 ...
- 李航《统计学习方法》第二版 实战(mnist为例)
具体理论内容为<统计学习方法>第二章"感知机": ''' 数据集:Mnist 训练集数量:60000 测试集数量:10000 --------------------- ...
- 机器学习理论《统计学习方法》学习笔记:第二章 感知机
<统计学习方法>学习笔记:第二章 感知机 2 感知机 2.1 感知机模型 2.2 感知机学习策略 2.2.1 数据的线性可分性 2.2.2 感知机学习策略 2.3 感知机学习算法 2.3. ...
- 电信保温杯笔记——《统计学习方法(第二版)——李航》第16章 主成分分析
电信保温杯笔记--<统计学习方法(第二版)--李航>第16章 主成分分析 介绍 总体主成分分析 基本思路 直观解释 定义 主要性质 主成分个数 规范化变量 样本主成分分析 样本主成分的定义 ...
- 电信保温杯笔记——《统计学习方法(第二版)——李航》第17章 潜在语义分析
电信保温杯笔记--<统计学习方法(第二版)--李航>第17章 潜在语义分析 论文 介绍 单词向量空间 话题向量空间 话题向量空间 文本在话题向量空间的表示 从单词向量空间到话题向量空间的线 ...
- 统计学习方法——第1章(个人笔记)
统计学习方法--第1章 统计学习及监督学习概论 <统计学习方法>(第二版)李航,学习笔记 1.1 统计学习 1.特点 (1)以计算机及网络为平台,是建立在计算机及网络上的: (2)以数据为 ...
最新文章
- 应用在大规模推荐系统,Facebook提出组合embedding方法 | KDD 2020
- [LeetCode]Remove Linked List Elements
- 表头大小设置_Excel技巧:单线表头及多线表头的制作方法
- 华为弹性云服务器ECS使用学习0
- 使用Fluent NHibernate和AngularJS的Master Chef(第1部分)ASP.NET Core MVC
- data2vec!统一模态的新里程碑
- Windows、Linux 纷纷被爆漏洞,黑客可直取 root 权限!
- LSTM背后的数学原理
- fork: retry: Resource temporarily unavailable 解决方案
- win10怎么改管理员名字_中控智慧考勤门禁_机器直连软件及清除管理员
- Latex 安装包 metropolis
- 独家汉化SDL Passolo 2018(软件汉化工具) v18.0.130简体中文版
- MATLA雾霾下的交通标志识别系统[GUI界面]
- 新 iPhone 去“刘海”、AR/VR 头显或成 One More Thing,苹果秋季发布会前瞻!
- 爱奇艺qsv格式视频无损转换为MP4
- 使用python实现mysql测试数据的准备(大批量导入数据)
- 大数据开发的面试总结
- 互联网日报 | 华为西南地区首家旗舰店开业;高德打车企业版入驻飞书;马蜂窝发布“北极星攻略”品牌...
- MONSTER童话系列——沒有名字的怪物
- idea向github传文件