一、什么是感知机？

二、单层感知机模型

三、感知机的学习策略

四、感知机的学习算法

一、什么是感知机？

1958年，美国心理学家Frank Rosenblatt提出一种具有单层计算单元的神经网络，称为感知机(Perceptron)。感知机模拟人的视觉接受环境的信息，并利用神经元之间的连接进行信息传递。在感知机的研究中首次提出自组织、自学习的思想，而且对所能解决的问题存在着收敛算法，即在数学上能严格证明有效，因而对神经网络的研究起了重要的推动作用。

由于单层感知机的结构和功能都非常的简单，以至于目前在解决实际问题时很少被采用，但是由于它在神经网络研究中具有重要的意义，是研究其他深度网络的基础，所以理解单层感知机的原理是必要的。

二、单层感知机模型

单个人工神经元模型（M-P模型）：

多输出节点的单层感知机：

单层感知机只有一层处理单元，结构如上图所示。

图中左侧为输入层，也称为感知层，有n个神经元节点，这些节点只负责引入外部信息，自身不进行信息的处理。每个神经元节点接受一个输入信号 $x_i$ （ $i$ =1,2,3…n），n个输入信号构成输入列向量 $X$ :

$X = (x_1,x_2,\cdots,x_j,\cdots,x_n)^T$

图中右侧为输出层，也称为处理层，有m个神经元节点。每个节点均具有信息处理能力，m个节点向外输出处理过的信息构成输出列向量 $O$ ：

$O = (o_1,o_2,\cdots,o_i,\cdots,o_m)^T$

对于输出层来讲，用 $W_i$ 表示输出层第 $i$ 个神经元的权值列向量，其中 $i = 1,2,\cdots,m$ 。

$W_i = (w_i_1,w_i_2,w_i_j,\cdots,w_i_n)^T$

m个权值列向量又构成了感知机的权值矩阵 $W_i_j$ 。

$W_i_j = \begin{matrix} w_1_1 & w_1_2 & \cdots & w_1_n \\ w_2_1 & w_2_2 & \cdots & w_2_n \\ \vdots &\vdots &\vdots &\vdots \\ w_m_1 & w_m_2 & \cdots & w_m_n \end{}$

其中元素为 $w_i_j$ ,表示输入层第 $j$ 个神经元到输出层第 $i$ 的神经元的权值。

（ $i$ 表示下一层即输出层的第 $i$ 个神经元， $j$ 表示上一层即输入层的第 $j$ 个神经元。）

由M-P模型可知，对于输出层的任意一神经元节点 $i$ ，其输入 $u_i = \sum_{j=1}^nw_i_jx_j$ ， $b_i$ 为神经元 $i$ 的阈值，净输入为 $u_i-b_i$ ，激励函数为符号函数 $f(x)=sgn(x)=\left\{ \begin{aligned} +1,x\ge0 \\ -1,x<0 \end{aligned} \right.$ 。则输出神经元 $i$ 的输出 $o_i$ 表示为：

$o_i=sgn(u_i-b_i)=sgn(\sum_{j=1}^nw_i_jx_j-b_i)=sgn(W^{T}_iX-b_i)=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

在计算神经元 $i$ 的输出时，实际为一个M-P模型，其中输入向量 $X = (x_1,x_2,\cdots,x_j,\cdots,x_n)^T$ ，权值向量 $W_i = (w_i_1,w_i_2,w_i_j,\cdots,w_i_n)^T$ ，则 $W^{T}_iX-b_i=0$ 展开写成标量形式为：

$w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i = 0$

这在几何意义上实则为一个n维超平面的一般方程， $W^{T}_i$ 为超平面的法向量， $b_i$ 为超平面的截距。此n维超平面可以将n维空间分为两个部分，也即可以将输入的样本分为两类。

关于以上几何意义说法的简要证明：

因为过空间一点可以作而且只能作一平面垂直于一已知直线，所以当平面 $\prod$ 上一点 $M_0(x_0,y_0,z_0)$ 和它的一个法线向量 $\bold n = (A,B,C)$ 为已知时，平面 $\prod$ 的位置就完全确定了。由此我们可以建立平面 $\prod$ 的方程：

设 $M(x,y,z)$ 是平面 $\prod$ 上的任意一点， $M_0(x_0,y_0,z_0)$ 为平面上已知一点，则向量 $\overrightarrow{MM_0}$ 必然与平面的法线向量 $\bold n$ 垂直，即数量积等于零：

$\bold n \cdot \overrightarrow{MM_0}=0$

因为 $\bold n = (A,B,C)$ ， $\overrightarrow{MM_0}=(x-x_0,y-y_0,z-z_0)$ ，所以有：

$A(x-x_0)+B(y-y_0)+C(z-z_0)=0$

此方程是由平面上已知一点 $M_0(x_0,y_0,z_0)$ 和该平面的法线向量 $\bold n = (A,B,C)$ 确定的，所以该方程叫做平面的点法式方程。

由上可知，平面的点法式方程是x，y，z的一次方程，而任意一平面都可以用它上面的一点及法线向量来确定，所以任一平面都可以用三元一次方程来表示。设有一般三元一次方程：

$Ax+By+Cz+D=0\qquad(1)$

任取满足该方程的一组数 $x_0,y_0,z_0$ ，即

$Ax_0+By_0+Cz_0+D=0\qquad(2)$

上述两式相减，得

$A(x-x_0)+B(y-y_0)+C(z-z_0)=0\qquad(3)$

方程 $(3)$ 和上面的点法式方程作比较，可知方程 $(3)$ 即为点法式方程，而方程 $(3)$ 又和方程 $(1)$ 经过加减已知的 $(2)$ 可以互相得到，所以方程 $(1)$ 和 $(3)$ 是同解方程。由此可知，任一三元一次方程的图形总是一个平面，而其中x，y，z的系数就是该平面的法线向量 $\bold n$ ，即 $\bold n = (A,B,C)$ 。

上述的证明限制在三维空间中，可以用三元一次方程表示。而在上述列向量 $X$ 所确定的n维空间中，亦可以用 $x_1,x_2,\cdots,x_j,\cdots,x_n$ 的n元一次方程确定一个n维超平面：

$w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i = 0$

同理，变量的系数就是该超平面的法向量 $W^{T}_i=(w_i_1,w_i_2,w_i_j,\cdots,w_i_n)$ 。

上述的证明可以更好的从几何的意义上理解单层感知机具有分类能力，且只能解决线性的二分类问题。

三、感知机的学习策略

假设训练数据集是线性可分的，感知机的学习目标就是确定一个能够将训练集正实例点和负实例点完全分离的超平面，也就是将训练集的输入 $W^{T}_iX-b_i$ 正确地分类到+1和-1两个类别中。

$o_i=sgn(\sum_{j=1}^nw_i_jx_j-b_i)=sgn(W^{T}_iX-b_i)=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

所以需要确定感知机的参数：权值向量 $W_i = (w_i_1,w_i_2,w_i_j,\cdots,w_i_n)^T$ 和阈值 $b_i$ (几何意义上的超平面截距)和定义一个损失函数（loss function）并将损失函数极小化。

分类问题损失函数的确定的一个自然想法是：误分类点的个数。使误分类点的个数达到最少即完成了感知机的分类目标。但是这样的损失函数是离散的，并不是参数 $W_i$ 和 $b_i$ 的连续可导函数，所以不易进行优化求取极小值。

另一个损失函数选择是：误分类点到超平面的总距离。（因为可能有多个被误分类的点，所以这里的“总”指的是它们的距离之和。）误分类点到超平面的总距离越小，即代表被误分类的点越少。这是感知机所采用的损失函数。

在三维空间中，点 $M_0(x_0,y_0,z_0)$ 到平面 $Ax+By+Cz+D=0$ 的距离表示为：

$d = \frac{\mid Ax_0+By_0+Cz_0+D \mid}{\sqrt{A^2+B^2+C^2}}$

这里不再给出点到平面的距离公式证明。同理，将此距离公式推广到n维空间，则n维空间中样本点 $X(x_1,x_2,\cdots,x_n)$ 到超平面 $w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i = 0$ 的距离为：

$\frac{\mid w_i_1x_1+w_i_2x_2+\cdots+w_i_nx_n-b_i \mid}{\sqrt{w_i_1^2+w_i_1^2+\cdots+w_i_n^2}}=\frac{1}{\mid\mid W^{T}_i \mid\mid}\mid W^{T}_iX-b_i \mid$

这里的 $X$ 就等价于模型的输入向量。其中 $\mid\mid W^{T}_i \mid\mid$ 为权值向量 $W^{T}_i$ 的 $L_2$ 范数，即向量的模长。

对于模型的输入 $W^{T}_iX-b_i$ ，输出为：

$sgn(W^{T}_iX-b_i)=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

激励函数(即符号函数)会将输入映射为两类输出标签，即输出

$y_i=\left\{ \begin{aligned} +1,W^{T}_iX-b_i\ge0 \\ -1,W^{T}_iX-b_i<0 \end{aligned} \right.$

对于误分类数据来说，输入 $W^{T}_iX-b_i \geq0$ 结果被分到-1标签，即 $y_i=-1$ ；输入 $W^{T}_iX-b_i <0$ ，结果却被分到+1标签，即 $y_i = +1$ 。那么有以下式子恒成立：

$-y_i(W_i^TX-b_i)>0$

那么根据以上分析，误分类的样本点到超平面的距离是：

$-\frac{1}{\mid\mid W^{T}_i \mid\mid}y_i\mid W^{T}_iX-b_i \mid$

设误分类样本点集合为 $M$ ，且不考虑 $\frac{1}{\mid\mid W^{T}_i \mid\mid}$ ，就得到了感知机的损失函数：

$\bold {L(W_i^T,b_i)=-\sum_{X\in M}y_i(W_i^TX-b_i)}$

显然，损失函数是非负的。没有误分类点是损失函数是零。有误分类点时，误分类点越少，误分类点离超平面越近，损失函数的值就越小。

四、感知机的学习算法

感知机的学习问题就是求解损失函数的最优化问题，方法是随机梯度下降法。首先求出损失函数 $L(W_i^T,b_i)$ 的梯度：

$\nabla_w L(W_i^T,b_i) = -\sum_{X\in M}y_iX$

$\nabla_b L(W_i^T,b_i) = \sum_{X\in M}y_i$

再随机选取一个误分类点 $(X_i,y_i)$ ，用 $t$ 表示迭代次数， $\eta$ 表示学习率，对 $W_i^T$ 和 $b_i$ 进行迭代更新：

$\bold{W_i^T(t+1) = W_i^T(t)+\eta y_iX_i}$

$\bold{b_i(t+1) = b_i(t)-\eta y_i}$

这种学习算法几何上的直观解释为：当一个样本点被误分类时，即位于超平面的错误一侧时，则根据上式迭代调整 $W_i^T$ 和 $b_i$ ，使超平面向该误分类点的一侧移动，以减少误分类点和超平面的距离，直至迭代到合适的 $W_i^T$ 和 $b_i$ 使得超平面越过该误分类点使其被正确分类。

例题：有某数据集，其正实例点为 $X_1=(3,3)^T$ ， $X_2=(4,3)^T$ ，负实例点为 $X_3=(1,1)^T$ ，学习率 $\eta=1$ ，求感知机模型 $f(X)=sgn(W^{T}_iX-b_i)$ 。

解：（1）首先随机选取初值： $W^{T}_i(0)=(0,0)$ ， $b_i(0)=0$

（2）判断实例点是否被正确分类：

对 $X_1=(3,3)^T$ ， $W^{T}_i(0)X_1-b_i(0)=0$ ，未被正确分类，迭代 $W^{T}_i,b_i$

$W^{T}_i(1)=W^{T}_i(0)+y_1X_1=(3,3),b_i(1)=b_i(0)-y_1=-1$

（3）对于新的 $W^{T}_i(1)$ 和 $b_i(1)$ 确定的新的超平面，再次判断实例点是否被正确分类：

对 $X_1=(3,3)^T$ ， $f(X_1)=sgn[W^{T}_i(1)X_1-b_i(1)]=+1$ ，被正确分类；

对 $X_2=(4,3)^T$ ， $f(X_2)=sgn[W^{T}_i(1)X_2-b_i(1)]=+1$ ，被正确分类；

对 $X_3=(1,1)^T$ ， $f(X_3)=sgn[W^{T}_i(1)X_3-b_i(1)]=+1$ ，未被正确分类，迭代 $W^{T}_i,b_i$

$W^{T}_i(2)=W^{T}_i(1)+y_3X_3=(2,2),b_i(2)=b_i(1)-y_3=0$

$\bold{\vdots}$

重复（2）（3）过程，直至三个实例点都被正确分类，得到最终迭代结果：

$W^{T}_i(7)=(1,1)$ ， $b_i(7)=3$

即最终所确定的感知机模型为： $f(X)=sgn[(1,1)(x_1,x_2)^T-3]=sgn(x_1+x_2-3)$

分离超平面为： $x_1+x_2-3=0$

例题代码：

import numpy as np
import matplotlib.pyplot as plttrain = [((3,3),1),((4,3),1),((1,1),-1)]
feature = []
label = []
xpoints=[]
ypoints=[]for data in train:feature.append(data[0])label.append(data[1])   #提取特征和标签数据xpoints.append(data[0][0])ypoints.append(data[0][1])  #提取x，y坐标用于后面的画图feature = np.array(feature)
label = np.array(label) #将特征和标签数据转化为numpy数组w = np.array([0,0])
b=0
eta = 1 #初始化w，b，eta学习率设为1flag = True #设置标记用于结束迭代
num = 0 #记录迭代次数
while flag:count = len(feature)  for i in range(len(feature)):if -label[i]*( np.dot(w,feature[i].T) + b) >= 0:  #如果数据被误分类w = w + eta*label[i]*feature[i].Tb = b + eta*label[i]    num = num + 1print("第{}次迭代:w={},b={}".format(num,w,b))   #迭代并输出迭代后的w和belse:count = count - 1   #conut循环减1，减到0时表示所有数据都分类成功if count == 0:flag = False   #如果所有数据都分类成功。停止循环迭代
print("共迭代{}次，最终迭代结果:w={},b={}".format(num,w,b)) #输出最终结果x = np.linspace(-5,+5,50)
y = -(w[0]*x + b)/w[1]
plt.plot(x,y)
plt.plot(xpoints,ypoints,'o',)
plt.show()  #画出示意图

输出结果：

注：不同的参考书中，对于输入可能写成 $W^{T}_iX-b_i$ 或 $W^{T}_iX+b_i$ 。对于 $-b_i$ 还是 $+b_i$ 的问题，由于本文章输入是由M-P模型(单个神经元模型)引入的，所以这里采取前者的写法。采取后者写法甚至更优，会使迭代公式有统一的形式，即：

$\bold{W_i^T(t+1) = W_i^T(t)+\eta y_iX_i}$

$\bold{b_i(t+1) = b_i(t)+\eta y_i}$

而前者写法的迭代公式为：

$\bold{W_i^T(t+1) = W_i^T(t)+\eta y_iX_i}$

$\bold{b_i(t+1) = b_i(t)-\eta y_i}$

两种写法并无本质的不同，所得最终结果也是一样的，后者写法虽然更优，但不再做更改，需要读者尤其注意正负号的问题。

参考

[1]刘若辰，慕彩虹，焦李成，刘芳，陈璞花.人工智能导论[M].北京：清华大学出版社，2021.8：195-200.

[2]李航.统计学习方法[M].北京：清华大学出版社，2019.5：35-41.

[3]同济大学数学系.高等数学[M].北京：高等教育出版社，2014.7：23-27.

单层感知机模型及其学习算法相关推荐

多层感知机与深度学习算法概述
多层感知机与深度学习算法概述读研之前那会儿我们曾纠结于机器学习.深度学习.神经网络这些概念的异同.现在看来深度学习这一算法竟然容易让人和他的爸爸机器学习搞混-可见深度学习技术的影响力之大.深度学习, ...
【机器学习】隐马尔可夫模型及其三个基本问题（三）模型参数学习算法及python实现
[机器学习]隐马尔可夫模型及其三个基本问题(三)模型参数学习算法及python实现一.一些概率与期望值的计算二.非监督学习方法(Baum-Welch算法) 三.python实现隐马尔可夫模型参数 ...
论文笔记-连续HVAC控制的无模型强化学习算法的实验评估
本文在一个模拟的数据中心中对四种actor-critic算法进行了实验评估.性能评估基于它们在提高能效的同时保持热稳定性的能力,以及它们对天气动态的适应性.与在EnergyPlus中实施的基于模型的控 ...
一篇详解带你再次重现《统计学习方法》——第二章、感知机模型
个性签名:整个建筑最重要的是地基,地基不稳,地动山摇. 而学技术更要扎稳基础,关注我,带你稳扎每一板块邻域的基础. 博客主页:七归的博客专栏:<统计学习方法>第二版--个人笔记创作不易 ...
深度学习笔记（一）——感知机模型（Perceptron Model）
零.引言感知机,也叫单层神经网络,是最基础的神经网络模型结构. 神经网络模型由生物神经中得到启发.在生物神经元细胞中,神经突触接收到信号,经过接收并处理信号后判断信号的信息强弱,来做出不同神经电位变 ...
PyTorch教程（十）：单层感知机以及梯度更新
单层感知机模型 y=XW+by=∑xi∗wi+by = XW + b \\ y = \sum x_i*w_i+ b y=XW+by=∑xi∗wi+b 单层感知机模型的每一个输入节点xix_ixi ...
基于值的深度强化学习算法
目录 DQN2013 -- Playing Atari with Deep Reinforcement Learning DQN2015 -- Human-level control through ...
初探神经网络（二）单层感知机的Rosenblatt算法原理
本期大量干货,配合线性代数和较扎实的统计知识食用更佳. 介绍过了M-P模型,也了解到了M-P模型本质上是对生物上神经元的抽象模型.在上一章,我反复在强调这只是一个生物学的概念,我相信看到这篇文章的人绝 ...
统计学习笔记（2）——感知机模型
感知机学习旨在求出将训练数据集进行线性划分的分类超平面,为此,导入了基于误分类的损失函数,然后利用梯度下降法对损失函数进行极小化,从而求出感知机模型.感知机模型是神经网络和支持向量机的基础.下面分别从 ...
【统计学习】随机梯度下降法求解感知机模型
1. 感知机学习模型感知机是一个二分类的线性分类问题,求解是使误分类点到超平面距离总和的损失函数最小化问题.采用的是随机梯度下降法,首先任意选取一个超平面w0和b0,然后用梯度下降法不断地极小化目标 ...

单层感知机模型及其学习算法

一、什么是感知机？

二、单层感知机模型

三、感知机的学习策略

四、感知机的学习算法

单层感知机模型及其学习算法相关推荐

最新文章

热门文章