《统计学习方法》读书笔记——感知机（原理+代码实现）

传送门

《统计学习方法》读书笔记——机器学习常用评价指标
《统计学习方法》读书笔记——感知机（原理+代码实现）
《统计学习方法》读书笔记——K近邻法（原理+代码实现）
《统计学习方法》读书笔记——朴素贝叶斯法（公式推导+代码实现）

感知机

传送门
一、感知机的定义
二、感知机学习策略
三、感知机学习算法
四、代码实现
参考

一、感知机的定义

假设输入空间 X⊆Rn\mathcal{X}\subseteq{\mathcal{R^n}}X⊆Rn，输出空间Y={+1,−1}\mathcal{Y} = \{+1, -1\}Y={+1,−1}；
输入x∈Xx\in\mathcal{X}x∈X表示样本的特征向量，输出y∈Yy\in\mathcal{Y}y∈Y表示样本的类别。则由输入空间到输出空间的映射（函数）
f(x)=sign(w⋅x+b)f(x)=sign(w \cdot x + b) f(x)=sign(w⋅x+b)
称为感知机，其中w∈Rnw\in\mathcal{R^n}w∈Rn称为权值，b∈Rb\in\mathcal{R}b∈R称为偏置，signsignsign为符号函数。

二、感知机学习策略

感知机学习的目标即找出能够将训练数据集中的正、负样本分离开的超平面。如图：

定义损失函数为所有错误分类的样本点到超平面的距离之和。推导如下：
输入空间任意一点x0x_0x0到超平面的距离为：
1∥w∥∣w⋅x0+b∣\frac{1}{\|w\|} |w\cdot x_0+b| ∥w∥1∣w⋅x0+b∣
其中∥w∥\|w\|∥w∥是www的L2L_2L2范数，即各元素的平方和再开平方。
\\
对分类错误的样本点来说−yi(w⋅xi+b)>0-y_i(w\cdot x_i + b)>0−yi(w⋅xi+b)>0，因此

∣w⋅x0+b∣=−yi(w⋅xi+b)|w\cdot x_0 + b| = -y_i(w\cdot x_i + b) ∣w⋅x0+b∣=−yi(w⋅xi+b)

则错误分类的样本点到超平面的总距离为：−1∥w∥∑xi∈Myi(w⋅xi+b)-\frac{1}{\|w\|}\sum\limits_{x_i\in M}{y_i(w\cdot x_i+b)}−∥w∥1xi∈M∑yi(w⋅xi+b)

若不考虑∥w∥\|w\|∥w∥，则损失函数定义如下：
L(w,b)=−∑xi∈Myi(w⋅xi+b)L(w,b) = -\sum\limits_{x_i\in M}{y_i(w\cdot x_i+b)} L(w,b)=−xi∈M∑yi(w⋅xi+b)

三、感知机学习算法

输入：训练数据集T={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)}T=\{ (x_1,y_1),(x_2,y_2),···,(x_n,y_n)\}T={(x1,y1),(x2,y2),⋅⋅⋅,(xn,yn)}，其中xi∈X=Rnx_i\in\mathcal{X}=\mathcal{R^n}xi∈X=Rn，yi∈Y={−1,+1}，i=1,2,⋅⋅⋅，ny_i\in\mathcal{Y}= \{-1,+1\}，i=1,2,···，nyi∈Y={−1,+1}，i=1,2,⋅⋅⋅，n；学习率η(0<η≤1)\eta(0<\eta\leq1)η(0<η≤1)；
输出：w,bw,bw,b；感知机模型f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x+b)f(x)=sign(w⋅x+b)。
（1）选取初值w0,b0w_0,b_0w0,b0；
（2）在训练集中选取数据(xi,yi)(x_i,y_i)(xi,yi)；
（3）如果yi(w⋅xi+b)≤0y_i(w\cdot x_i+b)\leq0yi(w⋅xi+b)≤0；
w←w+ηyixib←b+ηyiw\larr w+\eta y_i x_i \\ b\larr b+\eta y_i w←w+ηyixib←b+ηyi
（4）转至（2），直至训练集中没有误分类点。

四、代码实现

#coding=utf-8
import numpy as np
import timedef loadData(fileName):print('start to read data')dataArr = []labelArr = []fr = open(fileName, 'r')# 将文件按行读取for line in fr.readlines():# 对每一行数据按切割符','进行切割，返回字段列表curLine = line.strip().split(',')# Mnsit有0-9是个标记，由于是二分类任务，所以将>=5的作为1，<5为-1if int(curLine[0]) >= 5:labelArr.append(1)else:labelArr.append(-1)#存放标记#[int(num) for num in curLine[1:]] -> 遍历每一行中除了以第一哥元素（标记）外将所有元素转换成int类型#[int(num)/255 for num in curLine[1:]] -> 将所有数据除255归一化(非必须步骤，可以不归一化)dataArr.append([int(num)/255 for num in curLine[1:]])#返回data和labelreturn dataArr, labelArrdef perceptron(dataArr, labelArr, iter=50):print('start to train...')dataMat = np.array(dataArr)labelMat = np.array(labelArr)#获取数据矩阵的大小，为m*nm, n = np.shape(dataMat)# w为权重，随机初始化, shape为 784*1# b为偏置，初始化为0# eta为学习率，控制梯度下降速度w = np.random.rand(1, n)b = 0eta = 0.001#进行iter次迭代计算for k in range(iter):# 随机梯度下降for i in range(m):# 当前样本的特征向量，及样本类别xi = dataMat[i].reshape(-1, 1)yi = labelMat[i]#判断是否是误分类样本if -1 * yi * (w @ xi + b) > 0:#对于误分类样本，进行梯度下降，更新w和bw = w + eta * yi * xi.Tb = b + eta * yi#打印训练进度print('Round %d:%d training' % (k, iter))#返回训练完的w、breturn w, bdef model_test(dataArr, labelArr, w, b):print('start to test...')dataMat = np.array(dataArr)labelMat = np.array(labelArr)#获取测试数据集矩阵的大小m, n = np.shape(dataMat)#错误样本数计数errorCnt = 0for i in range(m):# 当前样本的特征向量，及样本类别xi = dataMat[i]yi = labelMat[i]# 运算结果result = -1 * yi * (w * xi.T + b)#如果-yi(w*xi+b)>=0，说明该样本被误分类，错误样本数加一if result >= 0:errorCnt += 1# 计算并返回正确率accruRate = 1 - (errorCnt / m)return accruRateif __name__ == '__main__':start = time.time()trainData, trainLabel = loadData('./mnist/mnist_train.csv')testData, testLabel = loadData('./mnist/mnist_test.csv')#训练获得权重w, b = perceptron(trainData, trainLabel, iter = 30)#进行测试，获得正确率accruRate = model_test(testData, testLabel, w, b)end = time.time()print('accuracy rate is:', accruRate)print('time span:', end - start)

运行结果：

参考

原理：《统计学习方法》
代码： https://github.com/Dod-o/Statistical-Learning-Method_Code