BP神经网络由一层输入层、任意隐层(一般为1)、一层输出层组成。假定输入向量为n维向量,即输入神经元数量为n,隐层的层数为num,每一层隐层的神经元数量为eachCount,输出向量为yCount维向量,即输出神经元的数量为yCount,则BP算法要训练的参数有:

1.输入层到第一层隐层的n * eachCount个连接权值以及eachCount个阈值;

2.隐层与隐层之间的(num - 1) * eachCount * eachCount个连接权值以及(num -1) * eachCount个阈值;

3.最后一层隐层到输出层的eachCount * yCount个连接权值以及输出层的yCount个阈值。

其中,阈值可看作一个固定输入为-1.0的“哑结点”,因此权重和阈值的学习可以统一为权重的学习。

BP算法包括标注BP算法以及累积BP算法,前者每次更新只针对单个样例,参数更新得非常频繁,而且对不同样例进行更新的效果可能出现“抵消”现象。而累积BP算法直接针对累积误差最小化,它正在读取整个训练集D一遍后才对参数进行更新,其参数更新的频率低得多。这里我们使用Python来实现标准BP算法。

神经元使用Sigmoid函数作为激活函数,其公式为:

实现代码为:

def sigmoid(inX):return 1.0/(1+exp(-inX))

然后给出标准BP算法的Python实现,引用了numpy库进行矩阵计算,python版本为2.7,注释很详细:

'''
标准bp算法
每次更新都只针对单个样例,参数更新得很频繁s
dataSet 训练数据集
labels 训练数据集对应的标签
标签采用one-hot编码(一位有效编码),例如类别0对应标签为[1,0],类别1对应标签为[0,1]
alpha 学习率
num 隐层数,默认为1层
eachCount 每一层隐层的神经元数目
repeat 最大迭代次数
算法终止条件:达到最大迭代次数或者相邻一百次迭代的累计误差的差值不超过0.001
'''
def bp(dataSet, labels, alpha = 0.01, num = 1, eachCount = 10, repeat = 500):dataSet = mat(dataSet)m,n = shape(dataSet)if len(labels) == 0:print 'no train data! 'returnyCount = shape(labels[0])[1]     # 输出神经元的数目firstWMat = mat(random.sample((n + 1, eachCount)))   # 输入层到第一层隐层的w值和阈值,每列第一个为阈值hideWArr = random.sample((num - 1, eachCount + 1, eachCount))  # 隐藏间的w值和阈值,每列第一个为阈值lastWMat = mat(random.sample((eachCount + 1, yCount)))  # 最后一个隐层到输出神经元的w值和阈值,每列第一个为阈值hideInputs = mat(zeros((num, eachCount)))  # 隐层的输入hideOutputs = mat(zeros((num, eachCount + 1)))    # 隐层的输出hideOutputs[:, 0] = -1.0    # 初始化隐层输出的每列第一个值为-1,即下一层功能神经元的阈值对应的输入恒为-1hideEh = mat(zeros((num, eachCount)))     # 隐层的梯度项yInputs = mat(zeros((1, yCount)))   # 输出层的输入i = 0   # 迭代次数old_ey = 0  # 前一次迭代的累积误差sn = 0 # 相邻迭代的累计误差的差值不超过0.001的次数while i < repeat:for r in range(len(dataSet)):line = dataSet[r]# 根据输入样本计算隐层的输入和输出xMat = mat(insert(line, 0, values=-1.0, axis=1))hideInputs[0, :] = xMat * firstWMathideOutputs[0, 1:] = sigmoid(hideInputs[0, :])for j in range(1, len(hideInputs)):hideInputs[j, :] = hideOutputs[j - 1, :] * mat(hideWArr[j - 1, :, :])hideOutputs[j, 1:] = sigmoid(hideInputs[j, :])# 根据与输出层连接的隐层的输出值计算输出层神经元的输入yInputs[0, :] = hideOutputs[len(hideInputs) - 1, :] * lastWMat# 计算近似输出yHead = sigmoid(yInputs)# 获取真实类别yReal = labels[r]# 计算输出层神经元的梯度项gj = array(yHead) * array(1 - yHead) * array((yReal - yHead))#计算隐层的梯度项lastSumWGj = lastWMat[1:, :] * mat(gj).TbMb = multiply(hideOutputs[num - 1, 1:], 1 - hideOutputs[num - 1, 1:])hideEh[num - 1, :] = multiply(bMb, lastSumWGj.T)for q in range(num - 1):index = num - 2 - qhideSumWEh = mat(hideWArr[index])[1:, :] * hideEh[index + 1].TbMb = multiply(hideOutputs[index, 1:], 1 - hideOutputs[index, 1:])hideEh[index, :] = multiply(bMb, hideSumWEh.T)# 更新各层神经元的连接权和阈值lastWMat[:,:] = lastWMat[:,:] + alpha * hideOutputs[num - 1].T * mat(gj)firstWMat[:,:] = firstWMat[:,:] + alpha * xMat[0, :].T * mat(hideEh[0, :])for p in range(num - 1):hideWArrMat = mat(hideWArr[p])hideWArrMat[:, :] = hideWArrMat[:, :] + alpha * hideOutputs[p].T * mat(hideEh[p + 1, :])hideWArr[p] = array(hideWArrMat)print 'repeat: %d' % i# 计算迭代累积误差ey = (yHead - yReal) * (yHead - yReal).T# 判断是否达到迭代终止条件if abs(ey - old_ey) < 0.001:sn = sn + 1old_ey = eyif sn >= 100:breakelse:sn = 0old_ey = eyi = i + 1return firstWMat, hideWArr,lastWMat, old_ey

获取到了训练参数后,我们就可以使用以下代码对输入向量进行类别预测:

'''
获取y的近似输出
'''
def getYHead(inX, yCount, firstWMat, hideWArr, lastWMat):num = len(hideWArr) + 1 # 隐层数目eachCount = shape(hideWArr)[2] # 每一层隐层的神经元数目hideInputs = mat(zeros((num, eachCount)))  # 隐层的输入hideOutputs = mat(zeros((num, eachCount + 1)))  # 隐层的输出hideOutputs[:, 0] = -1.0 ## 初始化隐层输出的每列第一个值为-1,即下一层功能神经元的阈值对应的输入恒为-1yInputs = mat(zeros((1, yCount)))  # 输出层的输入# 计算隐层的输入xMat = mat(insert(inX, 0, values=-1.0, axis=1))hideInputs[0, :] = xMat * firstWMathideOutputs[0, 1:] = sigmoid(hideInputs[0, :])for j in range(1, len(hideInputs)):hideInputs[j, :] = hideOutputs[j - 1, :] * mat(hideWArr[j - 1, :, :])hideOutputs[j, 1:] = sigmoid(hideInputs[j, :])# 计算输出层的输入yInputs[0, :] = hideOutputs[len(hideInputs) - 1, :] * lastWMat# 计算近似输出yHead = sigmoid(yInputs)return yHead

需要注意的是,不管是训练数据中的类别数据,还是上面的分类函数给出的分类结果,采用的都是one-hot(一位有效)编码,例如对于手写识别系统,如果分类结果是10,则输出的类别会是一个10维的向量,每一维代表了类别为对应下标的概率大小。因为这里被没有对其进行正则化处理,因此总和不一定为1.0.

下面使用一份《机器学习与实战》图书逻辑回归一章附带的一份数据集来对上述分类算法进行训练和测试,数据集如下:

-0.017612    14.053064   0
-1.395634   4.662541    1
-0.752157   6.538620    0
-1.322371   7.152853    0
0.423363    11.054677   0
0.406704    7.067335    1
0.667394    12.741452   0
-2.460150   6.866805    1
0.569411    9.548755    0
-0.026632   10.427743   0
0.850433    6.920334    1
1.347183    13.175500   0
1.176813    3.167020    1
-1.781871   9.097953    0
-0.566606   5.749003    1
0.931635    1.589505    1
-0.024205   6.151823    1
-0.036453   2.690988    1
-0.196949   0.444165    1
1.014459    5.754399    1
1.985298    3.230619    1
-1.693453   -0.557540   1
-0.576525   11.778922   0
-0.346811   -1.678730   1
-2.124484   2.672471    1
1.217916    9.597015    0
-0.733928   9.098687    0
-3.642001   -1.618087   1
0.315985    3.523953    1
1.416614    9.619232    0
-0.386323   3.989286    1
0.556921    8.294984    1
1.224863    11.587360   0
-1.347803   -2.406051   1
1.196604    4.951851    1
0.275221    9.543647    0
0.470575    9.332488    0
-1.889567   9.542662    0
-1.527893   12.150579   0
-1.185247   11.309318   0
-0.445678   3.297303    1
1.042222    6.105155    1
-0.618787   10.320986   0
1.152083    0.548467    1
0.828534    2.676045    1
-1.237728   10.549033   0
-0.683565   -2.166125   1
0.229456    5.921938    1
-0.959885   11.555336   0
0.492911    10.993324   0
0.184992    8.721488    0
-0.355715   10.325976   0
-0.397822   8.058397    0
0.824839    13.730343   0
1.507278    5.027866    1
0.099671    6.835839    1
-0.344008   10.717485   0
1.785928    7.718645    1
-0.918801   11.560217   0
-0.364009   4.747300    1
-0.841722   4.119083    1
0.490426    1.960539    1
-0.007194   9.075792    0
0.356107    12.447863   0
0.342578    12.281162   0
-0.810823   -1.466018   1
2.530777    6.476801    1
1.296683    11.607559   0
0.475487    12.040035   0
-0.783277   11.009725   0
0.074798    11.023650   0
-1.337472   0.468339    1
-0.102781   13.763651   0
-0.147324   2.874846    1
0.518389    9.887035    0
1.015399    7.571882    0
-1.658086   -0.027255   1
1.319944    2.171228    1
2.056216    5.019981    1
-0.851633   4.375691    1
-1.510047   6.061992    0
-1.076637   -3.181888   1
1.821096    10.283990   0
3.010150    8.401766    1
-1.099458   1.688274    1
-0.834872   -1.733869   1
-0.846637   3.849075    1
1.400102    12.628781   0
1.752842    5.468166    1
0.078557    0.059736    1
0.089392    -0.715300   1
1.825662    12.693808   0
0.197445    9.744638    0
0.126117    0.922311    1
-0.679797   1.220530    1
0.677983    2.556666    1
0.761349    10.693862   0
-2.168791   0.143632    1
1.388610    9.341997    0
0.317029    14.739025   0

这是一个二分类问题,包含了100个样本,每个样本包含两个特征的取值以及一个类别标签。

以下代码将从文本文件中读取上述数据集并转化为我们所需的格式:

def loadDataSet(fileName):dataMat = []labelMat = []with open(fileName, 'r') as fr:for line in fr.readlines():lineArr = line.strip().split()dataMat.append([float(lineArr[0]), float(lineArr[1])])if int(lineArr[2]) == 0:labelMat.append([1.0, 0.0])else:labelMat.append([0.0, 1.0])return mat(dataMat), mat(labelMat)

训练和测试的代码为:

def test():dataSet, labels = loadDataSet('testSet.txt')firstWMat, hideWArr, lastWMat,ey = bp(dataSet, labels)labelsHead = []for line in dataSet:yHead = getYHead(line, 2, firstWMat, hideWArr, lastWMat)labelsHead.append(yHead)errorCount = 0for i in range(len(labels)):if labels[i, 0] == 1:yReal = 0else:yReal = 1if labelsHead[i][0, 0] > labelsHead[i][0, 1]:yEs = 0else:yEs = 1if yReal != yEs:print 'error when test: [%f, %f], real: %d, error: %d' %(dataSet[i][0, 0], dataSet[i][0, 1], yReal, yEs)errorCount = errorCount + 1print 'error rate: %f' %(float(errorCount) /  len(dataSet))return labelsHead

为了简单,以上代码把同一份数据集既当作了训练数据,也当作了测试数据,最后的正确率大概在97%。

根据《机器学习》(周志华)第五章内容,用Python实现标准BP算法相关推荐

  1. 机器学习(周志华) 参考答案 第十四章 概率图模型 14.9

    机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华) 参考答案 第十四章 ...

  2. 机器学习 周志华 第一章课后习题

    机器学习 周志华 第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...

  3. 机器学习 -- 《机器学习》(周志华) 第三章

    机器学习 – <机器学习>(周志华) 第三章 笔记 文章目录 机器学习 -- <机器学习>(周志华) 第三章 笔记 注 常用数学符号 正交回归 点距离线的距离是正交回归 线性回 ...

  4. 小吴的《机器学习 周志华》学习笔记 第二章 模型评估与选择

    小吴的<机器学习 周志华>学习笔记 第二章 模型评估与选择 上一周我们介绍了第一章的基础概念,这一次将带来第二章的前三节.后面的2.4 比较检验与2.5 偏差与方差,涉及概率论与数理统计概 ...

  5. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  6. 小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、2.5 偏差与方差

    小吴的<机器学习 周志华>学习笔记 第二章 2.4 比较检验. 2.5 偏差与方差 2.4 比较检验 上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习 ...

  7. 机器学习 周志华 课后习题3.5 线性判别分析LDA

    机器学习 周志华 课后习题3.5 线性判别分析LDA 照着书上敲了敲啥都不会,雀食折磨 python代码 # coding=UTF-8 from numpy import * # 我安装numpy的时 ...

  8. 机器学习(周志华) 习题 参考答案 第十三章

    周志华老师的<机器学习>的第13章的习题答案较少,只找到了三篇,分别为链接一和链接二,这两篇文章有几乎所有题目的个人解答.第三个人只对部分题目进行了解答,相关链接将放在题目下方. 以下是个 ...

  9. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

最新文章

  1. CPU Cache原理与示例
  2. Oracle 正则表达式
  3. linux top命令查看内存及多核CPU的使用讲述【转】
  4. webStorm 注册码
  5. SharePoint 2010 BI(2):使用Visio“.NET研究” Service
  6. 一文探讨 RPC 框架中的服务线程隔离
  7. openlayers入门开发系列之地图属性查询篇
  8. Go 超时引发大量 fin-wait2
  9. OCPC 广告算法在凤凰新媒体的实践探索
  10. 只会写代码的程序员永远无法出色?!
  11. C++ ini 文件处理类-简易版
  12. html如何在屏幕中显示加载,在HTML5应用中加载屏幕
  13. 利用OpenFileDialog 获取图片存储到数据库中
  14. 汇编语言实模式到保护模式的思考
  15. webfigure显示到网页上所踩过的坑--自写servlet
  16. TCP数据报结构以及三次握手(图解)
  17. Android车载蓝牙相关开发3:蓝牙音频接收器BluetoothA2dpSink
  18. php源码比赛,TSRC挑战赛: PHP防御绕过挑战实录
  19. 身份证OCR识别接口的优点
  20. linux需要看门狗喂狗程序,多任务看门狗, 喂狗方法

热门文章

  1. python写情书_Python程序员用文字加密的方式,给女程序员写情书,一周后牵手回家_TONOW...
  2. 递归方法 求4的阶乘
  3. 职业技能培训 | 2022年大数据工程技术人员特训营开班啦!
  4. 输出一个贷款的迁徙率计算的代码
  5. 2018南京大学计算机夏令营机试
  6. MIR7/MIRO 贷项凭证/事后借记/后续贷记
  7. 什么是BFC,BFC解决哪些问题
  8. html用字符转换成表情,HTML表情符号
  9. masonry Unable to simultaneously satisfy constraints. Probably at least one of the c
  10. Centos 7.0 安装Mono 3.4 和 Jexus 5.6