【机器学习基础】数学推导+纯Python实现机器学习算法7:神经网络
Python机器学习算法实现
Author:louwill
上一节中笔者和大家了解了感知机的基本原理及其Python实现。本节笔者将在感知机的基础上继续介绍神经网络模型。从上一讲我们知道,感知机是一种线性模型,对于非线性问题很难给出解决方案。
比如咱们熟知的这种异或问题(XOR),就是一种典型的线性不可分问题,普通的感知机很难处理:
(来自周志华 机器学习)
因此,在普通的感知机基础上,我们对感知机结构进行了延申,通过添加隐藏层的方式来使得感知机能够拟合非线性问题。这种包含隐藏层结构的感知机模型就是神经网络,也叫多层感知机(Multilayer Perceptron)。
关于神经网络的众多概念和知识:包括输入层、隐藏层、输出层、激活函数、前向传播、反向传播、梯度下降、权值更新等概念笔者不再赘述。在笔者的另一个系列推文——深度学习60讲中有详细介绍:深度学习第60讲:深度学习笔记系列总结与感悟。
生成数据
本节笔者以一个两层网络,即单隐层网络为例,来看看如何利用numpy实现一个神经网络模型。正式搭建神经网络之前我们先来准备一下数据。定义一个数据生成函数:
def create_dataset():np.random.seed(1)m = 400 # 数据量N = int(m/2) # 每个标签的实例数D = 2 # 数据维度X = np.zeros((m,D)) # 数据矩阵Y = np.zeros((m,1), dtype='uint8') # 标签维度a = 4 for j in range(2):ix = range(N*j,N*(j+1))t = np.linspace(j*3.12,(j+1)*3.12,N) + np.random.randn(N)*0.2 # thetar = a*np.sin(4*t) + np.random.randn(N)*0.2 # radiusX[ix] = np.c_[r*np.sin(t), r*np.cos(t)]Y[ix] = jX = X.TY = Y.Treturn X, Y
数据可视化展示如下:
继续回顾一下搭建一个神经网络的基本思路和步骤:
定义网络结构(指定输出层、隐藏层、输出层的大小)
初始化模型参数
循环操作:执行前向传播/计算损失/执行后向传播/权值更新
定义网络结构
假设X为神经网络的输入特征矩阵,y为标签向量。则含单隐层的神经网络的结构如下所示:
网络结构的函数定义如下:
def layer_sizes(X, Y):n_x = X.shape[0] # 输入层大小n_h = 4 # 隐藏层大小n_y = Y.shape[0] # 输出层大小return (n_x, n_h, n_y)
其中输入层和输出层的大小分别与X和 y的shape有关。而隐层的大小可由我们手动指定。这里我们指定隐层的大小为4。
初始化模型参数
假设W1为输入层到隐层的权重数组、b1为输入层到隐层的偏置数组;W2为隐层到输出层的权重数组,b2为隐层到输出层的偏置数组。于是我们定义参数初始化函数如下:
def initialize_parameters(n_x, n_h, n_y):W1 = np.random.randn(n_h, n_x)*0.01b1 = np.zeros((n_h, 1))W2 = np.random.randn(n_y, n_h)*0.01b2 = np.zeros((n_y, 1)) assert (W1.shape == (n_h, n_x)) assert (b1.shape == (n_h, 1)) assert (W2.shape == (n_y, n_h)) assert (b2.shape == (n_y, 1))parameters = {"W1": W1, "b1": b1, "W2": W2, "b2": b2} return parameters
其中对权值的初始化我们利用了numpy中的生成随机数的模块np.random.randn,偏置的初始化则使用了 np.zeros模块。通过设置一个字典进行封装并返回包含初始化参数之后的结果。
前向传播
在定义好网络结构并初始化参数完成之后,就要开始执行神经网络的训练过程了。而训练的第一步则是执行前向传播计算。假设隐层的激活函数为tanh函数, 输出层的激活函数为sigmoid函数。则前向传播计算表示为:
定义前向传播计算函数为:
def forward_propagation(X, parameters):# 获取各参数初始值W1 = parameters['W1']b1 = parameters['b1']W2 = parameters['W2']b2 = parameters['b2'] # 执行前向计算Z1 = np.dot(W1, X) + b1A1 = np.tanh(Z1)Z2 = np.dot(W2, A1) + b2A2 = sigmoid(Z2) assert(A2.shape == (1, X.shape[1]))cache = {"Z1": Z1, "A1": A1, "Z2": Z2, "A2": A2} return A2, cache
从参数初始化结果字典里取到各自的参数,然后执行一次前向传播计算,将前向传播计算的结果保存到cache这个字典中, 其中A2为经过sigmoid激活函数激活后的输出层的结果。
计算当前训练损失
前向传播计算完成后我们需要确定以当前参数执行计算后的的输出与标签值之间的损失大小。与笔记1一样,损失函数同样选择为交叉熵损失:
定义计算损失函数为:
def compute_cost(A2, Y, parameters):# 训练样本量m = Y.shape[1] # 计算交叉熵损失logprobs = np.multiply(np.log(A2),Y) + np.multiply(np.log(1-A2), 1-Y)cost = -1/m * np.sum(logprobs)# 维度压缩cost = np.squeeze(cost) assert(isinstance(cost, float)) return cost
执行反向传播
当前向传播和当前损失确定之后,就需要继续执行反向传播过程来调整权值了。中间涉及到各个参数的梯度计算,具体如下图所示:
根据上述梯度计算公式定义反向传播函数:
def backward_propagation(parameters, cache, X, Y):m = X.shape[1] # 获取W1和W2W1 = parameters['W1']W2 = parameters['W2'] # 获取A1和A2A1 = cache['A1']A2 = cache['A2'] # 执行反向传播dZ2 = A2-YdW2 = 1/m * np.dot(dZ2, A1.T)db2 = 1/m * np.sum(dZ2, axis=1, keepdims=True)dZ1 = np.dot(W2.T, dZ2)*(1-np.power(A1, 2))dW1 = 1/m * np.dot(dZ1, X.T)db1 = 1/m * np.sum(dZ1, axis=1, keepdims=True)grads = {"dW1": dW1,"db1": db1, "dW2": dW2, "db2": db2} return grads
将各参数的求导计算结果放入字典grad进行返回。
这里需要提一下的是涉及到的关于数值优化方面的知识。在机器学习中,当所学问题有了具体的形式之后,机器学习就会形式化为一个求优化的问题。不论是梯度下降法、随机梯度下降、牛顿法、拟牛顿法,抑或是 Adam 之类的高级的优化算法,这些都需要花时间掌握去掌握其数学原理。
权值更新
迭代计算的最后一步就是根据反向传播的结果来更新权值了,更新公式如下:
由该公式可以定义权值更新函数为:
def update_parameters(parameters, grads, learning_rate=1.2):# 获取参数W1 = parameters['W1']b1 = parameters['b1']W2 = parameters['W2']b2 = parameters['b2'] # 获取梯度dW1 = grads['dW1']db1 = grads['db1']dW2 = grads['dW2']db2 = grads['db2'] # 参数更新W1 -= dW1 * learning_rateb1 -= db1 * learning_rateW2 -= dW2 * learning_rateb2 -= db2 * learning_rateparameters = {"W1": W1, "b1": b1, "W2": W2, "b2": b2} return parameters
这样,前向传播-计算损失-反向传播-权值更新的神经网络训练过程就算部署完成了。当前了,跟之前几讲一样,为了更加pythonic一点,我们也将各个模块组合起来,定义一个神经网络模型:
def nn_model(X, Y, n_h, num_iterations=10000, print_cost=False):np.random.seed(3)n_x = layer_sizes(X, Y)[0]n_y = layer_sizes(X, Y)[2] # 初始化模型参数parameters = initialize_parameters(n_x, n_h, n_y)W1 = parameters['W1']b1 = parameters['b1']W2 = parameters['W2']b2 = parameters['b2'] # 梯度下降和参数更新循环for i in range(0, num_iterations): # 前向传播计算A2, cache = forward_propagation(X, parameters) # 计算当前损失cost = compute_cost(A2, Y, parameters) # 反向传播grads = backward_propagation(parameters, cache, X, Y) # 参数更新parameters = update_parameters(parameters, grads, learning_rate=1.2) # 打印损失if print_cost and i % 1000 == 0: print ("Cost after iteration %i: %f" %(i, cost)) return parameters
模型主体完成之后也可以再定义一个基于训练结果的预测函数:
def predict(parameters, X): A2, cache = forward_propagation(X, parameters)predictions = (A2>0.5)return predictions
下面我们便基于之前生成的数据来测试一下模型:
parameters = nn_model(X, Y, n_h = 4, num_iterations=10000, print_cost=True)
经过9000次迭代后损失下降到了0.21。我们再来看一下测试预测准确率:
# 预测准确率
predictions = predict(parameters, X)
print ('Accuracy: %d' % float((np.dot(Y,predictions.T) + np.dot(1-Y,1-predictions.T))/float(Y.size)*100) + '%')
测试准确率达到0.9。
绘制神经网络的决策边界效果如下:
以上便是本节的主要内容,利用numpy手动搭建一个单隐层的神经网路。本例来自于Andrew NG deeplearningai深度学习系列课程第一门课的assignment3,感兴趣的朋友可查找相关资料进行学习。完整代码文件和数据可参考我的GitHub地址:
https://github.com/luwill/machine-learning-code-writing
参考资料:
https://www.deeplearning.ai/
往期精彩:
数学推导+纯Python实现机器学习算法6:感知机
数学推导+纯Python实现机器学习算法5:决策树之CART算法
数学推导+纯Python实现机器学习算法4:决策树之ID3算法
数学推导+纯Python实现机器学习算法3:k近邻
数学推导+纯Python实现机器学习算法2:逻辑回归
数学推导+纯Python实现机器学习算法1:线性回归
往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群请扫码进群:
【机器学习基础】数学推导+纯Python实现机器学习算法7:神经网络相关推荐
- 【机器学习基础】数学推导+纯Python实现机器学习算法30:系列总结与感悟
Python机器学习算法实现 Author:louwill Machine Learning Lab 终于到了最后的总结.从第一篇线性回归的文章开始到现在,已经接近有两年的时间了.当然,也不是纯写这3 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法24:HMM隐马尔可夫模型
Python机器学习算法实现 Author:louwill Machine Learning Lab HMM(Hidden Markov Model)也就是隐马尔可夫模型,是一种由隐藏的马尔可夫链随机 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法28:CRF条件随机场
Python机器学习算法实现 Author:louwill Machine Learning Lab 本文我们来看一下条件随机场(Conditional Random Field,CRF)模型.作为概 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法27:EM算法
Python机器学习算法实现 Author:louwill Machine Learning Lab 从本篇开始,整个机器学习系列还剩下最后三篇涉及导概率模型的文章,分别是EM算法.CRF条件随机场和 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法26:随机森林
Python机器学习算法实现 Author:louwill Machine Learning Lab 自从第14篇文章结束,所有的单模型基本就讲完了.而后我们进入了集成学习的系列,整整花了5篇文章的篇 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法25:CatBoost
Python机器学习算法实现 Author:louwill Machine Learning Lab 本文介绍GBDT系列的最后一个强大的工程实现模型--CatBoost.CatBoost与XGBoo ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法24:LightGBM
Python机器学习算法实现 Author:louwill Machine Learning Lab 第17讲我们谈到了竞赛大杀器XGBoost,本篇我们来看一种比XGBoost还要犀利的Boosti ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法23:kmeans聚类
Python机器学习算法实现 Author:louwill Machine Learning Lab 聚类分析(Cluster Analysis)是一类经典的无监督学习算法.在给定样本的情况下,聚类分 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法22:最大熵模型
Python机器学习算法实现 Author:louwill Machine Learning Lab 最大熵原理(Maximum Entropy Principle)是一种基于信息熵理论的一般原理,在 ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法21:马尔可夫链蒙特卡洛...
Python机器学习算法实现 Author:louwill Machine Learning Lab 蒙特卡洛(Monte Carlo,MC)方法作为一种统计模拟和近似计算方法,是一种通过对概率模型随 ...
最新文章
- whireshark过滤器学习与使用
- Netty 实战:如何编写一个麻小俱全的 web 容器
- 使用delphi 开发多层应用(十二)使用kbmMW webserver 返回JSON
- python自媒体创作_做自媒体该做什么领域?
- ITK:相同类型的多个输入
- svr公式推导_ML-支持向量:SVM、SVC、SVR、SMO原理推导及实现
- js实现审批流_小程序瀑布流组件:支持翻页与图片懒加载
- 并行编译 Xoreax IncrediBuild
- node.js + express服务端,客户端请求图片,在浏览器出现乱码解决方案
- Python图像的基本操作
- Linux安装Tab键补全功能
- 使用Python(OCR)收集体温打卡截图,并自动发消息提醒没交的人。
- LEDE 源码下载与编译
- btc、usdt 根据交易hash计算手续费
- 卧龙图甄选 | 惊蛰来到,万物复苏,春天的气息扑面而来
- tiktok 手机验证_TikTok经过验证的硅谷正在创新
- 从零开始入门 K8s | Kubernetes API 编程利器:Operator 和 Operat
- 高级性能测试系列《13.察看结果树中的显示顺序、 响应的提取--json提取器》
- 第4套 从零到商业实战篇 斗战神篇
- python二级第三方库汇总