文章目录

  • 1、准备工作
    • (1) 导入必要的库:
    • (2) 数据准备
  • 2、实现主要的函数
    • (1) `Logistic function`
    • (2) `Forward`函数
    • (3) 损失函数
    • (4) `mse_loss`
  • 3、训练模型
  • 4、模型评估
  • 5、训练结果可视化
  • 6、小结

1、准备工作

(1) 导入必要的库:

  • numpy - 用于基本的数据操作
  • scipy.optimize 中导入 minimize函数,用于训练模型
  • matplotlib 用于数据可视化
import numpy as np
from scipy.optimize import minimize
import matplotlib.pyplot as plt

(2) 数据准备

首先需要设置的参数:

  • N– 样本个数
  • d– 输入样本的维度
  • num_hidden --隐函层的个数
N,d,num_hidden = 100,1,20

接着生成数据:

  • x– 区间 [−10,10][-10,10][−10,10] 上取 N 个点,这里我们的 N=100。另外将其设为列向量,即x.shape=(N,1)
  • y_true– Mexican Hat 函数
    y=sin⁡xxy=\frac{\sin x}{x} y=xsinx​
  • y– Mexican Hat函数的样本点,这里我们使用了 [−0.05,0.05][-0.05,0.05][−0.05,0.05] 上的噪声

数据生成完成后出图看一下样子:


x = np.linspace(-10,10,N).reshape(-1,1)
y_true = np.sin(x)/x
y = np.sin(x)/x + (np.random.rand(N,1)*0.1-0.05)plt.plot(x,y,'-b')
plt.plot(x,y,'oy')
plt.show()

2、实现主要的函数

(1) Logistic function

这里我们采用 Logistic function 作为激活函数,定义为:
y=11+e−xy = \frac{1}{1+\mathrm{e}^{-x}} y=1+e−x1​

(2) Forward函数

这里我们采用简单的三层神经网络,因此前馈函数的公式为:

Y^=(wℓ×1(2))Tf((wℓ×d(1))Txd×N(2)+b(1))+b(2)\hat{Y}=\left(\boldsymbol{w}_{\ell \times 1}^{(2)}\right)^{T} f\left(\left(\boldsymbol{w}_{\ell \times d}^{(1)}\right)^{T} \boldsymbol{x}_{d \times N}^{(2)}+\boldsymbol{b}^{(1)}\right)+b^{(2)} Y^=(wℓ×1(2)​)Tf((wℓ×d(1)​)Txd×N(2)​+b(1))+b(2)

这里需要特别说明一下,由于scipy.optimize只能优化第一个 positional argument,因此不能将每层的参数分开传给loss。这里我们为了方便,就在把所有参数放在一个向量 θ\boldsymbol{\theta}θ 中,并且在forward函数中拆取各层参数。

(3) 损失函数

这里直接采用 MSE作为损失函数:

MSE=1N∥Y−Y^∥2MSE = \frac{1}{N} \|Y-\hat{Y}\|^2 MSE=N1​∥Y−Y^∥2

(4) mse_loss

这个函数有那么一点多余,不过在后面计算loss时会比较方便。

def logi_func(x):return 1/(1+np.exp(-x))def forward(x,theta,d,num_hidden):w1 = theta[:d*num_hidden].reshape(d,num_hidden)w2 = theta[d*num_hidden:d*num_hidden+num_hidden].reshape(num_hidden,1)b1 = theta[d*num_hidden+num_hidden:-1].reshape(num_hidden,1)b2 = theta[-1]return logi_func(x.dot(w1)+b1.T).dot(w2)+b2def nn_loss(theta,x,y,d,num_hidden):return ((forward(x,theta,d,num_hidden)-y)**2).mean()def mse_loss(y,y_pred):return ((y-y_pred)**2).mean()

写完之后简单测试一下,没有什么问题:

theta = np.random.rand(d*num_hidden+num_hidden + num_hidden+1)forward(x, theta, d, num_hidden)
print(nn_loss(theta,x,y,d,num_hidden))
32.92328775623846

3、训练模型

minimize函数的使用非常简单,第一个参数为loss函数名,第二个参数为网络参数的初始值,第三个参数argsloss中第一个参数之外的所有参数组成的tuple

minize这个函数默认的优化方法为BFGS,这个算法具有很好的收敛性,不过直接用于神经网络的训练时速度稍慢一点。

本次实验在 MacBook Pro (m1) 上进行,运行时间3.7s,可见比梯度下降要慢很多(通常应该比简单梯度精度要多,但在loss上体现并不见得明显)。

res = minimize(nn_loss, theta, args=(x, y, d, num_hidden))

返回值res是优化结果的集合,其中参数的最优值在 res.x中,因此将该参数传给forward即可算出拟合值。

y_pred = forward(x,res.x,d,num_hidden)

4、模型评估

MSE值为 0.00055,可见训练效果还是不错的:

print(mse_loss(y,y_pred))
0.000552170732918358

5、训练结果可视化

这里直接使用matploblib即可,用三种线型分别表示:函数真实值、样本值、模型拟合值。

可以看到拟合效果是很不错的。

plt.plot(x,y,'oy')
plt.plot(x, y_true, '-r')
plt.plot(x,y_pred,'-b')plt.legend(['y_samples', 'y_true', 'y_pred'])
plt.show()

为了进一步验证模型的泛化性能,我们在 [−5,5][-5,5][−5,5] 随机采100个点,再看一下模型的预测效果。

可以看到在中间这一段的 MSE 仅有0.00033,可见这种单层神经网络在函数拟合问题上的泛化性能还是很不错的(注意到这里我们只用了20个隐含层节点)。

x_test = np.sort(np.random.rand(100,1)*10-5,axis=0)
y_test_true = np.sin(x_test)/x_test
y_test_pred = forward(x_test, res.x, d, num_hidden)plt.plot(x_test, y_test_true, 'oy')
plt.plot(x_test, y_test_pred, '-b')plt.legend(['y_test_true', 'y_test_pred'])
plt.title('mse={0}'.format(mse_loss(y_test_true,y_test_pred)))
plt.show()

6、小结

  • scipy.optimize.minimize 完全可以实现简单的神经网络
  • 本文构造的网络仅有20个隐含层,但拟合效果和泛化性能均较好,可见单隐含层神经网络在函数拟合上具有较好的性能
  • 实现细节的关键在于灵活调用miminize函数,尤其是对loss的传参
  • 本文在实现forward时对参数的重构方式有点麻烦,其实还可以更为简便,读者可自行思考完成
  • 本文使用的算法效率并不高,可见针对具体的训练问题仍需重视算法的选择

使用scipy实现简单神经网络相关推荐

  1. MNIST数据集合在PaddlePaddle环境下使用简单神经网络识别效果

    简 介: 通过PaddlePaddle构造的简单神经网络对于MNIST数据库进行实验,可以看到使用普通的稠密网络,便可以达到很高的识别效果.训练结果存在一定的随机性.这取决于训练其实的条件.由于在Pa ...

  2. tensorflow3 非线性回归、mnist、简单神经网络

    mnist数据集 手写数字的数据集. 60000行训练数据集,10000行测试数据集 下载地址:http://yann.lecun.com/exdb/mnist/index.html mnist数据集 ...

  3. python神经网络实例_Python编程实现的简单神经网络算法示例

    本文实例讲述了Python编程实现的简单神经网络算法.分享给大家供大家参考,具体如下: python实现二层神经网络 包括输入层和输出层 # -*- coding:utf-8 -*- #! pytho ...

  4. PyTorch入门(二)--实现简单神经网络

    实现简单神经网络 1. 神经网络基本介绍 2. Autograd包 3. 实现神经网络 3.1 定义神经网络与训练流程 3.2 运行神经网络与计算损失 3.3 反向传递与权值更新 3.4 神经网络中损 ...

  5. Python手撸机器学习系列(十五):简单神经网络

    目录 神经网络 1.简单算法推导 2.简单代码实现 3.矩阵形式优化 4.矩阵形式代码实现 神经网络 1.简单算法推导 搭建一个将二维平面坐标点分开的简单神经网络,输入维度为2*1(特征为2),神经网 ...

  6. 【深度学习】Numpy实现简单神经网络

    原文地址:点击访问 许久未更,是因为开学之后学习任务太充实了.每天都有做不完的事情,每件事情都又想把它做好. 我航中秋国庆假期长达8天,真应了那句话:该放的假一天不少,该补的课一次没有.期间,有多门作 ...

  7. 莫烦Python--Tensorflow(5):简单神经网络

    构建简单神经网络 import tensorflow as tf import numpy as np# creat data x_data = np.random.rand(100).astype( ...

  8. 【AI】利用简单神经网络做动作识别——基于coco关键点

    前言 coco数据集包含了关键点检测,如果想利用提取到的这些关键点做行为识别,该怎么办呢?下文主要通过搭建一个简单神经网络(多层感知机)来做关键点的分类. 任务:假如需要对打电话和玩手机的动作做分类. ...

  9. 30行代码就可以实现看图识字!python使用tensorflow.keras搭建简单神经网络

    文章目录 搭建过程 1. 引入必需的库 2. 引入数据集 3. 搭建神经网络层 4. 编译神经网络模型 5. 训练模型 效果测试 大概几个月前,神经网络.人工智能等概念在我心里仍高不可攀,直到自己亲身 ...

最新文章

  1. 配置 腾讯云 SSL 证书 SSL证书实现https,环境:phpStudy下Apache环境
  2. IntelliJ IDEA :Error:(1, 1) java: 非法字符: '\ufeff'
  3. cosbench 安装
  4. CONTEST1001 题解
  5. Markdown 五分钟速成
  6. OpenBSD如何挂载USB闪存盘
  7. 【 CodeForces - 864B】Polycarp and Letters(水题,字符串,有坑)
  8. java正则匹配非html字符串_java正则表达式去除html中所有的标签和特殊HTML字符(以开头的)...
  9. java c语言 for_Java能写C语言编译器吗
  10. mysql 命令备份恢复,binlog日志, percona工具备份恢复
  11. 使用Redux-Saga进行异步操作
  12. 学习笔记--asp.net主题和外观(转自msdn,仅为自己学习存储和有意读者使用)
  13. jquery常用事件——幕布
  14. oracle 加号 用法,Oracle的加号(+)表示法和ansi JOIN符号之间的区别?
  15. 关闭SSMS的事务自动提交,改为手动提交
  16. java-用for循环打印大写字母(部分简单大写字母)
  17. 【程序员如何买基金 序】基金学习地图
  18. PMP-7. 项目经理及其影响力
  19. 9行代码用python制作迷宫gif动画
  20. Go 内存管理与垃圾回收

热门文章

  1. 计算机网络期中考察方案,计算机网络期中考试题 b卷_ans.docx
  2. tcp out of order解决_分布式集群解决方案 学习笔记
  3. Java虚拟机详解(八)------虚拟机监控和分析工具(2)——可视化
  4. jQuery 操作大全
  5. Luogu P1607 庙会班车【线段树】By cellur925
  6. nginx限制ip,只允许域名访问
  7. GitLab 502问题的解决
  8. mac显示/隐藏文件
  9. 【转】数据库的乐观锁和悲观锁
  10. window下Nodejs的部署