前言


  无论是做分类还是做回归,都主要包括数据、模型、损失函数和优化器四个部分。数据部分在上一篇笔记中已经基本完结,从这篇笔记开始,将学习深度学习模型。全连接网络MLP是最简单、最好理解的神经网络,于是便从这里开始。Pytorch中已经封装好了组成全连接神经网络的主要部件 ,即线性层(全连接层)、非线性激活层与dropout层等,如果模型只是单纯的线性层叠加,最后模型也是线性的,等价于只有一个线性层(把所有权值矩阵先结合相乘,最后只剩一个权值矩阵),而非线性激活层的加入才使得深度有了意义。本笔记的知识框架主要来源于深度之眼,并依此作了内容的丰富拓展,拓展内容主要源自对torch文档的翻译,和自己的粗浅理解,所用数据来源于网络。发现有人在其他平台照搬笔者笔记,不仅不注明出处,有甚者更将其作为收费文章,因此从这篇笔记开始,笔者将在文中任意位置插入识别标志。

  Pytorch线性层简单使用:深度之眼pytorch打卡(四)| 台大李宏毅机器学习 2020作业(一):线性回归,实现多因素作用下的PM2.5预测(Pytorch版手写+nn.Linear())


全连接神经网络


  • 单层感知机

  原先的感知机是一个智能机器,现在的感知机一般是指如下所示的一种模型。它以若干特征作为输入,将每个输入特征与其对应的权值相乘后求和,这非常像一个神经元通过突触加权收集信息。由于线性运算即加法和数乘,这里的操作正是线性运算,所以这个操作被Pytorch封装成为线性层Linear。线性运算常常可以用矩阵乘法高效完成,如式(1)。

  单纯的线性模型连XOR这样的问题都解决不了,更不用说更复杂的分类。在线性层输出的后面加上一个非线性激活函数可以解决XOR问题,并且使得加深网络变得有意义。Pytorch将这个操作封装成了非线性激活层,一个线性层,加一个非线性激活层才算是构成了全连接神经网络的基本单元,此后称该单元为神经元或者节点,如图1所示。权值w和偏置b都是在输入数据中学出来的,因此该模型是自适应模型

图1.单层感知机或全连接神经网络基本单元

  • 浅层全连接网络

  输入层一般不算入层,故如图2所示的是三层全连接网络,包括两个隐藏层和一个输出层。图中的每层包含有若干上述的神经元。所谓全连接,就是某一层的每一个神经元都与前一层的所有神经元相连,并且每一个连接都独占一个权值,模型表达式与式(1)类似,只是表达式是多重的复合函数。容易知道,如果某一层的神经元数为M,而其上一层神经元数为N,则该层的参数有M*N+M个。

图2.浅层神经网络——三层全连接网络

  • 深层全连接网络

  理论上而言,越深的网络有越好的问题拟合能力。但全连接网络无法做太深,因为每个连接都独用一个权值,太深了参数会非常多,容易过拟合,用Drapout可以缓解,用验证集可以监控。输入也不能太多,所以全连接网络输入常常是手工挑选好的或者是卷积神经网络输出的若干个特征,以图像全像素作为输入就常常行不通。以一幅100*100的灰度图像为例,输入就有10000个,若果此时第一层有100个神经元(节点),那么第一层的参数就有10000*100100万个参数,只有一层并且用的图像尺寸还不算大,就有如此庞大的参数,图片更大网络更深的参数量可想而知。深层全连接网络如图2所示。

图3.深层神经网络


线性层——全连接层


CLASS torch.nn.Linear(in_features: int, out_features: int, bias: bool = True)

  Linear类用矩阵乘法的形式实现对所有输入的加权求和,如式(2),由于x出现在权值矩阵左方,如果输入的是一维数据(一个样本),它应该是一个行向量,此时输入尺寸就等于向量长度。


  当输入数据是多维时,真正输入其实也只是一个一维行向量(实际应用中的一个样本,二维图像全像素作为输入时也要拉成一维向量),之所以表现为多维,是因为把多个输入并列计算,以避免循环读,提升效率(即实际应用中常见的多个样本并列组成一个大矩阵作为整体输入)。故输入尺寸in_features依旧只是行向量的尺寸,它才决定神经元个数,在输入数据中表现为最高维的尺寸,如图4中三维张量中dim=2的尺寸4。输出尺寸out_features与输入尺寸遵循一样的法则。

图3.输入尺寸确定

  当输入、输出尺寸给定后,类方法会自动创建权值张量。如果偏置bias=True,还会创建一个长度为out_features的一维偏置张量。参数被默认初始化后服从(-sqrt(k), sqrt(k))上的均匀分布,其中kin_features的倒数。

class Parameter(Tensor):def __init__(self, data: Tensor, requires_grad: builtins.bool): ...

  Linear类继承于Module类,它是Pytorch神经网络模型的最小模块的一种。权值和偏置参数继承于Parameter类,而Parameter又继承于Tensor,所以它们本质都是张量,只是默认了需要梯度。和定义复杂的网络一样,Linear也是__init__方法中定义它的属性参数forward方法中完成运算,即前向传播。看Linear源码,会发现在其forward方法中是直接调用functional中的函数来实现的,如下。

def linear(input, weight, bias=None):if input.dim() == 2 and bias is not None:   # 输入是二维时,用addmm简化计算# fused op is marginally fasterret = torch.addmm(bias, input, weight.t())  # 转置telse:output = input.matmul(weight.t())if bias is not None:output += biasret = outputreturn ret# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
torch.addmm(input, mat1, mat2, *, beta=1, alpha=1, out=None)

  该函数可以完成两个矩阵内积后再加上一个矩阵,正好适合输入数据是二维时加权求和后加上偏置的操作。

  Linear应用代码

import torchdata_in = torch.full((2, 3, 4), 2)
print(data_in)
net = torch.nn.Linear(4, 3, bias=True)  # 类实例化
net.weight.data = torch.tensor([[1, 1, 1, 1],[2, 2, 2, 2],[3, 3, 3, 3]], dtype=torch.float)
net.bias.data = torch.ones((1, 3), dtype=torch.float)data_out = net(data_in) # 使用print(data_out)# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776

  结果分析:

# data_in
tensor([[[2., 2., 2., 2.],[2., 2., 2., 2.],[2., 2., 2., 2.]],[[2., 2., 2., 2.],[2., 2., 2., 2.],[2., 2., 2., 2.]]])# data_out
tensor([[[ 9., 17., 25.],   2*1+2*1+2*1+2*1+1=9[ 9., 17., 25.],   2*2+2*2+2*2+2*2+1=17[ 9., 17., 25.]],  2*3+2*3+2*3+2*3+1=25[[ 9., 17., 25.],[ 9., 17., 25.],[ 9., 17., 25.]]], grad_fn=<AddBackward0>)# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776

非线性激活层——常用非线性激活函数


CLASS torch.nn.Sigmoid

  与Linear一样,Sigmoid也是继承于Module类,是Pytorch神经网络模型的最小模块的一种。它没有其他参数,故该类源码里无__init___方法,只有用于计算的forward方法。sigmoid表达式如式(4)所示,它可以将输入映射到[0-1]之间,符合概率,做逻辑回归时常将其放在模型末尾,让两类的输出符合概率。放在模型中间时,由于它输出均值不为零,会破坏数据零均值的分布。


  导数表达式如式(5),易得其最大值是1/4。前面提到过,深度学习模型其实是一个超级复合函数,而优化时需要逐层求导更新参数。由链式求导法则,反向传播时每经过一个sigmoid就要对其求一次导来作为乘数,以最大值1/4算,每次经过一次sigmoid梯度就要衰减3/4,网络比较深时,可能还没有传到最前端,就把梯度乘到零了,容易导致梯度消失

    x = torch.arange(-10, 10, step=0.1)sigmoid_layer = torch.nn.Sigmoid()    # 类实例化y = sigmoid_layer(x)y1 = y*(1-y)ax1 = plt.subplot(1, 2, 1)ax1.set_title('Sigmoid Function')ax1.plot(x, y)ax2 = plt.subplot(1, 2, 2)ax2.set_title('Sigmoid Derivative')ax2.plot(x, y1)plt.show()# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776

图4.Sigmoid函数及导数

CLASS torch.nn.Tanh

  Tanh也是继承于Module类,波形和Sigmoid非常类似。但是它输出的均值是零,有更好的分布。并且它的导数最大值是1梯度消失的情况比Sigmoid有所改观,但仍然对梯度有衰减,模型很深时依旧很可能梯度消失。双曲正切的函数表达式如式(6)。

  双曲正切导函数的表达式如式(7)。

    tanh_layer = torch.nn.Tanh()y = tanh_layer(x)y1 = 1-y*y

图4.Tanh函数及导数

CLASS torch.nn.ReLU(inplace: bool = False)

  ReLU类继承于Module类,是Pytorch神经网络模型的最小模块的一种。修正线性单元,将负轴强制赋值为零(修正),以直接舍弃负值信息的方式来达到非线性,是最常用的激活函数之一。正轴导数恒为1,不会改变梯度的尺度,可以很大程度上缓解梯度消失,但容易引起梯度爆炸(梯度比较大时,不断相乘,没有衰减,结果nan)。

    ReLU_layer = torch.nn.ReLU()y = ReLU_layer(x)y1 = 0.5*(np.sign(x)+1)# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776

图4.Relu函数及导数

CLASS torch.nn.LeakyReLU(negative_slope: float = 0.01, inplace: bool = False)

  LeakyReLU就是在ReLU的基础上在负半轴加了一个非常小的斜率,是对ReLU的一种改进,通过negative_slope来控制斜率大小,其默认为1e-2。它一定程度上考虑了负值信息,不会像ReLU那样让这些负值输入死掉。由于带有参数,故其源码中有__init__方法。

CLASS torch.nn.PReLU(num_parameters: int = 1, init: float = 0.25)

  PReLU也是在ReLU的基础上,在在负半轴加了斜率a,是对ReLU的一种改进,其中a是可以学习(训练)的参数,init是其初始值,默认0.25PParameter。它一定程度上考虑了负值信息,不会像ReLU那样让这些负值输入死掉。由于带有参数,故其源码中有__init__方法。

  直接plt输出会报如下错误:RuntimeError: Can’t call numpy() on Variable that requires grad. Use var.detach().numpy()instead.,因为a继承于Parameter类,它是默认需要梯度的,这就导致了输出y也是需要梯度的。

CLASS torch.nn.RReLU(lower: float = 0.125, upper: float = 0.3333333333333333, inplace: bool = False)

  RReLU也是在ReLU的基础上,在负半轴加了一个较小的斜率,是对ReLU的一种改进,斜率值在[lower, upper]内等概率随机取值,默认[1/8,1/3]中等概率随机取值,Rrandom。它一定程度上考虑了负值信息,不会像ReLU那样让这些负值输入死掉。由于带有参数,故其源码中有__init__方法。

CLASS torch.nn.ELU(alpha: float = 1.0, inplace: bool = False)

  ELU是在ReLU的基础上,在负半轴加了一个负指数函数,E即代表指数。通过参数a来控制负指数函数的幅值。表达式如式(12)

CLASS torch.nn.Softplus(beta: int = 1, threshold: int = 20)

  SoftplusReLU平滑近似,将输出约束为始终为正,该函数处处导数存在,当beta*input绝对值很大时,函数输出基本接近ReLU。类属性里有一个阈值threshold,表示当beta*input大于该阈值时,恢复成线性函数,应该就是指当beta*input时直接用Relu,用1做导数,以避免Softplus复杂的导数计算。表达式如式(13)。

    x = torch.arange(-10, 10, 0.1)negative_slope = 0.05LeakyReLU_layer = torch.nn.LeakyReLU(negative_slope=negative_slope)PReLU_layer = torch.nn.PReLU()RReLU_layer = torch.nn.RReLU()ELu_layer = torch.nn.ELU()Soft_plus_layer = torch.nn.Softplus()y = LeakyReLU_layer(x)y1 = PReLU_layer(x).detach().numpy()y2 = RReLU_layer(x)y3 = ELu_layer(x)y4 = Soft_plus_layer(x)

图5.Relu函数的一些改进

CLASS torch.nn.Softmax(dim: Optional[int] = None)

  Softmax将输入张量中的元素的值缩放到[0,1]之间,当参数dim=None时,表示该函数输出张量所有元素之和等于1,当dim=n时,则表示该函数输出元素在第n维度上的一组元素的和为1Softmax常用在多元分类中,放在模型的末尾,让各类别的输出之和为1, 符合概率分布, 如图6所示。


图6.softmax函数使用


Dropout层——部分神经元失活


CLASS torch.nn.Dropout(p: float = 0.5, inplace: bool = False)

  迭代过程中以概率p,随机的让某些输入变成0,即失活,默认失活概率为0.5为了保证输入尺度不变 ,其他的元素应缩放至原来的1/(1-p) 如下代码中,p=0.5,故元素有一半概率失活,且剩余元素变为原来的两倍。对于全连接网络而言,每一个输入都“连着”一个权值参数,如果输入变成了0,那就意味着那些参数在这次迭代过程中不起作用,如图7。这样参数就减少了,所以可以在一定程度上缓解过拟合。

import torchdata_in = torch.full((2, 3, 4), 1)net = torch.nn.Linear(4, 3, bias=True)
drop_out = torch.nn.Dropout()
net.weight.data = torch.tensor([[1, 1, 1, 1],[2, 2, 2, 2],[3, 3, 3, 3]], dtype=torch.float)
net.bias.data = torch.ones((1, 3), dtype=torch.float)
data_in = drop_out(data_in)
print(data_in)
data_out = net(data_in)
print(data_out)

  结果:

tensor([[[2., 2., 0., 2.],   # 以概率p随机让某些输入为零,并且按照比例缩放数据[2., 2., 2., 2.],[2., 0., 2., 2.]],[[0., 0., 0., 0.],[0., 0., 2., 0.],[0., 2., 2., 0.]]])
tensor([[[ 7., 13., 19.],[ 9., 17., 25.],[ 7., 13., 19.]],[[ 1.,  1.,  1.],[ 3.,  5.,  7.],[ 5.,  9., 13.]]], grad_fn=<AddBackward0>)

图7.dropout前后比较,一个连接就代表一个权值参数


参考


  https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407?fr=aladdin
  https://baike.baidu.com/item/%E5%8F%8C%E6%9B%B2%E6%AD%A3%E5%88%87/3194837?fromtitle=tanh&fromid=19711736&fr=aladdin

深度之眼Pytorch打卡(十三):Pytorch全连接神经网络部件——线性层、非线性激活层与Dropout层(即全连接层、常用激活函数与失活 )相关推荐

  1. 深度之眼课程打卡-python入门05

    目录 文章目录 目录 前言 内容 一.数据结构介绍 1.Series的创建 2.DataFrame的创建 二.数据索引index 1.通过索引值或索引标签获取数据 2.自动化对齐 三.利用pandas ...

  2. 深度之眼课程打卡-统计学习方法01

    目录 文章目录 目录 前言 绪论 作业打卡 L1和L2范式 ROC曲线 一 roc曲线 二 如何画roc曲线 三 为什么使用Roc和Auc评价分类器 补充 混淆矩阵 参考 前言 为了增加实战经验,选择 ...

  3. 深度学习--TensorFlow(3)线性神经网络(线性输入非线性输入)(实现)

    目录 一.线性神经网络(线性输入) 1.基础理论 2.线性输入代码 奇葩错误: 二.线性神经网络(非线性输入) 0.引言 1.基础理论 三.线性神经网络(非线性输入)实战 1.设置初始参数 2.正向传 ...

  4. 基于PyTorch框架的多层全连接神经网络实现MNIST手写数字分类

    多层全连接神经网络实现MNIST手写数字分类 1 简单的三层全连接神经网络 2 添加激活函数 3 添加批标准化 4 训练网络 5 结论 参考资料 先用PyTorch实现最简单的三层全连接神经网络,然后 ...

  5. 深度学习2---任意结点数的三层全连接神经网络

    上一篇文章:深度学习1-最简单的全连接神经网络 我们完成了一个三层(输入+隐含+输出)且每层都具有两个节点的全连接神经网络的原理分析和代码编写.本篇文章将进一步探讨如何把每层固定的两个节点变成任意个节 ...

  6. 【计算机视觉与深度学习】全连接神经网络(一)

    计算机视觉与深度学习系列博客传送门 [计算机视觉与深度学习]线性分类器(一) [计算机视觉与深度学习]线性分类器(二) 目录 从线性分类器到全连接神经网络 全连接神经网络的权值 全连接神经网络与线性不 ...

  7. 计算机视觉与深度学习-全连接神经网络

    以下内容是自己学习北京邮电大学鲁鹏副教授计算机视觉与深度学习课程(A02)的一些笔记, 笔者能力有限,如有错误还望各位大佬在评论区批评指正 . 先贴一下课程官网:CV-XUEBA 篇3地址:计算机视觉 ...

  8. 深度学习原理-----全连接神经网络

    系列文章目录 深度学习原理-----线性回归+梯度下降法 深度学习原理-----逻辑回归算法 深度学习原理-----全连接神经网络 深度学习原理-----卷积神经网络 深度学习原理-----循环神经网 ...

  9. 全连接神经网络分类器(上)

    全连接神经网络分类器(上) 图像表示 1. 多层感知器 2. 激活函数 小结 3. SOFTMAX与交叉熵 4. 对比交叉熵损失与支撑向量机损失 5. 计算图与反向传播 图像表示 直接使用原始像素作为 ...

最新文章

  1. MySQL 里的 Timestrap 和 DateTime 和 Java 中的 Date
  2. win定时关机_如何将电脑设置为定时关机?
  3. 讲你肯定能懂的机器学习多维极值求解
  4. Ubuntu10下MySQL搭建Amoeba_读写分离
  5. Java中的异常处理:何时抛出异常,何时捕获异常?
  6. netbeans卸载 linux,NetBeans_6.1自己使用。(linux-ubuntu下)
  7. Server Tomcat v6.0 Server at localhost was unable to stat within 45 seconds
  8. js 实现2的n次方计算函数_「计算机组成原理」:一文快速了解计算机原理知识点-附思维导图...
  9. OpenCV OMZ MTCNN人脸检测的实例(附完整代码)
  10. ES6-7 - 箭头函数的实质、箭头函数的使用场景
  11. 晚上我们一起去白码会所玩啊!
  12. linux开启ssh服务,实现ssh远程登录
  13. python抓取网页图片
  14. ThinkPHP5 助手函数
  15. VS C++ 字符大写变换 字符小写变换 tolower toupper
  16. 鸿蒙系统电脑模拟运行,安卓游戏在鸿蒙运行被识别为PC端模拟器,鸿蒙生态依然欠缺!...
  17. 如果能站在巨人的肩膀上
  18. css中关于旋转属性trtransform: rotate影响文字轻微变形的解决办法。
  19. 微信小程序对餐饮行业有哪些影响
  20. 015 四路直流马达控制(麦克纳姆轮)

热门文章

  1. 南卡和声阔真无线降噪耳机哪款更好?南卡和声阔蓝牙耳机测评
  2. vue3.0 + xlsx 实现纯前端生成excel表格
  3. 一个完整项目的流程都涉及哪些内容
  4. 【JSP】EL表达式
  5. 给电脑重装系统后Win11如何重置记事本?
  6. Oracle数据库练习题及答案大全(包含数据库脚本)
  7. centos下ppt转图片
  8. 彩色蟒蛇绘制。对 Python 蟒蛇的每个部分采用不同颜色,绘制一条彩色蟒蛇。
  9. 安装java进度条不动了_提示安装过程出错怎么处理啊?安装offi – 手机爱问
  10. ____x86 xor 指令