深度之眼Pytorch打卡(十三):Pytorch全连接神经网络部件——线性层、非线性激活层与Dropout层(即全连接层、常用激活函数与失活 )
前言
无论是做分类还是做回归,都主要包括数据、模型、损失函数和优化器四个部分。数据部分在上一篇笔记中已经基本完结,从这篇笔记开始,将学习深度学习模型。全连接网络MLP是最简单、最好理解的神经网络,于是便从这里开始。Pytorch中已经封装好了组成全连接神经网络的主要部件 ,即线性层(全连接层)、非线性激活层与dropout层等,如果模型只是单纯的线性层叠加,最后模型也是线性的,等价于只有一个线性层(把所有权值矩阵先结合相乘,最后只剩一个权值矩阵),而非线性激活层的加入才使得深度有了意义。本笔记的知识框架主要来源于深度之眼,并依此作了内容的丰富拓展,拓展内容主要源自对torch文档的翻译,和自己的粗浅理解,所用数据来源于网络。发现有人在其他平台照搬笔者笔记,不仅不注明出处,有甚者更将其作为收费文章,因此从这篇笔记开始,笔者将在文中任意位置插入识别标志。
Pytorch线性层简单使用:深度之眼pytorch打卡(四)| 台大李宏毅机器学习 2020作业(一):线性回归,实现多因素作用下的PM2.5预测(Pytorch版手写+nn.Linear())
全连接神经网络
单层感知机
原先的感知机是一个智能机器,现在的感知机一般是指如下所示的一种模型。它以若干特征作为输入,将每个输入特征与其对应的权值相乘后求和,这非常像一个神经元通过突触加权收集信息。由于线性运算即加法和数乘,这里的操作正是线性运算,所以这个操作被Pytorch
封装成为线性层Linear
。线性运算常常可以用矩阵乘法高效完成,如式(1)。
单纯的线性模型连XOR
这样的问题都解决不了,更不用说更复杂的分类。在线性层输出的后面加上一个非线性激活函数可以解决XOR
问题,并且使得加深网络变得有意义。Pytorch将这个操作封装成了非线性激活层,一个线性层,加一个非线性激活层才算是构成了全连接神经网络的基本单元,此后称该单元为神经元或者节点,如图1所示。权值w和偏置b都是在输入数据中学出来的,因此该模型是自适应模型。
图1.单层感知机或全连接神经网络基本单元
浅层全连接网络
输入层一般不算入层,故如图2所示的是三层全连接网络,包括两个隐藏层和一个输出层。图中的每层包含有若干上述的神经元。所谓全连接,就是某一层的每一个神经元都与前一层的所有神经元相连,并且每一个连接都独占一个权值,模型表达式与式(1)类似,只是表达式是多重的复合函数。容易知道,如果某一层的神经元数为M
,而其上一层神经元数为N
,则该层的参数有M*N+M
个。
图2.浅层神经网络——三层全连接网络
深层全连接网络
理论上而言,越深的网络有越好的问题拟合能力。但全连接网络无法做太深,因为每个连接都独用一个权值,太深了参数会非常多,容易过拟合,用Drapout
可以缓解,用验证集可以监控。输入也不能太多,所以全连接网络输入常常是手工挑选好的或者是卷积神经网络输出的若干个特征,以图像全像素作为输入就常常行不通。以一幅100*100
的灰度图像为例,输入就有10000
个,若果此时第一层有100
个神经元(节点),那么第一层的参数就有10000*100
,100
万个参数,只有一层并且用的图像尺寸还不算大,就有如此庞大的参数,图片更大网络更深的参数量可想而知。深层全连接网络如图2所示。
图3.深层神经网络
线性层——全连接层
CLASS torch.nn.Linear(in_features: int, out_features: int, bias: bool = True)
Linear
类用矩阵乘法的形式实现对所有输入的加权求和,如式(2),由于x
出现在权值矩阵左方,如果输入的是一维数据(一个样本),它应该是一个行向量,此时输入尺寸就等于向量长度。
当输入、输出尺寸给定后,类方法会自动创建权值张量。如果偏置bias=True
,还会创建一个长度为out_features
的一维偏置张量。参数被默认初始化后服从(-sqrt(k), sqrt(k))
上的均匀分布,其中k
为in_features
的倒数。
class Parameter(Tensor):def __init__(self, data: Tensor, requires_grad: builtins.bool): ...
Linear
类继承于Module
类,它是Pytorch神经网络模型的最小模块的一种。权值和偏置参数继承于Parameter
类,而Parameter
又继承于Tensor
,所以它们本质都是张量,只是默认了需要梯度。和定义复杂的网络一样,Linear
也是在__init__
方法中定义它的属性参数 ,在forward
方法中完成运算,即前向传播。看Linear
源码,会发现在其forward
方法中是直接调用functional
中的函数来实现的,如下。
def linear(input, weight, bias=None):if input.dim() == 2 and bias is not None: # 输入是二维时,用addmm简化计算# fused op is marginally fasterret = torch.addmm(bias, input, weight.t()) # 转置telse:output = input.matmul(weight.t())if bias is not None:output += biasret = outputreturn ret# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
torch.addmm(input, mat1, mat2, *, beta=1, alpha=1, out=None)
该函数可以完成两个矩阵内积后再加上一个矩阵,正好适合输入数据是二维时加权求和后加上偏置的操作。
Linear
应用代码
import torchdata_in = torch.full((2, 3, 4), 2)
print(data_in)
net = torch.nn.Linear(4, 3, bias=True) # 类实例化
net.weight.data = torch.tensor([[1, 1, 1, 1],[2, 2, 2, 2],[3, 3, 3, 3]], dtype=torch.float)
net.bias.data = torch.ones((1, 3), dtype=torch.float)data_out = net(data_in) # 使用print(data_out)# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
结果分析:
# data_in
tensor([[[2., 2., 2., 2.],[2., 2., 2., 2.],[2., 2., 2., 2.]],[[2., 2., 2., 2.],[2., 2., 2., 2.],[2., 2., 2., 2.]]])# data_out
tensor([[[ 9., 17., 25.], 2*1+2*1+2*1+2*1+1=9[ 9., 17., 25.], 2*2+2*2+2*2+2*2+1=17[ 9., 17., 25.]], 2*3+2*3+2*3+2*3+1=25[[ 9., 17., 25.],[ 9., 17., 25.],[ 9., 17., 25.]]], grad_fn=<AddBackward0>)# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
非线性激活层——常用非线性激活函数
CLASS torch.nn.Sigmoid
x = torch.arange(-10, 10, step=0.1)sigmoid_layer = torch.nn.Sigmoid() # 类实例化y = sigmoid_layer(x)y1 = y*(1-y)ax1 = plt.subplot(1, 2, 1)ax1.set_title('Sigmoid Function')ax1.plot(x, y)ax2 = plt.subplot(1, 2, 2)ax2.set_title('Sigmoid Derivative')ax2.plot(x, y1)plt.show()# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
CLASS torch.nn.Tanh
tanh_layer = torch.nn.Tanh()y = tanh_layer(x)y1 = 1-y*y
CLASS torch.nn.ReLU(inplace: bool = False)
ReLU_layer = torch.nn.ReLU()y = ReLU_layer(x)y1 = 0.5*(np.sign(x)+1)# CSDN意疏原创笔记:https://blog.csdn.net/sinat_35907936/article/details/107727776
CLASS torch.nn.LeakyReLU(negative_slope: float = 0.01, inplace: bool = False)
CLASS torch.nn.PReLU(num_parameters: int = 1, init: float = 0.25)
CLASS torch.nn.RReLU(lower: float = 0.125, upper: float = 0.3333333333333333, inplace: bool = False)
CLASS torch.nn.ELU(alpha: float = 1.0, inplace: bool = False)
ELU
是在ReLU
的基础上,在负半轴加了一个负指数函数,E
即代表指数。通过参数a
来控制负指数函数的幅值。表达式如式(12)
CLASS torch.nn.Softplus(beta: int = 1, threshold: int = 20)
x = torch.arange(-10, 10, 0.1)negative_slope = 0.05LeakyReLU_layer = torch.nn.LeakyReLU(negative_slope=negative_slope)PReLU_layer = torch.nn.PReLU()RReLU_layer = torch.nn.RReLU()ELu_layer = torch.nn.ELU()Soft_plus_layer = torch.nn.Softplus()y = LeakyReLU_layer(x)y1 = PReLU_layer(x).detach().numpy()y2 = RReLU_layer(x)y3 = ELu_layer(x)y4 = Soft_plus_layer(x)
CLASS torch.nn.Softmax(dim: Optional[int] = None)
Dropout层——部分神经元失活
CLASS torch.nn.Dropout(p: float = 0.5, inplace: bool = False)
import torchdata_in = torch.full((2, 3, 4), 1)net = torch.nn.Linear(4, 3, bias=True)
drop_out = torch.nn.Dropout()
net.weight.data = torch.tensor([[1, 1, 1, 1],[2, 2, 2, 2],[3, 3, 3, 3]], dtype=torch.float)
net.bias.data = torch.ones((1, 3), dtype=torch.float)
data_in = drop_out(data_in)
print(data_in)
data_out = net(data_in)
print(data_out)
tensor([[[2., 2., 0., 2.], # 以概率p随机让某些输入为零,并且按照比例缩放数据[2., 2., 2., 2.],[2., 0., 2., 2.]],[[0., 0., 0., 0.],[0., 0., 2., 0.],[0., 2., 2., 0.]]])
tensor([[[ 7., 13., 19.],[ 9., 17., 25.],[ 7., 13., 19.]],[[ 1., 1., 1.],[ 3., 5., 7.],[ 5., 9., 13.]]], grad_fn=<AddBackward0>)
参考
https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407?fr=aladdin
https://baike.baidu.com/item/%E5%8F%8C%E6%9B%B2%E6%AD%A3%E5%88%87/3194837?fromtitle=tanh&fromid=19711736&fr=aladdin
深度之眼Pytorch打卡(十三):Pytorch全连接神经网络部件——线性层、非线性激活层与Dropout层(即全连接层、常用激活函数与失活 )相关推荐
- 深度之眼课程打卡-python入门05
目录 文章目录 目录 前言 内容 一.数据结构介绍 1.Series的创建 2.DataFrame的创建 二.数据索引index 1.通过索引值或索引标签获取数据 2.自动化对齐 三.利用pandas ...
- 深度之眼课程打卡-统计学习方法01
目录 文章目录 目录 前言 绪论 作业打卡 L1和L2范式 ROC曲线 一 roc曲线 二 如何画roc曲线 三 为什么使用Roc和Auc评价分类器 补充 混淆矩阵 参考 前言 为了增加实战经验,选择 ...
- 深度学习--TensorFlow(3)线性神经网络(线性输入非线性输入)(实现)
目录 一.线性神经网络(线性输入) 1.基础理论 2.线性输入代码 奇葩错误: 二.线性神经网络(非线性输入) 0.引言 1.基础理论 三.线性神经网络(非线性输入)实战 1.设置初始参数 2.正向传 ...
- 基于PyTorch框架的多层全连接神经网络实现MNIST手写数字分类
多层全连接神经网络实现MNIST手写数字分类 1 简单的三层全连接神经网络 2 添加激活函数 3 添加批标准化 4 训练网络 5 结论 参考资料 先用PyTorch实现最简单的三层全连接神经网络,然后 ...
- 深度学习2---任意结点数的三层全连接神经网络
上一篇文章:深度学习1-最简单的全连接神经网络 我们完成了一个三层(输入+隐含+输出)且每层都具有两个节点的全连接神经网络的原理分析和代码编写.本篇文章将进一步探讨如何把每层固定的两个节点变成任意个节 ...
- 【计算机视觉与深度学习】全连接神经网络(一)
计算机视觉与深度学习系列博客传送门 [计算机视觉与深度学习]线性分类器(一) [计算机视觉与深度学习]线性分类器(二) 目录 从线性分类器到全连接神经网络 全连接神经网络的权值 全连接神经网络与线性不 ...
- 计算机视觉与深度学习-全连接神经网络
以下内容是自己学习北京邮电大学鲁鹏副教授计算机视觉与深度学习课程(A02)的一些笔记, 笔者能力有限,如有错误还望各位大佬在评论区批评指正 . 先贴一下课程官网:CV-XUEBA 篇3地址:计算机视觉 ...
- 深度学习原理-----全连接神经网络
系列文章目录 深度学习原理-----线性回归+梯度下降法 深度学习原理-----逻辑回归算法 深度学习原理-----全连接神经网络 深度学习原理-----卷积神经网络 深度学习原理-----循环神经网 ...
- 全连接神经网络分类器(上)
全连接神经网络分类器(上) 图像表示 1. 多层感知器 2. 激活函数 小结 3. SOFTMAX与交叉熵 4. 对比交叉熵损失与支撑向量机损失 5. 计算图与反向传播 图像表示 直接使用原始像素作为 ...
最新文章
- MySQL 里的 Timestrap 和 DateTime 和 Java 中的 Date
- win定时关机_如何将电脑设置为定时关机?
- 讲你肯定能懂的机器学习多维极值求解
- Ubuntu10下MySQL搭建Amoeba_读写分离
- Java中的异常处理:何时抛出异常,何时捕获异常?
- netbeans卸载 linux,NetBeans_6.1自己使用。(linux-ubuntu下)
- Server Tomcat v6.0 Server at localhost was unable to stat within 45 seconds
- js 实现2的n次方计算函数_「计算机组成原理」:一文快速了解计算机原理知识点-附思维导图...
- OpenCV OMZ MTCNN人脸检测的实例(附完整代码)
- ES6-7 - 箭头函数的实质、箭头函数的使用场景
- 晚上我们一起去白码会所玩啊!
- linux开启ssh服务,实现ssh远程登录
- python抓取网页图片
- ThinkPHP5 助手函数
- VS C++ 字符大写变换 字符小写变换 tolower toupper
- 鸿蒙系统电脑模拟运行,安卓游戏在鸿蒙运行被识别为PC端模拟器,鸿蒙生态依然欠缺!...
- 如果能站在巨人的肩膀上
- css中关于旋转属性trtransform: rotate影响文字轻微变形的解决办法。
- 微信小程序对餐饮行业有哪些影响
- 015 四路直流马达控制(麦克纳姆轮)