注意力机制(Attention Mechanism):

注意力机制受到人类视觉注意力机制的启发,即关注图像特定部分的能力。即当神经网络发现输入数据的关键信息后,通过学习,在后继的预测阶段对其予以重点关注。
Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因。
对nlp领域,Attention Mechanism的目的是要把一个句子中,对句子的含义最重要,贡献最大的词语找出来。

反向传播

一种有效计算神经网络中梯度的算法,更一般地说,是一种前馈计算图。可以把它归结为从网络输出开始应用差异化的链规则并向后传播梯度。

降维

作用是减少数据量和成本,维度越大需要的数据量越多,成本就越高。

Dropout

是神经网络的正则化技术,可防止过度拟合。它通过在每次训练迭代中将它们的一部分随机设置为0来防止神经元过度适应。可以以各种方式解释丢失,例如从指数数量的不同网络中随机采样。

感受野(Receptive Field):

卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域。

LSTM

一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的。

激活函数:

为了向网络中加入非线性因素,加强网络的表示能力,解决线性模型无法解决的问题。常见的有阶跃函数、sigmoid函数、ReLU函数。输出层所用的激活函数:一般回归问题使用恒等函数,二元分类问题使用sigmoid函数(包括双曲正切函数等等),多元分类问题可以使用softmax函数。

Adagrad:

一种自适应学习速率算法,它可以跟随时间变化,并自动调整每个参数的学习速率。它可以代替vanilla SGD使用,并且对稀疏数据特别有用,它可以为不经常更新的参数分配更高的学习率。

Affine layer(仿射层):

一种神经网络中的完全连接层。仿射意味着前一层中的每个神经元都连接到当前层中的每个神经元。在许多情况下,这是神经网络的“标准”层。在进行最终预测之前,通常会在卷积神经网络或递归神经网络的输出之上添加仿射层。仿射层通常形式的y=f(Wx+b),其中x是该层的输入,W参数,b偏置向量,f是非线性激活函数。

Adadelta:

一种基于梯度下降的学习算法,可以随时间调整每个参数的学习速率。它被认为是对Adagrad的改进,因为Adagrad对超参数很敏感,并且可能过于快速的降低学习速度。Adadelta类似于rmsprop,可以用来代替朴素SGD。

Adam:

一种类似于rmsprop的自适应学习速率算法,但是使用梯度的第一和第二时刻的运行平均值直接估计更新,并且还包括偏差校正项。

patch:

在CNN学习训练过程中,不是一次来处理一整张图片,而是先将图片划分为多个小的块,卷积核每次只查看图像的一个小块,这一小块就称为patch,然后通过卷积核移动到图像的另一个patch。

损失函数:

为了让神经网络能自动的学习,一般使用梯度下降法寻找损失函数最小的值,从而寻找到最优参数(权重和偏置)。

BatchNorm()函数:

一般在cnn的卷积层之后添加,主要是对数据进行归一化处理,这使得数据在进行Relu之前不会因为数据过大而导致网络性能的不稳定。

输出层的softmax函数:

将全连接层的输出结果正规化(将输出值的和调整为1)后再输出。

mini-batch学习:

由于训练数据太多,在所有数据中选一批一批进行学习。

深度学习

深度学习过程也叫端到端的训练过程。
end-to-end(端到端)的方法,一端输入我的原始数据,一端输出我想得到的结果。只关心输入和输出,中间的步骤全部都不管。

归一化(normalization):

对于一维数据有(Xi-Xmin)/(Xmax-Xmin),使数据在相同尺寸,缩放仅仅跟最大、最小值的差别有关。输出范围在0-1之间.数据归一化会使得最优解的寻优过程会变得平缓,更容易正确的收敛到最优解。

标准化(standardization):

对于一维数据有(Xi-u)/σ,缩放和每个点都有关系,通过方差体现出来。与归一化对比,标准化中所有数据点都有贡献。输出范围是负无穷到正无穷。

归一化和标准化:

两者本质上都是一种线性变换。如果对输出结果范围有要求,用归一化。如果数据较为稳定(图像或是视频的数据值处于固定区间),不存在极端的最大最小值,用归一化。如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

Batch_size:

每次喂给模型的样本数量。

Epoch_size

是训练所有样本总的次数。Epoch:当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch。训练时使用多个Epoch可以理解为背诵了词典多少次。背多了,就记牢了。背得次数太多就过拟合了。

Batch Norm

以进行学习时的mini-batch为单位按mini-batch进行正规化。

张量(Tensor):

是PyTorch里面基础的运算单位,与Numpy的ndarray相同都表示的是一个多维的矩阵。 与ndarray的最大区别就是,PyTorch的Tensor可以在 GPU 上运行,而 numpy 的 ndarray 只能在CPU上运行,在GPU上运行大大加快了运算速度。

嵌入

将输入(例如单词或句子)映射到向量中。有一种流行的嵌入类型是word嵌入,例如word2vec或GloVe。它们可以嵌入句子,段落或图像。

网络退化问题:

在神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降。

残差网络:

进行跳层连接,残差单元可以以跳层连接的形式实现,很好地解决了深度神经网络的退化问题。

Seq2Seq模型(序列到序列的模型)

属于Encoder-Decoder模型的一种,是输出的长度不确定时采用的模型,RNN一个重要的变种:N vs M,原始的N vs N要求序列等长,然而我们遇到的大部分问题序列都是不等长的。

感知机

是二分类的线性分类模型。

多层感知机

是一种人工神经网络,设定权重的工作需要由人工来进行,又叫全连接前馈神经网络。

神经网络

为了解决多层感知机需要人工设定权重的问题出现的,能够自动地从数据中学习到合适的权重(一般采用梯度下降法来进行反向传播设置权重),这是和多层感知机最大的区别。

卷积神经网络

是含有卷积层池化层全连接层的神经网络。

GAN模型系列

生成对抗模型(GAN)

2014年提出的一种深度学习模型。

卷积神经网络模型系列

LeNet:

CNN元祖,1998年首次提出,进行手写数字识别的网络。

Alexnet:

2012年提出,引发深度学习热潮的导火线,网络结构和LeNet没有太大的不同,但是围绕它们的环境和计算机技术有了很大的进步。

NiN:

AlexNet问世不久后提出的,可以显著减小模型参数尺寸,从而缓解过拟合。然而该设计有时会造成获得有效模型的训练时间的增加。

GoogLeNet:

2014年提出,Inception采用了模块化的结构,从另一种角度来提升训练结果:能更高效地利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。

VGG:

2014年提出,结构整洁,拓展性很强,迁移到其他图片数据上的泛化性非常好。

ResNet:

2015年提出,由于网络的加深会造成梯度爆炸和梯度消失的问题,为了让更深的网络也能训练出好的效果而提出ResNet。

SqueezeNet:

2017年提出,参数少,模型文件小。

DenseNet:

DenseNet模型主要由DenseBlock和Transition组成,其中:
DenseBlock是由多层模块组成,每层的特征图大小相同,层与层之间采用密集相连的。
Transition是连接两个相邻的DenseBlock,并通过pooling使得特征图大小降低,还能起到压缩模块的作用。
DenseBlock中的非线性组合函数H()采用的是:BN+Relu+3x3Conv结构。

深度学习基本概念笔记相关推荐

  1. 22张深度学习精炼图笔记总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:机器学习算法那些小事 最近在做笔记查阅内容,觉得这个总结 ...

  2. 22张深度学习精炼图笔记总结(附原版下载)

    来源:迈微AI研习社本文约7800字,建议阅读10分钟 本文介绍了吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点. ...

  3. 吴恩达《神经网络与深度学习》精炼笔记(5)-- 深层神经网络

    上节课我们主要介绍了浅层神经网络.首先介绍神经网络的基本结构,包括输入层,隐藏层和输出层.然后以简单的2 layer NN为例,详细推导了其正向传播过程和反向传播过程,使用梯度下降的方法优化神经网络参 ...

  4. 一文看懂深度学习——人工智能系列学习笔记

    深度学习有很好的表现,引领了第三次人工智能的浪潮.目前大部分表现优异的应用都用到了深度学习,大红大紫的 AlphaGo 就使用到了深度学习. 本文将详细的给大家介绍深度学习的基本概念.优缺点和主流的几 ...

  5. 完结撒花!吴恩达DeepLearning.ai《深度学习》课程笔记目录总集

    作者: 大树先生 博客: http://blog.csdn.net/koala_tree 知乎:https://www.zhihu.com/people/dashuxiansheng GitHub:h ...

  6. (d2l-ai/d2l-zh)《动手学深度学习》pytorch 笔记(3)前言(介绍各种机器学习问题)以及数据操作预备知识Ⅲ(概率)

    开源项目地址:d2l-ai/d2l-zh 教材官网:https://zh.d2l.ai/ 书介绍:https://zh-v2.d2l.ai/ 笔记基于2021年7月26日发布的版本,书及代码下载地址在 ...

  7. 重磅!22张深度学习精炼图笔记总结!

    来源:知乎 作者:Sophia 地址:https://zhuanlan.zhihu.com/p/152362317 本文从深度学习基础.卷积网络和循环网络三个方面介绍该笔记. 吴恩达在推特上展示了一份 ...

  8. (d2l-ai/d2l-zh)《动手学深度学习》pytorch 笔记(4)线性神经网络(暂停)

    开源项目地址:d2l-ai/d2l-zh 教材官网:https://zh.d2l.ai/ 书介绍:https://zh-v2.d2l.ai/ 笔记基于2021年7月26日发布的版本,书及代码下载地址在 ...

  9. 纽约大学深度学习PyTorch课程笔记(自用)Week3

    纽约大学深度学习PyTorch课程笔记Week3 Week 3 3.1 神经网络参数变换可视化及卷积的基本概念 3.1.1 神经网络的可视化 3.1.2 参数变换 一个简单的参数变换:权重共享 超网络 ...

最新文章

  1. 计算机图形硬件---硬拷贝设备
  2. 阿里雷卷:RSocket从入门到落地,RSocket让AJP换发青春
  3. Https协议基本分析
  4. vijos P1740 聪明的质检员
  5. 利用https实现站点的访问
  6. 认真去做,我会做得很棒!
  7. ConcurrentHashMap源码分析(保姆式讲解):Put、扩容原理详解 博主可答疑
  8. 网络安全实验5 证书应用和证书管理
  9. psv无线怎么连接电脑连接电脑连接服务器,psv如何连接电脑复制视频,音乐,图片等资料教程...
  10. bzoj2101: [Usaco2010 Dec]Treasure Chest 藏宝箱
  11. Reapp 混合应用 - 帮助构建前所未所的强大应用(Reapp Hybrid apps - help you build powerful apps like never before)
  12. 前端工程师的 caniuse
  13. Transformer12
  14. Graphics2D画图
  15. 【CSS】css文字超出显示省略号/文字超过三行显示省略号..
  16. 单线激光雷达原理深度解析
  17. 西游记中孙悟空的蜕变
  18. TensorRt推理部署优化方案及流程概述
  19. 计算机思维与应用论文,计算机思维论文参考文献 计算机思维核心期刊参考文献哪里找...
  20. 基于51单片机的全自动洗衣机系统设计-protues原理图、程序(转发)

热门文章

  1. lambdas 排序_Java8 Lambdas:解释性能缺陷的排序
  2. javadoc 标签_新的Javadoc标签@ apiNote,@ implSpec和@implNote
  3. 通过通用数据访问扩展AWS生态系统
  4. 将Spock 1.3测试迁移到Spock 2.0
  5. 没有垃圾回收的JVM
  6. Java 12新功能完整指南
  7. java字节码_掌握Java字节码
  8. java反射教程_Java反射教程
  9. 会java的鸭子_鸭子在Java中打字? 好吧,不完全是
  10. Java EE 8 MVC:使用路径参数