对于刚开始学习深度学习的新人来说,深度学习术语掌握起来会非常困难。这篇深度学习词汇表包含了一些深度学习的常用术语,以帮助读者深入了解特定主题。

深度学习和“一般”机器学习术语之间的界限非常模糊。我尽量让这个词汇表围绕深度学习展开,但有可能有少部分的重叠。例如,我这里不包括“交叉验证”,因为它是一种通用技术,使用了所有跨机器学习。但是,我决定将SoftMax或Word2Vec等术语包括在内,因为它们通常与深度学习相关,即使它们不是深度学习技术。

Activation Function
为了让神经网络从信息处理的角度对复杂的人脑神经元进行处理,我们将非线性激活函数应用到这个层面。信号从一个神经元进入,经过非线性激活函数,传入到下一层神经元,循环往复,直到输出层。常用的功能包括Sigmoid函数、TANH函数、RELU函数和这些功能的变体。

AdaDelta算法
AdaDelta算法主要是为了解决AdaGrad算法中存在的缺陷,在介绍Adadelta之前需要先了解Adagrad,Adadelta的特点是在下降初期,梯度比较小,这时学习率会比较大,而到了中后期,接近最低点时,梯度较大,这时学习率也会相对减小,放慢速度,以便可以迭代到最低点。Adadelta是对Adagrad的扩展,最初方案依然是对学习率进行自适应约束,但是进行了计算上的简化。Adagrad会累加之前所有的梯度平方,而Adadelta只累加固定大小的项,并且也不直接存储这些项,仅仅是近似计算对应的平均值。

Adagrad算法
Adagrad是一种自适应学习速率算法,可以跟踪随时间变化的平方梯度,并自动调整每个参数的学习速率。它可以代替普通的SGD,特别有助于稀疏数据,在稀疏数据中,它为不经常更新的参数分配更高的学习率。

Adam
Adam是一种类似于RMSprop的自适应学习速率算法,但是它的功能除了使用梯度的第一和第二力矩的运行平均值估算,还包括偏差校正项。

RMSprop, Adadelta, Adam 在很多情况下的效果是相似的。Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum,随着梯度变的稀疏,Adam 比 RMSprop 效果会好。

整体来讲,Adam 是最好的选择。

Affine Layer
Affine Layer是神经网络中完全连接的层。仿射意味着前一层中的每个神经元都与当前层中的每个神经元相连。在许多方面,这是神经网络的“标准”层。在做出最终预测之前,通常在卷积神经网络或递归神经网络的输出端加上仿射层。仿射层的形式通常是y=f(w x+b),其中x是层输入,w是参数,b是偏压矢量,f是非线性激活函数。

Attention Mechanism
注意力机制受到人类视觉注意力的启发,即专注于处理图像特定部分的功能。用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制(Mechanism),一般称为Attention Mechanism。注意力机制可以同时包含在语言处理和图像识别体系结构中,给信息赋予区别分辨的能力,以帮助了解在进行预测时“关注”什么。

Alexnet
AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计,是用第一作者Alex Krizhevsky的名字命名。Alexnet是卷积神经网络体系结构的名称,它的出现重新引起人们对CNN图像识别的兴趣。alexNet为8层深度网络,其中5层卷积层和3层全连接层,不计LRN层和池化层。

关于Alexnet及卷积神经网络模型分类可参考http://www.atyun.com/37216.html进行了解。

Autoencoder
AutoEncoder是深度学习的另外一个重要内容,Feature的数据进行压缩,之后再进行解压的过程。神经网络通过大量数据集,进行end-to-end的训练,不断提高其准确率,而AutoEncoder通过设计encode和decode过程使输入和输出越来越接近,是一种无监督学习过程。

Average-Pooling
池化操作时在卷积神经网络中经常采用过的一个基本操作,一般在卷积层后面都会接一个池化操作,但是近些年比较主流的ImageNet上的分类算法模型都是使用的max-pooling,很少使用average-pooling,通常来讲,max-pooling的效果更好,虽然max-pooling和average-pooling都对数据做了下采样,但是max-pooling感觉更像是做了特征选择,选出了分类辨识度更好的特征,提供了非线性,根据相关理论,特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。一般来说,average-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。average-pooling更强调对整体特征信息进行一层下采样,在减少参数维度的贡献上更大一点。

Backpropagation
Backpropagation反向传播是一种有效地计算神经网络中梯度的算法,通俗理解是一种前馈计算图,是复合函数的链接法则。它归结为从网络输出开始应用微分链规则,然后反向传播梯度。反向传播的第一个用途可以追溯到20世纪60年代的瓦普尼克,但是反向传播错误的学习表示经常被引用为来源。

Backpropagation Through Time (BPTT)
反向传播算法最早于上世纪70年代被提出,但是直到1986年,由David Rumelhart, Geoffrey Hinton, 和Ronald Williams联合发表了一篇著名论文(Learning representations by back-propagating errors)之后,人们才完全认识到这个算法的重要性。基于时间反向传播(PAPER)是应用于递归神经网络(RNN)的反向传播算法。BPTT可以看作是应用于RNN的标准反向传播算法,其中每个时间步代表一个层,参数跨层共享。由于RNN在所有时间步骤中共享相同的参数,因此一个时间步骤中的错误必须“通过时间”反向传播到所有以前的时间步骤,因此名称为。在处理长序列(数百个输入)时,通常使用截断版本的BPTT来降低计算成本。截断的BPTT在固定的步骤数后停止对错误进行反向传播。

今天先更新到这,后续还会有多个词汇,我会慢慢的为志同道合的伙伴做解释。

深度学习词汇表(一)相关推荐

  1. 表单识别(四)-基于深度学习的表单识别)-OCR

    (论文研读后,感觉有用的一些笔记,主要是给自己记录) 论文:熊雨点,基于深度学习的表单识别系统的研究与实现 基于深度学习的表单识别 前言: 文档检测方法: 基于扩张卷积残差网络的表单文档定位方法: 扩 ...

  2. C语言进阶深度学习目录表

    学习交流加(可免费帮忙下载CSDN资源): 个人微信(进微信群加): LyyCoder 学习交流资源分享qq群1(已满): 962535112 学习交流资源分享qq群2(已满): 780902027 ...

  3. 深度学习词汇 Developing Our Own Deep Learning Toolset

    pick up:挑出选出 a copy of :一本 configure配置 acount :账户 computer vision:机器视觉 utilizing:利用 image classifica ...

  4. 用于表检测和结构识别的深度学习:综述

    摘要 表格无处不在,从科学期刊.论文.网站和报纸,到我们在超市购买的物品.因此,检测它们对于自动理解文档内容至关重要.由于深度学习网络的快速发展,表格检测的性能显著提高.本次总结的目的是深入了解表格检 ...

  5. 面向计算机视觉的深度学习:1~5

    原文:Deep Learning for Computer Vision 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自[ApacheCN 深度学习 译文集],采用译后编辑(MTPE)流程 ...

  6. 深度学习服务器配置,2路-4路GPU

    那些天,被逼疯的深度学习配置表: 模块 型号 参考价格 数量 参考总价 GPU 技嘉RTX 2080Ti TURBO 11G (CUDA® Cores : 3328; 显存: 11GB GDDR5X; ...

  7. 深度学习实战(4)如何向BERT词汇表中添加token,新增特殊占位符

    向BERT词汇表中添加token 问题表述 添加特殊占位符号 add_special_tokens 其他占位符接口 报错与解决方案 问题表述 在实际应用或者学术科研过程中,我们常常需要添加一些特殊的占 ...

  8. 2.1 词汇表征-深度学习第五课《序列模型》-Stanford吴恩达教授

    词汇表征 (Word Representation) 上周我们学习了RNN.GRU单元和LSTM单元.本周你会看到我们如何把这些知识用到NLP上,用于自然语言处理,深度学习已经给这一领域带来了革命性的 ...

  9. 嵌入式开发板硬件操作入门学习9——集成电路芯片手册术语词汇表(中英文对照)

    原创链接:集成电路芯片半导体中英文对照术语词汇表 英语 中文 1-9 10 gigabit 10 Gb 1st Nyquist zone 第一奈奎斯特区域 3D full‑wave electroma ...

最新文章

  1. RocketMQ 实战 集群监控平台搭建
  2. Abp框架之执行Update-Database 命令系列错误
  3. 研发大佬组团带玩生成对抗网络(GAN),B站直播教学
  4. Linux内核编译和运行
  5. Linux操作(6)—— 查找文件及查看文件内容
  6. WebAPi添加常用扩展方法及思维发散
  7. Linux 服务器程序规范、服务器日志、用户、进程间的关系
  8. 队列-C语言-链表的实现方式
  9. sequelize模型关联_使用Sequelize来计算关联模型中的行数(其中id ='x')
  10. python 人脸识别调整人脸大的距离_Python 人脸识别就多简单,看这个就够了!
  11. python函数大全pdf_python内置函数大全.pdf
  12. 【深度学习之美笔记】人工“碳”索意犹尽,智能“硅”来未可知(入门系列之二)
  13. LINUX矩阵键盘简单介绍,矩阵键盘程序流程图详细介绍
  14. 【电动车】电动汽车两阶段优化调度策略(Matlab代码实现)
  15. 裸机搭建深度学习服务器,ubuntu ssh服务器,pytorch, tensorflow, paddle三种框架安装。以及各种避雷。
  16. Linux知识点整理(五)—— Linux 磁盘与文件系统管理
  17. 我的第一台手提 | 关于你的第一台手提征文活动
  18. VSCode中自定义的snippets对h文件无效的解决办法
  19. Web服务器群集——公有CA构建阿里云服务器HTTPS
  20. Docker学习资源汇总

热门文章

  1. 常用的3种高效睡眠法,因人而异
  2. 图像翻译/Transformer:ITTR: Unpaired Image-to-Image Translation with Transformers用Transfor进行非配对图像对图像的转换
  3. Mac下mysql安装,MySQLclient
  4. 洛克菲勒家族是如何发家的,我们都看看
  5. 问卷调查网站制作-前后端开发
  6. 大星星学物联网概览篇-硬件
  7. Hadoop 新手填坑指南
  8. 什么是实人认证?需要用到哪些api接口
  9. sscanf提取字符串数字
  10. Eclipse 2020如何创建JAVA Web项目