文章目录

  • 前言
  • 作者介绍
  • 论文意义和主要内容
  • 基础知识
  • 论文结构
    • 1引言
      • DL的应用领域
    • 2监督学习Supervised learning
    • 3反向传播算法BP
    • 4卷积神经网络CNN
    • 5基于深度卷积神经网络的图片理解(Image Understanding)
    • 6分布表示和语言处理(Language processing)
      • One-hot Representation
      • 理解embedding
      • Word2Vec算法
    • 7循环神经网络RNN
      • LSTM
    • 8深度学习的未来

前言

本系列将记录带读训练营中的带读文章。
文章标题:Deep learning,2015年发表于Nature。
虽然CSDN首发有翻译版,AI有道重新配图,暂时先作为参考,等自己先看一遍。
图文版本

作者介绍

没啥好说,第一篇就是重磅文章,作者就是18年图灵奖获得者(100美刀,单位是万),江湖人称深度学习三巨头。
Geoffrey Hinton 主要有三大重要贡献:
玻尔兹曼机1983
反向传播算法1986:就是NG深度学习课程里面号称最难的算法。。。
对卷积神经网络的修正2012,这个在CS231n里面有提到拉,就是12年ImageNet中完胜的算法。
Yann LeCun 人称卷积网络之父,师从Hinton,主要有三大重要贡献:
提出卷积神经网络1980,并应用到手写数字识别(深度学习Hello World)
改进反向传播算法
拓宽神经网络的视角
Yoshua Bengio(花书作者之一) 主要有三大重要贡献:
序列的概率建模Probabilistic models of sequences(1990)用于手写支票的识别
高维词嵌入(用高维词向量来表征自然语言)与注意力机制(让机器翻译取得重大突破)
生成对抗网络GAN

论文意义和主要内容

三巨头从机器学习谈起,指出传统机器学习的不足,总览深度学习理论、模型,给出了深度学习的发展历史,以及DL中最重要的算法和理论。
概念:
原理:DL的整个过程参数相当多,调整内部参数的方法就是backpropagation算法。
应用:CNN主要在图像,视频,语言和音频处理方面带来突破,RNN对文本和语音等时序数据带来突破。

基础知识

常见传统机器学习算法:classification,regression,bp
RNN结构和工作原理
CNN结构和工作原理

论文结构

1引言

Deep-learning methods are representation-learning methods with multiple levels of representation,
obtained by composing simple but non-linear modules that each transform the representation at one level (starting with the raw input) into a representation at a higher, slightly more abstract level. With the
composition of enough such transformations, very complex functions can be learned.
深度学习方法是多级学习方法,由多个简单非线性模块(可以用层表示)组合而成,每一层就是一个级别,原始数据通过深度学习可以进行特征的变化和提取,只要这些模块足够多,即使是非常复杂的模型也可以用深度学习方法进行表示。
理解:深度学习是机器学习的一种,它也可以使用三板斧(详见李宏毅学习笔记),就是要在定义的function set里面(这里的function set会比较复杂),找到一个最好的function(机器学习的过程),用于模型的表示或预测(最后的应用)
这里还提到一个很重要的概念:representation learning,表示学习,上一张知乎的图感受一下:

DL的应用领域

It has turned out to be very good at discovering intricate structures in high-dimensional data and is therefore applicable to many domains of science, business and government.
计算机视觉CV
无人驾驶:车辆识别、路径规划
图片识别:图片表示、语义分割
自然语言处理NLP
智能搜索、人机对话、文本摘要、机器翻译
其他:医学图像分析、制药、人脸识别、游戏、安全、异常检测等

2监督学习Supervised learning

We compute an objective function that measures the error (or distance) between the output scores and the desired pattern of scores. The machine then modifies its internal adjustable parameters to reduce this error. These adjustable parameters, often called weights, are real numbers that can be seen as ‘knobs’ that define the input–output function of the machine. In a typical deep-learning system, there may be hundreds of millions of these adjustable weights, and hundreds of millions of labelled examples with which to train the machine.
这里面的用词和ng的课里用的loss function以及cost不太一样,不过李飞飞的cs231n里面用的是score的说法。
我们通过计算目标函数,该函数用来衡量输出score和真实score的差异(其实是距离)。计算机通过BP调整模型的参数(通常叫权重)使得这个差异最小化。进行这样的调整需要大量的带标签数据。调节过程就像调节旋钮。
With multiple non-linear layers, say a depth of 5 to 20, a system can implement extremely intricate functions
of its inputs that are simultaneously sensitive to minute details — distinguishing Samoyeds from white wolves — and insensitive to large irrelevant variations such as the background, pose, lighting and surrounding objects.
里面还以和狼很像的薩摩耶犬(英语:Samoyed)为例,说明了传统的机器学习算法不能很好的进行分类,如果需要人为干预要加入很多的domain knowledge,就失去了机器学习的意义,而深度学习就很好的解决了这个问题,使用5-20个隐藏层就能很好的分辨两个物种,而且在分辨物种的同时可以忽略背景、姿势等因素,也就是说深度学习能很好的提取出两个物种的特征并进行分类。
这节里面给出了图1,包含了4个小内容:
1、两个输入,一个隐藏层,一个输出层的神经网络示例
2、链式法则
3、前向传播,是一个计算的过程
4、反向传播,是一个误差传递的过程
这节还提到了SGD随机梯度下降算法

3反向传播算法BP

一开始先说了BP算法的目的是用于替代原来在模式识别中的手工特征提取,给出了BP算法提出,发展的历史介绍。
指出了目前最常用的组成神经网络的神经元的非线性函数是ReLU(以前是sigmoid或者tanh(z)),提到了ReLU的优点。
关于局部最小值的知识在李宏毅的笔记中有写过,就是在复杂模型中不常见。
提到了Canadian Institute for Advanced Research (CIFAR).数据集,写CS231n的作业1就是这个数据集。
提到了pre-training方法,并举例其在语音识别上的应用。

4卷积神经网络CNN

这节直接看李宏毅的学习笔记,CNN
从三个方面讲解了CNN比全连接网络需要的参数要少,并且用固定参数求输入的方式,尝试去理解CNN的各个Filter提取的特征是什么样子的。

5基于深度卷积神经网络的图片理解(Image Understanding)

图三:看图说话CNN+RNN
这个工作在CS231n的2017年的课程里面还有提到,说的是还在做,不知道现在做的怎么样了,不过听讲解神经网络就是玩积木,如果图片识别或分类的CNN和语义生成RNN都训练好了,可以接起来用就ok。
里面还提到了2012年的ImageNet大赛,也是CNN获得冠军的一次比赛,在231n里面的导论有讲。用到的新技术包括:GPU并行、ReLU、抓爆。
提到了硬件的发展大大缩短了CNN复杂模型的训练时间,各大公司都采用了基于CNN视觉系统。一些硬件厂商还开发了专门基于CNN优化的硬件芯片。

6分布表示和语言处理(Language processing)

基于NN的词向量、词嵌入(word embedding),历史上还出现过:基于矩阵的分布表示和基于聚类的分布表示。
首先明确了对于没有使用分布式表示的处理方法而言,分布式表示语言处理有两个优势:
1、可以在训练过程中产生组合特征
2、
Vector representations of words learned from text are now very widely used in natural language applications.

One-hot Representation

NLP 中还有一种表示方法称为 One-hot Representation,这种表示方法把每个词表示为一个很长的向量。向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个值就代表了当前的词。例如:
“豆浆”=[0,1,0,0,0,0,0,…]
“油条”=[0,0,1,0,0,0,0,…]
采用稀疏方式存储,非常的简单,相当于给每个词分配一个 ID。上例中,豆浆记为 1,油条记为 2(从 0 开始算)。
这种方式的缺点非常明显:
1、向量的维度会随着句子的词的数量增大而增大(10万个词就10维);
2、任意两个词之间都是孤立的,只记录词的位置,无法表示出在语义层面上词语词之间的相关信息。

理解embedding

可以进行词的向量空间的映射,可以表示词的(上下文)含义。

可以通过一些组合方式对 n 个词进行组合,参数个数仅以线性速度增长。
论文中的图4给出了词和句子embedding的例子

Word2Vec算法

这个算法虽然不了解,但是网上的资料应该很多,NLP还没入坑,先留空,贴个总结帖
https://zhuanlan.zhihu.com/p/26306795

7循环神经网络RNN

RNN也是NN,其特点如下:

主要用于时间序列预测,可以理解为带有存储功能的神经网络,每次都会存储之前隐藏层的输出(中间结果)。

LSTM

Long Short-term Memory,是一种特殊的RNN,主要用于解决长序列数据在训练过程中梯度爆炸和梯度消失的问题,比RNN有更好的表现,能处理更长的序列,嫩存储更多的中间结果。

8深度学习的未来

15年的文章,里面写的未来基本就是现在。
非监督学习是深度学习的方向;
强化学习
GAN
2019最新发布,杨立坤提出的自监督学习

深度之眼Paper带读笔记1:Deep learning相关推荐

  1. 深度之眼Paper带读笔记NLP.2:word2vec.baseline.1

    文章目录 前言 论文储备知识 语言模型 基于专家语法规则的语言模型 统计语言模型 统计语言模型中的平滑操作 基于马尔科夫假设 语言模型评价指标:困惑度(Perplexity) 论文背景知识 词的表示方 ...

  2. 深度之眼Paper带读笔记GNN.06.GAT

    文章目录 前言 导读 论文结构 学习目标 研究背景 图卷积 Notation 归纳式学习 空域与频域卷积 GAT模型多头注意力机制 意义 泛读 摘要 论文结构 精读 算法模型总览 GNN的结构 GAT ...

  3. GNN手写字体识别java_深度之眼Paper带读笔记GNN.09.GGNN

    文章目录 前言 本课程来自深度之眼,部分截图来自课程视频. 文章标题:Gated Graph Sequence Neural Networks 门控序列图神经网络(GGNN) 作者:Yujia Li∗ ...

  4. 深度之眼Paper带读笔记NLP.5:transformer

    文章目录 前言 第一课:论文导读 序列模型简介 序列问题 序列模型 多到多的序列转换模型Sequence To Sequence Models 带有注意力的循环神经网络RNNs With Attent ...

  5. 深度之眼Paper带读笔记GNN.09.GGNN

    文章目录 前言 论文结构 学习目标 泛读 研究背景 研究意义 摘要 章节 精读 细节一:GRU模型回顾 细节二:GGNN模型 Propagation Model output model 模型框架 G ...

  6. 深度之眼Paper带读笔记GNN.02.LINE

    文章目录 前言 论文结构 研究背景 应用 基本概念 基础知识补充 多类数据集 研究意义 泛读 摘要 论文标题 算法的比较 LINE算法详解 KL散度 交叉熵 细节一:1阶相似度推导 细节二:2阶相似度 ...

  7. 深度之眼Paper带读笔记GNN.05.TransE/H/R/D

    文章目录 前言 论文结构 导读 研究背景 Trans系列算法概述 数据集简介 研究成果 研究意义 摘要 论文结构 论文精读 知识树 算法模型总览 算法系列图谱 Notation 细节一:TransE模 ...

  8. 深度之眼Paper带读笔记目录

    文章目录 简介 图神经网络(已完结) NLP精读论文目录(已完结) NLP Baseline(已完结) CV目录(已太监) 简介 本次的Paper学习营分CV和NLP两个方向,每个方向又分精读.重点阅 ...

  9. 深度之眼Paper带读笔记NLP.30:BERT

    文章目录 前言 第一课 导读 语言模型与Word Embedding 语言模型 Language Model 神经网络语言模型Neural Network Language Model 词嵌入 Wor ...

最新文章

  1. PHP 命名空间(namespace)
  2. 【Linux】安装配置Tomcat7
  3. 程序员日常工作中如何正确的偷懒?
  4. matlab中所遇到的问题,【总结】【matlab】【机器学习】学习过程中遇到的问题总结...
  5. matlab中find函数_在R中使用Matlab函数
  6. C#Winform调用网页中的JS方法
  7. 将更新面板的显示内容清除的代码实现;_免费开源:墨涩必应壁纸网盘系统1.0(自动壁纸更新免维护)
  8. VS启动调试速度异常的缓慢问题
  9. linux fuse文件系统在 android fuse sdcard的 运用
  10. PSP3000/2000V3用5.03GEN-C安装教程
  11. python大数据论文_大数据环境下基于python的网络爬虫技术
  12. 纬地道路纵断面设计教程_道路BIM模型快速生成
  13. 根据c语言标识符的命名规则 标识符只能由,二级C语言教程同步习题集答案解析1-2章.doc...
  14. 绕过 office 宏密码保护
  15. Android studio编程常用控件
  16. 链家网页爬虫_爬虫小技巧——以最简单的方式爬取链家房源信息
  17. 下落(fall)【模拟】
  18. VUE渲染富文本编辑器内容
  19. html dw map,DW制作地图之map标签
  20. BAPI_BILLINGDOC_CREATEMULTIPLEdoesntcreateheadertexts_SAP刘梦_新浪博客

热门文章

  1. ios10苹果手机页面定位不准问题
  2. 商城口碑颜值双高蓝牙耳机推荐,双11蓝牙耳机选购品牌排行榜
  3. JS 运行机制最全面的一次梳理
  4. 升级华为笔记本U盘安装盘
  5. java接口废弃注释_Spring Boot如何让Web API自动生成文档,并解决swagger-annotations的API注解description属性废弃的问题...
  6. 基于深度学习算法的语音识别(华为云)
  7. 在SQL SERVER 2000中实行简繁体转换
  8. ​《Python知识手册》更新到V4.1版
  9. 二氧化硅改性活性炭|SiO2改性的V2O5-MoO3/TiO2催化剂|SiO2改性MCM-22分子筛上联苯|纳米SiO2改性环氧涂层海洋腐蚀规律
  10. AI的边界在哪里?科大讯飞“上天入地”