深度学习鼻祖Geoffrey Hinton帮你入门带你飞
本文联合编译:Blake、高斐
雷锋网注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛顿 )是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者,目前任职于多伦多大学与Google。作为人工智能领域的三位奠基人之一,早在30年前,辛顿就已经在深度学习领域留下了自己的烙印。然而,直到计算机的性能达到深度学习的要求,辛顿才开始在学术界以外得到自己应得的广泛认可,本文是他对于深度学习介绍的演讲PPT。
深度学习
Geoffrey Hinton
多伦多大学&Google
机器学习任务的频谱
典型的统计学方法
低维度数据(例如,低于1000个维度)
数据中存在大量的噪音
数据不存在健全的结构, 一个极简模型如何表示数据结构
主要问题在于区分真正结构与数据噪音
人工智能(AI)
高维度数据(例如,多于1000个维度)
如果合理处理噪音,噪音不足以模糊数据的内在结构。
数据中有庞大得结构,数据结构过于复杂,难以用一个简单的模型表示。
主要问题在于弄清楚如何表示复杂的数据结构,使得这种结构易于学习
深度学习简要发展史
用于学习多层非线性特征的反向传播算法于20世纪70年代和80年代被提出来并得到多次发展演变(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
当时,反向传播算法具有广阔的应用前景,然而,到20世纪90年代,机器学习领域的众多研究者开始停止运用该算法,原因如下:
—该算法不能有效利用多数隐藏层(除了其在“时延”和卷积网的应用)。
—该算法不能在递归网络中发挥有效作用。
如何学习多层特征(~1985)
运用反向传播错误信号以获得用于学习的衍生工具:
首先输入输入信息向量,通过隐藏层,最终得到输出结果,对比输出结果与正确答案得到错误信号。
随机梯度下降
计算少量随机“小批量”训练数据的所有权重值的梯度矢量。
—这将对所有训练数据的梯度矢量进行随机评估。
—若权重值完全出现错误,即便获得一个耗费多,精确地估计值也是无意义的。
略微减小梯度估计值,以更新所有权重值。
—与其他更好地方法相比,这种原始的优化方法能够在大数据集中发挥更好的作用。
反向传播算法到底是哪里出错了?——20世纪90年代的观点
反向传播算法需要大量的标记过的训练数据
— 几乎所有的数据都是未经标记的。
反向传播算法未能规划好学习时间
— 在存在众多隐藏层的网络中,该算法学习速度非常慢。
在局部优化过程中,反向传播算法会出现卡壳现象
— 该算法通常能够得到极好的运用,但是从来没有极好的理论。
运用无监督学习方式,克服反向传播算法的局限性
保持运用梯度方法的有效性与简洁性,以调整权重值,同时运用这种方法为感官输入信息构建结构。
— 调整权重,保证一个生成模型生成感官输入信息的最大可能性。
— 学习图像,而非标记过的图像。
如果你想要从事计算机视觉领域的研究,首选学习计算机制图法。
我们应当学习哪种生成模型?
随机二进制单位(一种奇数选择方法)
受限玻尔兹曼机
限制层与层之间的连接性,使学习变得更为简单。
—只有一层随机二进制隐藏单元。
—隐藏层之间无连接。
在受限玻尔兹曼机中,鉴于可视状态,隐藏层之间存在有条件相互独立关系。
— 当存在一个既定的数据矢量,我们能够快速从后验分布中获取一个无偏差样本。
受限玻尔兹曼机最大可能性学习算法图
由可视单元的一个训练矢量V开头。
在更新所有平行隐藏单元与更新所有平行的可视单元之间转换。
快速学习受限玻尔兹曼机的方法
由可视单元的一个训练矢量开头
更新所有平行的隐藏单元
更新所有平行的可视单元,以实现重构
再次更新隐藏单元
旁白
通过对运用两种不同方法获得的预测值取平均数,Netflix 能够预测出你对一部电影的喜爱程度。
其中的一种方法使用经过快速近似学习算法的一种算法版本训练的受限玻尔兹曼机。
这是受限玻尔兹曼机的首次重大应用。
训练深度网络(受限玻尔兹曼机饱受欢迎的主要原因在于的到盖茨比基金的支持)
首先训练直接从像素中获取输入信息的特征层。
接着,将这些讲过训练的特征视为像素,激活这些特征,在第二隐藏层学习这些特征的特征。
如此便生成一个多层生成模型。
每当我们添加一个特征层,便能够得到训练数据的对数概率一个更好的可变下限,这一点可以得到证实。
这一证明过程是非常复杂的(但是对于学术界同仁之间相互尊重极为重要)。
精细调整,以实现区分这一目的
预训练:首先,一次只学习一个特征层,不使用标记过的信息。
精细调增:增添最后一个标记单元层,反向计算标记单元的误差,以便精细调整那些在无监督前期训练阶段学会的特征。
这种精细调整方法能够克服标准反向传播算法的两个主要局限性。
因为未经标记数据而发现好的特征,我们要求使用更少的标记。
由于在预训练过程中,一次仅训练一层,并且是从可感知的特征进行精细调整的,学习速度变得越来越快。
为预训练深层神经网构建声学模型
在使用双手机模型的标准后期处理之后,获得23.0%的手机错误率。
TIMIT之前获得最优结果为24.4%,这便要求对几个模型的结果取平均值。
通过较短时间的前期处理,现在我们在这一块儿能够做的更好。
接下来会发生什么
当预训练深层神经网络的性能优于在MSR演讲组一致推崇的高斯混合模型,IBM与Google对这类深层神经网络实行进一步发展。
直至2012年,安卓系统的声音搜索功能便是运用一个基于深层神经网络的声学模型。
现在所有起到领导作用的团队均使用神经网络,这一技术正在向性能越来越好的递归神经网络发展。
图像网的ILSVRC-2012竞争
拥有120万高分辨率训练图像的数据集。
1000种不同类别的物体。
任务是在前5次猜测中猜出“正确”的。
在这个数据集中,对现有的一些计算机视觉方法进行测试。
2012年的计算机视觉系统使用运用手工工程的复杂的多层系统。
早期阶段主要通过优化一些参数得到调整。
ILSVRC-2012竞争的错误率
2015年深层卷积神经网 5%
多伦多大学(Krizhevsky等,2012) 16%
东京大学 26%
牛津大学(Zisserman 等) 27%
INRIA(法国国家科学院)与XRCE(欧洲施乐研究中心) 27%
阿姆斯特丹大学 29%
针对Imagenet的神经网络
Alex Krizhevsky等在NIPS 2012开发了一个非常深的卷积神经网络(Le Cunn 1987),它的架构包括:
l 7个隐藏层(不包括最大池化层)
l 早期的层级是卷积的
l 最后两层是全局相连的
激活函数是每个隐层的修正线性单元
这些训练速度快得多,且比逻辑单元要更具表现力
全局连接层拥有最多的参数
Dropout用来防止这些层级过拟合
在测试集上的样本(以及神经网络猜测结果)
猎豹(豹 雪豹 埃及猫)
高速列车(小轿车 地铁 电车)
放大镜(剪刀、放大镜、煎锅、听诊器)
修正线性单元
使用逻辑弯曲而非线性神经进行修正
y = max(0,x)
这种非线性使得深度网络更易训练,在处理真实值的时候也表现的更好。
Dropout:平均多个大型神经网络的有效方式
设想一个包括一个隐层的神经网络
每次提出一个训练样本时,随机以0.5的可能性省略一个隐藏单元
因此我们随机从2^H不同的架构中取样
所有的架构权重相同
Dropout作为一种模型平均形式
我们从2^H模型取样。只有一部分模型层级训练过,且它们只训练过一个样本。
权重共享意味着它们中每个模型都是十分正则化的
这比试着将权重保持在较少状态更能实现好的正则化
在测试的时候我们做些什么?
我们能对许多不同的架构进行取样,然后在它们的输出分布中取几何平均数。
能用上所有的隐藏单元更好,但是要将它们的输入权重减半
这恰好计算了所有2^H模型预测的几何平均数
在有更多的隐层的情况下,测试时期将权重减半是唯一一种模型平均的近似值,但是它得到结果不错
1986年提出的方向传播算法哪里错了?
关于它为什么失败,我们得出的结论都错了。真正的原因是:
1. 我们的标记数据集太小了。(几千倍的差异)
2. 我们的运算能力太慢了。(百万倍的差异)
3. 我们进行权重初始化的方式错了。
4. 我们使用了错误的非线性类别。
几年前,Jeff Dean认为如果计算能力足够的话,神经网络也许能够做到一些非常了不起的事情。
他建立许多架构让一些大型神经网络在Google的数据中心核心区块上进行训练。
卷积神经网络(部分复杂细节已略去)
有关卷积网络最好的类型可以去查看Hochreiter和Schmidhuber于1997年发布文章的细节。
卷积神经网络
卷积神经网络十分强大,因为它们结合了两种特性。
l 分布式隐层允许它们有效存储之前的信息
l 非线性动态允许它们以复杂的方式更新隐层
l 深度越深,性能更好
机器翻译的一种全新方式(Suskever, Vinyals和Le,2014)
针对每种语言,我们都有一个深度编码器RNN和一个深度解码器RNN
针对原始语言的编码器RNN按照语句中文本顺序进行阅读
它最终的隐层表示的就是语句所要表达的含义。
针对翻译分布的一个解码器RNN
首先它输出的是可能的首个单词的概率分布
我们在这个分布中选取一个单词,然后将它反馈到RNN中最为一个输入
给定首个单词,RNN指定第二个单词的分布
继续进行,直到选完
在训练期间,我们只需要输入“正确”的单词。
编码器和解码器网络是如何训练的
给定一个句型组,使用反向传播来最大化产生特定翻译的对数可能性
目前这个系统只训练过一组语言
该系统已实现在该数据上的最佳水准
该系统大约需要一年来开发
如果我们使用更多的数据,并且同时对多种语言共同进行训练编码器和解码器的话,它的表现会好的多
欧洲的议会给出了25种方式,我们可以通过所有的25中解码器进行反向传播。
结合视觉和语言(Vinyals等近期工作的简单介绍)
在imagent上训练的深度卷积网络种最后一个隐层的活动向量是能编码图片中内容的“认知”
将认知规划到深度卷积神经网络的初始隐层
训练RNN来输出它在图片中看到了什么
使用一个拥有20万张图片(每张图片有几个注释)的数据集
不再重复训练卷积神经网络
一群人在一个户外市场购物
(人们蜷缩围绕着一家开放市场)
一个抱着填充动物玩具的孩子特写
(一个小女孩睡在沙发上,抱着一个玩具熊)
文本处理的意义
一旦我们能将一句话转化成一个思想向量,那么一篇文本也能变成一系列的思想向量。
在接下里的几年里,人们将使用深度RNNs来学习对思想向量序列进行建模。
这将捕获自然推理过程
它应该能让我们理解文本要表达的含义
我们可能需要数十亿的神经元以及百亿级的参数才能实现人类的理解水平。
经典AI的意义
对于物理学家来说光波必须通过以太来进行传播
他们认为没有其他的可能性
对于AI研究学者来说人们必须使用正式的推理规则来通过一个一个论点来传播含义
他们认为没有其他的可能性
神经网络内部的编码器与解码器没有符号专门用来针对机器翻译
唯一的符号是输入和输出
也许处理符号串不是通过操作内部符号串来实现的
处理像素阵列绝对不是通过操作内部像素来实现的
深度学习是从哪里来的?
所有的主要思想和几乎全部的实践成果都是来源于基于兴趣的研究。(Gatsby基金十分重要)
目标在于鼓励翻译研究的政府资助也对发展深度学习科学技术有小部分贡献
公司擅长于开发新的想法理念
长远来看,好的想法理念却是真正的瓶颈
因此给予大学基础结构来发展真正的想法理念
本文作者:李尊
本文转自雷锋网禁止二次转载,原文链接
深度学习鼻祖Geoffrey Hinton帮你入门带你飞相关推荐
- 人工智能名人堂第54期 | 深度学习鼻祖:Geoffrey Hinton
来源:德先生 概要:近日,他因提出capsule 概念,推翻反向传播再次引发广泛关注与热议. Geoffrey Hinton,被称为"神经网络之父"."深度学习鼻祖&qu ...
- 深度学习鼻祖杰夫·辛顿及巨头们的人才抢夺战
摘要:深度学习已经诞生了数十年时间,但直到近几年才受到各大科技公司的重视,被认为是硅谷科技企业的未来,今天为大家介绍的是深度学习的开山鼻祖Geoffrey Hinton. 在过去的三十年,深度学习运动 ...
- 深度学习第一课:极简入门
本场 Chat 主要目标是立足于前人肩膀上,从整体上来总览深度学习,图文并茂的解释深度学习概念.适合想转战深度学习的小伙伴,以及刚刚入门深度学习,却为深度学习开发流程而困惑的小伙伴们. 本场 Chat ...
- 【深度学习的数学】接“2×3×1层带sigmoid激活函数的神经网络感知机对三角形平面的分类训练预测”,输出层加偏置b
文章目录 代码 接:[深度学习的数学]2×3×1层带sigmoid激活函数的神经网络感知机对三角形平面的分类训练预测(绘制出模型结果三维图展示效果)(梯度下降法+最小二乘法+激活函数sigmoid+误 ...
- 深度学习综述:Hinton、Yann LeCun和Bengio经典重读
来源:人工智能头条 翻译 | kevin,刘志远 审校 | 李成华 深度学习三巨头Geoffrey Hinton.Yann LeCun和Yoshua Bengio对AI领域的贡献无人不知.无人不晓.本 ...
- 126篇殿堂级深度学习论文分类整理,从入门到应用
来源:雷课 如果你有非常大的决心从事深度学习,又不想在这一行打酱油,那么研读大牛论文将是不可避免的一步.而作为新人,你的第一个问题或许是:"论文那么多,从哪一篇读起?"本文将试图解 ...
- “GANs 之父”Goodfellow亲身传授:深度学习未来的8大方向和入门AI必备的三大技能
近日,被称为"GANs 之父"的 Ian Goodfellow 在 Quora 上回答网友提问.在问答环节中,Goodfellow 不仅介绍了谷歌大脑(Google Brian)目 ...
- 深度置信网络_人工智能深度学习之父Hinton深度置信网络北大最新演讲(含PPT)...
这是2019年5月14日Hinton在北大做的远程讲座 Abstract In 2006, there was a resurgence of interest in deep neural netw ...
- 深度学习之父Hinton:下一代神经网络
2020-07-28 20:42:16 作者 | 青暮.陈大鑫 编辑 | 丛 末 SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,若非疫情影响,今年本定于中国西安市举行.7月25日 ...
最新文章
- 2021年大数据Hadoop(二十二):MapReduce的自定义分组
- 20个经典要诀学好英语
- 解析自动驾驶算法四大模块的问题与后续发展
- 【ESP8266】使用ESP8266 NONOS SDK的JSON API
- 郑州大学软件学院 大学生创新创业选拔赛章程
- 某些微型计算机使用Pentium,2010四川省计算机等级考试二级理论考试试题及答案...
- xshell删除文件夹命令_ssh远程连接GPU服务器进行深度学习以及常用ssh命令汇总
- 【bzoj3298】[USACO 2011Open]cow checkers(博弈论)
- 高斯c语言百度云免费,高斯数学(1-6年级)精品课程全集百度云下载
- 基于易智瑞(ArcGIS)JavaScript API的视频融合探索
- Python基础简答题
- 正向查找区域和反向查找区域的操作教程(内提供系统镜像下载)
- 2022.7.15 愚见
- Peekaboo——项目系统设计与数据库设计
- mt9638和t972哪个好
- 前端工程的价值体现在哪里
- 电脑计算机网络都打不开怎么办,实用教程:网络连接正常但打不开网页怎么办?...
- numpy之vstack()、hstack()
- 酷睿i7和i5对计算机专业要求,英特尔酷睿i5和i7处理器哪个好 英特尔酷睿i5和i7处理器详细介绍...
- 各个级别的教师资格证分别可以教什么阶段
热门文章
- 什么是域名?域名详细介绍
- MIPI DSI协议
- XAMPP连接远程服务器数据库
- 当GOOGLE搜索结果的链接无法打开时
- 软考高项——配置管理
- JQuery中的each()方法和$.each()函数的使用
- Java项目:旅游管理系统(java+JSP+HTML5+Bootstrap+servlet+Mysql)
- VS 2013使用ReportViewer 提示An error occurred during local report processing异常处理
- 网站优化十大方法之关键字篇
- Java使用Graphics2D添加文字水印碰见的坑(给透明底图片加半透明水印)