转载:http://mp.weixin.qq.com/s?timestamp=1510210312&src=3&ver=1&signature=qmn1IsRtGkSXORGKr9DZzJ8ttsqrVe8hLJWdmitb6ydDs4rq6oP50*AdRC4x2ClJ*Ajc3Zr2iCCleRR7Hkz2nBOZwghf23VGJQ3IoiI3SNnfMr54YqQz1P7OBVCFFNYb0Fr31xfTdm2Cg0KNtR7a6GP7FomF5a42d0lbnL82GCg=

机器之心编辑部

今年 8 月份,机器之心推荐了斯坦福 2017 CS231n 春季课程。近日,斯坦福公开了 STATS 385 秋季课程(还未结课,10.11-12.16),主题为《深度学习理论》,相关的课件资源也已放出(部分视频公开),希望能为大家寻求课程资源提供帮助。

  • 课程地址:https://stats385.github.io (https://stats385.github.io/)

  • 视频地址:https://www.researchgate.net/project/Theories-of-Deep-Learning

  • B站地址:https://www.bilibili.com/video/av16136625/

课程介绍

深度学习最近的成就很大程度上基于经验,不过,学者们总是在试图在理论层面上解释发展背后的原因。在斯坦福大学新推出的课程《Theories of Deep Learning》中,我们将从讲师 Bruna、Mallat、Mhaskar、Poggio、Papyan等人那里,试图建立神经网络背后的理论体系。在最初的背景介绍课程之后,几个论文作者将对自己的工作进行专门讲解。本课程共有 10 讲,每周上一次课。

该课程主要可以分为四部分,即回顾深度学习的概念、复习深度学习的理论方法、然后再讨论具体的理论贡献和最后三个课程的理论分析。

课程结构图

从上图可以看出,该课程主要围绕五个主题讨论,即统计机器学习、最优化理论、逼近理论和 Harmonic 分析和神经科学。可能我们比较熟悉的就是统计机器学习和最优化方法,他们确实能解释深度学习具体算法到底是如何工作的,但并不足以构建深度学习的理论基石。

该课程开篇先讨论了深度学习的挑战,即它到底是不是有理论依据。当然这里并不是说深度学习算法没有理论推导与分析,而是说该领域是不是存在一个普遍的理论基础,它应该拥有逻辑自洽和可解释性。这一部分的课程先解释了深度学习目前所出现的问题,例如它的黑箱问题、理论可解释性问题等等。随后介绍了试图构建相关理论的方法,如神经科学、谐波分析(Harmonic analysis)、逼近理论、统计机器学习。

尝试使用神经科学的观点解释视觉与卷积神经网络

前面既然已经了解到了深度学习的局限性,那么第二课就具体讨论了深度学习(主要以 CNN 为例)所涉及的概念与理论。这一部分从最基本的感知机单元(现在已有另外一个基本单元 Capsule)开始,详细介绍了各主流 CNN 框架与常用的训练技巧,如正则化、批量归一化(BN)和最优化方法等。

下面我们简要地展示了这一部分课程的内容。我们知道感知机是深度神经网络的基本构成单元,它是构成目前所有架构的基础,包括最近 Hinton 开放的 Capsule 单元也只是利用一组神经元以表征向量。而组织这些基本单元的架构就是整个神经网络的结构,一般这些神经元会有正向和反向传播两种路径,正向传播以给定输入数据做出推断,而反向传播误差以更新网络。以下是该课程给出的定义:

而基于这两种传播方式的 CNN 也有不同的架构以实现不同的功能。本课程以 AlexNet 为例详细介绍了深度卷积网络的架构与概念,包括 ReLU 激活函数、最大池化和 Dropout 机制等,当然训练过程中常见的最优化方法、批量大小和权重衰减策略也都有介绍。下面展示了近来各深度卷积网络的准确度与网络运算规模:

除了模型的构建,深度学习比较重要的就是模型的训练了,但模型的训练是一个非常工程的问题,我们会有很多的训练技巧。该课程简要介绍了正则化或批归一化等技术,这对于理解如何训练深度神经网络十分重要。总的来说,这一部分课程重点介绍了目前深度学习的主要架构与方法。

第三课主要讨论如何使用 Harmonic 分析方法解析深度卷积神经网络,这一部分从非线性特征提取器的重要地位开始,讲述了特征的位置不变性,即同一个特征在不同位置出现应该都能检测到并正确识别出来。这一部分如下做了大量的理论性分析:

此外,这一部分还讨论了许多 Topology reduction 方面的知识。

前面第三课主要从谐波分析的角度介绍了卷积网络,而后面第四课主要讨论了将 CNN 解释为生成模型的推断,通过动态规划解释卷积网络的推断和使用 EM 算法解释学习的过程。

下面是从动态规划的角度理解卷积网络,即 CNN 可以解释为一种通过最大化输入相似度而寻找概念记忆的动态规划方法。这种方法虽然在数学上是和 CNN 等价的,但直观经验上并不太等价。

此外,通过反向传播学习也可以根据 Hard EM 方法而做出解释。如下所示,EM 和 EG 算法的 E 步和 M/G 步可以分别等价解释为前馈传播卷积操作和反向传播误差以更新权重。

我们现在不仅已经了解了深度学习的基本原理与概念,同时对于理论性的解释也有所涉猎。但深度学习中还会存在很多问题,例如维度灾难、高度非凸函数优化等。这一部分课程主要从逼近理论、最优化理论和学习理论三个角度讨论深度学习令人疑惑的问题。

从逼近理论来说,我们需要清楚什么时候及为什么深层网络要比浅层网络更好。

而从最优化理论来说,我们是否能够探知经验风险的整体趋势,而不是只能像 SGD 甚至是二阶牛顿法那样只能探测到损失函数的局部变化特征。而对于深度神经网络那样的高度非凸函数,寻找经验风险函数的整体趋势对于避免陷入局部最优解极其重要。

最后从学习理论来说,深度学习如何才能不至于过拟合是非常重要的一个问题。

总的来说,该课件的前两个是组织者对人工智能发展的总结以及对该课程的介绍。从第三课开始,讲师开始对深度学习的一些概念做详细介绍:从卷积神经网络到生成模型、动态规划&EM 等等。

斯坦福大学秋季课程《深度学习理论》STATS 385开讲相关推荐

  1. 斯坦福大学面向Tensorflow深度学习研究课程(2018)

    注:本博客内容摘抄自微博:爱可可-爱生活,链接:https://weibo.com/fly51fly?profile_ftype=1&is_all=1#_rnd1515898914049 [斯 ...

  2. 斯坦福2019秋季课程CS224W

    点击上方"深度学习技术前沿",选择星标或置顶,每天给你送干货! 阅读大概需要5分钟 跟随小博主,每天进步一丢丢 赖可 发自 凹非寺 本文转载自:量子位(QbitAI) 斯坦福201 ...

  3. 斯坦福2019秋季课程:图机器学习资料全公开

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :斯坦福,量子位 [人工智能 ...

  4. 机器学习入门的绝佳材料:斯坦福大学机器学习课程原始讲义(含公开课视频)

    斯坦福大学机器学习课程原始讲义 本资源为斯坦福大学机器学习课程原始讲义,为 Andrew Ng  所讲,共计20个PDF,基本涵盖了机器学习中一些重要的模型.算法.概念,此次一并压缩上传分享给大家,朋 ...

  5. 斯坦福大学机器学习课程原始讲义 + 公开课视频

    斯坦福大学机器学习课程原始讲义 + 公开课视频 斯坦福大学机器学习课程原始讲义 本资源为斯坦福大学机器学习课程原始讲义,为 Andrew Ng  所讲,共计20个PDF,基本涵盖了机器学习中一些重要的 ...

  6. 2008年《斯坦福大学开放课程: 编程方法学》(Open Stanford Course : Programming Methodology )[人人影视中英双语字幕][WMV]

    <斯坦福大学开放课程: 编程方法学>(Open Stanford Course : Programming Methodology )[人人影视中英双语字幕][WMV] http://ww ...

  7. 2010年《斯坦福大学开放课程: 编程方法》(Open Stanford Course : Programming Methodology)[中英双语字幕][RMVB]更新中

    <斯坦福大学开放课程: 编程方法>(Open Stanford Course : Programming Methodology)[中英双语字幕][RMVB] http://www.ver ...

  8. 斯坦福大学机器学习课程资料-吴恩达老师主讲(2008版)

    吴恩达老师于08年在斯坦福大学开办的机器学习课程,本站将课程视频.讲义.笔记分享下,这个课程的视频比较模糊,有大量的数学推导,有点难度,建议有一定数学基础的同学学习,初学者请绕道. 吴恩达老师后来推出 ...

  9. 对知识图谱的告白:斯坦福大学CS520课程介绍

    斯坦福大学CS520知识图谱系列课程,从这个课程的编号就足以看出对计算机科学的告白. 相信大家对斯坦福大学的计算机学科公开课一点也不陌生,对很多人来说,面向计算机视觉的CS231n和面向自然语言处理的 ...

最新文章

  1. 产权分割商铺,太坑人!
  2. (J2EE学习笔记)解决Hibernate删除异常:deleted object would be re-saved by cascade
  3. Apache按天截断日志工具,无法生成访问日志
  4. 【财务思维课】固定资产是应该买呢还是租或是借呢?
  5. python学习点滴记录-Day09
  6. 牛客网 -- 计算机历年考研复试上机题 -- 手机键盘
  7. SpringBoot 配置多数据源(Sql Server、MySql)
  8. C语言学习笔记(2)
  9. 即将改变软件开发的5个Java9新特性
  10. 每日英语:Chinese Show Global Real-Estate Appetite
  11. ArcGIS学习总结(11)——创建点要素并计算对应经纬度
  12. JAVA后端开发常用的Linux命令总结
  13. Vue小说阅读器(仿追书神器)
  14. Proximal Algorithms
  15. nodejs个人学习笔记
  16. 程序与算法的区别和内在联系(算法是什么?程序又是什么?)
  17. svchost.exe“病毒”
  18. 怎么用java做日历_怎么用java做日历?实例讲解
  19. 世界上最简单的会计书(服务行业利润表)
  20. ios6.0 siri语音识别

热门文章

  1. Mall商城后台管理系统——(Vue+SSM)
  2. android 获取sd卡目录失败_Android获取外置SD卡存储路径的方法
  3. 调查问卷动态生成的一点探索
  4. 五,JavaScript数组·上
  5. 与谷歌AI领军科学家一较高下的梦想如何反应了中国对科技突破的追求?
  6. 11. Python3 测试代码
  7. C++第一讲——Demon和Angela的魔法之旅
  8. 定时/计数器应用——从P1.0输出周期为1s的方波,让发光二极管以1Hz闪烁
  9. 关于经济寒冬找工作为什么这么难?
  10. 系统备用服务器连接配置异常,网络配置的DNS服务老是异常网络连接老是异常...._网络编辑_帮考网...