推荐  

来源:DeepMind & UCL

编辑:肖琴,文强

【导读】一直走在深度学习研究最前沿的DeepMind,终于公开了它联合UCL的“高级深度强化学习课程”!18节课24小时,一天看完Deep RL及其2018最新进展。

今天,DeepMind 官推贴出一则告示,将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。

一共18节课,走过路过不能错过。

深度强化学习是人工智能领域的一个新的研究热点,从AlphaGo开始,DeepMind便在这一领域独占鳌头。

深度强化学习以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。自提出以来, 在许多需要感知高维度原始输入数据和决策控制的任务中都取得了实质性的突破。

2018年,南京大学的AI单机训练一天,击败《星际争霸》最高难度内置Bot,OpenAI 打 DOTA2 超越了Top 1%的人类玩家,深度强化学习不断在进展。

结合算法的发展和实际应用场景,DeepMind在UCL教授的这门课程内容也是最前沿的。

还有关键一点,那就是视频的质量和清晰度超赞啊(需要科学上网)。

DeepMind亲授“高级深度强化学习课程”

这门课程是DeepMind与伦敦大学学院(UCL)的合作项目,由于DeepMind的研究人员去UCL授课,内容由两部分组成,一是深度学习(利用深度神经网络进行机器学习),二是强化学习(利用强化学习进行预测和控制),最后两条线结合在一起,也就成了DeepMind的拿手好戏——深度强化学习。

关于深度强化学习,DeepMind一直在努力,比如最新发表的研究让 AI 行动符合人类意图。

这门课也是结合案例讲解的,值得一提,最后一课“第18节:深度强化学习的经典案例”,讲师是 David Silver,这位AlphaGo背后的英雄以及AlphaZero灵魂人物,他讲的课程无论如何也应该听一听。

David Silver在UCL讲课的视频截图

在深度学习部分,课程简要介绍了神经网络和使用TensorFlow的监督学习,然后讲授卷积神经网络、递归神经网络、端到端并基于能量的学习、优化方法、无监督学习以及注意力和记忆。讨论的应用领域包括对象识别和自然语言处理。

强化学习部分将涵盖马尔科夫决策过程、动态规划、无模型预测和控制、价值函数逼近、策略梯度方法、学习与规划的集成以及探索/开发困境。讨论的可能应用包括学习玩经典的棋盘游戏和电子游戏。

总体来说,这是一门偏向实践的课程,需要PyTorch和编码基础,学完以后,学生能够在TensorFlow上熟练实现深度学习、强化学习以及深度强化学习相关的一系列算法。

因此,除了深度学习、强化学习和深度强化学习的基础知识,深度神经网络的训练以及优化方法,这门课更加注重如何在TensorFlow中实现深度学习算法,以及如何在复杂动态环境中应用强化学习。

18节课一共24小时,一天看完深度强化学习进展

课程团队

深度学习1:介绍基于机器学习的AI

深度学习2:介绍TensorFlow

深度学习3:神经网络基础

强化学习1:强化学习简介

强化学习2:开发和利用

强化学习3:马尔科夫决策过程和动态编程

强化学习4:无模型的预测和控制

深度学习4:图像识别、端到端学习和Embeddings之外

强化学习5:函数逼近和深度强化学习

强化学习6:策略梯度和Actor Critics

深度学习5:机器学习的优化方法

强化学习7:规划和模型

深度学习6:NLP的深度学习

强化学习8:深度强化学习中的高级话题

深度学习7:深度学习中的注意力和记忆

强化学习9:深度RL智能体简史

深度学习8:无监督学习和生成式模型

强化学习10:经典游戏的案例学习

18节课一共24小时,一天看完高级深度强化学习

下面我们介绍第14节“深度强化学习中的高级话题”。讲课人是DeepMind研究科学家Hado Van Hasselt。Hado Van Hasselt的研究兴趣包括人工智能、机器学习、深度学习,尤其是强化学习。加入DeepMind之前,他在阿尔伯塔大学与Richard Sutton教授合作过。

Hado Van Hasselt是许多前沿论文的共同作者,包括Double Q-learning、Dueling DQN、rainbow DQN、强化学习的Ensemble算法等。

第14节视频

在这一节,Hasselt讲了深度强化学习中一些积极的研究主题,这些主题很好地突出了这一领域中正在取得的进展。

前面已经介绍过的强化学习研究主题包括:学习在bandit问题中做决策;序列决策问题;model-free的预测和控制;deep RL中的函数逼近;策略梯度和actor-critic方法;以及从模型中学习。

高级话题,是这些。

最主要的问题是:如何将未来的奖励最大化?

这个大问题可以分解成一些子问题:

  • 学习什么?(预测、模型、策略……)

  • 如何学习这些?(TD、规划……)

  • 如何表示这些学习到的知识?(深度网络、sample buffers,……)

  • 如何利用这些学习到的知识?

其中一些活跃研究主题包括:

  • 在完全序列,函数逼近设置中的“探索”(Exploration)

  • 利用延迟奖励的credit assignment

  • 局部规划或不精确的模型

  • 样本效率模型

  • Appropriate generalization

  • 构建有用、通用且信息丰富的agent state

Case study:rainbow DQN(Hasselt et al. 2018)

在这个研究中,Hasselt等人提出rainbow DQN,整合了DQN算法的6种变体,并证明它们很大程度上是互补。DQN的基本想法是利用target networks和experience replay。

这节课接下来的大部分内容围绕这个case,介绍了最新的技术和思想,请观看视频获得更详细的解释。

理解了分布(distribution),或许能对任务有所帮助。这是分布式强化学习的想法。分布式强化学习也意味着representation(例如深度神经网络)被迫要学习更多。

这可以加快学习:因为学习更多意味着更少的样本。

以下是分布式强化学习的具体案例。

全部视频列表:

https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs

推荐阅读:

一大批历史精彩文章啦

详解文本分类之多通道CNN的理论与实践

详解文本分类之DeepCNN的理论与实践

介绍4个大神常用而你不常用的python函数

资源 | 邓力、刘洋等合著的这本NLP经典书籍之情感分析中文版

资源 | 有没有必要把机器学习算法自己实现一遍?

谈谈我在自然语言处理进阶上的一些个人拙见

从Word Embedding到Bert模型——自然语言处理预训练技术发展史


DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)相关推荐

  1. UC伯克利出品,深度强化学习最新课程已上线

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 主题涵盖深度强化学习领域的方方面面,UC 伯克利 CS 285 2020 秋季课程视频放出. ...

  2. DeepMind Nando(原牛津大学教授)强化学习最新进展,含图文、公式和代码,附102页PPT下载...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...

  3. 102页PPT,DeepMind强化学习最新进展,含图文、公式和代码

    来源:专知 本文多图,建议阅读9分钟 本文提供涵盖了强化学习RL基础概念.策略梯度.动态规划以及D4PG.R2D3等RL算法的资源. [ 导读 ]在DeepMing任职的Nando de Freita ...

  4. CS285课程解释_01_为什么是深度强化学习

    田青 2021/01/12 为什么需要强化学习 我们先用一个例子来说明一下为什么需要用强化学习来解决问题.例如上图的机器人抓取问题:一个7自由度的机器人手臂,通过一个单目相机的输入(图片),试图用两个 ...

  5. 【2022·深度强化学习课程】深度强化学习极简入门与Pytorch实战

    课程名称:深度强化学习极简入门与Pytorch实战 课程内容:强化学习基础理论,Python和深度学习编程基础.深度强化学习理论与编程实战 课程地址:https://edu.csdn.net/cour ...

  6. 在哪个国家生活幸福?24秒看完联合国10年报告

    导读:24秒看完2010-2020联合国幸福指数最高的10个国家. 关注数据叔视频号,看更多好玩视频???? 延伸阅读<芬兰人幸福的艺术> 推荐语:全球幸福指数高国家的幸福秘笈,SISU, ...

  7. DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高!

    来源:AI科技评论 近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏.到围棋.再到无限制扑克等领域,AI 的表现都 ...

  8. DeepMind联合UCL,推出2021强化学习最新课程!

    欢迎关注,专注学术论文.机器学习.人工智能.Python技巧 DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 Alpha ...

  9. 解读72篇DeepMind深度强化学习论文

    来源:王小惟的知乎https://zhuanlan.zhihu.com/p/70127847 编辑:DeepRL 论文下载方法:pdf合集下载见文章末尾 DRL领域交流与讨论加微信:NeuronDan ...

  10. python全局解释器锁 tensorflow_想轻松复现深度强化学习论文?看这篇经验之谈

    近期深度强化学习领域日新月异,其中最酷的一件事情莫过于 OpenAI和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号.本文作者认为复现论文是提升机器学习技能的最好方式之一,所以选择了 ...

最新文章

  1. 朴素贝叶斯与逻辑回归区别
  2. Spring 使用 JSR303自定义校验注解+分组校验
  3. 六十六、实现Vue项目首页轮播图(vue-awesome-swiper)
  4. 03 HttpServletRequest_HttpServletResponse
  5. 如何新建分支上传_如何创建git分支?
  6. leetcode21
  7. 视觉 Transformer 综述
  8. 社会生存的75条忠告----胜读十年书【转】
  9. jar命令指定入口类
  10. C/C++头文件全解析
  11. docker下搭建JupyterNotebook远程登录
  12. 机器学习基础 -- 李宏毅2020机器学习课程笔记(一)
  13. 计算机二级c语言考试内容有哪些,计算机二级C语言考试内容大纲
  14. 【信息系统项目管理师】第二十二章 信息系统安全管理思维导图
  15. HTML在线播放音乐实例,一步一步实战HTML音乐播放器(示例代码)
  16. 移动硬盘突然断电导致坏道产生
  17. 如何构建Redis Streams应用程序
  18. 使用R进行描述性统计分析(连续性变量)
  19. 如何让 PPT 中的表格更美观?
  20. 浅谈BIM+智慧工地,拒绝吹嘘,拒绝高大上。

热门文章

  1. 编写可维护的javascript代码--- 2015.11.21(基本格式化)
  2. Javascript经典窍门
  3. adbe Air/flash swf中不能正常显示系统字体问题的解决方案
  4. 如何在不联网的情况下安装 Silverlight Tools
  5. linux添加计划任务(转载)
  6. 2017-10-19 NOIP模拟赛
  7. 如何把he_llo wo_rld 变成 HeLlo WoRld
  8. Spring 之autowired
  9. 「2013-9-14」Change Remote Desktop Port
  10. 经过多次试验后第一个成功地实现 HTTPService 与 MXML 之间传递数据,ArrayCollection 与DataGrid 之间成功绑定...