欢迎关注,专注学术论文、机器学习、人工智能、Python技巧

DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。

近几年,DeepMind 联合伦敦大学学院(UCL)推出了一些人工智能线上课程,今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授,旨在为学生提供对现代强化学习的全面介绍。文末提供下载方式。

课程介绍

本次课程共包括 13 节,涵盖了顺序决策问题中强化学习和规划的基础知识,并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题,包括马尔科夫决策过程(MDP)、基于样本的学习算法(例如双 Q 学习、SARSA)、深度强化学习等,还探讨了一些更高级的主题,包括 off-policy 学习、多步更新和资格迹(eligibility traces),以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件。

下面我们来看一下各节课程的具体内容。

第 1 讲 强化学习简介:DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容,然后讲解了强化学习与 AI 的关系。

第 2 讲 探索与控制:Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。

第 3 讲 MDP 和动态规划:DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略。

第 4 讲 动态规划算法的理论基础:Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理(contraction mapping)。

第 5 讲 无模型预测:Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。

第 6 讲 无模型控制:Hado van Hasselt 讲解了用于策略改进的预测算法,以产生可以从采样经验中学习良好行为策略的算法。

第 7 讲 函数近似:Hado van Hasselt 讲解了如何将深度学习与强化学习结合,以实现「深度强化学习」。

第 8 讲 规划与模型:DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型,包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。

第 9 讲 策略梯度和 Actor-Critic 方法:Hado van Hasselt 讲述了可以直接学习策略的策略算法,并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法。

第 10 讲 近似动态规划:Diana Borsa 讲解了近似动态规划算法,探讨了如何从理论的角度分析近似算法的性能。

第 11 讲 多步和 off-policy:Hado van Hasselt 讲解了多步和 off-policy 算法,包括多种减小方差的方法。

第 12 讲 深度强化学习 #1:Matteo Hessel 讲解了深度强化学习的实际要求和具体算法,以及如何使用自动微分(Jax)来实现。

第 13 讲 深度强化学习 #2:Matteo Hessel 讲解了通用价值函数(general value functions)、基于 GVF 的辅助任务,并进一步讲解了如何处理算法中的扩展问题。

DeepMind 研究者亲自授课

该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

Hado van Hasselt 是 DeepMind 的一名研究科学家,也是伦敦大学学院(UCL)的荣誉教授。Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学,他的研究兴趣包括人工智能、机器学习、深度学习,并重点研究强化学习。

Diana Borsa

Diana Borsa 是 DeepMind 的研究科学家,也是 UCL 的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能(AGI),涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。

Matteo Hessel

Matteo Hessel 是 DeepMind 的一位研究工程师,也是 UCL 的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文,这些论文的引用次数超过 4000 次,并获得了 2 项注册专利。

获取方式

资料已打包完成,获取方法如下:

  • 1、微信搜索公众号:机器学习社区,后台回复:UCL
  • 方法2、扫描下方二维码或者发送图片到微信识别,后台回复:UCL

DeepMind联合UCL,推出2021强化学习最新课程!相关推荐

  1. UC伯克利出品,深度强化学习最新课程已上线

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 主题涵盖深度强化学习领域的方方面面,UC 伯克利 CS 285 2020 秋季课程视频放出. ...

  2. B站上线!DeepMind加UCL强强联手推出深度学习与强化学习进阶课程(附视频)

      新智元报道   编辑:元子 [新智元导读]DeepMind和伦敦大学学院(University College London,UCL)合作,推出了一个系列的深度学习与强化学习精品进阶课程.该课程内 ...

  3. 《强化学习周刊》第23期:NeurIPS 2021强化学习的最新研究与应用

    No.23 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于NeurIPS 20 ...

  4. 《强化学习周刊》第24期:CORL 2021强化学习的最新研究与应用

    No.24 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于CORL 2021学 ...

  5. 【资源下载】DeepMindUCL深度学习与强化学习进阶课程

    点击我爱计算机视觉标星,更快获取CVML新技术 本文课程介绍部分来自机器之心,因为原视频国内无法观看,所以我爱计算机视觉费了老大劲专门搬到国内分享给大家,下载方法见文末. 11月23日,DeepMin ...

  6. 李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)

    李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...

  7. 李宏毅深度强化学习(国语)课程(2018) 笔记(一)Policy Gradient (Review)

    李宏毅深度强化学习(国语)课程(2018) https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.al ...

  8. 李宏毅深度强化学习(国语)课程(2018) 笔记(八)Imitation Learning

    李宏毅深度强化学习(国语)课程(2018) 李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili ​        机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程 ...

  9. 【学霸笔记】AlphaGo之父David Silver的强化学习经典课程笔记

    聚焦AI干货,关注:决策智能与机器学习 AlphaGo之父David Silver的强化学习经典课程前文已有介绍,本想自己整理一下课程的学习笔记,但发现已经有学霸整理的很完善,不做东施效颦之举,在此分 ...

最新文章

  1. flask执行python程序_Flask app后如何执行代码(应用程序运行)开始
  2. webpack构建vue项目
  3. 【渝粤题库】陕西师范大学164104 网络财务管理 作业(高起专)
  4. UE4如何贴混合贴图_UE4_赛博朋克雨夜环境创作分享
  5. 售货员的难题(codevs 2596)
  6. 保持皮肤水嫩有光泽,让皮肤保湿的土办法 - 生活至上,美容至尚!
  7. [原] 计算机调试管理器服务被禁用的解决方法
  8. 深度神经网络 卷积神经网络_改善深度神经网络
  9. js基础-6-作用域、执行流程、this指向
  10. 敏感词屏蔽工具(DFA算法)
  11. “贵人”相助,亚马逊云科技APN成员乘风破浪
  12. layui日周月年的日历切换,当选择周时设置每周一可选,其余日期置灰不可选
  13. VirtualApp hook so及activity回调
  14. Qt5.9最简单的画五角星
  15. 新型冠状病毒的信息汇总与分析 (形态,分类,基因组,进化,变异,流行病学)
  16. GNSS连续运行单参考站解决方案
  17. cad指北针lisp_建筑施工图常用符号及图例
  18. linux指令_刘世民
  19. DC Scenario
  20. 【BZOJ1455】罗马游戏

热门文章

  1. Open3D 点云三角面化 mesh
  2. ECU-TEST 快速入门
  3. Xilinx AXI EMC IP使用
  4. Docker 安全问题与防护 (学习笔记)
  5. webupload 踩过的坑
  6. mongodb 导入数据inport,数据不能在C盘
  7. OTRS 工单系统部署
  8. WebRTC服务器理论铺垫(六):OpenSSL协议,DTLS协议,RTP协议和SRTP协议
  9. java_找出大于200的最小质数
  10. 20200425观《玄奘之路》心得