DeepMind联合UCL，推出2021强化学习最新课程！

欢迎关注，专注学术论文、机器学习、人工智能、Python技巧

DeepMind 作为全球顶级 AI 研究机构，自 2010 年创建以来已有多项世界瞩目的研究成果，例如击败世界顶级围棋玩家的 AlphaGo 和今年高效预测的蛋白质结构的 AlphaFold。

近几年，DeepMind 联合伦敦大学学院（UCL）推出了一些人工智能线上课程，今年他们联合推出的「2021 强化学习系列课程」现已全部上线。该课程由 DeepMind 的研究科学家和工程师亲自讲授，旨在为学生提供对现代强化学习的全面介绍。文末提供下载方式。

课程介绍

本次课程共包括 13 节，涵盖了顺序决策问题中强化学习和规划的基础知识，并进一步讲解了现代深度强化学习算法。其中详细讲解了强化学习的多个主题，包括马尔科夫决策过程（MDP）、基于样本的学习算法（例如双 Q 学习、SARSA）、深度强化学习等，还探讨了一些更高级的主题，包括 off-policy 学习、多步更新和资格迹（eligibility traces），以及实现 Rainbow DQN 等深度强化学习算法需要的理论和现实条件。

下面我们来看一下各节课程的具体内容。

第 1 讲强化学习简介：DeepMind 研究科学家 Hado van Hasselt 首先简单介绍了本次强化学习课程的内容，然后讲解了强化学习与 AI 的关系。

第 2 讲探索与控制：Hado van Hasselt 讲解了为什么学习智能体必须同时做到平衡探索和利用所获的知识。

第 3 讲 MDP 和动态规划：DeepMind 研究科学家 Diana Borsa 讲解了如何使用动态规划解决 MDP 以提取准确的预测和良好的控制策略。

第 4 讲动态规划算法的理论基础：Diana Borsa 讲解了动态规划算法的扩展和收缩映射定理（contraction mapping）。

第 5 讲无模型预测：Hado van Hasselt 仔细讲解了无模型预测及其与蒙特卡罗和时间差分算法的关系。

第 6 讲无模型控制：Hado van Hasselt 讲解了用于策略改进的预测算法，以产生可以从采样经验中学习良好行为策略的算法。

第 7 讲函数近似：Hado van Hasselt 讲解了如何将深度学习与强化学习结合，以实现「深度强化学习」。

第 8 讲规划与模型：DeepMind 研究工程师 Matteo Hessel 讲解了如何学习和使用模型，包括 Dyna 、蒙特卡洛树搜索 (MCTS) 等算法。

第 9 讲策略梯度和 Actor-Critic 方法：Hado van Hasselt 讲述了可以直接学习策略的策略算法，并进一步讲解了结合价值预测以提高学习效率的 actor critic 算法。

第 10 讲近似动态规划：Diana Borsa 讲解了近似动态规划算法，探讨了如何从理论的角度分析近似算法的性能。

第 11 讲多步和 off-policy：Hado van Hasselt 讲解了多步和 off-policy 算法，包括多种减小方差的方法。

第 12 讲深度强化学习 #1：Matteo Hessel 讲解了深度强化学习的实际要求和具体算法，以及如何使用自动微分（Jax）来实现。

第 13 讲深度强化学习 #2：Matteo Hessel 讲解了通用价值函数（general value functions）、基于 GVF 的辅助任务，并进一步讲解了如何处理算法中的扩展问题。

DeepMind 研究者亲自授课

该系列课程的讲师是 DeepMind 的研究科学家和工程师 Hado van Hasselt、Diana Borsa 和 Matteo Hessel。

Hado van Hasselt

Hado van Hasselt 是 DeepMind 的一名研究科学家，也是伦敦大学学院（UCL）的荣誉教授。Hado van Hasselt 博士毕业于世界顶尖公立研究型大学和百强名校乌得勒支大学，他的研究兴趣包括人工智能、机器学习、深度学习，并重点研究强化学习。

Diana Borsa

Diana Borsa 是 DeepMind 的研究科学家，也是 UCL 的荣誉讲师。她的研究兴趣主要是强化学习、机器学习、统计学习和通用人工智能（AGI），涵盖智能体学习、交互系统、多智能体系统、概率建模、表征学习等。

Matteo Hessel

Matteo Hessel 是 DeepMind 的一位研究工程师，也是 UCL 的荣誉讲师。他的研究重点是强化学习及其与深度学习的结合。Hessel 曾在 NeurIPS、ICML、ICLR、AAAI 和 RLDM 上发表过十余篇论文，这些论文的引用次数超过 4000 次，并获得了 2 项注册专利。

获取方式

资料已打包完成，获取方法如下：

1、微信搜索公众号：机器学习社区，后台回复：UCL
方法2、扫描下方二维码或者发送图片到微信识别，后台回复：UCL

DeepMind联合UCL，推出2021强化学习最新课程！相关推荐

UC伯克利出品，深度强化学习最新课程已上线
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货主题涵盖深度强化学习领域的方方面面,UC 伯克利 CS 285 2020 秋季课程视频放出. ...
B站上线！DeepMind加UCL强强联手推出深度学习与强化学习进阶课程（附视频）
新智元报道编辑:元子 [新智元导读]DeepMind和伦敦大学学院(University College London,UCL)合作,推出了一个系列的深度学习与强化学习精品进阶课程.该课程内 ...
《强化学习周刊》第23期：NeurIPS 2021强化学习的最新研究与应用
No.23 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于NeurIPS 20 ...
《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用
No.24 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于CORL 2021学 ...
【资源下载】DeepMindUCL深度学习与强化学习进阶课程
点击我爱计算机视觉标星,更快获取CVML新技术本文课程介绍部分来自机器之心,因为原视频国内无法观看,所以我爱计算机视觉费了老大劲专门搬到国内分享给大家,下载方法见文末. 11月23日,DeepMin ...
李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...
李宏毅深度强化学习(国语)课程(2018) 笔记（一）Policy Gradient （Review）
李宏毅深度强化学习(国语)课程(2018) https://www.bilibili.com/video/BV1MW411w79n?spm_id_from=333.337.search-card.al ...
李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning
李宏毅深度强化学习(国语)课程(2018) 李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili 机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程 ...
【学霸笔记】AlphaGo之父David Silver的强化学习经典课程笔记
聚焦AI干货,关注:决策智能与机器学习 AlphaGo之父David Silver的强化学习经典课程前文已有介绍,本想自己整理一下课程的学习笔记,但发现已经有学霸整理的很完善,不做东施效颦之举,在此分 ...

DeepMind联合UCL，推出2021强化学习最新课程！

获取方式

DeepMind联合UCL，推出2021强化学习最新课程！相关推荐

最新文章

热门文章