来源:专知

本文多图,建议阅读9分钟

本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。


[ 导读 ]在DeepMing任职的Nando de Freitas(原牛津大学教授)在KHIPU 2019上做了关于强化学习(RL)的教程,102页ppt。涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法,并介绍了RL的应用。
在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMing任职的Nando de Freitas做了教程《Reinforcement Learning》,用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。

Nando de Freitas 简介


Nando出生在津巴布韦,曾是莫坎比克战争的难民,患有疟疾。他的父母借钱给他买一本护照,让他能够生活在葡萄牙马德拉的一个火山岩小屋,没有水和电,父母忙着偿还债务也不在身边,这种情况一直持续到欧盟到达那里。


他在威特沃特斯兰德大学(University of the Witwatersrand)获得了电气工程理学学士学位和控制理学硕士学位,后获得剑桥大学三一学院(Trinity College, Cambridge University)神经网络贝叶斯方法博士学位,这要归功于慈善人士提供的奖学金。
他在加州大学伯克利分校(UC Berkeley)获得了人工智能的博士后学位,并于2001年成为加拿大不列颠哥伦比亚大学(University of British Columbia)的教授,随后在2013年成为英国牛津大学(University of Oxford)的教授。2017年,他以首席科学家的身份加入了DeepMind的全职工作,帮助解决智能问题的愿景,让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员,并获得了一些学术奖项。
主页介绍:
https://khipu.ai/03_nando_de_freitas/
《Reinforcement Learning》教程的内容

  • 强化学习概念

  • 策略梯度
  • 动态规划
  • 深度Q网络
  • 分布式强化学习
  • D4PG(Distributed Distributional Deep Deterministic Policy Gradients)
  • PPO(Proximal Policy Optimization)和MPO(Maximum aposteriori Policy Optimisation)
  • R2D3(Recurrent Replay Distributed DQN from Demonstrations)
  • 强化学习应用:
    • AlphaX
    • Batch强化学习
关注数据派THU(DatapiTHU)后台回复20191122” 获取本文PPT
教程部分截图如下所示:






















关注数据派THU(DatapiTHU)后台回复20191122” 获取本文PPT

参考链接:

https://khipu.ai/program/

https://khipu.ai/03_nando_de_freitas/

https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing

编辑:黄继彦

校对:王欣

102页PPT,DeepMind强化学习最新进展,含图文、公式和代码相关推荐

  1. DeepMind Nando(原牛津大学教授)强化学习最新进展,含图文、公式和代码,附102页PPT下载...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...

  2. 【144页/附下载】5G最新进展深度解析—全集完整版

    | 文章版权所有,未经授权请勿转载或使用 「5G行业应用」相继推出<5G最新进展深度解析--全球市场篇>.<5G最新进展深度解析--国内市场篇>.<5G最新进展深度解析- ...

  3. 圣经书||《强化学习导论(2nd)》原书、代码、习题答案、课程视频大全

    深度强化学习实验室报道 作者:DeepRL 下载地址见文章末尾 强化学习是现在人工智能领域里面最活跃的研究领域之一,它是一种用于学习的计算方法,其中会有一个代理在与复杂的不确定环境交互时试图最大化其所 ...

  4. MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。

    项目设计集合(人工智能方向):助力新人快速实战掌握技能.自主完成项目设计升级,提升自身的硬实力(不仅限NLP.知识图谱.计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户 ...

  5. 「干货」谷歌大脑:元学习最新进展与挑战(40 PPT下载)

    https://www.toutiao.com/a6651792282443842055/ 2019-01-29 13:51:18 [新智元导读]Hugo Larochelle是谷歌大脑的研究员.深度 ...

  6. DeepMind联合UCL,推出2021强化学习最新课程!

    欢迎关注,专注学术论文.机器学习.人工智能.Python技巧 DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 Alpha ...

  7. 让人造太阳更近!DeepMind强化学习算法控制核聚变登上Nature

    来源:机器之心 本文约2400字,建议阅读5分钟 用强化学习控制核聚变反应堆内过热的等离子体. 过去三年,DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目:用强化学习控制核 ...

  8. DeepMind强化学习新研究:更快的知识学习,更强的环境适应

    2021-05-04 13:36:12 编译 | Mr Bear 校对 | 维克多 DeepMind官方博客在一篇文章"Fast reinforcement learning through ...

  9. 综合LSTM、transformer优势,DeepMind强化学习智能体提高数据效率

    ©作者 | 陈萍.杜伟 来源 | 机器之心 来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体,它结合了新的对比损失以及混合 LSTM-transformer 架构,可以提高处 ...

最新文章

  1. 设计模式之Pimpl模式
  2. sql SERVER 模拟试题
  3. 图解算法学习笔记(五):散列表
  4. 可以批量转modis投影_SNAP批量处理Sentinel2数据
  5. C#读写config配置文件
  6. bzoj 3372: [Usaco2004 Feb]Moo University -- Financial Aid 财政补助(set+贪心)
  7. mysql有哪些特色SQL语句_Linux-MySQL-有哪些常用sql语句
  8. H5如何实现唤起APP
  9. 计算机原理阅读,计算机原理与应用作业
  10. LINUX下截图快捷方式
  11. 计算机教室报损登记簿,瑞安市第四中学
  12. 乱得那么认真|阿里小二办公桌上的秘密~内部流出
  13. you-get和youtube-dl下载全网视频
  14. 凤凰男,你若孤老终身,便是晴天
  15. (QT)qss与按钮
  16. 弘玑|数字员工赋能金融转型,迈向更加高效灵活的运营模式
  17. 在线抓包工具Whistle
  18. 《龙武》9.15正式上线链游玩家平台 | 再续仙侠、血雨江湖
  19. qq邮箱服务器在哪里设置密码,手把手教程 邮箱这样设置,就对了
  20. git 撤回commit

热门文章

  1. 3星|《终身成长》:成长型思维让人进步,固定型思维让人固步自封。有新意的励志书,但有锤子模式的嫌疑。...
  2. CRM系统业务的分析(1)
  3. Sentry--错误日志收集框架
  4. CentOS 7 Redis 3.2.8的安装和使用
  5. 通信基站电池,再也不怕丢了
  6. Django admin coercing to Unicode: need string or buffer, tuple found
  7. DTCMS中文章增加tags标签和关键词时中文,替换为英文状态,
  8. Nginx HTTP 负载均衡和反向代理
  9. 2012年 浙工大考研计算机专业课试题C++(学硕)
  10. 通用线程: 学习 Linux LVM