点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送

转自:专知

【导读】在DeepMing任职的Nando de Freitas(原牛津大学教授)在KHIPU 2019上做了关于强化学习(RL)的教程,102页ppt。涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法,并介绍了RL的应用

在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMing任职的Nando de Freitas做了教程《Reinforcement Learning》,用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。

Nando de Freitas简介


Nando出生在津巴布韦,患有疟疾。他是莫坎比克战争的难民。他的父母借钱从贪官给他买一本护照,让他能够生活在葡萄牙马德拉的一个火山岩小屋,没有水和电,父母忙着偿还债务也不再身边,这种情况一直持续到欧盟到达那里。

他在威特沃特斯兰德大学(University of the Witwatersrand)获得了电气工程理学学士学位和控制理学硕士学位,后幸获得剑桥大学三一学院(Trinity College, Cambridge University)神经网络贝叶斯方法博士学位,这要归功于慈善人士提供的奖学金。

他在加州大学伯克利分校(UC Berkeley)获得了人工智能的博士后学位,并于2001年成为加拿大不列颠哥伦比亚大学(University of British Columbia)的教授,随后在2013年成为英国牛津大学(University of Oxford)的教授。2017年,他以首席科学家的身份加入了DeepMind的全职工作,帮助解决智能问题的愿景,让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员,并获得了一些学术奖项。

主页介绍:

https://khipu.ai/03_nando_de_freitas/

《Reinforcement Learning》教程的内容


  • 强化学习概念

  • 策略梯度

  • 动态规划

  • 深度Q网络

  • 分布式强化学习

  • D4PG(Distributed Distributional Deep Deterministic Policy Gradients)

  • PPO(Proximal Policy Optimization)和MPO(Maximum aposteriori Policy Optimisation)

  • R2D3(Recurrent Replay Distributed DQN from Demonstrations)

  • 强化学习应用:

    • AlphaX

    • Batch强化学习

资源获取

附上云盘下载链接,长按扫码关注:Python与机器智能后台回复最新强化学习(建议复制)即可获得百度网盘地址。

Python与机器智能

(公众号有大量Python,和AI相关资源,欢迎关注!

教程部分截图如下所示:

参考链接:

  • https://khipu.ai/program/

  • https://khipu.ai/03_nando_de_freitas/

  • https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing


推荐阅读

欢迎关注我们,看通俗干货

喜欢就点「在看」吧 !

DeepMind Nando(原牛津大学教授)强化学习最新进展,含图文、公式和代码,附102页PPT下载...相关推荐

  1. 102页PPT,DeepMind强化学习最新进展,含图文、公式和代码

    来源:专知 本文多图,建议阅读9分钟 本文提供涵盖了强化学习RL基础概念.策略梯度.动态规划以及D4PG.R2D3等RL算法的资源. [ 导读 ]在DeepMing任职的Nando de Freita ...

  2. DeepMind联合UCL,推出2021强化学习最新课程!

    欢迎关注,专注学术论文.机器学习.人工智能.Python技巧 DeepMind 作为全球顶级 AI 研究机构,自 2010 年创建以来已有多项世界瞩目的研究成果,例如击败世界顶级围棋玩家的 Alpha ...

  3. Yann Lecun 纽约大学Spring2020深度学习课程,附66页PPT下载

    本课程涉及深度学习和表示学习的最新技术,重点是有监督和无监督的深度学习.嵌入方法.度量学习.卷积网和递归网,并应用于计算机视觉.自然语言理解和语音识别. Yann LeCun 在人工智能研究领域,Ya ...

  4. DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用

    内容来源:ATYUN AI平台 最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong.尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家 ...

  5. 《强化学习周刊》第25期:DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

    No.25 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  6. MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。

    项目设计集合(人工智能方向):助力新人快速实战掌握技能.自主完成项目设计升级,提升自身的硬实力(不仅限NLP.知识图谱.计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户 ...

  7. 深鉴科技联合创始人汪玉:针对机器视觉的深度学习处理器(附视频、PPT下载)...

    本内容选自清华大学电子系副教授.深鉴科技联合创始人汪玉于2018年4月27日在清华大学主楼接待厅数据科学研究院举办的第二届"大数据在清华"高峰论坛所做题为<针对机器视觉的深度 ...

  8. UC伯克利出品,深度强化学习最新课程已上线

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 主题涵盖深度强化学习领域的方方面面,UC 伯克利 CS 285 2020 秋季课程视频放出. ...

  9. 强化学习最新作品:谷歌最新思想、MIT新书推荐、Sutton经典之作!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 强化学习一直是研究热点,对于小白来说,看书是最快入门的唯一途径.本期为大家精心准备 ...

最新文章

  1. 【Android开发】:在任意目录执行NDK编译
  2. 【Python3_基础系列_009】Python3-条件语句-If
  3. SAP BW查看数据源提取方法
  4. 搜索引擎的十大秘密(收藏)
  5. 16进制 转为图片 php_Python 十六进制hex-bytes-str之间的转换和Bcc码的生成
  6. php 分类代码,php无限分类的图文代码介绍
  7. java 浅堆 深堆_【深入浅出-JVM】(57):深堆、浅堆
  8. mysql首字母排序_mysql 按字段的首字母排序及查询
  9. 数据结构殷人昆电子版百度云资源_数据结构精讲与习题详解
  10. Openstack Linux镜像模板创建
  11. [2.1]-AutoSAR零基础学习-汽车电子控制系统简介
  12. C语言 归并排序算法
  13. Buffer Overflow with Shellcode-protostar-stak5-bin-0x06
  14. CF-Educational Codeforces Round 44 (Rated for Div. 2)-A-Chess Placing
  15. Ubuntu 下配置 Typora 图片上传到 smms
  16. html正则邮箱格式,JS正则表达式判断邮箱格式是否正确
  17. 兔八哥与猎人【普及-】
  18. 從turtle海龜動畫 學習 Python - 高中彈性課程系列 3 烏龜繪圖 所需之Python基礎
  19. oCPC实践录 | 广告算法工程师的自我修养
  20. 学生选课系统-学年学期选择器,根据入学年份自动计算当前学期

热门文章

  1. CPU 和内存虚拟化原理 - 每天5分钟玩转 OpenStack(6)
  2. Mysql字符串处理
  3. 进入Xcode4,选择菜单“Product”-“Profile”,快捷键Command+I 监测内存泄露
  4. Lock/Unlock Account - Active Directory
  5. 培养积极状态的八个方法
  6. 用C语言解“支票问题”题
  7. 语言中什么时候加大括号_日本留学语言学校申请季你知道是几月吗?从什么时候开始准备...
  8. 2021-05-09为什么pip install安装的包anaconda识别不了
  9. Java注解基本原理
  10. oracle 批量导出sequence,Oracle中批量導出Sequence