当前强化学习已在许多应用中取得了巨大成功。但样本效率仍是强化学习中一个重大挑战,重要的方法需要数百万(甚至数十亿)的环境步骤来训练。虽然,当前在基于图像的样本高效RL算法方面取得了重大进展;但是,在Atari游戏基准上,要达到与人类水平相一致,仍然是一个难以实现的目标。

智源社区特邀请了清华大学交叉信息研究院助理教授高阳博士分享其团队的新研究《使用有限数据掌控Atari游戏》( Mastering Atari Games with Limited Data)。

论文链接https://arxiv.org/abs/2111.00210#


主讲人:高阳,博士,清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校,本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

个人主页:http://people.iiis.tsinghua.edu.cn/~gaoyang/

主题:使用有限的数据掌握Atari游戏

时间:2021年11月23日(周二)19:00~20:00

形式:线上

入会方式:

腾讯会议-ID:976 455 019

直播地址一:

https://event.baai.ac.cn/activities/191

直播地址二:

http://live.bilibili.com/21484823

报告简介:

近期,清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌握Atari游戏》( Mastering Atari Games with Limited Data)提出了EfficientZero算法。基于该算法可实现,通过少量的数据学习就能让RL智能体获得超越人类的性能,这使得通用强化学习更加接近真实场景。此项重大的研究在学术界引起了大范围的关注和热议。

这是一种基于MuZero的基于模型的视觉RL算法,在贴近现实复杂情况的Atari(雅达利)游戏中,它从零开始仅用两个小时的训练数据,就能超过相同条件下人类的平均水平。这是第一次一个算法在Atari游戏中用如此少的数据达到超人的表现。

EfficientZero的性能也接近DQN在2亿帧时的性能,而其的数据消耗量却减少了500倍。EfficientZero的低样本复杂度和高性能可以使RL在现实世界中更具适用性。


扫描下面二维码报名参加活动

了解更多信息请加入「强化学习」交流群

青源LIVE第29期|清华叉院高阳:使用1/500数据掌控Atari游戏-EfficientZero算法详解相关推荐

  1. 开启报名 | 青源 Salon 第 1 期:强化学习专场,报告,海报,激辩,这是年轻人的会场

    由北京智源人工智能研究院主办的「青源Salon | 第1期] 将聚焦强化学习的前沿研究与进展,于2021年4月22日在线下和线上同步召开.本次沙龙邀请了卡耐基梅隆大学助理教授方飞,Google Bra ...

  2. 张拳石:深度学习可解释理论的统一体系与去芜存菁 | 青源 Talk 第 14 期

    活动议程 日期:3月17日(周四) 时间 主题 14:30-14:35 开场简介 许志钦 上海交通大学自然科学研究院/数学科学学院长聘教轨副教授,青源会会员 14:35-15:20 深度学习可解释理论 ...

  3. 吴琦:视觉-语言导航新进展:Pre-training 与 Sim2Real | 青源 Talk 第 12 期

    活动议程 日期:2月17日(周四) 时间 主题 14:30-14:35 开场简介 刘偲 北航人工智能研究院教授.博导,青源会会员 14:35-15:20 视觉-语言导航新进展:Pre-training ...

  4. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖 | 青源 Talk 第 8 期

    活动议程 日期:11月26日(周五) 时间 主题 14:30-14:35 开场简介 崔鹏 清华大学长聘副教授,青源会会员 14:35-15:20 主题:因果推断,观察性研究和2021年诺贝尔经济学奖 ...

  5. 魏哲巍:图神经网络的理论基础 | 青源 Talk 第 7 期

    活动议程 日期:11月12日(周五) 时间 主题 13:30-13:35 开场简介 张峰 中国人民大学副教授,青源会会员 13:35-14:20 主题:图神经网络的理论基础 魏哲巍 中国人民大学教授, ...

  6. 直播预告 | 清华叉院助理教授赵行、在读博士生孙桥:自动驾驶中的行为交互

    本期为TechBeat人工智能社区第421期线上Talk,响应大家希望实时交流的需求,本次Talk是!直!播! 北京时间7月13日(周三)20:00,我们很开心邀请到老朋友--清华叉院助理教授赵行老师 ...

  7. 【区块链技术工坊22期实录】王登辉:BANCOR算法详解及代码实现

    1,活动基本信息 1)题目: [区块链技术工坊22期]BANCOR算法详解及代码实现 2)议题: 1)BANCOR算法的特点和优劣势 2)BANCOR算法和举例 3)如何加入BANCOR.NETWOR ...

  8. 刘偲:AI+艺术 | 青源 Talk 第 11 期

    活动议程 日期:1月13日(周四) 时间 主题 14:30-14:35 开场简介 黄高  清华大学自动化系副教授.博导,青源会会员 14:35-15:20 AI+艺术 刘偲 北航人工智能研究院教授.博 ...

  9. 韩先培:大规模预训练语言模型是下一代知识图谱吗 | 青源 Talk 第6期

    活动议程 日期:10月28日(周四) 时间 主题 14:30-14:35 开场简介 张家俊,中科院自动化所研究员,智源青年科学家 14:35-15:20 主题:大规模预训练语言模型是下一代知识图谱吗? ...

最新文章

  1. Spring的Bean生命周期,11 张高清流程图及代码,深度解析
  2. 功能实现了软件就做好了吗?
  3. 敏捷软件开发实践-Sprint Setup Meeting
  4. Nginx的http块MIME-Type的使用
  5. 安装mamached数据库
  6. Linux中的chmod详解
  7. 首批共享单车死于2019
  8. html时间自动,编辑自动结束时间.html
  9. mysql 关闭autocommit_mysql禁用autocommit,以及遇到的问题
  10. Chromium Embedded Framework中文文档 (SVN属性)
  11. foobar2000 解决dts播放出现粉色噪音及cd文件名乱码
  12. Xmind模板文档分享——行业模板(1)
  13. 拍一拍身上的土(2009-12-12 01:17:43韩寒博客)
  14. jvm之java类加载机制和类加载器(ClassLoader)的详解
  15. Windows组策略禁止广告弹窗
  16. 计算机色彩知识调研(一):色域
  17. MIPI CSI-2笔记(10) -- Low Level Protocol(延迟降低、传输效率增强特性LRTE)
  18. 创新洞见|2023年B2B业务为何必须采用PLG增长策略
  19. R 语言赋值运算符:`-` , `=`, `-`
  20. Windows下使用SSD检测

热门文章

  1. 有向图php,小蚂蚁学习数据结构(29)——图的存储表示
  2. js中的if与Java中的if_JavaScript if...else 语句
  3. matlab腐蚀膨胀代码_(三十二)形态学----膨胀和腐蚀
  4. python 画出决策边界_决策边界可视化,让你的分类合理有序
  5. LeetCode(9.回文数)JAVA
  6. java实训周报_实验室周报
  7. java连接oracle增删改查,java连接oracle数据库实现增删改查
  8. 【大数据分析常用算法】1.二次排序
  9. Oracle exp/imp,备份或导入时注意的事项
  10. AxonFramework,快照(Snapshotting)