北京智源人工智能研究院(BAAI)前沿报告——强化学习领域


本文参考于2021-2022年度智源人工智能研究员前沿报告中的强化学习领域篇。

1 提升训练效率成为强化学习领域的研究重点

近来,许多研究者期望能够探索出更为高效的强化学习算法,一是具有较好泛化能力,适用于多种场景;二是在输入数据较少或较为简单,类似真实环境的情形下,智能体依然能够取得较好的表现。目前已有 MuZero 等实现了这一目标。然而,强化学习也面临样本效率的挑战。从零开始训练智能体,往往需要通过成百上千万的步骤才能达到预期的性能表现,这会增加智能体对于算力的需求,不适合在真实场景下部署应用。

清华大学研究者提出小数据强化学习算法 EfficientZero

11月,清华大学交叉研究院高阳课题组发表论文,提出小数据强化学习算法 EfficientZero,仅需要两个小时的真实时间训练,该算法比人类在雅达利 100k 数据集上的评价表现高了190.4%,比中值表现高了116%。同时,EfficientZero 已接近 DQN 在2亿帧上的性能,但数据需求量降低了500倍。

来源:https://arxiv.org/pdf/2111.00210.pdf

2 强化学习环境成为发展泛化性更强、适应复杂环境智能体的重要支撑

在强化学习的发展过程中,为智能体打造适合的训练环境,提供丰富多样的环境反馈,全面评价智能体的表现,是许多科研机构关注的问题。OpenAI 曾推出 Gym 和 Universe 两个强化学习平台,为训练新一代智能体提供了丰富的游戏、环境和评测支持。近年来,能够模拟
更为真实和复杂的训练环境,具有智能体配置、环境设置、训练、评价一条龙服务的强化学习平台不断涌现。

斯坦福大学李飞飞等学者提出深度进化强化学习框架

在自然界中,动物利用其形态来学习复杂的任务,获得显着程度的具身智能(Embodied Intelligence)。具身智能假设智能行为可以被具有对应形态的智能体通过适应环境的方式学习到。在强化学习中,创建具有特定形态的智能体,使其通过具身性获得智能能力是一大挑战。2月,斯坦福大学李飞飞等学者提出了名为 深度进化强化学习 (Deep Evolutionary Reinforcement Learning,DERL) 框架。该框架可以让智能体通过在复杂的任务和环境中,仅依赖低层次自我中心 (Low Level Ego-Centric) 传感信息的方式,逐步进化出多样的智能体形态。通过 DERL,研究者发现了一些环境复杂性和形态智能,控制学习能力等之间的关系。

来源:https://arxiv.org/pdf/2102.02202.pdf

DeepMind 研究者提出 XLand 通用智能体强化学习训练环境

7月,DeepMind 研究者提出一种名为 XLand 的通用智能体强化学习训练环境。DeepMind 认为,泛化能力不足是限制当前强化学习算法应用的一大障碍。由于泛化能力并不是一蹴而就形成的,人类是从简单的任务开始,逐渐掌握复杂的任务。受此启发,DeepMind 提出 XLand,其中包含了数十亿个任务,涵盖雅达利、夺旗、Dota2、捉迷藏等不同的游戏、世界和玩家对象。AI 智能体首先学习简单任务,不断完善,然后逐渐在更为复杂的任务上训练。智能体在 XLand 的 4000 个独立世界中能够玩大约 70万 个独立游戏,涉及 340万 个独立任务。

https://www.deepmind.com/blog/generally-capable-agents-emerge-from-open-ended-play

Transformer 渗透强化学习领域

Transformer 的快速发展,有望成为人工智能领域通用算法架构。许多研究者认为,将智能体的行为转换为序列,并进行建模,就可以在Transformer 架构中进行学习和训练,因此目前有许多研究者也在探究其对构建更高效智能体所带来的影响。

加州大学伯克利分校等研究者提出基于 Transformer 的强化学习架构

6月,加州大学伯克利分校、Facebook、谷歌的研究者提出了一种序列建模强化学习的方法,构建了基于Transformer的强化学习架构。实验显示,在 Atari、OpenAI Gym、Minigrid 进行测试,Decision Transformer 均可达到与其他算法媲美甚至超越的性能表现。

来源:https://arxiv.org/pdf/2106.01345.pdf

北京智源人工智能研究院(BAAI)前沿报告——强化学习领域相关推荐

  1. 北京智源人工智能研究院启动“智源学者计划”,与旷视发布首个智源联合实验室

    4月16日,北京智源人工智能研究院与中国人工智能领军企业旷视召开"智源学者计划暨联合实验室发布会".北京市科委副主任张光连,海淀区委常委.副区长李俊杰,以及来自科技部.北京市科委. ...

  2. 北京智源人工智能研究院2020年博士后招收简章

    一.北京智源人工智能研究院简介 北京智源人工智能研究院(简称"智源研究院")是落实"北京智源行动计划"的重要举措,在科技部和北京市委市政府的指导和支持下,由北京 ...

  3. 北京智源行动计划发布,北京智源人工智能研究院揭牌成立

    2018年11月14日,在2018中国(北京)跨国技术转移大会开幕式上,北京智源行动计划正式发布,北京智源人工智能研究院(Beijing Academy of Artificial Intellige ...

  4. 北京智源人工智能研究院关于征集2019年度智源青年科学家的通知

    各有关单位: 为贯彻落实北京市支持建设世界一流新型研发机构的有关精神,深入实施人才优先发展战略,着力培育北京人工智能基础研究青年科技人才队伍,现启动征集2019年度智源青年科学家的工作,具体通知如下: ...

  5. 北京智源人工智能研究院一岁啦!

    今天是智源研究院正式揭牌成立1周年的日子. 回首来时路,感谢大家一直以来的支持. 智源--过往可忆,未来可期.

  6. 北京内推 | 智源人工智能研究院数据智能组招聘全职研究员/算法工程师

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 智源人工智能研究院 北京智源人工智能研究院(Beijing Academy ...

  7. 北京内推 | 智源人工智能研究院招聘数据智能/视觉方向算法工程师/研究员

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 智源人工智能研究院 北京智源人工智能研究院(Beijing Academy ...

  8. 北京内推 | 智源人工智能研究院招聘视觉模型算法工程师/实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 智源人工智能研究院 北京智源人工智能研究院(Beijing Academy ...

  9. 北京内推 | 智源人工智能研究院招聘CV/NLP方向科研实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 智源人工智能研究院 北京智源人工智能研究院(Beijing Academy ...

  10. 2023北京智源大会亮点回顾 | 高性能计算、深度学习和大模型:打造通用人工智能AGI的金三角

    AIGC | Aquila | HuggingFace AGI | DeepMind  | Stability AI 通用人工智能(AGI)是人工智能领域的最终目标,也是一项极具挑战性的任务.在诸多技 ...

最新文章

  1. [转]cocos2d-js 3.0 屏幕适配方案 分辨率适应
  2. Lazy Load, 延迟加载图片的 jQuery 插件 - NeoEase
  3. jetty的Form too large异常解决方案
  4. Axure 部件的交互样式
  5. 驱动程序实例(一):LED设备驱动程序( platform + cdev)
  6. Mysql 的一些基本用法
  7. (( 系统的自协调与抽象而成的自动反馈
  8. 百度Q2智能云增长强劲;据悉史上最大 AI 芯片诞生!中兴与奇瑞成立合资公司一起加快开发5G汽车……...
  9. [技术回顾系列]--认识WebService全貌
  10. 方便好用的接口协作工具
  11. Android提供两个常用的消息弹出框【Toast和Alert】
  12. 泛微 linux mobile手册,泛微E-Mobile5.0服务端安装手册.doc
  13. 锁的实现原理—1,为什么会有锁?
  14. Oracle数据库启动过程详解
  15. ubuntu 下安装 face_recognition
  16. android代码 发警报音,Android设置多个警报
  17. PHP+经贸时间轴 毕业设计-附源码211617
  18. 网络隔离下的几种数据交换技术比较
  19. 快手 (kuaishou.net) 2.8 发布
  20. 【间歇性努力,不是真正的努力】

热门文章

  1. [vue] 使用vue后怎么针对搜索引擎做SEO优化?
  2. 阿兹后来明白了,其实别人没有我们想象中的那么关注我们
  3. :hover放前面和放后面的区别
  4. C++一步解决cls闪烁问题
  5. 如何查找qq邮箱的服务器地址
  6. c语言 char * 遍历,使用指针遍历char数组
  7. starlink卫星轨道预报
  8. [sig19]寒霜引擎中strand-based(基于线)的头发渲染
  9. 【机器人学习】abb机器人运动学分析与轨迹规划(三维模型+matlab代码+word报告)
  10. [转]performSelector延时调用导致的内存泄露