人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍

视学算法报道

编辑：David

【导读】DeepMind又对Atari游戏下手了，这回秒的是自己，把两年前的大杀四方的Atari 57模型提速了200倍！

构建在各种任务中表现良好的「通用智能体」，一开始就是强化学习的重要目标。这个问题一直是大量工作的研究对象，其性能评估经常通过观察Atari 57基准中包含的各种环境的分数来衡量。

Agent57是DeepMind在2020年搞的一个Atari游戏智能体，史上首次在所有57个游戏中超过了人类基准表现，但这是以数据效率为代价的，需要近800亿帧的经验训练才能实现。

两年过去，DeepMind觉得这个智能体有「亿点点」慢了，不如以它为基础，提提速，降一降训练量，效果还不下降？

于是DeepMind的一篇新论文，带来了一个新的智能体：MEME，所需的训练经验更少，从而实现为原来的Agent57「提速200倍」的小目标。

以Agent57为起点，DeepMind采用了一系列不同的策略，以实现超越人类基准所需经验的200倍减少。我们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈，并提出了有效的解决方案，以建立一个更加强大和高效的智能体。

研究人员表示，这个新方法的四个关键部分是：

(1)一种近似的信任区域方法，它能够从在线网络中稳定地引导。

(2) 实行损失和优先权的归一化方案，在学习一组具有广泛规模的价值函数时提高了鲁棒性。

(3) 提出一个改进结构，采用NFNets的技术利用更深的网络，不需要规范化层

(4) 一种政策提炼方法，用于平滑瞬时贪婪政策的超时。

Atari游戏「克星」Agent57：首次全面超越人类

Agent57是第一个在所有57个Atari游戏中获得高于人类平均水平分数的算法，通用性顶满，这是DeepMind在2020年搞出来的。

不过这种通用性是以降低数据效率为代价的；在一些游戏中，需要数百亿次的环境互动才能获得高于人类平均水平的表现，在所有游戏中一共尝试了超过780亿帧，才战胜了人类的基准水平。

厉害是厉害，但是两年前搞出的东西，放到今天看不是太慢了点呢。

这回DeepMind的目标是开发一个与Agent57一样通用的智能体，但只需要少得多的环境互动，就能达到同样的效果。

智能体在每个游戏中超越人类基线所需的环境框架数量（取对数），数值越低越好。

一种方法是在与环境进行有限的互动后再测量性能，另一种方法是以尽可能少的互动来，实现训练目标的最终性能。

DeepMind的目标是打造一个Agent57的通用性一样高的新智能体，同时具有更高的数据效率，因此主要使用于后一种方法。

「Agent57改」MEME：提速200倍

研究人员提出了一种新的智能体MEME，这是一种基于内存的高效探索智能体，MEME建立在Agent57的基础上，结合了三个主要想法。

(i) 一个基于循环重放分布式DQN（R2D2）的分布式深度强化学习框架

(ii) 用一系列的策略和永不放弃（NGU）的内在奖励机制进行探索。

(iii) 一个元控制器，通过从一系列政策中选择，在整个训练过程中动态地调整贴现因子并平衡探索和开发。

新的MEME智能体旨在提高Agent57的数据效率，主要针对Agent57的4个方面进行改善，分别是：

实现与罕见事件相关的学习信号的快速传播（A），在不同的价值尺度下稳定学习（B），改进神经网络结构（C），在快速变化的政策下使更新更加稳健（D）。

为了达到这四个目标，DeepMind采取了以下方法，与上述四点目的对应。

A1: 用在线网络进行引导

为了在保持稳定性的同时加速信号传播，我们使用了在线网络引导，并通过为价值更新引入一个近似的信任区域来稳定学习，使我们能够过滤哪些样本对损失的贡献。

其他方法还包括：

A2:有公差的目标计算。

B1:损失和优先权归一化。

B2:交叉混合训练。

C1 无归一化的躯干网络

C2 带有综合损失的共享躯干

D 通过策略提炼的鲁棒行为

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以终端性能为代价。出于这个原因，仅用10亿环境帧的预算来训练智能体。

使用这个预算可以渐进式验证智能体性能的保持效果，也就是说，在提高数据效率时，智能体会收敛并保持稳定。

训练量降98%，秒杀Agent57，更别说人类了

上面是在2亿帧环境训练下，以及10亿、200亿、900亿帧环境训练下，不同智能体在257个Atari游戏中表现。

上面是与老大哥Agent57的结果比较。

其中左图为游戏得分表现高于人类基准的游戏数量。右图为不同的交互预算下，每场比赛的人类归一化分数，从高到低排序。

新智能体MEME在3.9亿帧尝试就超过了人类基准，比Agent57快了两个数量级，并且在将训练预算从90B减少到1B的情况下，取得了类似的最终表现。

和Agent57比完了，再和人比比？

下面的蓝色柱子是MEME的表现，红线是人类玩家表现，纵轴仍然是对数。

可以看到，最高的一个游戏已经接近人类表现的1000倍，但平均表现比人类强出100倍是妥妥的了。

参考资料：

https://arxiv.org/pdf/2003.13350.pdf

https://www.deepmind.com/blog/agent57-outperforming-the-human-atari-benchmark

点个在看 paper不断！

人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍相关推荐

AlphaZero称王！DeepMind AI制霸三大棋类游戏
文章来源:ATYUN AI平台在2017年,DeepMind推出了AlphaZero,自己学会掌握国际象棋,日本将棋和Go,击败了世界冠军.DeepMind很高兴看到国际象棋界成员的回应,他们在和A ...
什么？人类一败涂地手游竟然上线了？教你最快的安装方法
人类一败涂地手游什么时候上线?就在昨天,等了许久的人类一败涂地的手游版本的国际服试玩版终终终终于上线啦: 人类一败涂地的端游版自去年在steam上线之后以其搞怪的游戏设计.高自由度.加上鬼畜的物理引擎 ...
中国制霸生成器火了/ 马斯克香水被炒至原价10倍/ 闽南话翻英语算法来了… 今日更多新鲜事在此...
日报君发自凹非寺量子位 | 公众号 QbitAI 大家好!今天是10月20日. 在这个看似平平无奇的周四,科技圈有什么新瓜可以吃一吃呢? 拿着吃瓜勺,跟随日报君,Go! 特斯拉Q3营收创纪录但不 ...
奇美拉遇上战术小队，回合制射击策略游戏的小暖春为这个类型带来了什么？
GEARS:TACTICS 9月底的这段时期,两款'类X-COM'游戏先后发售.分别是业内标杆<X-COM>系列的新作<奇美拉小队>以及微软一线IP<战争机器>衍生 ...
数据追加用什么函数_RL用算法发现算法：DeepMind 数据驱动「价值函数」自我更新，14款Atari游戏完虐人类！...
[新智元导读]击败卡斯帕罗夫的「深蓝」并不是真正的人工智能,它过度依赖了人类设计的规则,而最近DeepMind的一项深度强化学习新研究表明,不用人工介入,完全数据驱动,算法自己就能发现算法. 「深蓝」 ...
人类一败涂地电脑版_人类一败涂地游戏正式上架同步推免费版
PC 平台上爆火的多人物理益智游戏<人类一败涂地>(Human: Fall Flat)现已经正式上架同步推免费版.(该作尚未登录国区AppStore,有外区账号的朋友也可以在外区App S ...
人类一败涂地电脑版_【游戏资讯】这是PC版塞尔达？终极无敌暴力缝合怪登陆Steam！PS3模拟器更新后可流畅运行美末！...
游戏每日资讯近日PS3模拟器"RPCS3"更新了重大补丁,同时有相关演示视频已经放出,在视频中可以看出,曾经在RPCS3模拟器上运行只有十几帧的<神秘海域2>.< ...
人类一败涂地电脑版_热门游戏丨人类一败涂地云游戏来了! 咪咕快游独家正版上线！...
解密游戏万万千,但被玩家们硬生生玩成搞笑娱乐游戏的却是独此一家! 没错,这就是前段时间火爆全网,风靡游戏玩家圈和各大主播直播的独立游戏--<人类:一败涂地>. <人类:一败涂地> ...
人类一败涂地电脑版_iOS账号分享 |人类一败涂地我们继续相爱相杀，PC大火游戏移植！...
「改变能改变的一切,接受不能改变的一切!」 ▼ PC 平台上爆火的多人物理益智游戏<人类一败涂地>(Human: Fall Flat)移动版正式登陆 iOS 和 Android 平台,游 ...

人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍

【导读】DeepMind又对Atari游戏下手了，这回秒的是自己，把两年前的大杀四方的Atari 57模型提速了200倍！

人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍相关推荐

最新文章

热门文章