谷歌大脑AI飞速解锁雅达利,训练不用两小时:预测能力“前所未有”
栗子懒 发自 凹非寺
量子位 报道 | 公众号 QbitAI
不是训练两小时,是相当于人类玩两小时。
AI玩个游戏,一定要打几十万上百万局才能学会?
谷歌大脑给自家的强化学习AI,建造了一个有的放矢的高效学习环境:基于视频预测的模拟器SimPLe。
团队说,模拟器的预测能力前所未有,有时可以一帧都不错:
△ 左为模拟器,中为Ground Truth,右为差别
有了它,AI的学习压力明显减轻,只需要相当于人类玩两小时的训练强度,就能解锁雅达利游戏。
与优秀的无模型前辈Rainbow相比,基于模型的SimPLE要训练到相同的成绩,运动量能减少一个数量级。
△ 乒乓球21:0
怎样的模拟器?
和许多游戏AI前辈不同,SimPLe的智能体不是在真实游戏里训练的。
它的游戏策略,完全是在模拟器里炼成的。
这里,有个视频预测模型,会给AI的每个动作预测一个结果。按照谷歌的传统,它也叫世界模型 (World Model) 。
为什么要有这个模型?
在许多雅达利游戏里面,随机探索是很难获得足够多样化的数据的:
有些地方智能体可能没去过,有些动作智能体可能没做过。
环境数据不够丰富,AI就不能更有效地学习。
所以,要让智能体用更高效的方法探索世界:
团队用了一个迭代过程,由数据收集、模型训练、策略训练三个阶段交替而成。
这样,随着智能体的策略 (Policy) 变得越来越好用,模拟器的预测能力也越来越强。
相辅相成之间,智能体不用像没头苍蝇随性试错,便能更快解锁游戏技能了。
怎样预测?
试用了几种不同的架构,团队发现最好的模型是前馈CNN,用一叠卷积编码了一个输入帧 (Input Frames) 的序列。
给定智能体做出的动作,模型就能依靠一叠反卷积 (Deconvolution) ,解码下一帧。
研究人员还发现,给模型引入随机性 (Stochasticity) 非常有效,可以让策略在更加丰富的场景里,得到训练。
具体做法是,加入一个潜在变量 (Latent Variable) ,把它的样本加到瓶颈表征 (Bottleneck Representation) 里面去。
在这项研究的设定下,离散变量是最好用的,被编码成比特序列 (Sequences of Bits) 。
有点像变分自编码器 (Variational Autoencoder) :潜在变量的后验,是基于整个序列近似出来的;
从后验里取出一个值,再用上输入帧和智能体的动作,来预测下一帧。
最终,有了一个随机离散模型 (Stochastic Discrete Model) ,长这样:
成果喜人
注意,团队并没有为了雅达利的不同游戏,特别调整过模型,也没有特别调整过超参数。
AI玩家表现
训练过程中,环境变化了40万帧,智能体和环境的互动,只有10万次:相当于人类玩耍两小时。
你看,AI打“乒乓球” (Pong) 已经能刷对方一个光头。可能找到了系统的弱点:
更有趣的是“过马路” (Freeway) 游戏。
看上去简单,但对探索的要求非常高。
在这里,智能体是只小鸡,它的进步是很慢的,因为不停地被车撞。
那么,很难成功过一次马路,所以几乎得不到奖励。
不过,SimPLe捕捉到这样稀有的事件,把它们内化到预测模型里面去,学习到优秀的策略。
对比一下,发现在过马路游戏里,达到相同的成绩,SimPLe和环境互动的次数比Rainbow前辈少了一个数量级。
而在大多数游戏里,SimPLe和环境的互动次数,都比Rainbow少了一半以上。
预测之星
拿到这样的成绩,模拟器的预测居功至伟。
团队在AI游戏视频里,发现了许多完美预测的片段,最长达到50个时间步。
比如,过马路里有连续的11秒,模型预测的每一帧都和Ground Truth一毛一样。
另外,乒乓球和打砖块 (Brick) 里面,也发现过这样的片段。
团队说,把完美预测的时间再延长,是个很好的研究方向了。
也遇到了困难
有些游戏里,预测模型根本生成不了有用的预测。
研究人员说,最常见的原因,是有些很小的物体,左右了玩家的命运:
比如在亚特兰提斯 (Atlantis) 和战区 (Battle Zone) 里,子弹很小,又稍纵即逝。
团队说,如果想注意到它们,还是让视频预测模型,慢速高清地观察比赛现场吧。
论文传送门:
https://arxiv.org/abs/1903.00374
— 完 —
加入社群
量子位现开放「AI+行业」社群,面向AI行业相关从业者,技术、产品等人员,根据所在行业可选择相应行业社群,在量子位公众号(QbitAI)对话界面回复关键词“行业群”,获取入群方式。行业群会有审核,敬请谅解。
此外,量子位AI社群正在招募,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式。
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !
谷歌大脑AI飞速解锁雅达利,训练不用两小时:预测能力“前所未有”相关推荐
- 让AI自己调整超参数,谷歌大脑新优化器火了,自适应不同任务,83个任务训练加速比经典Adam更快...
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 还在苦恼怎么给优化器调整更好的参数吗? 现在,谷歌大脑搞出了一个新的优化器VeLO,无需手动调整任何超参数,直接用就完事了. 与其他人工设计的如A ...
- 谷歌大脑新优化器VeLO火了!让AI自己调整超参数,自适应不同任务,83个任务训练加速比经典Adam更快!...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 萧箫 发自 凹非寺 转载自:量子位(QbitAI) 还在苦恼怎么给 ...
- MaskGAN:谷歌大脑让AI学做完形填空的新尝试
岳排槐 发自 凹非寺 又见一篇神标题论文. 来一起感受一下. MaskGAN: Better Text Generation via Filling in the __ 这又是什么鬼?标题里竟然还有需 ...
- 谷歌大脑提出VeLO优化器,无需调参,最高比Adam快16倍!
文 | 萧箫 发自 凹非寺 源 | 量子位 还在苦恼怎么给优化器调整更好的参数吗? 现在,谷歌大脑搞出了一个新的优化器VeLO,无需手动调整任何超参数,直接用就完事了. 与其他人工设计的如Adam.A ...
- 终极合体!谷歌大脑DeepMind正式联姻,1+1>OpenAI?
[导读]陷入被动的谷歌做出了一个重大决定:谷歌大脑和DeepMind正式合并,强强联合能否打赢OpenAI? 今天,谷歌终于放大招了! CEO劈柴正式宣布,Google DeepMind成立,谷歌大脑 ...
- 雅达利:乔布斯初出道时老东家的如烟往事
"一个非常奇怪的家伙来到公司,他说他不会走,除非我们雇用他.我看,我们或者把他交给警察,或者只能雇佣他了."雅达利公司的人事主管这样向公司技术主管奥尔康(Al Acorn)汇报. ...
- 谷歌最强NLP模型BERT如约开源,12小时GitHub标星破1500,即将支持中文
夏乙 晓查 乾明 问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI BERT终于来了!今天,谷歌研究团队终于在GitHub上发布了万众期待的BERT. 代码放出不到一天,就已经在GitHub ...
- 谷歌大脑新算法,不折腾TPU就能加快AI训练速度
https://www.toutiao.com/a6714501132967739908/ 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 训练神经网络,硬件要过硬?现在谷歌提出强有力反驳 ...
- 谷歌发布颠覆性研究:不训练不调参,AI自动构建超强网络,告别炼丹一大步...
来源:凹非寺 机器学习全靠调参?这个思路已经过时了. 谷歌大脑团队发布了一项新研究: 只靠神经网络架构搜索出的网络,不训练,不调参,就能直接执行任务. 这样的网络叫做WANN,权重不可知神经网络. 它 ...
最新文章
- CSS中position属性( absolute | relative | static | fixed )详解
- 单片机学习从入门到入土?这3个关键点导致!
- 《Microduino实战》——第2章 Microduino
- 建博客的原因。。。。
- 密码学基础知识(五)序列密码
- SqlServer中除了sql和bak你还可以使用mdf文件来进行数据库的添加和分离
- 判断给定的整数数组是不是某二叉搜索树的后序遍历的结果
- 『原创』+『参考』使用C#在PPC的Today界面上的任务栏加入应用程序图标
- Angular workspace默认的packages
- 小小突击队为什么服务器正在维护中,4399小小突击队3月20日5:30更新维护公告!...
- fast-rcnn win10 tensorflow部署
- InVEST model中生境质量
- linux自动备份mysql数据库,并删除几天前数据库备份
- 史上最强的下载器,没有之一
- exchange2010安装
- DataGear 数据可视化看板整合前端框架Vue
- Android应用系列:手把手教你做一个小米通讯录(附图附源码)
- Unity开发手游在Android平台的内存优化
- FPGA控制TDC-GPX2时间间隔测量(三)
- 面向未来的智能驾驶关键设计要素:融合定位
热门文章
- 史上最大漏洞危机:影响所有 iPhone、Android、PC 设备,修复困难重重
- java公司自己封装的框架_SpringBoot封装自己的Starter的实现方法
- 循序渐进!java读文件并重新写文件
- oppoJava面试!mysql客户端安装包
- 第 11 章 装饰者设计模式
- 微信小程序云函数传递数组_微信小程序云开发一周入门
- wince系统_汽车操作系统分类
- linux中sar命令的选项很多,Linux sar 命令详解
- java cassandra连接池_Cassandra Java驱动程序的最佳设置只能写入本地数据中心
- python作品_专业解读 | 制作游戏、开发APP、 爬虫采集数据等背后,Python全栈专业背后还有更大的世界...