离人类更近一步!DeepMind最新Nature论文:AI会“回忆”,掌握调取记忆新姿势
十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI
每年春节,只要在饭桌上,七大姑八大姨曾对你“殷切关怀”的情景便会历历在目。
对人类来说,记住一些东西并能回忆起来,是件司空见惯的事情。
而现在,连 AI 智能体都能做到这点了!
人类对过往的事情可以做出理智的判断,并基于这样的判断,对未来做出决策。
但对于智能体来说,就涉及到判断和对过去行为的价值评估(评估信用分配)的问题。
但现有的评估信用分配的方法,无法解决与结果存在长时间间隔的任务。
简单来说,就是未来不可期。
DeepMind便提出了一种方法,让智能体也够在它的“记忆”里来个时间旅行。
近日还登上了Nature Communication。
这个方法其实是一种范式。
它能让智能体使用特定的记忆,来信任过去的行为,并对未来做出正确的决策。
该方法也得到了网友们的认可。
很不错的一项工作,我认为向前迈了一大步。
时间旅行的概念很有意思,尤其是与我们自己以及环境提供的记忆相关时。
这项工作的影响或许不仅于此,正如DeepMind所述:
范式拓宽了AI研究的范畴,并提供了可能激发神经科学、心理学和行为经济学模型的机械行为解释。
如何让智能体“未来可期”?
为了做到这一点,首要的工作就是形式化任务结构。
主要包括2种类型。
△图1:任务设置和重构记忆智能体(RMA)
图1(a)就是两种类型的任务,每个任务都有3个阶段。
△图1(a)
第一种任务(信息获取任务)中:
在P1阶段,智能体必须在没有即时奖励的情况下探索一个环境以获取信息;
在P2阶段,智能体在很长一段时间内从事一项不相关的干扰任务,并获得了许多附带的奖励;
在P3阶段,智能体必须利用P1中获取的信息获取远端奖励(distal reward)。
第二种任务中(因果任务)中:
在P1阶段,智能体必须采取行动触发 P1中仅具有长期因果关系的某个事件;
在P2阶段,同样是一个干扰任务;
在P3阶段,为了取得成功,智能体必须利用 P1活动引起的环境变化来获得成功。
由于提出的解决方案的一个关键组成部分涉及记忆编码和提取,研究人员将这三个阶段分别视作:
P1→动作和记忆提取;
P2→干扰物(distractor);
P3→经验(exploitation)。
在研究这种结构的完整任务之前,考虑一个更简单的任务。
DeepMind的研究人员把它称作“被动视觉匹配(Passive Visual Match )”,如图1(b)所示。
△图1(b)
这是一个被动的过程,也就是说,智能体不用采取任何主动的措施去采集信息,就好像一个人在街上走路,不经意间就观察到了某些信息一样。
每个片段的开头都会面对一个走廊,走廊面朝着墙壁,墙上画着一个颜色随机的正方形。
在t=0的时候,就对应于上述任务结构中的P1阶段,只是不需要实现任何目标。
在t=125的时候,智能体被转移到另外一个空间,它在这里会采集30秒的苹果,这就相当于干扰,也就是任务结构中的P2阶段。
在t=526的时候,智能体再次被转移到别的空间,也就是对应于任务结构的P3阶段。这里的墙面有4个不同颜色的方形,若是智能体能够走到和第一个空间中颜色相同的方形面前,那么他就会获得远程奖励。
当然,远程奖励远远小于总干扰奖励。
接下来,为了解决上述的任务,研究人员使用了一个AI智能体,命名为RMA(Reconstructive Memory Agent)。如图1(c)所示。
△图1(c)
这个模型的关键是结合了一个重构过程,压缩了有用的感官信息和记忆存储。
RMA本身没有为LTCA提供服务的专门功能,但是为TVT算法的操作提供了基础。
在进行被动视觉匹配训练时,所有的智能体都能成功完成苹果采集任务,但只有RMA学习到了如何在P3中选择P1中所见的方形颜色来获得远端奖励,如图1(d)所示。
△图1(d)
在图1(e)中,可以看到RMA在t=256的时候,所产生的一个注意力权重向量wt,可以与P3的初始阶段相对应。
△图1(e)
不仅如此,RMA除了能够顺利完成这项任务。在诸如CIFAR images30中,RMA也能够做出正确匹配的选择(如补充图所示)。
△补充图
代码已开源
这项工作的代码已经在GitHub开源。
安装
TVT包的安装和训练可以使用如下代码运行:
tvt/run.sh
运行实验
启动:
source tvt_venv/bin/activatepython3 -m tvt.main
Important flags
tvt.main可以接受许多flag。
Information logging
logging_frequency:logging控制台和tensorboard的频率
logdir:用于tensorboard logging的目录
Agent configuration
with_memory:默认为True。判断智能体是否有外部内存。若为False,则智能体只有LSTM内存。
with_reconstruction:默认为True。
gamma:智能体贴现因子。
entropy_cost:熵损失权重。
image_cost_weight:图像重构损失权重。
read_strength_cost:用于调整内存访问。
更多开源代码信息,详情见文末GitHub链接。
传送门
Nature:
https://www.nature.com/articles/s41467-019-13073-w
GitHub:
https://github.com/deepmind/tvt
离人类更近一步!DeepMind最新Nature论文:AI会“回忆”,掌握调取记忆新姿势相关推荐
- 百度推出自动驾驶系统Apollo2.0, 距商业化“更近一步”!
https://www.toutiao.com/a6669370807363305996/ "2018百度世界大会(美国场)"1月8日在美国西部城市拉斯维加斯举行.大会现场,百度公 ...
- OpenAI 发布 GPT-4 ,功能炸裂!网友:真人工智能更近一步!
编辑:金磊 梦晨 转自:量子位 | 公众号 QbitAI 一觉醒来,万众期待的GPT-4,它来了! OpenAI老板Sam Altman直接开门见山地介绍说: 这是我们迄今为止功能最强大的模型! 有多 ...
- DeepMind最新研究:“AI足球运动员”诞生,运球、抢断、传球、射门无所不能
足球,是一项全球流行的球类运动,讲究身体对抗与团队配合. 在现实生活中,不管踢不踢,踢得好还是踢得不好,每当看(听)到"足球"这个词,人们都会似懂非懂地聊上几句. 确实,足球这一运 ...
- DeepMind最新研究:AI击败了人类,设计了更好的经济机制
"人类面临的许多问题并不仅仅是技术问题,还需要我们为了更大的利益在社会和经济中进行协调.""要想人工智能技术能够提供帮助,它需要直接学习人类的价值观." --D ...
- 用身体给可穿戴设备充电,网友:离人类被当作电池更近一步!
丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 可穿戴设备越来越多,充电也越来越麻烦. 有没有好的解决办法呢? 或许,你看过黑客帝国-- 机智的你,一拍脑袋:用人体? Emmmm,方向差不 ...
- 神州数码云战略加速,百亿“小目标”更近一步
正处于云及数字化业务高速转型期的神州数码,迎来了2019年的快速发展,这是所有神州数码人共同努力的结果. "2019年,神州数码所有销售人员都已经或多或少承担了云相关的业绩指标.2020年, ...
- 张亚勤:深度学习更近一步,如何突破香农、冯诺依曼和摩尔瓶颈?
来源:机器之心 本文约3100字,建议阅读6分钟 本文为你分享张亚勤在2020 CEO 年会上演讲<未来科技趋势展望>. 近日,在联想创投 2020 CEO 年会上,清华大学讲席教授.智能 ...
- c语言操作空间怎么打开_学好C语言,离大神更近一步,C环境的安装
我们先来说说为什么要学习C语言: 首先,就现在的几大系统而言,我们看看使用它的都有多少.Windows系统刚出现的时候就是用的C语言,后来才使用了C++和C#等.Linux的底层也是使用C语言编写的, ...
- 统信uos系统考试题_离Windows更近一步!微信Linux原生版上线:国产统信UOS系统已适配...
就在本月11号,国产操作系统-统信 UOS发布了专业版 V20(1030),功能更强大,同时性能和安全性均有所提升. 而距离这个好消息过去没多久,统信软件官方再次发布了一个好消息: 那就是微信桌面客户 ...
最新文章
- SIGSEGV 和 SIGBUS gdb看汇编
- windows 下使用composer
- 取消win开机chkdsk is verifying files
- VS cmake 远程开发 opencv报错:CMake was unable to find a build program corresponding to “Ninja“.(换个构建方式)
- 实战 :为自己的公号搭建一个数据运营指标体系
- 1812:网格_指导设计:网格的历史
- WampServer无法直接打开myprojects的解决方法
- Spring Boot 2.0.0.M7 生产环境部署
- 学习Direct3D(五)应用程序入口
- I2C 时序、速率计算及intel I2C驱动
- 在centos上安装pycharm
- 【为什么电脑插上HDMI线之后,电脑没有了声音解决方案】
- win7 网络不显示电脑连接到服务器,Win7在网上邻居上看不到别的电脑怎么办?
- 蓝桥杯 人民币金额大写 格式转换
- 关于JavaScript中万恶的this
- 液相色谱柱PHP,浅谈液相色谱柱现代史
- UnityShader源码2017---学习笔记与自我拓展019
- 怎么设置网页背景 html,html怎么设置网页背景
- 【Vue3.0移动端项目--旅游网】-- 房屋详情页创建以及房屋详情图片展示
- 10种方法打开EPUB文件
热门文章
- 在SDN走向商用部署的路上,锐捷网络一直在不断实践
- python 学习笔记 12 -- 写一个脚本获取城市天气信息
- tomcat8.0.15+spring4.1.2的集群下共享WebSocketSession?
- 【降维解法:最大字段和-最大子矩阵和-最终版最大子长方体和】【UVA10755】Garbage Heap...
- 安装WebDriverAgent时,执行bootstrap.sh脚本报错提示:ERROR in ./js/app.js的解决方法
- Jenkins执行脚本,提示“sudo: no tty present and no askpass program specified”解决方法
- python箱线图_Python 箱线图 plt.boxplot() 参数详解
- android 控件id为0,Android Studio错误:(3,0)未找到ID为“com.android.application”的插件...
- Kali Linux 2020.1快速修改root用户密码
- Xamarin XAML语言教程控件模板的模板绑定