十三 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

每年春节,只要在饭桌上,七大姑八大姨曾对你“殷切关怀”的情景便会历历在目。

对人类来说,记住一些东西并能回忆起来,是件司空见惯的事情。

而现在,连 AI 智能体都能做到这点了!

人类对过往的事情可以做出理智的判断,并基于这样的判断,对未来做出决策。

但对于智能体来说,就涉及到判断对过去行为的价值评估(评估信用分配)的问题。

但现有的评估信用分配的方法,无法解决与结果存在长时间间隔的任务。

简单来说,就是未来不可期

DeepMind便提出了一种方法,让智能体也够在它的“记忆”里来个时间旅行

近日还登上了Nature Communication。

这个方法其实是一种范式

它能让智能体使用特定的记忆,来信任过去的行为,并对未来做出正确的决策。

该方法也得到了网友们的认可。

很不错的一项工作,我认为向前迈了一大步。

时间旅行的概念很有意思,尤其是与我们自己以及环境提供的记忆相关时。

这项工作的影响或许不仅于此,正如DeepMind所述:

范式拓宽了AI研究的范畴,并提供了可能激发神经科学、心理学和行为经济学模型的机械行为解释。

如何让智能体“未来可期”?

为了做到这一点,首要的工作就是形式化任务结构

主要包括2种类型。

图1:任务设置和重构记忆智能体(RMA)

图1(a)就是两种类型的任务,每个任务都有3个阶段。

图1(a)

第一种任务(信息获取任务)中:

在P1阶段,智能体必须在没有即时奖励的情况下探索一个环境以获取信息;
在P2阶段,智能体在很长一段时间内从事一项不相关的干扰任务,并获得了许多附带的奖励;
在P3阶段,智能体必须利用P1中获取的信息获取远端奖励(distal reward)。

第二种任务中(因果任务)中:

在P1阶段,智能体必须采取行动触发 P1中仅具有长期因果关系的某个事件;
在P2阶段,同样是一个干扰任务;
在P3阶段,为了取得成功,智能体必须利用 P1活动引起的环境变化来获得成功。

由于提出的解决方案的一个关键组成部分涉及记忆编码和提取,研究人员将这三个阶段分别视作:

P1→动作和记忆提取;
P2→干扰物(distractor);
P3→经验(exploitation)。

在研究这种结构的完整任务之前,考虑一个更简单的任务。

DeepMind的研究人员把它称作“被动视觉匹配(Passive Visual Match )”,如图1(b)所示。

图1(b)

这是一个被动的过程,也就是说,智能体不用采取任何主动的措施去采集信息,就好像一个人在街上走路,不经意间就观察到了某些信息一样。

每个片段的开头都会面对一个走廊,走廊面朝着墙壁,墙上画着一个颜色随机的正方形。

在t=0的时候,就对应于上述任务结构中的P1阶段,只是不需要实现任何目标。

在t=125的时候,智能体被转移到另外一个空间,它在这里会采集30秒的苹果,这就相当于干扰,也就是任务结构中的P2阶段。

在t=526的时候,智能体再次被转移到别的空间,也就是对应于任务结构的P3阶段。这里的墙面有4个不同颜色的方形,若是智能体能够走到和第一个空间中颜色相同的方形面前,那么他就会获得远程奖励。

当然,远程奖励远远小于总干扰奖励。

接下来,为了解决上述的任务,研究人员使用了一个AI智能体,命名为RMA(Reconstructive Memory Agent)。如图1(c)所示。

图1(c)

这个模型的关键是结合了一个重构过程,压缩了有用的感官信息和记忆存储。

RMA本身没有为LTCA提供服务的专门功能,但是为TVT算法的操作提供了基础。

在进行被动视觉匹配训练时,所有的智能体都能成功完成苹果采集任务,但只有RMA学习到了如何在P3中选择P1中所见的方形颜色来获得远端奖励,如图1(d)所示。

图1(d)

在图1(e)中,可以看到RMA在t=256的时候,所产生的一个注意力权重向量wt,可以与P3的初始阶段相对应。

图1(e)

不仅如此,RMA除了能够顺利完成这项任务。在诸如CIFAR images30中,RMA也能够做出正确匹配的选择(如补充图所示)。

补充图

代码已开源

这项工作的代码已经在GitHub开源。

安装

TVT包的安装和训练可以使用如下代码运行:

tvt/run.sh

运行实验

启动:

source tvt_venv/bin/activatepython3 -m tvt.main

Important flags

tvt.main可以接受许多flag。

Information logging
logging_frequency:logging控制台和tensorboard的频率
logdir:用于tensorboard logging的目录

Agent configuration
with_memory:默认为True。判断智能体是否有外部内存。若为False,则智能体只有LSTM内存。
with_reconstruction:默认为True。
gamma:智能体贴现因子。
entropy_cost:熵损失权重。
image_cost_weight:图像重构损失权重。
read_strength_cost:用于调整内存访问。

更多开源代码信息,详情见文末GitHub链接。

传送门

Nature:
https://www.nature.com/articles/s41467-019-13073-w

GitHub:
https://github.com/deepmind/tvt

离人类更近一步!DeepMind最新Nature论文:AI会“回忆”,掌握调取记忆新姿势相关推荐

  1. 百度推出自动驾驶系统Apollo2.0, 距商业化“更近一步”!

    https://www.toutiao.com/a6669370807363305996/ "2018百度世界大会(美国场)"1月8日在美国西部城市拉斯维加斯举行.大会现场,百度公 ...

  2. OpenAI 发布 GPT-4 ,功能炸裂!网友:真人工智能更近一步!

    编辑:金磊 梦晨 转自:量子位 | 公众号 QbitAI 一觉醒来,万众期待的GPT-4,它来了! OpenAI老板Sam Altman直接开门见山地介绍说: 这是我们迄今为止功能最强大的模型! 有多 ...

  3. DeepMind最新研究:“AI足球运动员”诞生,运球、抢断、传球、射门无所不能

    足球,是一项全球流行的球类运动,讲究身体对抗与团队配合. 在现实生活中,不管踢不踢,踢得好还是踢得不好,每当看(听)到"足球"这个词,人们都会似懂非懂地聊上几句. 确实,足球这一运 ...

  4. DeepMind最新研究:AI击败了人类,设计了更好的经济机制

    "人类面临的许多问题并不仅仅是技术问题,还需要我们为了更大的利益在社会和经济中进行协调.""要想人工智能技术能够提供帮助,它需要直接学习人类的价值观." --D ...

  5. 用身体给可穿戴设备充电,网友:离人类被当作电池更近一步!

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 可穿戴设备越来越多,充电也越来越麻烦. 有没有好的解决办法呢? 或许,你看过黑客帝国-- 机智的你,一拍脑袋:用人体? Emmmm,方向差不 ...

  6. 神州数码云战略加速,百亿“小目标”更近一步

    正处于云及数字化业务高速转型期的神州数码,迎来了2019年的快速发展,这是所有神州数码人共同努力的结果. "2019年,神州数码所有销售人员都已经或多或少承担了云相关的业绩指标.2020年, ...

  7. 张亚勤:深度学习更近一步,如何突破香农、冯诺依曼和摩尔瓶颈?

    来源:机器之心 本文约3100字,建议阅读6分钟 本文为你分享张亚勤在2020 CEO 年会上演讲<未来科技趋势展望>. 近日,在联想创投 2020 CEO 年会上,清华大学讲席教授.智能 ...

  8. c语言操作空间怎么打开_学好C语言,离大神更近一步,C环境的安装

    我们先来说说为什么要学习C语言: 首先,就现在的几大系统而言,我们看看使用它的都有多少.Windows系统刚出现的时候就是用的C语言,后来才使用了C++和C#等.Linux的底层也是使用C语言编写的, ...

  9. 统信uos系统考试题_离Windows更近一步!微信Linux原生版上线:国产统信UOS系统已适配...

    就在本月11号,国产操作系统-统信 UOS发布了专业版 V20(1030),功能更强大,同时性能和安全性均有所提升. 而距离这个好消息过去没多久,统信软件官方再次发布了一个好消息: 那就是微信桌面客户 ...

最新文章

  1. SIGSEGV 和 SIGBUS gdb看汇编
  2. windows 下使用composer
  3. 取消win开机chkdsk is verifying files
  4. VS cmake 远程开发 opencv报错:CMake was unable to find a build program corresponding to “Ninja“.(换个构建方式)
  5. 实战 :为自己的公号搭建一个数据运营指标体系
  6. 1812:网格_指导设计:网格的历史
  7. WampServer无法直接打开myprojects的解决方法
  8. Spring Boot 2.0.0.M7 生产环境部署
  9. 学习Direct3D(五)应用程序入口
  10. I2C 时序、速率计算及intel I2C驱动
  11. 在centos上安装pycharm
  12. 【为什么电脑插上HDMI线之后,电脑没有了声音解决方案】
  13. win7 网络不显示电脑连接到服务器,Win7在网上邻居上看不到别的电脑怎么办?
  14. 蓝桥杯 人民币金额大写 格式转换
  15. 关于JavaScript中万恶的this
  16. 液相色谱柱PHP,浅谈液相色谱柱现代史
  17. UnityShader源码2017---学习笔记与自我拓展019
  18. 怎么设置网页背景 html,html怎么设置网页背景
  19. 【Vue3.0移动端项目--旅游网】-- 房屋详情页创建以及房屋详情图片展示
  20. 10种方法打开EPUB文件

热门文章

  1. 在SDN走向商用部署的路上,锐捷网络一直在不断实践
  2. python 学习笔记 12 -- 写一个脚本获取城市天气信息
  3. tomcat8.0.15+spring4.1.2的集群下共享WebSocketSession?
  4. 【降维解法:最大字段和-最大子矩阵和-最终版最大子长方体和】【UVA10755】Garbage Heap...
  5. 安装WebDriverAgent时,执行bootstrap.sh脚本报错提示:ERROR in ./js/app.js的解决方法
  6. Jenkins执行脚本,提示“sudo: no tty present and no askpass program specified”解决方法
  7. python箱线图_Python 箱线图 plt.boxplot() 参数详解
  8. android 控件id为0,Android Studio错误:(3,0)未找到ID为“com.android.application”的插件...
  9. Kali Linux 2020.1快速修改root用户密码
  10. Xamarin XAML语言教程控件模板的模板绑定