基于记忆的神经网络通过利用长时间记忆信息的能力来建模时序数据。然而,目前还不清楚它们是否有能力利用它们记得的信息进行复杂的关系推理。

在这篇论文中,DeepMind和伦敦大学学院的研究人员首先证实一种直觉想法,即标准的记忆架构在一些涉及关系推理的任务上很困难。然后,研究者通过使用一个新的记忆模块——Relational Memory Core(RMC)——来改进这种缺陷,该模块采用multi-head dot product attention来允许记忆交互。

最后,研究者在一系列任务上测试RMC,这些任务可以从跨序列信息的更强大的关系推理中获益,并且在RL领域(例如Mini PacMan)、程序评估和语言建模中显示出巨大的受益,在WikiText-103、Project Gutenberg和GigaWord数据集上获得state-of-the-art的结果。

关系记忆核心RMC

人类使用复杂的记忆系统来访问和推理重要的信息,不管这些信息最初是什么时候被感知到的。在神经网络研究中,许多成功的序列数据建模方法也使用了记忆系统(memory systems),例如LSTM和记忆增强的神经网络(memory-augmented neural networks)。通过增强记忆容量、随时间的有限计算成本以及处理梯度消失的能力,这些网络学会了跨时间关联事件,以便熟练地存储和检索信息。

在这里,我们建议在考虑存储和检索的同时考虑记忆交互,这是卓有成效的。虽然目前的模型可以学习划分和关联分布式的、矢量化的记忆,但它们并不明显地倾向于这样做。我们假设,这样的偏见可以让一个模型更好地理解记忆是如何关联的,因此可以让它更好地进行关系推理。

首先,我们通过开发一个演示任务来强调顺序信息的关系推理,证明当前的模型在这个领域中存在困难。使用新的关系记忆核心( Relational Memory Core,RMC),利用multi-head dot product attention让记忆彼此交互,我们解决并分析了这个问题。然后,我们将RMC应用到一系列任务中,这些任务可能会从更显式的memory-memory 交互中获益,因此,可能会增加随时间推移的的关系推理能力:在Wikitext-103、Project Gutenberg和GigaWord数据集中,部分观察到的强化学习任务、程序评估和语言建模。

关系推理(Relational reasoning)

我们认为关系推理是理解实体连接的方式的过程,并利用这种理解来实现更高阶的目标。例如,考虑对各种树与公园长椅之间的距离进行排序:将实体(树和长椅)之间的关系(距离)进行比较,以得到解决方案;如果我们单独考虑每个实体的属性(位置),则无法得到解决方案。

由于我们通常可以很流畅地定义什么构成“实体”(entity)或“关系”(relation),因此我们可以想象一系列的神经网络诱导的偏见,可以用关系推理的语言表达出来。例如,可以用卷积核来计算一个感受野内的实体(像素)的关系(线性组合)。

在时域(temporal domain)中,关系推理可以包含在不同时间点比较和对比信息的能力。这里,注意力机制隐式地执行某种形式的关系推理;如果先前的隐藏状态被解释为entity,那么使用注意力来计算实体的加权和有助于消除RNN中存在的局部性偏差。

由于我们当前的架构解决复杂的时序任务,因此它们必须具备一些时间关系推理的能力。然而,目前还不清楚他们的归纳偏差是否受到限制,以及这些限制是否可以暴露在要求特定类型的时间关系推理的任务中。

模型

我们的指导设计原则是提供一个架构的主干,在这个基础上,模型可以学习如何划分信息,以及如何计算划分的信息之间的交互。为了实现这一点,我们从LSTM、 memory-augmented神经网络和non-local网络(特别是Transformer seq2seq模型)组装构建块。与记忆增强架构相似,我们考虑一组固定的memory slots;但是,我们允许使用注意里机制在memory slots之间进行交互。与之前的工作相反,我们在单个时间步上在记忆之间应用注意力,而不是跨过在先前的观察中计算出来的所有先前的表征。

我们在一组监督学习和强化学习任务中测试RMC。值得注意的是Nᵗʰ Farthest的任务和语言建模。在前者中,解决方案需要显式的关系推理,因为模型必须对向量之间的距离关系进行排序,而不是对向量本身排序。后者在大量自然数据上测试模型,并允许我们将性能与经过良好调优的模型进行比较。

实验

这里简要介绍应用RMC的实验任务,具体每个任务的详细信息以及模型的超参数设置等请阅读原论文。

说明性监督任务

Nᵗʰ Farthest

第N个最远的任务是为了强调跨时间的关系推理能力。输入是随机抽样的向量序列,目标是对形式问题的回答:“距离向量m的第n个最远的向量是什么?”,其中向量的值、它们的ID、n和m都是每个序列随机抽样的。我们强调模型必须对向量之间的距离关系进行排序,而不是对向量本身。

程序评估

Learning to Execute(LTE)数据集由图灵完整的伪代码编程语言中的算法片段组成,可分为三类:添加、控制和完整程序。输入是表示这些代码片段的字母数字词汇表上的字符序列,目标是一个数字字符序列,它是给定编程输入的执行输出。考虑到这些片断涉及变量的符号操作,我们认为它可能会影响模型的关系推理能力;由于符号运算符可以被解释为在操作数上定义一个关系,成功的学习可以反映对这个关系的理解。为了评估经典序列任务的模型性能,我们还对记忆任务进行了评估,在这些任务中,输出只是输入的一种排列形式,而不是来自一组操作指令的评估。

强化学习

Mini Pacman with viewport

我们遵循文献[23]中的Mini Pacman的表述。简而言之, agent在被ghosts追赶时在迷宫中导航以收集食物。我们用一个视图(viewport)来实现这个任务:围绕agent的5×5窗口,包含感知输入。因此,任务是部分可观察的。agent必须预测记忆中ghosts的动态,并据此计划导航,同时也要根据被拾取的食物的记忆信息。 该任务要求在记忆空间中进行关系推理。

语言建模

最后,我们调查了基于词汇的语言建模任务。

结果

图3:模型分析

每行描述了特定序列的每个时间步的注意力矩阵。下面的文本阐明了序列的特定任务,该序列被编码并作为输入提供给模型。我们用红色标记任务中引用的矢量。

表1:测试程序评估和记忆任务的每个字符的准确性。

表2:WikiText-103、Project Gutenberg和GigaWord v5数据集上的验证和测试困惑度

总的来说,我们的结果显示,记忆交互的显式建模还提高强化学习任务,以及程序评估、比较推理和语言建模的性能,这表明在递归神经网络中加入关系推理能力的价值。

原文发布时间为:2018-06-8

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:DeepMind提出关系RNN:构建关系推理模块,强化学习利器

DeepMind提出关系RNN:构建关系推理模块,强化学习利器相关推荐

  1. Google Deepmind大神David Silver带你认识强化学习

    Google Deepmind大神David Silver带你认识强化学习 2016-08-16 18:16 Blake 1条评论 Google Deepmind大神David Silver带你认识强 ...

  2. ICLR 2019八大趋势:RNN正在失去光芒,强化学习仍最受欢迎

    大数据文摘出品 来源:huyenchip 编译:笪洁琼.周家乐 ICLR 2019过去有几天了,作为今年上半年表现最为亮眼的人工智能顶会共收到1591篇论文,录取率为31.7%. 为期4天的会议,共有 ...

  3. 伯克利、OpenAI等提出基于模型的元策略优化强化学习

    基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言 强化学习领域近期 ...

  4. DeepMind Nando(原牛津大学教授)强化学习最新进展,含图文、公式和代码,附102页PPT下载...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...

  5. 面向星际争霸:DeepMind 提出多智能体强化学习新方法

    不久前 DeepMind 强化学习团队负责人.AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技术障碍是什么?」近日,DeepMind 发表论文, ...

  6. 【论文阅读】强化学习与知识图谱关系路径发现

    论文标题:DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题:深度路径:知识图谱推理的强化学习方法 ...

  7. 《强化学习周刊》第25期:DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

    No.25 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  8. 《强化学习周刊》第28期:UNCC提出全新脑-机交互学习模式:内在互动强化学习...

    No.28 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  9. DeepMind强化学习新研究:更快的知识学习,更强的环境适应

    2021-05-04 13:36:12 编译 | Mr Bear 校对 | 维克多 DeepMind官方博客在一篇文章"Fast reinforcement learning through ...

最新文章

  1. mysql2008jar包下载_求java jdbc 连sql server2008的jar包
  2. JTAG与STC,DEBUGWIRE区别
  3. 2015年度最全微课堂笔记精华包
  4. 【转】Win8/8.1/Win7小技巧:揪出C盘空间占用的真凶
  5. bzoj [Usaco2009 Hol]Cattle Bruisers 杀手游戏
  6. 学习笔记(17):Python网络编程并发编程-Process对象的其他属性或方法
  7. java学到哪里最容易蒙,蒙哥比vs蒙克(目前最好的哪个)
  8. centos 7 菜鸟第一天 找回win10
  9. python读取pdf文件 pdfplumber_Python pdfprumber用于PDF表提取,pythonpdfplumber,表格
  10. 虚拟桌面与代理服务器的那些事
  11. sw如何缩放装配体_社团内训 | SW从入门到精通
  12. 基于 USB 传输的针式打印机驱动程序开发
  13. 历法 - 时间 干支 二十八星宿 紫白飞星
  14. 【Pix4d精品教程】打开Pix4DMapper时提示Pix4DMapper.exe已停止工作的完全解决办法
  15. 百度地图API:自定义途经点路线拼接
  16. vscode win10笔记本 蓝屏_老鸟教你win10开机蓝屏0xc000000d的详尽解决办法
  17. 计算机win7音量调节,如何解决Win7电脑声音小的问题?
  18. hashcat在windows上的安装与简单使用
  19. 前端开发神器VS Code安装教程
  20. 如何在Windows环境下快速搭建Web服务器并发布网页

热门文章

  1. 运维之道 | Git log 命令详解
  2. F5 Advanced WAF(API安全-新一代WAF)——防御DDoS攻击的利器
  3. 正大期货:关于MSCI中国A50上市,与国内股指期货的优势
  4. 如何按照某几列值或文件名、Sheet名汇总多个excel文件多个表(多个工作薄,多个Sheet)的和、平均值、排名等等
  5. Docker仓库管理镜像 -- 公共仓库【Docker Hub】和私人仓库【Registry】和【harbor】
  6. 全球及中国屋顶绿化市场发展动态与十四五展望规划研究报告2022版
  7. PPT文件如何取消密码
  8. 20200524 中南民大 2nd SCPC校赛
  9. 大白话之辩论DDD,阿里面试中台化理解
  10. EventBus使用大全