2020-02-13 05:33:32

作者 | 京枚编辑 | 贾伟

DeepMind最近提出一种新的长程记忆模型——Compressive Transformer(压缩Transformer),这种模型基于Transformer模型做了调整,通过增添压缩记忆模块,有效增加了模型的记忆长度。

而另一方面,为了提升对基于长程记忆的推理问题的研究,DeepMind的研究人员也开发了一个书籍级别的语言数据集PG-19。这个新的基准是目前已有的长时记忆基准的两倍还多,包含的上下文文本是长程语言模型基准测试WikiText-103的10倍以上。

论文链接:https://arxiv.org/pdf/1911.05507.pdf

PG-19开源链接:https://github.com/deepmind/pg19

在过去二十年的时间里,人工神经网络在记忆这一方面有了长足的进展。

被称为长短时记忆(Long Short-Term-Memory,LSTM)的递归神经网络(RNN)是目前最早、应用最为广泛的记忆结构之一。LSTM以数字向量的形式维护一个紧凑的内存,通过门控读、写和遗忘操作来访问和修改这个内存。它最初是在一套综合任务上开发的,包括学习一串bit的逻辑操作。不过现在它已经被广泛应用在所有的序列数据模型当中了。

LSTM,以及许多现在所使用的RNNs,存在一个巨大的缺点,就是容量问题。最初设计这些结构的目的是为了,使每个单元的内存都可以影响其他单元,并且具有科学系的权重。但这导致系统的计算效率非常低下,模型中可学习参数的数量会随内存大小的增加呈平方地增加,例如内存64KB的LSTM,会产生8GB的参数。

如何绕过这一记忆容量瓶颈,成为一个严峻的问题。

DeepMind的研究人员曾提出过一种新的架构,可微分神经计算机(DNC),它用更大的内存矩阵来扩充LSTM,以此来解决这些缺陷。

在我们看东西时,我们的眼睛会聚焦于视觉场景中的相关物体。例如,你可能会花更多的时间注意朋友的面部表情,而不是注意他们的鞋子。

DNC采用了类似的方法,使用一个「注意力操作」从这个内存矩阵中读取数据。

在DNC中,内存模型可以处理过去的特定事件/数据。这种注意力操作需要固定数量的参数,而与内存大小无关,因此可以显著提高模型的内存容量。

随着 DNC的开发,带有附加注意力机制的递归神经网络在翻译和问题回答领域显示出了巨大的潜力。这些模型能够使用两种内存结构进行推理,一种是小型且紧凑的LSTM内存,一种是大型的外部内存。

不过,最近谷歌Google Brain 的研究人员提出了一种Transformer模型,它可以去除掉 LSTM,只利用注意力来传输信息。

Transformer 最初是应用在机器翻译任务上,性能明显优于递归神经网络。

随后Transformer被广泛应用到NLP的的其他任务当中,例如问答、文本摘要、情感分析等。过去一年,因为Transformer,这些方面取得了巨大的进步。

但这些模型仍然存在一个缺点,即它们会把所有的信息都存储起来,这样在每一个时间步上所消耗的计算成本和存储成本都非常大。

我们的大脑显然不是这样做的,我们不会像摄像机那样,把我们一生当中接收到的所有信息存储起来。而是会根据相关性、惊喜度、危险性、重复次数等因素来选择、过滤、整合所有的输入刺激。换句话说,我们会把一生的经历压缩成一组亮点记忆,帮助我们来理解过去,以及更好地预测未来。

这就是如何压缩的问题。

之前有一些工作通过稀疏访问机制来尝试压缩注意力中的计算消耗。但稀疏注意力方法并不能解决存储问题,而且通常需要定制的稀疏核才能有效地实现。

1、压缩Transformer

DeepMind为此提出了 Compressive Transformer模型(压缩 Transformer)。

简单来说,这是Transformer的一个简单变种,将过去隐藏激活(past hidden activations ,记忆)映射到一个更小的压缩表示集(压缩记忆)中。在记忆和压缩记忆上,压缩Transformer会使用相同的注意力机制,来学习查询它的短期颗粒记忆和长期粗记忆。

压缩Transformer保持对过去激活的细粒度记忆,然后将其压缩为更粗的压缩记忆。上面的模型有三层,一个序列长度ns = 3,记忆大小nm = 6,压缩记忆大小ncm = 6。高亮显示的记忆被压缩,每层使用压缩函数fc将其压缩到单个压缩记忆中,而不是在下一个序列中丢弃。在本例中,压缩率c = 3。

据作者 Jack Rae介绍,这个模型的灵感来源是,睡眠能够巩固我们的情景记忆。众所周知,睡眠有助于记忆,原因是人们在睡觉过程中能够将醒时的记忆进行压缩和巩固,从而提高记忆力。

我们知道谷歌提出的TransformerXL模型,为了进行长时推理,会对过去激活记忆进行保持。但是当过去激活足够“老”(由内存大小决定)时,TranformerXL就会将这些记忆给丢弃掉。

与之不同的是压缩Transformer并不将它们丢弃,而是通过一个压缩函数进行压缩,并存储在一个额外的压缩记忆(压缩内存)中。这个压缩函数能够学习并过滤掉不相关的记忆,使一些较为重要的信息保留更长一段时间。这种方式,相比于TransformerXL模型,显然能够保留更长时间的记忆,对长时推理任务将大有裨益。

据作者介绍,这个模型具有较大的普适性,不仅可以用于语言序列,还能够用于建模高频语音波形,也可以充当增强学习agent、IMPALA等的记忆组件(显然可以压缩和利用过去的观察加过)。

2、PG-19

为了进一步验证压缩Transformer在长时推理方面的强大功能,作者基于从古腾堡计划的文本,提出了一个新的书籍级语言建模基准PG-19,来进一步促进长上下文序列建模(long-context sequence modelling)的研究。值得一提的是,这个新的基准是目前已有的长时记忆基准的两倍还多,包含的上下文文本是长程语言模型基准测试WikiText-103的10倍以上。

书籍为长期记忆模型的发展提供了丰富的背景。作者从大约28,000本古腾堡计划中1919年以前(也即100年前,避免版权问题)出版的书中选择了一个子集。与以前的语言建模数据集不同,作者很少对文本应用预处理。举例来说,他们不会限制数据的词汇量或审查数字,以避免过滤有用的信息。

数据集包含了28752本书,共约 11GB。

其中,28602本用作训练集,50本作为有效集,100本作为测试集:

DeepMind随后将压缩Transformer与TransformerXL在最新的PG-19书籍数据集上进行了基准测试,具体设置可以参看论文原文。结果如下图所示:

可以看到,压缩Transformer的测试困惑度为33.6,TransformerXL的为36.3。尽管数据集很大,但显然这仍然是一个具有挑战性的领域,而这个测试结果可以作为这个长程语言建模基准的第一个基线。

3、最后

如果想要创建一个操作时间超过几天、几周甚至几年的agent,在每个步骤中对所有原始输入数据都进行计算显然是不切实际的。

即使在当前计算能力持续增长的情况下,我们仍然需要开发压缩和稀疏的记忆架构来构建操作的表示和推理。

可以期待的是,能够捕捉到以日、月、年为单位的相关性的模型,即将问世。而这需要我们有相应的任务和数据集来评判长时任务。PG-19显然是朝向这个方向迈进的一步,因为「一整本书」已经是人类通常使用的最长文本形式。

而选择性注意力,和其他更有效的压缩机制,显然也将极大地促进更加强大的推理研究。

受启于做梦,DeepMind 提出压缩 Transformer,并开源书本级数据集PG-19相关推荐

  1. 六项任务、多种数据类型,谷歌、DeepMind提出高效Transformer评估基准

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 自诞生以来,Transformer 在不同领域得到了广泛应用,研究人员 ...

  2. 谷歌、DeepMind提出高效Transformer评估基准

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  3. 太赞了!谷歌、DeepMind提出高效Transformer评估基准

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  4. NeurIPS2021 HRFormer:HRNet又出续作啦!国科大北大MSRA提出高分辨率Transformer,开源!...

    关注公众号,发现CV技术之美 本文分享NeurIPS 2021论文『HRFormer: High-Resolution Transformer for Dense Prediction』,HRNet又 ...

  5. 加速DeiT-S 60%+吞吐量!腾讯优图提出高性能Transformer加速方法

    ©PaperWeekly 原创 · 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 写在前面 视觉 Transformer(ViT)最近引起了非常大的热度,但巨大 ...

  6. NeurIPS 2021 Transformer部署难?北大华为诺亚提出Vision Transformer的后训练量化方法...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Post-Training Quantization for Vision Transformer』,由北大&华为诺亚联 ...

  7. DeepMind提出关系RNN:构建关系推理模块,强化学习利器

    基于记忆的神经网络通过利用长时间记忆信息的能力来建模时序数据.然而,目前还不清楚它们是否有能力利用它们记得的信息进行复杂的关系推理. 在这篇论文中,DeepMind和伦敦大学学院的研究人员首先证实一种 ...

  8. 新方向!DeepMind提出人工生命框架,促进智能生物体的出现

    来源:机器之心本文约1900字,建议阅读5分钟研究者讨论了进化过程如何导致由许多此类原子元素构成的不同生物体的出现,这些原子元素可以在环境中共存和繁荣. DeepMind 提出新的研究方向,在没有明确 ...

  9. DeepMind提出基于视觉的强化学习模型,十八般兵器对机器人不在话下

    人类是擅于模仿的,我们和其他动物通过观察行为来模仿,理解它对环境状态的感知影响,并找出我们的身体可以采取什么行动来达到类似的结果. 对于机器人学习任务来说,模仿学习是一个强大的工具.但在这类环境感知任 ...

最新文章

  1. 051 日志案例分析(PV,UV),以及动态分区
  2. python lambda函数_python入门基础之lambda匿名函数
  3. 机器学习——人工神经网络之多层神经网络(多层与三层)
  4. linkedhashset_Java LinkedHashSet contains()方法与示例
  5. php 上传文件 例子,php上传文件实例
  6. linux关闭mysql日志记录_linux 下mysql 运行一段时间后自动关闭,日志无异常
  7. left join 一对多只取一条_Python爬虫教程:验证码的爬取和识别详解
  8. 一位软件工程师的6年总结收藏
  9. java io 和nio 区别_java IO和NIO区别
  10. 字节跳动的 8 轮视频面试流程
  11. html表格某一行背景颜色设置,HTML表格行背景颜色与浮动属性不一样
  12. 5g无线图传信号测试软件,不到千元的5G无线图传?小试致迅CineEye
  13. 《python语言程序设计》笔记
  14. 计算机实验报告双绞线制作,双绞线的制作实验报告.docx
  15. FMG首席执行官被控误导股市
  16. ROS机器人操作系统(rospy)
  17. EXCEL多列内容合并且中间加字符串
  18. cdn 配合 oss加速
  19. PHP递归获取文件夹和文件
  20. 阿普奇 ABOX-700 工控机 MinipiceCAN卡在电力巡检机器人中的应用

热门文章

  1. Java基础-集合:set
  2. 乐观锁 CAS 悲观锁synchronized()性能低因为涉及操作系统内核与用户模式的切换
  3. [DM] 都是套路: 从上帝视角看透时间序列和数据挖掘
  4. numpy.random.choice用法
  5. c语言 删除小写字母,c++ - 使用C字符串和指针。 删除除小写字母和空格以外的所有字符 - 堆栈内存溢出...
  6. 智源出品 | 超大规模智能模型产业发展报告(附下载)
  7. 如何规划令人流连忘返的网站?
  8. Apple首篇AI文章,SimGAN
  9. 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...
  10. 数字经济时代,什么是关键资源?(算力篇)