Transformer性能被高估？DeepMind动态评估模型的时间泛化能力

©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学

研究方向 | 自然语言处理

论文标题：

Mind the Gap: Assessing Temporal Generalization in Neural Language Models

论文链接：

https://arxiv.org/abs/2102.01951

项目地址：

https://github.com/deepmind/deepmind-research/tree/master/pitfalls_static_language_models

这篇论文是 DeepMind 在 NeurIPS 2021上的一篇 spotlight 论文。作者提出，世界是动态的而当前的语言建模是静态的，并证明了 Transformer-XL 语言模型在预测训练期结束一段时间之后的现实设置中的表现和性能会越来越差。仅增加模型大小并不能解决这个问题，但让模型不断用新信息更新知识可以缓解性能随时间的下降，作者认为我们应该重新思考目前训练和评估语言模型的静态方式，并开发能够不断变化的自适应语言模型。作者提出了 WMT 和 ARXIV 数据集上的动态流语言建模基准，以促进考虑时间动态的语言模型评估。

实验

作者首先介绍了时间分层实验设置，该设置检验了 Transformer LM 在对超出其训练期的未来话语进行评估时的表现。

作者进行了两种设置：一是时间分层设置（TIME-STRATIFIED setup），二是控制设置（CONTROL setup）。

TIME-STRATIFIED setup：作者根据过去训练的 LM 预测在其训练数据时间段之后发表的未来文章的能力来评估模型。使用从每个数据集的时间段开始到 2017 年 9 月的所有文档作为训练数据，并使用 2017 年的最后三个月作为验证期，然后在上面的 2018-2019 测试集上评估模型。
CONTROL setup：作者通过将 TIME-STRATIFIED 与 CONTROL 设置进行比较来评估时间分层是否对当前 LM 构成挑战。在这个设置中，训练集包括来自与评估集相同的 2018-2019 时期的文档。这种 CONTROL 设置类似于静态语言建模实验，它在重叠时间段的文本数据上训练和评估 LM。

作者在 ARXIV 摘要数据集和 WMT News Crawl（WMT）数据集上，使用具有 18 层和 1,024 个隐藏单元的 Transformer-XL 进行实验。下图是 Transformer-XL 在使用两种不同设置进行训练时的困惑度。

与评估未来情形的更现实的 TIME-STRATIFIED 设置相比，静态 CONTROL 设置在多大程度上高估了模型性能？如下图所示，尽管在完全相同的数据集大小上使用相同的模型架构训练了两个模型，TIMESTRATIFIED 模型的性能比 CONTROL 模型差高达 16% 的困惑度差异。作者将 CUSTOMNEWS 和 ARXIV 的较高相对退化归因于它们最近新文档的指数增长，导致数据中来自测试期的文档比例更高，因此出现了更困难的时间泛化问题。

在预测远离训练期的未来话语时，Transformer LM 的表现是否越来越差？下图是 TIME-STRATIFIED 相对于 CONTROL 模型的相对困惑度增加。正如所有数据集的上升斜率所证明的那样，当我们要求它预测离训练期更远的数据时，该模型恶化得更多，这表明模型确实随着时间的推移变得越来越过时。作者在文章附录中还提供了一些更详细的差异。

分析

作者提出了这样的问题：模型努力应对的预测类型究竟是什么？

如上一部分的图中展示的，常用名词（橙色）的性能随时间推下降。而对专有名词（蓝色）和数字（紫色）进行时间概括时，TIME-STRATIFIED 模型的性能下降最快。定性分析表明，这个模型在政治领域的实体上表现不佳。而这种退化是因为专有名词及其实体往往与最新的真实世界知识相关，同样，这个模型在文化和社会变化相关的概念上也呈现出明显的退化。

作者还观察到，与围绕生活方式的主题相比，关于政治和体育的模型表现随时间变化更快（图中的三条虚线）。这也是非常符合我们认知的，政治、体育主题的专有名词往往在一段时间内发生很大的变化。

在实践中，适应是在这个动态与非平衡的世界中最大化 LM 的潜力的关键条件，这要求模型能够整合新词、以前从未出现过的概念以及含义随时间发生重大变化的词。在数据集 CUSTOMNEWS 中，每个月都有大约 27% 的独特词。作者将这些词称为新词，并认为这些概念很重要，因为它们反映了我们不断变化的世界的本质。比如近期频繁出现的词语“COVID-19”，这在 2019 年末之前出现的 unigram 概率为 0，却是如今 NLP 系统中一个重要的用例。

作者接着提出：Transformer LM 对于新信息和新词的适应能力如何？如下图，作者展示了 TIME-STRATIFIED 模型在测试文档中第一次和第二次出现新词的困惑度。模型第一次在文档中生成新词时候有很低的 ppl，第二次生成相同的单词时，模型可以简单地从上下文中复制相同的单词，达到很高的 ppl。这也意味着 Transformer 以长程上下文为条件的能力是时间泛化的一个有用的特征。但第一次出现在 Transformer 的内存外时，没有这种现象，这也意味着需要将 Transformer 扩展到更长的序列以改善时间泛化能力。

即使增加模型大小，过时模型的影响依然存在

近期的关于 LM 的研究表明模型大小对于困惑度、下游任务表现以及小样本学习能力都有明显改善作用。但增加模型大小是否也能改善时间泛化能力呢？作者训练了一个更大的 TIME-STRATIFIED 模型，参数为 448M。实验结果如下图所示。

如果增加模型大小能够延缓模型随时间的退化，图中较大模型产生的实线应相比于较小模型产生的虚线具有更小的斜率，但实际上更大的模型对于线的斜率并没有影响。在两个数据上，截止测试结束时，一个更小但更新的模型比一个大 60% 但已经过时的模型性能更好。因此，构建能够用新信息更新知识的模型比简单增大模型在时间泛化方面的能力提升上更有效。

时间分层问答

作者进一步探讨了过时的 LM 如何影响不同类型的下游任务这一问题。

作者首先测试了闭卷问答（Closed-book QA）任务，作者用 WMT 数据集预训练 TXL 模型进行微调以回答 2011 年的问题，并对 2019 年的相关问题进行评估，结果如下图所示，证明了微调后的 LM 缺乏更新的事实知识将影响模型在闭卷问答任务的表现。

作者还使用 NewsQA 进行了阅读理解实验，其中的证据文档与问题一同呈现在模型前缀中，使用 2009 年的问题评估了 2008 年底前在 CUSTOMNEWS 上训练的 LM 与 2009 年底前训练的 LM 的表现——两种模型表现相同。因此，与知识密集、闭卷式 QA 不同，阅读理解（答案是提取性的并可以从文章中复制）的时间分层评估对过时的 LM 构成的挑战更小。这也和上一部分中举例的 Transformer 的长程上下文能力类似。

保持模型更新：通过动态评估在线学习

减缓 LM 随时间退化的一种方法是，随着新文档到达文档流中，不断用新信息更新模型知识。其中一种解决方案是动态评估，作者在这里使用动态评估来适应发生在按时间排列的文档流中的时间动态，从而适应跨文档的时间趋势。

测试文档的 loss 通过以下公式计算，其中为文档中的 token。

并通过梯度下降来动态更新 Transformer-XL 的参数，如以下公式所示，其中标记动态评估学习率，标记当前文档的模型的参数梯度。

结果如下图所示，在所有的数据集中，动态评估降低了模型变得过时的速度（上升斜率减小）。其中 ARXIV 的改进更明显，对于几周的更细粒度的分析表明，该模型只需要大概一周的数据即可超过 CONTROL 模型。此外，预测新词也有很大的改进。

当为了保持模型保持最新（尤其是对于较大的模型）时，轻量但有效的方法更可取，因为可以使模型以最少的时间与计算成本快速消化新信息。因此，作者尝试仅更新 embedding 层（52M 参数）捕获词汇语义变化，以及仅更新所有层的偏差项（198K 参数）。下图展示了成果，仅更新偏差项的效果几乎与更新完整模型的效果一样。

作者还注意到，单独的动态评估虽然有效，但依旧不能完全解决时间泛化问题。事实上，如下图所示，虽然动态评估能够提高对未来数据的泛化能力，但它也会灾难性地遗忘过去的数据。最近的半参数模型（semi-parametric models）非常适合持续学习，新知识可以存储在外部存储器中，无需重新训练整个模型即可更新。

半参数模型，此处作者指 2020年 ICLM 上 REALM: Retrieval-Augmented Language Model Pre-Training 一文中提出的 REALM 模型。

总结

作者在本文中提出，当前在重叠时间段的数据上进行训练和评估高估了模型对于未来话语的泛化能力，并且 Transformer LM 会随着时间的推移越来越过时，而仅增加模型大小并不难解决这个问题。

作者对未来的 LM 研究提出以下建议：

我们应该评估 LM 对未来数据的泛化能力，这可以避免测试数据污染。应该奖励泛化超出其预训练数据表面模式的模型，以更好地反映大型 LM 在实际系统中的使用情况。因此，我们主张在预训练数据和下游任务中更广泛地包含时间戳信息。
超出训练期的旧 LM 在需要最新事实知识的下游任务上的表现不尽人意。我们还需要更多的任务、基准和指标来评估 LM 整合新信息的能力和速度。
除了做出更大的模型以及相关的扩展工作外，我们还主张开发能够在当前不断变化的世界中不断更新的自适应语言模型。

作者还表明，这篇文章的本意并非证明周围世界随时间推移变化而我们谈论它的方式也相应变化这一显然的状况，作者强调的是当前的静态评估如何高估了模型的性能，尤其在与知识相关的预测方面。我们应该重新思考如何构建时间分割来评估模型泛化到未来数据的能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

Transformer性能被高估？DeepMind动态评估模型的时间泛化能力相关推荐

基于语义解析任务探究深度模型的组合泛化能力
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 自然语言处理领域有很多序列对序列任务,比如我们常见的机器翻译.语义解析.文本摘要等.目前最基本的解决方案是收集大量成对的数据,然后训练一 ...
深度学习WideDeep模型——记忆能力和泛化能力的综合
文章目录 Wide&Deep前言模型的记忆能力与泛化能力 Wide&Deep模型的结构 Wide&Deep前言 Wide&Deep模型的主要思路正如其名,是由单层的W ...
DeepMind最新发现！神经网络的性能竟然优于神经符号模型
来源: 新智元本文约1700字,建议阅读5分钟根据研究人员的最新发现,神经网络对数据的要求,居然比神经符号模型还要低! [ 导读 ]DeepMind最新的研究结果再一次打破了传统认知--根据研究 ...
Transformer再下一城！DeepMind新模型自动生成CAD草图，网友：建筑设计要起飞了
本文转载自:机器之心 | 作者:力元深度学习的灵活性恰好适合于复杂的 CAD 设计,DeepMind 的研究者基于 CAD 草图与自然语言建模的相似性,提出了自动生成 CAD 草图的机器学习模型 ...
借助Transformer，DeepMind新模型自动生成CAD草图，网友：建筑设计要起飞了
来源:机器之心作者:力元深度学习的灵活性恰好适合于复杂的 CAD 设计,DeepMind 的研究者基于 CAD 草图与自然语言建模的相似性,提出了自动生成 CAD 草图的机器学习模型. 在制造业中 ...
视觉Transformer上榜！DeepMind科学家：2020年AI领域十大研究进展
点击上方"CVer",选择加"星标"置顶重磅干货,第一时间送达来源:AI科技评论编译 | bluemin 编辑 | 陈大鑫 DeepMind NLP科学家 ...
谷歌创造ImageNet1K新纪录：性能不佳的微调模型不要扔，求一下平均权重就能提升性能...
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达丰色发自凹非寺量子位 | 公众号 QbitAI 如何最大限度地 ...
Meta AI推出“杂食者”：一个模型搞定图像、视频和3D数据三大分类任务，性能还不输独立模型...
丰色发自凹非寺量子位 | 公众号 QbitAI 最近,Meta AI推出了这样一个"杂食者" (Omnivore)模型,可以对不同视觉模态的数据进行分类,包括图像.视频和3D ...
Transformer性能优化：运算和显存
©作者 | 王晗炜单位 | 中科院信工所ASCII LAB 研究方向 | 自然语言处理概述 Transformer [1] 在如今的深度学习领域有着不可或缺的地位,它被广泛应用于自然语言处理.图像 ...

Transformer性能被高估？DeepMind动态评估模型的时间泛化能力

Transformer性能被高估？DeepMind动态评估模型的时间泛化能力相关推荐

最新文章

热门文章