©PaperWeekly 原创 · 作者 | 王馨月

学校 | 四川大学

研究方向 | 自然语言处理

Information Flow in BERT

论文标题:

Influence Patterns for Explaining Information Flow in BERT

论文链接:

https://arxiv.org/abs/2011.00740

基于注意力的 transformer 模型(如 BERT)表现良好,但信息如何从输入 token 流向输出预测尚不清楚。作者引入了一种解析 transformer 性能的方法——影响模式。影响模式是通过 transformer 模型的路径集的抽象,量化和本地化信息流到通过一系列模型节点的路径。通过实验,作者发现 BERT 中的大部分信息流都通过 skip 连接而不是注意力头。作者进一步表明,跨实例模式的一致性是一种评价 BERT 性能的指标。最后,作者证明了模式比以前基于注意力和基于层的方法更能解释模型性能。

作者通过基于梯度的归因方法的替代视角来研究信息流问题。通过 transformer 的整个计算图引入影响模式——基于梯度的路径集的抽象。作者还引入了一种贪婪搜索程序,用于高效地查找代表概念关键信息流的模式。下图提供了 BERT 中的影响模式示例。

图中展示的是 SVA 任务实例的 BERT 架构(左)和 transformer 层的细节(右),用于评估模型是否选择了正确的动词形式,以供 [MASK] 与主题一致 。模式的示例用红色节点突出显示。

通过将 BERT 视为一个计算图,作者重申了这个问题:给定一个源节点 s 和一个目标节点 t,我们寻找从 s 到 t 的重要节点模式,该模式显示了来自 s 的影响如何从一个节点到另一个节点遍历,最后到达 t。在较小的网络中,可以采用从 s 流向 t 的影响量对所有路径进行排序的详尽方法。然而,类似的方法缺乏对像 BERT 这样的大型模型的可扩展性。因此,作者提出了一种方法来贪婪地将搜索空间从所有可能的路径缩小到特定模式,将抽象模式提炼为更具体的模式,保持较高的影响力。

下图是引导模式细化 (Guided Pattern Refinement, GPR) 的图示。从仅包含源节点和目标节点的模式 开始。在每一步,分别定义一个引导集 和 ,并在引导集中找到最大化模式影响的节点。GPR 最终返回一个模式 抽象出单个路径。

下图中(a)(b)是 SVA-Obj 的两个实例的模式。(c)是基线模式 。对于每个图,左边是位置 i 的单词的:分布影响 (黄色)、,(紫色)和 (蓝色)。右边是从选择词中提取的模式 。方形节点和圆形节点分别表示输入和内部 embedding。在(a)和(b)中,通过 skip 连接的影响用虚线表示,注意力头用实线表示;边在 中标有对应的注意力头编号(范围从 1 到 A)。线条颜色代表影响的标志(红色为负面,绿色为正面)。

下图是作者对影响模式的可视化研究。(a)是来自 SP、SVA-obj 的三个从句动词的模式。(b)是 SA 任务中两个实例的模式。

下图是作者实验得出的任务表现、影响大小与模式熵的关系。

作者对几个 NLP 任务的影响模式进行了广泛的实证研究:主谓一致(SVA)、反身回指(RA)和情感分析(SA)。将发现总结如下:

  • BERT 中的很大一部分信息流通过 skip 连接而不是注意力头,这表明注意力权重本身不足以表征信息流。实验表明,平均而言,重要信息通过 skip 连接的频率是注意力的 3 倍。

  • 通过可视化提取的模式,作者展示了单词的信息流如何在模型内部交互,并且 BERT 可能会使用语法错误的线索进行预测。

  • 任务实例间影响模式的一致性反映了 BERT 在该任务上的表现。

  • 通过消融实验,作者发现影响模式在 BERT 中解释信息流的准确度分别比先前的基于注意力和基于层的解释方法高 74% 和 25%。

这篇论文提供了一种研究 transformer 可解释性的新思路,值得阅读。

Is Automated Topic Model Evaluation Broken?

论文标题:

Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence

论文链接:

https://arxiv.org/abs/2107.02173

这篇论文作者对没有人工判断的全自动评估的有效性提出了质疑:自动评估产生了模型之间的区别,而相应的人工评估则没有。作者提出神经主题模型评估的实践存在验证差距:尚未使用人体实验验证神经模型的自动一致性。并且使用自动化主题建模基准方面存在巨大的标准化差距。

作者解决了主题模型评估中标准化差距和验证差距。主要完成了以下工作:

  1. 提出了神经主题模型评估的元分析,以准确表征当前的事态;

  2. 开发了两个广泛使用的评估数据集的标准化、预处理版本,以及用于再现结果的透明端到端代码;

  3. 使用相同的预处理、模型选择标准和超参数调整优化了三个主题模型——一个经典模型和两个神经模型;

  4. 使用评分和单词入侵任务获得对这些模型的人工评估;

  5. 提供了自动评估和人工评估之间相关性的新评估。

实验所得结论表明,自动主题模型评估已经过时了,需要仔细重新考虑。

人工判断与自动度量之间存在差异的原因之一是度量偏向于更深奥的主题。具体而言,主题的 NPMI / Cv 与报告熟悉程度的受访者比例之间存在显着的负相关。然而,即使在过滤掉不熟悉主题术语的受访者之后,自动化指标仍然夸大了模型差异。

因此,主题模型评估本身似乎可以使用全新的观点。在这一点上,Doogan 和 Buntine 在 2021 年写道“为旧模型设计的一致性度量 [. . . ] 可能与较新的模型不兼容,”并且他们主张以语料库探索和标记为中心的评估范式。作者认为这种重新评估的正确起点是承认任何评估和指标都是一些现实世界问题场景的抽象。

例如,在信息检索中常见的 precision-at-10 用法是对用户只愿意考虑检索到的前十个文档的场景的抽象。在未来的工作中,可以探索能够更好地近似真实世界主题模型用户偏好的自动化指标。

主题模型的一个主要用途是在计算机辅助内容分析中。在这种情况下,与其采取方法驱动的评估方法,不如采取需求驱动的方法。需要重新审视使用像 NYT 这样的领域通用语料库对主题模型进行通用评估的想法,因为没有用于内容分析的“通用”语料库,也没有通用分析师。

正如 Krippendorff(2004)所表明的那样,内容分析可以用广泛的方式来表述,但它的实际应用始终是在一个领域中,由熟悉该领域的人使用。这一事实与通用语料库和众包注释的理想实用性存在矛盾,该领域需要解决这种矛盾。我们已经将“连贯性”确定为在读者脑海中唤出一个潜在的概念。因此,我们必须考虑相关的人类读者是谁以及对他们来说重要的概念空间。

QCFG

论文标题

Sequence-to-Sequence Learning with Latent Neural Grammars

论文链接:

https://arxiv.org/abs/2109.01135

项目地址:

https://github.com/yoonkim/neural-qcfg

使用神经网络进行序列到序列学习已成为序列预测任务的事实上的标准。这种方法通常使用可以根据任意上下文进行调节的强大神经网络对下一个单词的局部分布进行建模。虽然灵活且高效,但这些模型通常需要大型数据集进行训练,并且在旨在测试组合泛化的基准测试中可能会失败。

作者探索了使用潜在神经语法进行序列到序列学习的另一种分层方法。首先,使用准同步上下文无关语法(quasi-synchronous context-free grammars, QCFG) 对目标序列上的分布进行建模,该语法假设一个分层生成过程,其中目标树中的每个节点都被源树中的节点转换。这种节点级对齐为每个输出部分的生成方式提供了出处和因果机制,从而使生成过程更具可解释性。

作者还发现,与非层次模型相比,源端和目标端层次结构的显式建模改进了组合泛化。其次,与将经常观察到的树结构合并到使用神经网络的序列建模的现有工作线相比,作者将源树和目标树视为完全潜在的,并在训练期间诱导它们。

最后,虽然以前关于同步语法的工作通常在手工/流水线特征上使用对数线性模型,但作者利用神经特征来参数化语法的规则概率,这使得在推导规则的组合空间上有效共享参数,而无需任何手动特征工程。作者还直接将语法用于端到端生成,而不是作为更大流水线系统的一部分。

作者将这种潜在的神经语法应用于各种领域——一种旨在测试组合泛化(SCAN)、风格迁移和小规模机器翻译的诊断语言导航任务——并发现它与标准 baseline 相比表现可观。

下图显示了作者在 SCAN 上针对各种基线的结果。虽然许多方法几乎可以完美地解决这个数据集,但它们经常利用特定于 SCAN 的知识,这妨碍了它们直接应用于非合成领域。神经 QCFG 表现出色,同时保持领域不可知。

下图展示了一些频繁出现的规则示例,这些规则基于它们在添加原语(跳转)拆分的训练集上的 MAP 目标树计数。许多规则是合理的,它们进一步说明了对多个非终结符的需求。例如,为了在只有一元和二元规则的语法中处理“x x x”形式的源短语,模型在与同一短语组合时以不同的方式使用非终结符 N1 和 N8。

下图展示了从 SCAN 的添加原语(跳转)拆分的测试集上的神经 QCFG 生成的示例。从学习到的源解析器的诱导树显示在左侧,目标树推导显示在右侧。节点级对齐为每个目标跨度提供了明确的出处,从而使生成过程比标准注意力机制更易于解释。这些比对还可用于诊断和纠正系统错误。

例如,有时模型在根节点处错误地将“x {and,after} y”拆分为“x x”(或“y y”)。当我们在解码过程中手动禁止这种拆分时,性能全面提高了 1%-2%,展示了基于语法的模型的好处,它可以通过干预推导规则集来直接操纵模型生成。

下图是用这种方法做 Penn Treebank 上从主动到被动风格迁移任务的测试示例。从学习到的源解析器的诱导树显示在左侧,目标树推导显示在右侧。源树在语言上不正确,但模型仍然能够正确转换输出。

同样作者还用这种方法实现了机器翻译任务,可以进一步在原文中查看示例。虽然可以实现,但结果明显低于训练良好的 transformer 模型。

作者认为,就语法和其他具有符号组件的模型而言,与标准方法相比,这篇文章提出的方法能够更好地表达模型决策,它们可能在开发更可控和可解释的模型方面发挥作用,尤其是在协作人机系统的背景下。

或者,过去曾使用具有强归纳偏差的不灵活模型以各种方式引导(过度)灵活的神经模型,例如通过帮助生成额外数据或诱导结构来规范/增强模型。在这种情况下,探索如何将语法中的诱导结构与灵活的神经模型结合使用可能会很有趣。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

NeurIPS 2021有哪些值得读的NLP论文?相关推荐

  1. 最终篇!AAAI 2022值得读的NLP论文盘点

    ©PaperWeekly 原创 · 作者 | 王馨月 单位 | 四川大学 研究方向 | 自然语言处理 机器翻译 1.1 FCL 论文标题: Frequency-Aware Contrastive Le ...

  2. NLP领域近期有哪些值得读的开源论文?(附下载)

    来源:PaperWeekly 本文约3300字,建议阅读8分钟. 本文为你分享10篇值得读的NLP论文,带源代码的那种~ @paperweekly 推荐 #Relation Extraction 本文 ...

  3. 2017年度最值得读的AI论文 | NLP篇 · 评选结果公布

    历时九天,我们收到了近千份有效读者投票,2017 年度最值得读的 AI 论文评选也正式结束. 我们根据读者的投票情况,选出了自然语言处理和计算机视觉领域"2017 年最值得读的十大论文&qu ...

  4. 本周有哪些值得读的 AI 论文?我们替你挑选了 18 篇

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. 2017年度最值得读的AI论文评选 | 大张旗鼓送福利

    2017 年,同样有无数优秀的论文涌现.从 AlphaGo 的从"零"开始到 Geoffrey Hinton 提出的 Capsule 计划,各大高校和科研机构为我们带来了很多令人兴 ...

  6. 2017年度最值得读的AI论文 | CV篇 · 评选结果公布

    历时九天,我们收到了近千份有效读者投票,2017 年度最值得读的 AI 论文评选也正式结束. 我们根据读者的投票情况,选出了自然语言处理和计算机视觉领域"2017 年最值得读的十大论文&qu ...

  7. NLP领域近期有哪些值得读的开源论文?

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  8. NeurIPS 2020有哪些值得读的「图神经网络」论文?

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果.如果你也希望让自己的科研成果被更多人看到, ...

  9. 近期有哪些值得读的推荐系统论文?来看看这份私人阅读清单

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 本期「本周值得读」关注的是「推荐系统」领 ...

最新文章

  1. Apache 启动提示undefined symbol: libiconv_open
  2. 【最新阿里-京东-美团-滴滴-面试题及答案】
  3. 字符串处理 回文串 说反话
  4. HTML制作搞笑照片,40张创意搞笑的照片PS效果
  5. 一台服务器多个oracle启动
  6. SpringCloud--Eureka 注册中心原理及其搭建
  7. 数据库操作 linq php,.NET_asp.net使用LINQ to SQL连接数据库及SQL操作语句用法分析,本文实例讲述了asp.net使用LINQ t - phpStudy...
  8. iOS 开发,该如何解决弹窗的设计问题?
  9. Spark Row对象入门到熟悉
  10. 常见URL字符及URL编码值
  11. 算一串数字的entropy_【一点资讯】数字的作用,远比我们想的多得多 www.yidianzixun.com...
  12. SoilGrid 250米土壤质地数据集
  13. 复杂网络实验2:WS小世界模型(matlab)
  14. oracle数据库查表函数,Oracle数据库的常用函数列表快速查1
  15. 一个屌丝程序猿的人生(七十五)
  16. matlab自带的VAD检测程序
  17. 如何全网智能识别文章页,识别正文和标题
  18. Java桌面程序打包全过程
  19. 深度学习论文精读(4):MobileNetV2
  20. 谭谭黄金面具后面法老的诅咒

热门文章

  1. iOS 崩溃日志在线符号化实践
  2. android 如何用httpclient发请求和利用httphead头信息给服务器
  3. angularJS 上传multipart/form-data
  4. IntelliJ Idea工具使用
  5. 文件搜索工具everything
  6. verilog的$dumpfile和$dumpvar系统任务详解
  7. 关于如何提高SQL Server Compact的查询性能
  8. max与top的效率
  9. 请简述php循环控制语句,PHP 循环控制语句几种方法详解_PHP教程
  10. c语言中的数字菱形,打印数字菱形,急啊,帮帮小女子啊。。。