Perturbed Masking：和参数无关的预训练模型分析方法

©PaperWeekly 原创 · 作者｜蔡杰

学校｜北京大学硕士生

研究方向｜问答系统

论文标题：

Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT

论文来源：

ACL 2020

论文链接：

https://arxiv.org/abs/2004.14786

代码链接：

https://github.com/Frank-Smith/Perturbed-Masking

引言

本文是一篇分析 BERT 模型的文章。通常分析 BERT 的时候研究人员会设计一些 probing 任务，并通过 BERT 的每一层参数来尝试解决这些任务，如果某一层能够很好的解决某一任务，那就说明 BERT 在这一层是学到了和该任务相关的语言学信息的。

probing 任务通常被设计为一个简单的神经网络（比如分类任务通常在 BERT 后接一层的 FFN），但是这种做法有个问题：我们无法确定到底是 BERT 本身，还是添加的简单神经网络学到了这些相关的信息，该做法反而增加了模型可解释的难度。

论文贡献

作者提出了一种和参数无关的分析预训练模型的方法：Perturbed Masking，该方法能够分析预训练模型中词与词之间的关系，使全局的句法信息提取成为可能。

作者在多个 NLP 任务中验证了他们方法的有效性（e.g., syntactic parsing, discourse dependency parsing）。

作者还将他们从预训练模型中提取出来的句法结构应用到下游任务中，发现作者他们提取句法信息的性能与解析器创建的句法信息相当、甚至更好。这为发掘 BERT 在下游任务上取得的成功提供了一个视角。

Perturbed Masking

作者提出了利用扰动掩蔽技术（Perturbed Masking）来评估 MLM 中一个词对另一个词的影响。

3.1 BERT

BERT 用了两个预训练任务：MLM 和 NSP。讲讲和本文有关的 MLM（Mask Language Model），一句话中随机选择 15% 的 word 作为替换的候选 word，这些候选的 word 中又分为以下三种情况：

80% 的概率替换为 [MASK] 标记
10% 的概率用随机选择的一个词替换
10% 的概率保持不变

而 bert 要做的就是去预测那些被替换为 [MASK] 标记的 word 原来是什么 word。

3.2 Token Perturbation

作者的目的是找到一个能够建模两个 word 之间的函数。作者把 mask 了第 i 个 word 的句子表示为

，把 mask 了第 j 个 word 的句子表示为

，然后把 [MASK] 位置对应的 embedding 作为这个 word 的表示。

为了找到第 j 个词

对预测第i个词

的影响，作者在 mask 了第 i 个词的句子

的基础上又 mask 了第 j 个词，整句变成了

。

两个 word 之间的函数

表示为：

上图中的

就是对应的 embedding 函数，d 有以下两种：

第一种 Dist 就是计算两个 embedding 之间的欧式距离。第二种 Prob 需要先把 embedding 映射成关于词表的一个分布，然后对于同一个词的概率相减。

通过重复以上方法，可以得到一个 Impact Matrix，从这个矩阵中我们就可以得到句法树。

作者还提到因为 bert 使用的 BPE 算法，导致一些词会被切分成 sub-words。sub-words 的影响有两个维度，第一种情况是

被切成了 sub-words，作者认为

中的每个部分对

的影响都是相同的，所以就只取了

的第一个 sub-word 来计算

对

的影响。第二种情况就是

被切成了 sub-words，在这里是取了

对

的每一个 sub-word 的影响的平均值。

3.3 Span Perturbation

作者在 token-level 之后，还扩展到了 span-level（包括短语、句子和段落）。

采用的方法和 3.2 是一致的，不一样的地方在于将句子替换为文档，句子中的 token 替换为（短语、句子或段落）。

Visualization with Impact Maps

作者从 CoNLL 2017 共享任务的 PUD treebank 数据集中向 BERT 输入了 1000 个句子，从而提取 Impact Matrix 。图 1 展示了一个示例矩阵。

从图中我们可以注意到矩阵图包含许多位于对角线上的深色条纹。以 different 一词为例(倒数第二列)。在主对角线上观察到一条清晰的垂直深色条纹。作者对此的解释是， different 这个词的出现剧烈地影响了它之前那些词的出现。

这些剧烈的影响体现在上图的倒数第二列中所见的深色像素。这个观察结果与ground-truth的依赖树一致，它选择 different 作为短语 This will be a little different 中所有剩余单词的头。这种情况在 transition 和 hill 中也有类似的模式。

根据图一的 Matrix，作者抽取出来的句法树，可以看到效果还是很不错的。

沿着影响图的对角线，我们还可以看到单词被分成四个连续的具有特定意图的块（例如，一个名词短语 on Capitol Hill）。我们还可以观察到，中间的两个词块有相对紧密的词块之间的联系，因此把他们组在一起，可以形成一个更大的动词短语。这一观察表明，BERT 可以捕捉到语言的组合性。

总结

综上所述，作者提出了一种无参数探测技术来补充目前通过 prob methods 来解释 BERT 的工作。通过精心设计的两阶段的扰动 mask 机制，可以得到了 BERT 的 Impact Matrix。这个矩阵反映了捕捉词间关联的注意机制的功能，作者还设计了算法可以从这个矩阵中提取出句法树。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

Perturbed Masking：和参数无关的预训练模型分析方法相关推荐

NeurIPS 2020 | MiniLM：通用预训练模型压缩方法
基本信息机构: 微软研究院作者: Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou 论文地址: https://arx ...
自然语言处理：基于预训练模型的方法（一）
自然语言处理:基于预训练模型的方法 1.2 自然语言处理的难点 1.3 自然语言处理任务体系 1.2 自然语言处理的难点 1.2.1 抽象性语言是由抽象符号构成的,每个符号背后都对应着现实世界或人们 ...
Whole Word Masking (wwm) BERT PaddlePaddle常用预训练模型加载
Whole Word Masking (wwm),暂翻译为全词Mask或整词Mask,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略. 简单来说,原 ...
《自然语言处理：基于预训练模型的方法》读书笔记：第2章自然语言处理基础
目录第2章自然语言处理基础 2.1 文本的表示 2.1.1 词的独热表示 2.1.2 词的分布式表示 2.1.3 词嵌入表示 2.1.4 文本的词袋表示 2.2 自然语言处理任务 2.2.1 语言 ...
《自然语言处理：基于预训练模型的方法》第七章预训练语言模型
预训练模型并不是自然语言处理领域的"首创"技术. 在计算机视觉领域,通常会使用ImageNet进行一次预训练,让模型从海量图像中充分学习如何从图像中提取特征.然后,会根据具体的任务 ...
翟季冬：基于国产超算的百万亿参数超大预训练模型训练方法
[前沿进展]训练参数规模万亿的预训练模型,对于超级计算机而言是不小的挑战.如何提升超算的计算效率,实现更大规模的参数训练,成为近年来研究者探索的课题.在近日举办的Big Model Meetup第二期 ...
华为云中文预训练模型发布：全球最大、千亿参数，逼近人类神经元
金磊发自凹非寺量子位报道 | 公众号 QbitAI 还是熟悉的华为开发者大会 (HDC),还是熟悉的余承东. 也还是一贯地擅长宣布"世界第一": 业界首个千亿级生成与理解中 ...
30亿参数，华为云发布全球最大预训练模型，开启工业化AI开发新模式
本文分享自华为云社区<HDC.Cloud 2021 | 华为云发布全球最大预训练模型,开启工业化AI开发新模式>,原文作者:技术火炬手 . 4月25日,华为云发布盘古系列超大规模预训练模型 ...
冯仕堃：预训练模型哪家强？百度知识增强大模型探索实践！
作者 | 冯仕堃百度主任架构师来源 | DataFunTalk 导读:近年来,预训练语言模型在自然语言处理领域发展迅速,并获得广泛应用.本文将介绍百度基于知识增强的语义理解ERNIE的实践探索, ...

Perturbed Masking：和参数无关的预训练模型分析方法

Perturbed Masking：和参数无关的预训练模型分析方法相关推荐

最新文章

热门文章