常识知识确能被捕获，西湖大学博士探究BERT如何做常识问答

点击上方“AI遇见机器学习”，选择“星标”公众号

重磅干货，第一时间送达

来自：机器之心

BERT 是通过常识知识来解决常识任务的吗？

预训练上下文化语言模型（例如 BERT）的成功激发了研究人员探索此类模型中的语言知识，以解释下游任务的巨大改进。尽管先前的研究工作展示了 BERT 中的句法、语义和词义知识，但在研究 BERT 如何解决常识问答（CommonsenseQA）任务方面做的工作还很少。

尤其是，BERT 是依靠浅层句法模式还是较深层常识知识来消除歧义是一个有趣的研究课题。

近日，来自西湖大学、复旦大学和微软亚洲研究院的研究者提出了两种基于注意力的方法来分析 BERT 内部的常识知识，以及这些知识对模型预测的贡献。论文一作 Leyang Cui 为西湖大学文本智能实验室（Text Intelligence Lab）的在读博士生。

该研究发现，注意力头（attention head）成功捕获了以 ConceptNet 编码的结构化常识知识，从而对 BERT 直接解决常识任务提供帮助。此外，微调进一步使 BERT 学习在更高层次上使用常识知识。

论文地址：https://arxiv.org/pdf/2008.03945.pdf

任务和模型

在讲解 BERT 的应用之前，研究者首先简要介绍了 CommonsenseQA 的相关知识。

CommonsenseQA

CommonsenseQA（Talmor 等人，2019 年）是一个基于 ConceptNet 知识图谱（Speer 等人，2017 年）构建的多项选择问答数据集，它由关系对的大规模三元集合，即源概念、关系和目标概念组成，「鸟、栖息和乡村」就是一个典型示例。

如下图 2 所示，给定源概念「鸟」和关系类型「栖息」，则存在 3 个目标概念「笼子」、「窗台」和「乡村」。在 CommonsenseQA 数据集的开发过程中，要求参与者分别基于源概念和 3 个目标概念来生成问题和候选答案。

图 2：从 ConceptNet 到 CommonsenseQA。

基于 Talmor 等人（2019 年）的研究，研究者将问题中的源概念称为问题概念（question concept），将答案中的目标概念称为答案概念（answer concept）。

为了使任务更加困难，研究者还添加了两个不正确的答案。研究者将 commonsene 链接定义为从答案概念到问题概念的链接。

此外，为了分析基于从答案概念到问题概念的链接的隐式结构常识知识，研究者选择过滤掉了一些问题，并且过滤掉的这些问题不包含 ConceptNet 形式的问题概念（如释义）。

下表 1 汇总了数据集 CommonsenseQA 和 CommonsenseQA * 的详细数据：

将 BERT 应用于 CommonsenseQA

研究者采用 Talmor 等人在 2019 年提出的方法，在 CommonsenseQA 上使用 BERT（Devlin 等人，2019 年）。结构如下图 3 所示：

具体来说，给定一个问题 q 以及 5 个候选答案（a_1, ..., a+5），研究者将这个问题与每个答案连接起来，以分别获得 5 个链接序列（即句子）s_1, ..., s_5。在表示上，每个句子的开头使用特殊符号 [CLS]，问题和候选答案之间使用符号 [SEP]，句子末尾使用符号 [SEP]。

BERT 由 L 个 stacked Transformer 层（Vaswani 等人，2017 年）组成，以对每个句子进行编码。所以，[CLS] token 最后一层的隐状态用于带有 softmax 的线性分类，并且 s_1, ... , s_5 中得分最高的候选对象被选为预测答案。

分析方法

该研究使用注意力权重和相应的归因得分（attribution score）来分析常识链接。

注意力权重

给定一个句子，我们可以将 Transformer 中的注意力权重视为生成下一层表示过程中，每个 token 与其他 token 之间的相对重要性权重（Kovaleva 等人，2019 年；Vashishth 等人，2020 年）。

注意力权重α通过 Q = W^QH 中查询向量和 K = W^KH 中核心向量的缩放点积（scaled dot-product）来计算，然后得到 softmax 归一化：

归因得分

Kobayashi 等人指出，仅分析注意力权重可能不足以调查注意头的行为，因为注意力权重忽略了隐藏向量 H 的值。

作为注意力权重的补充，已经研究了基于梯度的特征归因方法来解释反向传播中每个输入特征对模型预测的贡献。对注意力权重和相应的归因得分的分析有助于更全面地理解 BERT 中的常识链接。

研究者使用一种名为集成梯度（Integrated Gradient，Sundararajan 等人 2017 年提出）的归因方法来解释 BERT 中的常识链接。直观地讲，集成梯度方法模拟剪枝特定注意力头的过程（从初始注意力权重α到零向量α ），并计算反向传播中的集成梯度值。

归因得分直接反映出了注意力权重的变化会对模型输出造成多大程度的改变。通常来说，归因得分越高表示单个注意力权重越重要。

BERT 是否包含结构化常识知识？

研究者首先进行了一组实验来探究常识链接权重，从而可以反映出常识知识是否会被句子的 BERT 表示捕获。

直观地讲，如果答案概念到问题概念的链接权重高于答案概念到其他疑问词的链接权重，则 ConceptNet 中的常识知识是通过经验表示捕获的。

值得注意的是，[CLS] token 的表示不是问题概念，而是直接连接至输出层以进行候选评分。因此，在预训练和微调阶段，对于输出层以及答案概念 token 到问题概念 token 的链接权重，都没有直接的监督信号。

探测任务（probing task）

研究者通过计算最相关的词（most associated word, MAW）来评估链接权重，其中 MAW 是从所有疑问词中的答案概念中获得最大链接权重的问题概念词。研究者计算了每层中每个注意力头的 MAW。

实验结果

下表 2 展示了对于不同的常识关系，原始归一化 BERT 和在 CommonsenseQA 上微调的 BERT 模型的平均和最大准确率结果：

首先观察未经微调的原始 BERT，每一层的最大 MAW 准确率明显优于随机基准。这表明 BERT 确实捕获了常识知识。此外，BERT 的平均 MAW 也明显优于随机基准（p 值 < 0.01），这表明相关的问题概念无需微调即可在 BERT 编码中发挥非常重要的作用。

其次，就平均 MAW 准确率和最大 MAW 准确率而言，BERT-FT 均优于 BERT。这表明对常识任务的监督训练可以增强结构化的常识知识。

BERT 如何将常识知识用于常识任务？

研究者进一步进行了一组实验，来描述常识链接与模型预测之间的相关性。目的是为了研究不同候选答案概念到问题概念的链接权重是否会对这些候选答案之间的模型决策造成影响。

具体而言，研究者比较了 5 个候选答案对于同一问题的链接权重，并找出了与相关问题概念最相关的候选答案。这个候选答案被称为最相关候选对象（most associated candidate, MAC）。MAC 和每个问题的模型预测之间也存在着相关性。直观地讲，如果 MAC 与模型预测呈现相关性，则证明模型在预测过程中运用到了常识知识。

研究者进行实验来评估 MAC 对模型决策的贡献，以及 MAC 依赖与输出准确率之间的相关性。实验中使用注意力权重和归因得分来测量链接，这是因为在考虑模型预测时梯度会发挥作用。

此外，对于所有试验来说，归因得分的趋势与使用注意力权重测量的结果保持一致。

探测任务

从形式上，给定一个问题 q 和 5 个候选答案 a1, ..., a5，研究者对相应的 5 个候选句子 s1, ..., s5 进行比较。在每个候选句子中，研究者根据 ConceptNet 计算了答案概念到问题概念的链接权重。

研究者通过测量答案概念到 [CLS]token 的链接权重，进一步定义了最相关句子（most associated sentence, MAS）。这是因为梯度是从 [CLS]token 后向传播，而不是从问题概念或答案概念。

此外，通过比较 MAC 和 MAS，研究者可以获得 MAC 是否对模型决策造成影响的有用信息。

常识链接的重要性

研究者测量了 BERT-FT 和 BERT-Probing（这是一个仅针对输出层进行微调的 BERT 变体）的 MAC 性能，其中 BERT-Probing 是一个线性探测（linear probing）模型。直观地讲，如果线性分类器可以预测常识任务，则未经微调的原始模型可能会编码丰富的常识知识。

下表 3 为 top Transformer 层中 12 个注意力头条件下，MAC 和 MAS 的重叠率（overlapping rate）：

常识链接与模型预测之间的相关性

为了进一步探究常识知识对模型预测的贡献，下图 4 展示了每个 Transformer 层上 MAC 和模型预测之间的重叠率：

下表 4 则展示了 MAC 准确率和预测准确率之间的相关性：

不同层的贡献

最后，研究者进一步探究了常识知识使用上的两个具体问题。其一，在决策过程中，BERT 最依赖哪个层？其二，BERT 使用的常识知识来自预训练或微调吗？为此，研究者通过连接每个 Transformer 层上的输出层，对 12 个模型变体进行了比较。

下表 5 展示了模型准确率和 MAC 重叠率的数据：

欢迎关注我们，看通俗干货！

常识知识确能被捕获，西湖大学博士探究BERT如何做常识问答相关推荐

施一公直播首秀来了！解答读博困惑，鼓励学生勇敢申请西湖大学
别人家的博士研究生招生,是这样的! >>>> 8月24日,西湖大学校长施一公在西湖大学B站.抖音直播间,开始了自己的直播首秀.在直播中,施一公谈了西湖大学创办过程中的难忘故事, ...
PhD Debate-8 | 迈向常识知识的高级语义理解
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 常识是一类高级知识,是人的认知神经状态的内化反应.根据中科院曹存根教授在<A Survey of Commonsense Know ...
西湖大学遭质疑，多是“天坑”专业？校长施一公“霸气”回应
本文募格课堂整理自西湖大学.齐鲁晚报·齐鲁壹点.科学网.量子位 3月19日晚7点,中国科学院院士.西湖大学校长施一公准时出现在直播间,在线宣讲西湖大学首次本科创新班招生的相关事宜. 本次西湖大学校长施 ...
西湖大学2023年博士研究生招生简章发布！199位博导，400个名额！
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入->2024届校招求职交流群西湖大学是一所社会力量举办.国家重点支持的新型高等学校.学校按照 ...
西湖大学开学：新生每月5000元补助，AI博士研究永生课题
问耕发自麦蒿寺量子位出品 | 公众号 QbitAI 开学了! 这个周末,西湖大学在今年4月获得教育部批准正式成立以后,第一次迎来新生报到.开学典礼.不过这所大学门口,并没有锣鼓喧天.鞭炮齐鸣, ...
新冠病毒又被“扒掉一层皮”！西湖大学成功解析病毒细胞受体空间结构，助力研发特效药...
郭一璞乾明发自云凹非寺量子位报道 | 公众号 QbitAI 新冠病毒入侵众多人类的身体后,一个叫ACE2的结构在学术圈突然火了. 作为一个人类身体细胞中本来就存在的结构,ACE2被纷纷指责 ...
西湖大学鞠峰组：环境微生物的宏基因组学实例与新发现
环境微生物的宏基因组学实例与新发现鞠峰1, 2, 3 *, 王慧1, 2 1 浙江省海岸带环境与资源研究重点实验室,工学院, 西湖大学, 杭州, 浙江 2 前沿技术研究所, 浙江西湖高等研究院, ...
西湖大学特聘研究员张岳：自然语言处理的一些瓶颈思考与探索
2021-01-11 19:18:38 11月14日至15日,由中国人工智能学会.嘉兴市人民政府主办,嘉兴市南湖区人民政府.嘉兴科技城管理委员会.浙江未来技术研究院(嘉兴)共同承办的2020第十届中国 ...
西湖大学教授：都说不唯论文，那我们发表论文是为了什么？
Datawhale干货作者:黄嘉兴,西湖大学教授黄嘉兴 2000年本科毕业于中国科大化学物理专业,2004年于美国加州大学洛杉矶分校取得化学博士学位.2004-2007年获得加州大学伯克利分校米勒 ...

常识知识确能被捕获，西湖大学博士探究BERT如何做常识问答

常识知识确能被捕获，西湖大学博士探究BERT如何做常识问答相关推荐

最新文章

热门文章