你的模型够可靠么？关键词掩码的模型可靠性提升方法探索

©PaperWeekly 原创 · 作者｜张琨

学校｜中国科学技术大学博士生

研究方向｜自然语言处理

论文标题：

MASKER: Masked Keyword Regularization for Reliable Text Classification

论文链接：

https://arxiv.org/abs/2012.09392

代码链接：

https://github.com/alinlab/MASKER

动机

文本分类是自然语言处理中一个基础但应用广泛的任务，而伴随着预训练模型的被提出，模型在文本分类任务上的效果也在不断被提升。虽然现有的预训练模型确实对文本分类的提升做出了突出贡献，但是利用文本分类模型进行微调存在一个可靠性问题。

模型会更过的依赖那些关键词，从而忽略了周围的上下文信息，模型会更过的依赖那些关键词，从而忽略了周围的上下文信息，试集中的数据分布是不同的，可能在训练集中某些关键词和某一类紧密关联，但在测试集中不是这样的，那么过渡依赖关键词的话，模型就会做出错误的判断。

除此之外，还有一个跨领域泛化的问题，在源域有效的关键词可能在目标域就不存在，这样模型在目标域的泛化就存在很大问题了。

比如下图，如果原域中 apple 指的就是苹果公司，那么当出现 OOD 的 apple 这个词的时候，模型应该能判断出来这已经不是在相同的域了，这时的 apple 就可能不再是关键词了。为了解决这个问题，本文在预训练模型的基础上提出了一个改进方案，主要用于增加模型的可靠性，尤其是在微调阶段的可靠性。

方法

在这里主要分为两个部分，关键词的选择和通过掩码关键词的约束。

2.1 关键词选择

已经有一些工作，通过认真选择数据或者设计特定的结构，从而减轻或消除数据中的这种有偏（单靠一些关键词判断正确的类别）对模型的影响。但这些方法都需要有偏的监督信号，因此存在一定的局限性，本文就选择使用一种非监督的方法来选择关键词，思路很简单：

基于频率：即通过统计整个文档中的词频实现对关键词的选择，这里使用的是 TF-IDF，主要通过以下公式计算：

需要说明的是该方法是不依赖于模型的，针对任何模型都是使用的，同时本文选择的 TF-IDF 是不依赖类别的，是直接选择出整个数据中的关键词。优点是简单易行，缺点是无法反应词对最终结果的贡献。

基于注意力得分：这部分相对来说就要复杂一些了，即使用模型中的注意力得分对数据中的词进行选择，这里为了体现词对结果的影响使用的就是原始的 loss 来训练模型，然后找到模型更关注那些关键词，具体选择的注意力分数计算如下：

通过这两种方式得到具体的关键词之后，作者又提出了两种利用掩码关键词进行约束的任务。

2.2 掩码关键词约束

掩码关键词的重构：

在该任务中，作者首先按照一定概率选择一些关键词，将这些关键词进行掩码，然后将遮盖住关键词的文档送给模型，模型需要对被遮盖的内容进行重构，该过程可以由下图表示：

对应的损失可以由以下公式表示：

作者也选择了利用遮盖后的文档直接进行分类，但结果是非常差的，通过这样的实验证明了对遮盖内容的重构是必须的。

掩码之后的熵正则：

这个任务主要是对上下文内容进行遮盖，具体可以理解为：正常情况下，我们希望通过让模型更多的关注上下文，从而真正理解语义，而不是靠一些简单的关键词进行分类预测。

因此模型需要充分理解上下文。当我们把上下文遮盖住之后，模型应该无法准确理解语义，无法做出判断，因此输出的概率分布应该是均匀概率分布。基于这样一个想法，就设计了这个任务。该过程可以表示为：

对应的损失可以由如下公式表示：

整个模型的损失：

有了以上两个任务之后，整个模型的损失可以表述为：

实验

在实验中，作者更多的关注模型是否能够判断出 OOD 的情况以及在 cross-domain 情况下模型的表现。具体而言，本文以一些预训练模型为 baseline（BERT, RoBERTa，ALBERT），然后对比模型在原始情况以及考虑了本文提出的方法的情况下在这两个任务上的表现，部分实验结果如图：

同时，作者也展示了使用本方法后，模型学习到的文档 embedding 在可视化下的表现，具体如图：

从这些实验结果，都证实了本文提出的方法的有效性，而且 t-sne 图的结果还是很明显的。

总结

本文不再是直接思考一种新的做文本匹配的模型，而是深入思考了模型在作出判断时应该是什么情况，从可靠性的角度进行了深入分析，实验方法也不是很难，但特别有意思，而且这里边也有一些对抗的思想，值得认真学习。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

你的模型够可靠么？关键词掩码的模型可靠性提升方法探索相关推荐

【原创】开源OpenIM：轻量、高效、实时、可靠、低成本的消息模型
[原创]开源OpenIM:轻量.高效.实时.可靠.低成本的消息模型 1.内容概述一套完整IM系统中,除开基本的业务设计,消息模型的设计是其中最为关键的一环,它关系到整个IM系统的可靠性.高效性.稳定 ...
【深度学习】Inception模型结构解析，关键词：Inception-v1、v2、v3、v4、Inception-ResNet-v1、Inception-ResNet-v2
目录 1.Inception-v1 1.1 Introduction 1.2 Inception结构 1.3 GoogLeNet 参考文献 2.Inception-v2 2.1 introductio ...
基于主体掩码的实体关系抽取方法
点击上方蓝字关注我们基于主体掩码的实体关系抽取方法郑慎鹏1, 陈晓军1, 向阳1, 沈汝超2 1 同济大学电子与信息工程学院,上海 201804 2 上海国际港务(集团)股份有限公司,上海 200 ...
联邦学习【分布式机器学习技术】【①各客户端从服务器下载全局模型；②各客户端训练本地数据得到本地模型；③各客户端上传本地模型到中心服务器；④中心服务器接收各方数据后进行加权聚合操作，得全局模型】
随着计算机算力的提升,机器学习作为海量数据的分析处理技术,已经广泛服务于人类社会. 然而,机器学习技术的发展过程中面临两大挑战: 一是数据安全难以得到保障,隐私数据泄露问题亟待解决: 二是网络安全隔离 ...
visio网络拓扑图_人船模型怎么画？分享高颜值模型图软件
人船模型是指一个原本处于静态的系统,通过互相作用后,在一个方向上达到动量守恒. "人船模型"是由人和船两个物体构成的系统,一个人从船头走到船尾,船停在静止的水面上,设人的质量为m, ...
线程监视器模型_为什么模型验证如此重要，它与模型监视有何不同
线程监视器模型建模基础 (MODELING FUNDAMENTALS) Once the model development steps are complete, model validation ...
加载tf模型正确率很低_深度学习模型训练全流程！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:黄星源.奉现,Datawhale优秀学习者本文从构建数据验证集. ...
NLP之PTM：自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略
NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...
关键词短语生成的无监督方法01——综述
2021SC@SDUSC 目录一.项目背景二.项目目的三.工作实现 1.任务目标 2.思路启发 3.关键方法--AutoKeyGen (1)功能 (2)具体实现 *训练模型* *使用模型* 4. ...

你的模型够可靠么？关键词掩码的模型可靠性提升方法探索

你的模型够可靠么？关键词掩码的模型可靠性提升方法探索相关推荐

最新文章

热门文章