©PaperWeekly 原创 · 作者｜张琨

学校｜中国科学技术大学博士生

研究方向｜自然语言处理

论文标题：

Label Confusion Learning to Enhance Text Classification Models

论文作者：

Biyang Guo, Songqiao Han, Xiao Han, Hailiang Huang, Ting Lu

论文链接：

https://arxiv.org/abs/2012.04987

代码链接：

https://github.com/beyondguo/label_confusion_learning

动机

文本分类是 NLP 领域一个十分基础但非常重要的任务。目前针对文本分类的主流研究方法是一个复杂的模型用于文本表示，一个简单的分类层预测标签分布，一个交叉熵用于衡量预测概率分布和真实 one-hot 之间的损失。

更多的工作集中于第一步。这其实是有问题的，主要包含两个问题：

1. one-hot 的 label 表示假设标签之间是独立的，假设太强，忽略了标签之间的相互重叠关系；

2. one-hot 的 label 表示方法不仅丢失了标签包含的大量语义信息，同时会导致模型过于自信，在处理标签有噪声或者标签混淆度比较高的数据时出现问题。因此，需要对标签所包含的信息进行充分的处理和利用。

基于这样的一个出发点，本文提出了一种称为 Label Confusion Model（LCM）的方法。

方法

下图就是本文提出的模型的框架。具体而言，本文提出的框架包含两个部分：1）传统的类别预测模型，如左图所示；2）本文提出的充分利用标签信息的 LCM 方法，如右图所示，接下来，将会对本文提出的方法进行详细介绍。

2.1 Basic Predictor

这部分和一般的方法是没有不同，输入过来后使用不同的编码器进行处理，例如 CNN, RNN, BERT 之类的，然后得到句子语义的表征，最后通过一个 softmax 对数据进行分类，该过程可以表示为如下形式：

2.2 Label Confusion Model（LCM）

这部分是本文的重点，本文认为直接使用 one-hot 来表示标签一方面造成了标签信息的浪费，一方面又会误导模型过于自信，而且模型无法处理便签混淆或者有噪音的情况。为此，本文设计了 LCM 方法用于对标签信息进行充分的建模。

具体而言，首先是一个标签编码器，例如使用 MLP, DNN 之类的对输入标签进行编码，得到标签表示的向量。接下来是一个相似度计算模块（SLD），该模块首先通过一个相似度计算层计算当前数据句子和每个标签之间的相似度，然后使用一个带 softmax 的简单神经网络计算得到标签的混淆分布表示（LCD），这个表示能够在考虑当前输入的情况下，充分建模标签之间的依赖关系。相似度计算更有依据了。

在此基础上，通过一个权重系数和标签的原始 one-hot 表示相加，再通过一个 softmax 进行归一化，就得到了标签的模拟分布表示（因为标签的真实分布表示无法获取）该过程可以表示为如下形式：

到这里可以发现模型预测的标签概率分布是一个向量，第二步得到的标签的模拟分布也是一个向量，为了让预测模型能够充分利用这些信息，本文在这里使用一个 KL 散度约束这两个向量表示要离得近一些，具体可以表示为如下形式：

至此，本文的整体技术细节完成。从这里可以看出，本文主要是针对标签的分布以及标签之间的关系进行细致的建模，在考虑输入的情况下分析标签之间的依赖关系，从而实现动态的输入感知的标签编码，进而帮助模型充分利用标签数据。

实验

在实验部分，本文做了几组实验：1）使用不同类型的基本预测模型，然后再加上 LCM，对比前后的模型效果；2）为了充分验证模型能够处理标签混淆以及标签含噪音的情况，本文也设计了几个含有不同标签混淆度，不同标签噪声的模型，来进一步验证模型的效果；3）本文还通过一些可视化进一步展现加上 LCM 之后模型的性能。具体结果如下图：

从这些实验结果中都可以看出 LCM 加入之后的效果是非常棒的。

总结

本文主要是针对标签信息的充分利用进行了深入的研究。区别于传统的 label smoothing 或者 label embedding 方法，本文希望在利用标签信息时能够充分考虑输入的情况，是输入影响了标签之间的重叠或者依赖关系。

同时本文的方法是模型不可知的，能够进一步提升不同模型的效果，具有灵活的使用方法。最后对标签进行更全面的建模，更充分的使用，能够以较小的代价取得更好的效果，非常有意思的一篇文章。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

AAAI 2021 | 利用标签之间的混淆关系，提升文本分类效果相关推荐

SemEval-2010任务8：成对名词之间的语义关系的多分类
摘要SemEval-2任务8专注于名词对之间语义关系的多分类. 该任务旨在比较语义关系分类的不同方法,并为将来的研究提供标准的测试平台. 本文定义了任务,描述了训练和测试数据及其创建过程,列出了参与的 ...
AAAI 2022 | 可解释和鲁棒的联合文本分类及证据提取
论文标题: Unifying Model Explainability and Robustness for Joint Text Classification and Rationale Extra ...
混淆矩阵评价指标_分类效果评价指标一混淆矩阵
1.混淆矩阵:判断分类模型好坏 (摘自:版权声明:本文为CSDN博主「Orange_Spotty_Cat」的原创文章.原文链接:https://blog.csdn.net/Orange_Spotty_ ...
基于标签嵌入注意力机制的多任务文本分类模型
摘要 [目的] 将文本分类算法根据不同分类任务的特征进行动态调整,使文本分类算法的性能与任务特征紧密相关.[方法] 提出一种基于标签的注意力权重学习,通过标签嵌入的方法同时对文本语义的词向量和文本的T ...
20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关
文章目录 abstract 1.introduction 2.相关工作 2.1. Named entity recognition 2.2. Relation classiﬁcation 2.3 联合 ...
【层级多标签文本分类】HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorizati
HFT-CNN: Learning Hierarchical Category Structure for Multi-label Short Text Categorization 1.背景 1.作 ...
多标签文本分类研究进展概述
多标签文本分类研究进展概述 1.多标签文本分类的研究还有很大的提升空间. 2.多标签文本分类的基本流程,包括数据集获取.文本预处理.模型训练和预测结果: 3.多标签文本分类的方法:传统机器学习的方法和 ...
今晚8点：基于强化学习的关系抽取和文本分类 | PhD Talk #18
「PhD Talk」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义 ...
直播预告：基于强化学习的关系抽取和文本分类 | PhD Talk #18
「PhD Talk」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义 ...

AAAI 2021 | 利用标签之间的混淆关系，提升文本分类效果

©PaperWeekly 原创 · 作者｜张琨

总结

AAAI 2021 | 利用标签之间的混淆关系，提升文本分类效果相关推荐

最新文章

热门文章