原文:

Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019)

多标签文本分类

摘要:

本文使用标签相关的注意力网络学习文档表示。

该方法在构建文档表示时使用了标签的语义信息来决定标签和文档的语义联系。

并且,根据文档内容信息,使用了自注意力机制识别标签特定的文档表示。

为了整合以上两部分,使用了自适应的融合机制,这样可以输出全面的文档表示。

1 Introduction:

类似CNN、RNN、注意力机制的方法已经很好的实现了文档的表示。但是其中的大多数方法仅仅关注文档而忽略了标签。

近期的一些工作通过探索标签结构或标签内容捕获标签相关性。尽管其已经取得了一些成果,但是这些方法无法在标签文本有巨大差异的情况下,取得好的效果。

比如Management vs Management moves,就很难区分。

2 Label-Specific Attention Network model (LSAN)

模型包含两部分。第一部分通过利用文档内容和标签文本,从每一个文档中,捕获标签相关的部分。第二部分旨在从两个方面自适应的提取正确的信息。最终,分类器基于融合的标签特定的文档表示。

2.1 Input Text Representation:

使用Bi-LSTM捕获双向的语义信息,从而学习每一个输入文档的word embedding。

在第p个时间步,隐藏状态可以被更新。

是第p个单词的embedding向量,是其相应的正向/反向词表示。从而,整个文档可以被表示为:

2.2 Label-Specific Attention Network

这一部分旨在于获取每个文档的标签相关的内容。这种策略受启发于文本分类。

例子:

June a Friday, in the lawn, a war between the young boys of the football game start.

属于类别youth和sports。内容young boys与youth更相关而不是sports。而football game直接与sports相关。

2.2.1 Self-attention Mechanism

一篇文档中的每一个单词对每一个标签的贡献程度不同。为了捕获文档与每个标签的相关性,本文采取自注意力机制。标签-单词注意力分数可以通过以下公式获得:

是自注意力参数。代表着所有词对第j个标签的贡献度。

接下来,可以获取文本单词对每一个标签的加权和:

是输入文档结合第j个标签的表示。就是标签特定的文档表示,

2.2.2 Label-Attention Mechanism

刚刚的自注意力部分可以看作是基于内容的注意力机制,只考虑到了文档内容信息。

然而,标签在文本分类中具有特定的语义信息。为了利用到标签的语义信息,他们被预处理和表示为一个可训练的矩阵,在同一个潜在的k维空间:

一旦得到Bi-LSTM输出的word embedding,以及标签embedding C,我们可以显式的得到每一对单词和标签的语义联系。一个简单的方法是计算词表示和标签表示的点积:

以上两者分别是词和标签正向和反向的语义联系。与刚刚的自注意力机制类似,标签特定的文档表示可以通过标签词的线性组合被构建:

最后,文档可以被重表示:

这一部分的表示是基于标签文本,所以我们将其命名为标签注意力机制。

2.3 Adaptive Attention Fusion Strategy

为了对以上两者(基于内容的注意力机制,基于标签的注意力机制)结合,在这一部分我们探究使用了注意力融合机制,自适应的从以上两部分中提取正确的信息,并建立更全面的文档表示。

具体来讲,两个权重向量用于得到以上两部分文档表示的重要程度,可以通过一个全连接层得到:

两个W是参数。分别是自注意力机制和标签注意力机制的重要程度(沿着第j个标签)。所以为这两对参数添加限制:

得到最终的文档表示:

2.4 Label Prediction

在得到最终的文档表示后,我们可以通过含两个全连接层的多层感知机建立一个多标签文本分类器。每个标签的预测概率可以通过如下公式得到:

Sigmoid输出的值可以看作概率,所以我们最后使用交叉熵损失。

N是训练集文档数目,是标签数量,是零一变量,代表文档是否有标签。

3 Experiments

Datasets:

不同数据集的标签数量L有多有少。

Baseline Models:

一些经典的文本多标签分类方法:XML-CNN: (Liu et al., 2017),SGM: (Yang et al., 2018),DXML: (Zhang et al., 2018)。

AttentionXML: (You et al., 2018) 可以看作本文模型的特殊情况,即只考虑到了文本内容,没有考虑到标签语义。

EXAM: (Du et al., 2018) 与本文模型最接近的工作,但是本文模型处理的更好。

3.2 Comparison Results and Discussion

XML-CNN的效果最差,原因是其没有考虑到标签相关性。

在RCV1和Kanshan-Cup数据集上,AttentionXML比EXAM效果好。因为这两个数据集具有层级标签结构。此时父标签和子标签可能包含相同的文本内容,使得其更难区分。

在EUR-Lex数据集上,AttentionXML效果最差,因为其只关注文档内容信息,EXAM和LSAN都受益于标签文本信息,所以效果更好。

3.3 Comparison on Sparse Data

为了验证本文方法LSAN在低频标签上的效果,我们将EUR-Lex根据频率划分为三个组。

三个方法在三个组上的效果:

特别是在低频标签上,本文提出的方法获得了更大的提升。

3.4 Ablation Test

文本提出的LSAN方法可以看作是三部分的结合:自注意力部分(A),标签注意力部分(L)和融合注意力部分(W)。

自注意力部分A用来找到有用的文档内容,标签注意力部分L利用到了标签文本信息显式得得到了文档和标签的语义联系。然而,有些标签不易被区分(e.g., Management vs. Management movies).,所以结合两者也很重要。

注意力权重展示:

为了进一步展示融合注意力机制的重要性,展示自注意力和标签注意力在两个数据集上的权重分布。其中EUR-Lex数据比较稀疏,AAPD不稀疏。

正如我们预料的,在稀疏数据集上,标签注意力机制比自注意力机制更有效。在不稀疏的数据集上,每个标签有充分的文档,所以自注意力机制就够了。

可视化:

探究标签注意力机制的效果。Computer Vision和Neural and Evolutionary Computing是该例子的两个类别,我们可以看出其各自在文本中对应的单词。

启发:

注意力机制可以拿来进行自适应学习,学习两部分的动态加权。但是需要两部分都有好的性能才能取得更好的效果。

多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...相关推荐

  1. bert 是单标签还是多标签 的分类_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

    原文: Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019) 多标签文本分类 摘要: ...

  2. 音频分类-数据集:Urbansound8K【应用较为广泛的用于自动城市环境声分类研究的数据集,含10个分类:空调声、汽车鸣笛声、儿童玩耍声、狗叫声、钻孔声、引擎空转声、枪声、手提钻、警笛声、街道音乐】

    Urbansound8K 是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集,包含10个分类:空调声.汽车鸣笛声.儿童玩耍声.狗叫声.钻孔声.引擎空转声.枪声.手提钻.警笛声和街道音乐声.数据 ...

  3. html文档主体的根标签,2 HTML简介标签嵌套和并列关系文档声明

    HTML:Hyper Text Markup Language  超文本标签语言(hyper:精力旺盛的 markup:标记 n noun) HTML不是编程语言,而是一种标记语言(就是一套标记标签) ...

  4. html文档结构和基本标签

    1.html基本结构 第一个html <!DOCTYPE html> <!-- !表示声明 这一行代码表示 下面的文档标签将以html5规范去解析--> <html> ...

  5. html文档主体的根标签,HTML详细介绍(基础标签篇)

    今天下午阳光明媚,北京少有的好天气.正好有机会总结HTML标签,下面就详细介绍一下基础的标签的用法及相关的属性.关于基础篇的总结部分点击这里. 基础标签的内容 :定义,声明文档类型 :html文档的根 ...

  6. Word文档怎么删除html标签,word怎么清除所有格式

    在 Word 中,选择性粘贴有三种格式 分别为保留原格式.合并格式和保留原文本,另外,还可以选择"HTML 格式.无格式文本.无格式的 Unicode 文本.带格式文本(RTF)和图片(增强 ...

  7. 如何提取幻灯片表格_如何将Google文档,表格或幻灯片文件共享为网页

    如何提取幻灯片表格 With Google Drive, you can share any Google file (from Docs, Sheets, or Slides) online as ...

  8. Python实现识别html文本内容并截图放入word文档

    需求: excel文件中存放了很多html标签文本,需要把文本内容在浏览器中打开将内容截图,放入doc文档保存. 手动过程 需要逐条手动处理 1. 从excel表格中复制标签文本内容 <div& ...

  9. html在分页功能中如何实现当前页面的页码样式与其他页面不同_如何使用word文档?word文档使用技巧教程?...

    Word文档使用方法与教程: 使用正确的部分和章节标题 我们在前面的章节中介绍了预设样式,但是这些样式可用于快速创建章节,子标题和标题页.在"主页"功能区选项卡中找到样式,可以在其 ...

最新文章

  1. Apache Storm 实时流处理系统ACK机制以及源码分析
  2. 一个基于LZMA压缩的javascript文件的解码过程。
  3. fir滤波器matlab实现_关于FIRamp;IIR系统的算法说明以及结果验证(1)
  4. 训练日志 2018.10.11
  5. ReportViewer教程(4)-为报表打造数据源
  6. CompletionService VS ExecutorService
  7. SpringBoot整合themeleaf+bootstrap (五)
  8. 计算机音乐创作是什么,2021计算机音乐创作的作曲方式探究论文
  9. Android万能使用WebServices(不用引入外部包)
  10. python画正切函数图像_python的pygal模块绘制反正切函数图像方法
  11. opencv 摄像头基本使用
  12. 台湾移动互联网为什么跑慢了?
  13. 阅读野火stm32代码思考
  14. oracle人民币大写转换
  15. Ludwig Otto Hölder
  16. UltraEdit 27.0.0.24 中文版 — 文本代码编辑工具
  17. day08学习 Python文件函数、CSV文件读写
  18. 数据库系统概念第六版 第五章练习题 2 4
  19. ADB打开蓝牙,给蓝牙wifi 芯片上下电
  20. TokenInsight 对话首席——市场回暖,挖矿or买币?(完整稿)

热门文章

  1. prometheus 笔记
  2. 基本数据类型____字典
  3. 优秀的Android资源
  4. 免费开通二级域名的论坛
  5. [Ubuntu] Simple way to pass passwords on a shell script
  6. 使用 IPsec 与组策略隔离服务器和域-第 7 章 IPsec 疑难解答
  7. php8vsgo,服务端 I/O 性能:Node、PHP、Java、Go 的对比
  8. eclipse linux windows 乱码,Ubuntu下Eclipse打开Windows下的工程文件乱码解决办法
  9. python 不确定度_python机器学习-chapter2_16
  10. html css 前端实现消息提醒数_自学的福音,web前端学习全套视频教程+最新学习思维导图都在这里...