本文同步发表在 PaperWeekly

EMNLP 2019开源论文:针对短文本分类的异质图注意力网络​mp.weixin.qq.com

本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2019 上并开源了代码和数据(http://shichuan.org/ )。

论文动机

短文本分类在新闻及微博等领域得到了广泛的应用。但是,目前的文本分类算法主要集中于长文本分类并且无法直接应用于短文本分类。这是由于短文本分类的两个独有挑战:

1. 数据的稀疏和歧义:短文本通常不超过 10 个词,提供的信息非常有限。经典的 Bi-LSTM+Attention 往往无法有效的捕获短文本中的语义信息。

2. 标签数量较少:传统的监督学习无法有效工作,尤其是传统深度学习算法需要大量的监督数据。

针对上述两个挑战,本文创新地将短文本建模为异质图(见 Figure 1),通过图数据的复杂交互来解决数据稀疏和歧义带来的挑战。同时,本文提出了一种异质图注意力 HGAT 来学习短文本的表示并进行分类。HGAT 是一种半监督学习算法可以更好的适用于标签数量较少的场景,如短文本的分类。

HGAT

本文提出 Heterogeneous Graph Attention Network 来学习短文本异质图的表示。考虑到短文本所建模的异质图的特点,HGAT设计了 dual-level attention mechanism,包括 node level 和 type level,来更好的学习短文本的表示。模型架构图如 Figure 2 所示。

GCN & Heterogeneous GCN

本文首先对图神经网络和异质图神经网络进行了简单回顾。GCN 作为一种经典的图卷积神经网络,通过聚合邻接信息来更新节点表示。GCN 的核心更新公式如下:

其中,

代表第 l 层的节点表示,

代表对称归一化邻接矩阵,

代表第 l 层的投影矩阵。这里基于

来聚合邻居,每个邻居的重要性都是一样的。那么能不能学习邻居的重要性并加权融合来更好的学习节点表示呢?

Heterogeneous GCN 与 GCN 最大的区别是需要考虑多种异质关系的融合。Heterogeneous GCN 的核心更新公式如下:

可以看出,和 GCN 更新公式的最大区别是这里考虑了 T 种异质关系并进行了多关系的融合。这里对于多关系的融合是比较简单的,那么能不能加权融合呢?

Node Level Attention

显而易见,每个节点的邻居应该具有不同的重要性。Node level attention 可以学习邻居的重要性并通过加权聚合来学习节点的表示。Node level attention 首先将节点及其邻居的表示拼接起来,然后通过单层 MLP 和注意力向量将其转化为注意力分数

这里将注意力分数

通过 softmax 归一化得到了注意力权重

最后,基于所学习到的注意力权重来聚合邻居。

可以看出,node level attention 将 Heterogeneous GCN 中的

替换成了

。这样,噪音邻居的权重会较低而相对比较重要的邻居的权重会较高。

Type Level Attention

Type level attention 目标是学习多种关系的重要性并进行融合节点在多个关系下的表示。这里首先定义了节点 v 在关系 T 下的表示

。节点 v 针对关系 T 的注意力分数

如下式所示:

然后,通过 softmax 来对注意力分数进行归一化:

Model Training

最后,我们将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。

需要注意的是,HGAT 是半监督算法,这里的 loss 也是在少量标签数据上计算的。

实验

本文在 6 个数据集上进行了大量实验。数据集描述见 Table 1。

Baseline 的选择也较为全面,包括同样将文本数据建模为图的 TextGCN 和异质图神经网络 HAN。

对比结果见 Table 2,可以看出本文所提出的 HAN 有明显的优势。经典的 LSTM 和 CNN 在短文本分类上表现并不好。

另外,本文也测试了 HGAT 的多个变种,如 Table 3 所示。

最后,作者也测试标签数量对模型效果的影响,见 Figure 3. 可以看出,随着标签数量的增加,所有模型的表现都有不同程度的提升。

作者也尝试了不同的构图方式对模型的影响,见 Figure 4.

最后,作者通过一个 case study 来说明 attention 的作用,见 Figure 5. 受益于注意力机制,HGAT 有较好的可解释性。

总结

本文创新地将短文本分类转化为异质图建模来解决数据稀疏和歧义的问题。同时,HGAT 通过层次注意力机制更好的实现了信息聚合,所学习到的短文本的表示更加准确。最后,大量的实验验证了本文所提出算法的有效性。

图神经网络已经成为深度学习领域最热门的方向之一,也在很多领域得到了广泛的应用。除了短文本分类,图像和推荐领域也可以尝试引入图神经网络甚至是异质图神经网络。

图注意力网络_EMNLP 2019开源论文:针对短文本分类的异质图注意力网络相关推荐

  1. CVPR 2019 开源论文 | 针对未知目标领域的通用领域适配方法

    作者丨游凯超 学校丨清华大学软件学院本科生 研究方向丨迁移学习和领域适配 这篇论文发表于 CVPR 2019,是我们团队(清华大学龙明盛副教授的团队)在领域适配问题设定方向的最新探索:我们将领域适配问 ...

  2. ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量.并且大多数研究将实体映射到低维空 ...

  3. NeurIPS 2019 开源论文 | 万能的GNN解释器

    作者丨纪厚业 学校丨北京邮电大学博士生 研究方向丨异质图神经网络及其应用 本文由斯坦福 Jure 组发表在 NeurIPS 2019 上,一作 Rex Ying 也是著名的 GraphSAGE 的作者 ...

  4. CVPR 2019 开源论文 | 基于空间自适应归一化的图像语义合成

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 深度学习在算力的推动下不断的发展,随着卷积层的堆叠,模型的层数是越来越深,理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致.然而 ...

  5. CVPR 2019开源论文 | Rob-GAN:生成器、鉴别器以及对抗攻击者

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 研究动机 自 2014 年 Goodfellow 等人提出生成式对抗网络 (Generative Adversarial Networks, ...

  6. SIGIR 2019 开源论文 | 基于图神经网络的协同过滤算法

    作者丨纪厚业 单位丨北京邮电大学博士生 研究方向丨异质图神经网络,异质图表示学习和推荐系统 引言 协同过滤作为一种经典的推荐算法在推荐领域有举足轻重的地位.协同过滤(collaborative fil ...

  7. CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架

    作者丨白亚龙 单位丨京东AI研究院研究员 研究方向丨表示学习.图像识别 基于深度卷积图像识别的相关技术主要专注于高层次图像特征的理解,而对于相似物体之间的细节差异和具有判别意义的区域(discrimi ...

  8. ICCV 2019 开源论文 | ShapeMatchingGAN:打造炫酷动态的艺术字

    作者丨杨帅 学校丨北京大学博士生 研究方向丨图像风格化 论文引入 当你制作 PPT 时想要打造与背景图片风格一致的标题,当你设计宣传海报时想要一个引人注意的标题,当你发朋友圈时想要更生动地展示文字所传 ...

  9. HGAT-用于半监督短文本分类的异构图注意力网络

    来源:EMNLP 2019 论文链接 代码及数据集链接 摘要 短文本分类在新闻和推特中找到了丰富和有用的标记,以帮助用户找到相关信息.由于在许多实际应用案例中缺乏有标记的训练数据,因此迫切需要研究半监 ...

最新文章

  1. matrix_multiply代码解析
  2. 如何计算一个神经网络在使用momentum时的hessian矩阵(论文调研)
  3. python爬虫怎么下载图片到手机_Python爬虫获取图片并下载保存至本地
  4. 【网站建设】简单一行代码,为网站开启深色模式支持
  5. 【MySQL】浅谈一致性读
  6. creo管道设计教程_Creo7.0设计探索在管道设计的应用
  7. Atitit.分布式远程调用  rpc  rmi  CORBA的关系
  8. python文本风格_Python的代码风格
  9. platform.pk8,platform.x509.pem生成keystore的方法
  10. 英语的形容词变为of加名词形式的具体用法
  11. Android能装到电脑上吗,怎么在电脑上装安卓系统
  12. 计算机cmd复制粘贴指令,cmd命令提示符窗口中快速复制粘贴的方法
  13. 国外PHP免费空间速度评测
  14. C++ 注释风格建议
  15. win10系统无法切换输入法无法输出中文
  16. 有关Amazon站内信邮件类别处理
  17. burpsuite破解webshell密码+国内黑阔shell密码收集
  18. Node.js CQRS 幻灯片系统开发实战-曾亮-专题视频课程
  19. 干货 | 对象存储的跨地域复制概述
  20. FPGA图像处理HLS实现sobel边沿检测,提供HLS工程和vivado工程源码

热门文章

  1. Spring Framework源码编译,开始Spring源码学习
  2. 使用 ramda 解析 .yarnrc/.npmrc 配置文件的例子
  3. 【C语言】数据结构C语言版 实验7 二叉树
  4. 如何使用Docker在GitLab上设置CI
  5. redshift 数据仓库_您如何使用Amazon Redshift Spectrum访问“暗数据”
  6. npm 缓存_npm缓存:无名英雄
  7. php查找存储引擎,php-如何找到MySQL临时表存储引擎
  8. springmvc php,SpringMVC 常用注解
  9. python怎么设计奥运五环_python 相关语法 图形绘制 奥运五环
  10. 思路+源码,利用Python破解WIFI密码详解,100M的字典已备好