文章:Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification. Linmei Hu,Tianchi Yang, Chuan Shi, Houye Ji, Xiaoli Li

摘要

短文本分类在新闻和推特中找到了丰富和有用的标记,以帮助用户找到相关信息。由于在许多实际应用案例中缺乏有标记的训练数据,因此迫切需要研究半监督短文本分类。现有的研究主要集中在长文本上,并且由于稀疏性和有限的标记数据,而现有的研究应用在短文本上表现令人不满意。本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,该方法充分利用了标记数据少、未标记数据大的特点,通过信息沿图传播实现半监督短文本分类。特别是,我们提出了一种灵活的HIN(异构信息网络)框架来对短文本建模,它可以集成任何类型的附加信息,以及捕捉它们的关系,以解决语义稀疏性。在此基础上,提出一种基于两级注意力机制的异构图注意力网络(HGAT),嵌入HIN 进行文本分类,其中两级注意力包括节点级和类型级注意力机制。注意机制可以学习不同相邻节点的重要性以及不同节点(信息)类型对当前节点的重要性。大量的实验结果表明,我们提出的模型在六个基准数据集上都显著优于最新的方法。

一、导言

本文提出了一种新的基于异构图神经网络的半监督短文本分类方法,该方法充分利用有限标记数据和大量未标记数据,允许信息通过构建的图传播。特别,我们首先提出了一个灵活的 HIN 框架 ,用于短文本建模,它能够包含任何附加的信息(例如实体和主题),以及捕捉文本和附加信息之间的丰富关系。然后,我们提出一种基于两级注意力机制的异构图注意力网络(HGAT),嵌入HIN 进行文本分类,其中两级注意力包括节点级和类型级注意力机制。我们的 HGAT 方法考虑了不同节点类型的异构性。此外,双层注意机制捕获不同相邻节点的重要性(降低噪声信息的权重)和不同节点(信息)类型对当前节点的重要性。本文的主要贡献概括如下:

1)据我们所知,这是第一次尝试使用 HIN 对短文本和附加信息进行建模,并将 HIN 上的图神经网络用于半监督分类。

2)提出了一种新的基于双层注意机制的异构图注意网络(HGAT),该机制可以学习不同相邻节点的重要性以及不同节点(信息)类型对当前节点的重要性。

3)大量的实验结果表明,我们提出的HGAT模型在6个基准数据集上显著优于7种最新方法。

二、模型

一) 短文本 HIN

我们首先提出了一个用于短文本建模的HIN框架,它能够集成任何附加信息,并捕获文本和附加信息之间的丰富关系。这样就减少了短文本的稀疏性。

以往的研究从知识库中挖掘潜在主题和外部知识,以丰富短文本的语义。然而它们没有考虑语义关系信息,如实体关系。短文本的 HIN 框架是灵活的,它整合任何额外的信息和建模它们丰富的关系。这里,我们考虑两种类型的附加信息,即主题和实体。如图1所示,我们构造图

, 它包括短文本集
、主题集
和实体集
做为节点,即
。边集 E 表示它们之间的关系。网络构建的细节描述如下。

首先,我们利用 LDA 挖掘潜在主题T来丰富短文本的语义。每个主题

表示词汇量)是由单词的概率分布表示。我们把每个文档分配给前前 P 个概率最高的主题。因此,如果将文档分配给主题,则会在文档和主题之间建立边。其次,我们识别文档 D 中的实体 E ,并使用实体链接工具 TAGME 将它们映射到 Wikipedia。如果文档包含实体,则在文档和实体之间建立边。我们将一个实体作为一个整体词,使用基于Wikipedia语料库的word2vec2 学习实体嵌入。为了进一步丰富短文本的语义,促进信息传播,我们考虑了实体之间的关系。特别是,如果基于嵌入计算的两个实体之间的相似性得分(余弦相似性)高于预定义的阈值δ,则在它们之间建立一条边。通过结合主题、实体和关系,我们丰富了短文本的语义,从而大大有利于后续的分类任务。例如,如图1所示,短文本“the seed of Apple’s Innovation: In an era when most technology...”,被实体“Apple Inc”和“company”,以及主题“technology”,丰富了语义信息。因此,可以很有把握地把该短文本将其正确地归类为“business”类别。

二)HGAT

然后,我们提出了一种新的双层次注意机制(包括节点级和类型级)的 HGAT 模型(如图2所示),嵌入 HIN 来进行短文本分类。HGAT 利用异构图卷积来考虑不同类型信息的异构性。此外,双层注意机制捕获不同相邻节点的重要性(降低噪声信息的权重)和不同节点(信息)类型对特定节点的重要性。最后,它通过 softmax 层预测文档的标签。

1)异构图卷积

首先考虑节点(信息)的异构类型,描述 HGAT 中的异构图卷积。众所周知,GCN((Kipf and Welling, 2017) 是一个多层神经网络,它直接在同构图上操作,并根据节点邻域的性质归纳出节点的嵌入向量。具体来说就是,对于图

,V、E是节点集和边集。
是包含所有节点特征向量的矩阵。邻接矩阵
包含自连接。度矩阵为 对角矩阵
,其中
。层之间传播规则如下:

其中

是归一化邻接矩阵。W(l)是一个特定层的可训练变换矩阵。σ(·)表示激活函数,如ReLU。Hl 是节点的第 l 层隐表示,H0=X。

不幸的是,由于节点异构性问题,GCN 不能直接应用于短文本的 HIN。具体来说,在 HIN中,我们有三种类型的节点:文档、主题和实体。它们具有不同特征空间。对于文档d∈D,我们使用 TF-IDF 向量作为其特征向量

。对于主题 t∈T,单词分布
用于表示主题特征向量。对于每个实体,为了充分利用相关信息,我们将其词向量嵌入和其维基百科文本的TF-IDF向量连接起来表示实体特征向量

对于包含不同类型节点 T={τ1,τ2,τ3} 的 HIN,一种简单的方法是通过将不同类型节点的特征空间连接在一起来构造一个新的大特征空间。例如,每个节点表示为一个特征向量,与该节点类型不相关的维度取值为0。我们将这种使GCN适应 HIN 的基本方法称为 GCN-HIN。但是,由于忽略了不同信息类型的异构性,它的性能会降低。

为了解决这一问题,我们提出了异构图卷积,它考虑了不同类型信息的差异,并用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W考虑不同特征空间的差异,并将其投影到隐式公共空间Rq(l+1)中。公共空间中。

其中

的子矩阵,它的行表示所有节点,列表示节点的 τ 类型的邻居。节点的表示
通过用各个类型 τ 的变换矩阵
,对各类型 τ 下节点的嵌入
聚合得到。变换矩阵 W 考虑不同特征空间的差异,并将其投影到公共空间R^(q(l+1))中。初始化

2)双层注意力

通常,给定一个特定的节点,不同类型下相邻节点可能会对其产生不同的影响。例如,相同类型的相邻节点可以携带更多有用的信息。此外,同类型下各相邻节点也可能具有不同的重要性。为了同时捕捉节点级和类型级的不同重要性,我们设计了一种新的双层注意力机制。

类型级注意力。给定一个特定的节点

,类型级注意力学习不同类别邻居的权重。特别,节点
的类型 τ 下嵌入表示是
,
是 v 的类型 τ 邻居集合。然后,我们基于节点 v 当前嵌入
计算节点
关于类型 τ 领域的注意力得分:
(3)

其中 || 表示连接,

是类型 τ 注意力向量(参数),对所有节点共享参数。σ(·)表示激活函数,如Leaky ReLU。

然后,我们通过使用 softmax 函数对所有类型的注意得分进行规范化,获得类型级别的注意权重:

节点级注意力。我们设计了节点级的注意,以捕捉不同相邻节点的重要性,并降低噪声节点的权重。进一步表述,给一个类型 τ 的特定节点

,和其类型为
的邻居
。利用嵌入
以及类型级注意力得分
计算节点
关于
的节点级注意力得分:

其中 v 是注意向量(参数)。然后,我们使用softmax函数将节点级的注意力得分标准化:

最后,我们将包括类型级和节点级注意的双层注意机制改进方程2,引入到异构图卷积种。现在每层之间的传播如下:

其中

是注意力矩阵,

3)模型训练

最后,我们将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。需要注意的是,HGAT 是半监督算法,这里的 loss 也是在少量标签数据上计算的。

三、实验

本文在 6 个数据集上进行了大量实验。数据集描述见 Table 1。

Baseline 的选择也较为全面,包括同样将文本数据建模为图的 TextGCN 和异质图神经网络 HAN。对比结果见 Table 2,可以看出本文所提出的 HAN 有明显的优势。经典的 LSTM 和 CNN 在短文本分类上表现并不好。

另外,本文也测试了 HGAT 的多个变种,如 Table 3 所示

最后,作者也测试标签数量对模型效果的影响,见 Figure 3. 可以看出,随着标签数量的增加,所有模型的表现都有不同程度的提升。

作者也尝试了不同的构图方式对模型的影响,见 Figure 4.

最后,作者通过一个 case study 来说明 attention 的作用,见 Figure 5. 受益于注意力机制,HGAT 有较好的可解释性。

四、总结

本文创新地将短文本分类转化为异质图建模来解决数据稀疏和歧义的问题。同时,HGAT 通过层次注意力机制更好的实现了信息聚合,所学习到的短文本的表示更加准确。最后,大量的实验验证了本文所提出算法的有效性。

监督分类空白处也被分类了_用于半监督短文本分类的异构图注意网络相关推荐

  1. HGAT-用于半监督短文本分类的异构图注意力网络

    来源:EMNLP 2019 论文链接 代码及数据集链接 摘要 短文本分类在新闻和推特中找到了丰富和有用的标记,以帮助用户找到相关信息.由于在许多实际应用案例中缺乏有标记的训练数据,因此迫切需要研究半监 ...

  2. 【论文翻译】HCGN:面向集体分类的异构图卷积网络深度学习模型

    HCGN:面向集体分类的异构图卷积网络深度学习模型 摘要 集合分类是研究网络数据的一项重要技术,旨在利用一组具有复杂依赖关系的互联实体的标签自相关性.随着各种异构信息网络的出现,集合分类目前正面临着来 ...

  3. 【AAAI】用于网约车需求预测的时空多图卷积网络

    #AAAI# 今天分享的是AAAI 2019的一篇论文<用于网约车需求预测的时空多图卷积网络> 原文链接:https://ojs.aaai.org//index.php/AAAI/arti ...

  4. svm 图片加标签_基于半监督的SVM多标签图数据分类算法研究

    宋文广 李程文 谭建平 摘   要:传统的图数据分类研究主要集中在单标签集,然而在很多应用中,每个图数据都会同时具有多个标签集.文章研究关于多标签图数据分类问题,并提出基于半监督的SVM多标签图数据分 ...

  5. 用于半监督高光谱异常检测的Frequency‐to‐spectrum mapping GAN

    基于深度学习的高光谱异常检测算法根据标签的可用性可以大致分为三类:监督学习.半监督学习和无监督学习. 监督学习异常检测方法.数据预处理后,有监督异常检测方法先用训练集数据进行模型训练,再运用验证集进行 ...

  6. java knn文本分类算法_使用KNN算法的文本分类.PDF

    使用KNN算法的文本分类.PDF 第31 卷 第8 期 计 算 机 工 程 2005 年4 月 Vol.31 8 Computer Engineering April 2005 人工智能及识别技术 文 ...

  7. java分类锁_【基本功】java锁分类详解

    [基础课]--[锁]--锁分类​mp.weixin.qq.com 前言 Java提供了种类丰富的锁,每种锁因其特性的不同,在适当的场景下能够展现出非常高的效率.本文旨在对锁相关源码(本文中的源码来自J ...

  8. LightGCN:用于推荐任务的简化并增强的图卷积网络 SIGIR 2020

    论文链接:https://arxiv.org/abs/2002.02126 代码链接:https://github.com/gusye1234/LightGCN-PyTorch 论文来源:SIGIR ...

  9. HGANMDA:用于miRNA与疾病关联预测的分层图注意力网络(Molecular Therapy)

    HGANMDA:Hierarchical graph attention network for miRNA-disease association prediction https://www.sc ...

最新文章

  1. 预定义的类型“Microsoft.CSharp.RuntimeBinder.Binder”未定义或未导入
  2. C 语言编程 — 高级数据类型 — void 类型
  3. docker部署xxl-job 通用反射执行器
  4. Create Maintenance Plans
  5. python异步编程视频_asyncio异步编程【含视频教程】
  6. Adaboost 算法的原理与推导(转载)
  7. [置顶]别羡慕别人的舒服,静下心来坚持奋斗!!!
  8. python自带的集成开发工具是什么_python内置的集成开发工具是什么
  9. Java基础:JDK8新特性
  10. python怎么下载网站_python怎么下载网页上的文件
  11. 一张图了解大牛直播SDK 1
  12. Java项目:房产中介管理系统(java+SSM+HTML+bootstrap+layui+Mysql)
  13. MySQL 系列(三)你不知道的 视图、触发器、存储过程、函数、事务、索引、语句
  14. 无人驾驶传感器之GPS和IMU
  15. Adobe国际认证证书对于设计师而言,真的很重要?
  16. python怎样发音_python在线发音_python翻译
  17. 苹果传奇延续?全面对比解析iPad mini
  18. 极其简单的Python爬虫音乐
  19. kafka和raft共识机制
  20. UE4 如何将材质Material保存为本地图片Png

热门文章

  1. Solr debugQuery使用体会
  2. linux 下 C 编程和make的方法 (十、C版的try catch 捕捉段错误和异常处理)
  3. VM 7 下ubuntu安装vmtools
  4. Linux上常用的安全技术iptables与squid代理服务器
  5. Python实例 遍历文件夹和文件
  6. windows版influxDB安装与配置
  7. 解决Python2.7的UnicodeEncodeError: ‘ascii’ codec can’t encode异常错误
  8. Oracle入门第四天(上)——表管理与数据处理
  9. JavaWeb基础—数据库连接池DBCP、C3P0
  10. 运算符中的二元重载,为什么要调用友元函数而不是全局函数的问题