【笔记】Every Document Owns Its Structure: Inductive Text Classifification via Graph Neural Networks

一、背景

1.1 作者通过什么样的方法，解决了怎样的问题，得出了怎样的结论？

作者提出了TextING通过GNN进行归纳文本分类的方法，解决了现在基于图的工作不能捕获每个文档中的上下文单词关系以及不能完成对新单词归纳学习的问题，得出作者的方法优于最先进的文本分类方法。

1.2 作者方法的三大贡献

提出一种新的文本分类图神经网络，其中每个文档都是一个单独的图，可以从中学习文本级的文字交互。
作者的方法可以推广到训练中没有的新words，因此适用于归纳的情况。
证明了作者的方法优于最先进文本分类方法。

二、方法

TextING由3个关键部分组成：图的构造（Graph Construction）、基于图的单词交互（Graph-based Word Interaction）、读出功能（readout function）。

如图：TestING的架构，例如，在文档图上，每个word节点从其邻节点更新自己，然后它们聚合到最终的图表示

2.1 图的构造（Graph Construction）

作者通过将unique word表示为顶点，将words之间的co-occurrences(共现)表示为边来构造文本文档的图，表示为G=（V，E）G=（V，E）G=（V，E），其中V是顶点集，E是边。co-occurrences(共现)描述了固定大小滑动窗口（默认长度为3）中出现的words之间的关系，它们在图形中是无向的。文本以标准的方式进行预处理，包括标记化和停止删除。顶点的特征用单词特征初始化，表示为h∈R∣V∣×dh\in \R^{|V|\times d }h∈R∣V∣×d，其中d是嵌入维数。由于我们为每个文档构建单独的图形，因此word特征信息在word交互阶段被上下文传播和合并。

2.2 基于图的单词交互（Graph-based Word Interaction）

在每个图上，我们采用 Gated Graph Neural Networks (Li et al., 2015)来学习word节点的特征。节点可以从其相邻节点接收信息aaa，然后与自己的表示合并进行更新。由于图层在一阶邻节点上操作，我们可以堆叠这些层ttt时间来实现高阶特征交互，其中一个节点可以到达另一个节点t跳开。交互作用的公式为：
at=Aht−1Wa,(1)zt=σ(Wzat+Uzht−1+bz),(2)rt=σ(Wrat+Urht−1+br),(3)h~t=tanh(What+Uh(rt⊙ht−1)+bh),(4)ht=h~t⊙zt+ht−1⊙(1−zt),(5){\bold a}^t = Ah^{t-1}W_a, \qquad (1) \\ {\bold z}^t = σ\big({\bold W}_z \bold a^t + \bold U_z \bold h^{t-1} + \bold b_z\big), \qquad (2) \\ \bold r^t = σ\big( \bold W_r \bold a^t + \bold U_r \bold h^{t-1} + \bold b_r\big), \qquad (3) \\ \tilde{ \bold h} ^{t} = tanh \Big(\bold W_h \bold a^t+ \bold U_h(\bold r^t \odot \bold h^{t-1})+ \bold b_h \Big), \qquad (4) \\ \bold h^t = \tilde{\bold h}^t \odot\bold z^t +\bold h^{t-1} \odot \Big( 1- \bold z^t\Big), \qquad (5) at=Aht−1Wa,(1)zt=σ(Wzat+Uzht−1+bz),(2)rt=σ(Wrat+Urht−1+br),(3)h~t=tanh(What+Uh(rt⊙ht−1)+bh),(4)ht=h~t⊙zt+ht−1⊙(1−zt),(5)
其中，A∈R∣V∣×∣V∣A∈ \R^{|V|×|V|}A∈R∣V∣×∣V∣是邻接矩阵,σ 是 sigmoid 函数,所有的W,U和bW,U和bW,U和b都是可训练的权重和偏差；zzz和rrr分别作为update gate 和 reset gate ，以确定邻节点信息在多大程度上贡献了当前节点的特征。

2.3 读出函数（readout function）

当word节点被充分更新后，它们被聚合到文档的图级表示，基于此基础产生了最终的预测。我们将读出函数定义为：
hv=σ(f1(hvt))⊙tanh(f2(hvt)),(6)hG=1∣V∣∑v∈Vhv+Maxpooling(h1...hV),(7)\bold h_v =σ \Big(f_1(\bold h_v^t) \Big)\odot tanh\Big(f_2(\bold h_v^t) \Big), \qquad (6)\\ \bold h_{\mathcal G} = \frac{1}{|\mathcal V|} \displaystyle\sum_{v \in \mathcal V}\bold h_v + Maxpooling(\bold h_1 ...\bold h_{\mathcal V}), \qquad (7) hv=σ(f1(hvt))⊙tanh(f2(hvt)),(6)hG=∣V∣1v∈V∑hv+Maxpooling(h1...hV),(7)
其中，f1和f2f_1和f_2f1和f2是两个多层感知器（MLP），前者作为软注意权值，后者作为非线性特征变换。除了平均加权词特征外，作者还对图表示hG\bold h_{\mathcal G}hG应用了一个最大池函数。这背后的想法是，每个word在文本中都扮演一个角色，关键字应该有更明确的贡献。

最后，通过将图级向量输入一个软最大层来预测标签。作者通过交叉熵函数将损失最小化：
y^G=softmax(WhG+b),(8)L=−∑iyGilog(y^Gi),(9)\hat y _\mathcal G = softmax\big(\bold W \bold h_\mathcal G +\bold b \big), \qquad (8) \\ \mathcal L = -\displaystyle\sum_i y_ {\mathcal Gi}log(\hat y_{\mathcal Gi}), \qquad (9) y^G=softmax(WhG+b),(8)L=−i∑yGilog(y^Gi),(9)
其中W\bold WW和 b\bold bb是权重和偏差，yGiy_{\mathcal G i}yGi是一个热标签的第i个元素。

2.4 模型变量（Model Variant）

作者还使用多通道分支TextING-m扩展了他们的模型，其中具有局部结构的图（原始TextING）和具有全局结构的图（来自TextGCN的子图）并行工作。节点保持不变，而后者的边是从每个文档的大图（构建在整个语料库上）中提取的。作者分别训练它们，让它们以1:1投票支持最终的预测。

三、实验

作者测试和评估文本的整体性能，在实验测试中主要3个问题：

作者的方法与其他可比模型相比的性能和优势；
作者的方法对在训练中从未见过的word的适应性；
关于word如何影响文档，作者方法的可解释性。

3.1 Datasets(数据集)

作者采用4个benchmark tasks：

i) 将电影评分为积极或消极的情绪极性(MR)(MR)(MR):http://www.cs.cornell.edu/people/pabo/movie-reviewdata/

ii）和 iii）将路透社新闻专线上出现的文件分为8类和52类（分别为R8和R52）：http://disi.unitn.it/moschitti/corpora.htm

iv)将医学摘要分为23个心血管疾病类别（Ohsumed）:https://www.cs.umb.edu/˜smimarog/textmining/datasets/

表1显示了数据集的统计数据及其补充信息。

表1：数据集的统计数据，包括段（句子）和长（段落）文档。vocab是指文档中unique word的数量。Prop.NW表示测试中新词的比例

3.2 Baselines（基础）

作者将3种类型的模型作为Baselines：

传统的深度学习方法包括：TextCNN和TextRNN；
简单但有效的word特征的策略，包括：fastText和SWEM;
基于图的文本分类方法，包括：TextGCN。

3.3 Experimental Set-up（实验设置）

对于所有的数据集，作者给出了训练集和测试集，并将训练集随机分成9：1的比例，分别进行实际训练和验证。根据验证集上的性能来调整超参数。根据经验，作者使用Adam 优化器将学习率设置为0.01，辍学率设置为0.5。有些属性取决于数据集的内在属性，例如，单词交互步长和滑动窗口的大小。作者在参数灵敏度小节（Parameter Sensitivity）中提到它们。

关于单词特征，作者使用d=300的预先训练GloVe（http://nlp.stanford.edu/data/glove.6B.zip）作为输入特征，同时从均匀分布中随机抽取 out-ofvocabulary（OOV）words [-0.01,0.01]。为了进行公平的比较，其他baseline models共享相同的特征。

3.4 Results（结果）

表2：在四个数据集上对不同模型的测试精度（%）。作者的模型的平均±标准差是根据10次运行报告的。请注意，一些baseline结果来自(Yaoetal.，2019)。

表2显示了作者的模型的性能和baselines。可以看出，基于图的方法通常优于其他类型的模型，这表明图模型有利于文本处理。此外，TextING在所有任务中排名第一，这表明单个图超过了全局图。特别是， TextING对MR的结果明显更高。因为MR中的短文档导致了TextGCN中的一个低密度图，所以它限制了标签消息在文档节点之间的传递，而我们的单个图（文档）并不依赖于这种标签消息传递机制。另一个原因是，在测试中有大约三分之一的新单词，如表1所示，这意味着文本对看不见的单词更友好。对R8的改进相对微妙，因为R8很容易拟合，而且baselines也相当令人满意。R8上新词的比例也很低。

多通道变体也在所有数据集上都表现良好。这意味着该模型可以通过不同的渠道学习不同的模式。

3.5 Under Inductive Condition （）

为了检验TextING在归纳条件下的适应性，我们将训练数据减少到20个标记文档，并与TextGCN进行比较。训练集中不存在的Word节点被TextGCN掩码，以模拟归纳条件。在这种情况下，测试集中的大多数单词在训练过程中都是看不到的，这表现得像是一个严格的冷启动问题。表3列出了MR和Ohsumed上两种模型的结果。

表3：MR和Ohsumed上TextGCN和TextING的准确性(%)，MR使用40个标签文档(全训练数据的0.5%)，Ohsumed使用460个标签文档(全训练数据的13.7%)

平均21.06%的增益表明，TextING受到暴露word减少的影响要小得多。此外，MR上训练数据的测试性能和增益趋势如图2所示。当越来越多的word变得看不见时，TextING显示出一致的改善。

图2:MR上不同百分比的训练数据（从0.005到1）的测试性能和增益。训练中的数据越少，测试中的new words越多。

3.6 Case Study (案例研究)

为了理解TextING为文档学习的重要内容，我们进一步可视化了注意层（即读出函数），如图3所示。突出显示的单词与注意力权重成正比，它们与标签呈正相关，这解释了文本在情绪分析中的工作原理。

图3:MR中正面和负面电影评论的注意力可视化。

3.7 Parameter Sensitivity(参数敏感性)

图4：不同交互步骤的准确性。

图4显示了在MR和Ohsumed上使用不同数量的图层的文本的性能。结果表明，随着层的增加，节点可以从高阶邻域接收更多的信息，并更准确地学习其表示。然而，情况随着连续的增量而逆转，一个节点从图中的每个节点接收，变得过于平滑。

图5说明了在MR和Ohsumed上具有不同窗口大小的TextING的性能和图密度。当一个节点的邻居数量增加时，它呈现出与交互步骤相似的趋势。

图5：图密度变化时的精度。

四、结论

作者提出了一种新的基于图的归纳文本分类方法，其中每个文本都有自己的结构图，并且可以学习文本级的单词交互。实验证明了作者的方法在建模文本中的局部词-字关系和词意义方面的有效性。
1362064)]

图5：图密度变化时的精度。

四、结论

作者提出了一种新的基于图的归纳文本分类方法，其中每个文本都有自己的结构图，并且可以学习文本级的单词交互。实验证明了作者的方法在建模文本中的局部词-字关系和词意义方面的有效性。

【笔记】Every Document Owns Its Structure Inductive Text Classifification via相关推荐

阅读笔记（Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks）
Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks (每个文档都有自己 ...
Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks论文理解
[标题] <Every Document Owns Its Structure: Inductive Text Classification via Graph Neural Networks& ...
Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)
文章目录摘要引言文本分类方法 TextING构建思路和创新点方法构图基于图的词交互读出函数模型变种实验数据集对比模型实验设置结果参考文献摘要文本分类是自然语言的基础 ...
CS224W-图神经网络笔记4.1：Community Structure in Networks - 网络中社区的特性
CS224W-图神经网络笔记4.1:Community Structure in Networks - 网络中社区的特性本文总结之日CS224W Winter 2021只更新到了第四节,所以下文会 ...
《Deep Learning With Python second edition》英文版读书笔记：第十一章DL for text: NLP、Transformer、Seq2Seq
文章目录第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...
ACL2021论文笔记——Constructing Multi-Modal Dialog Dataset by Replacing Text with Semantically Relev Image
论文链接: Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images ...
javascript学习笔记之document对象、表单及表单元素、脚本化cookie
一.document对象每个window对象都有document属性.该属性引用表示在窗口中显示的HTML文档的document对象. 1.关键方法 close()关闭open方法打开的文档 ope ...
《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining
这是一本关于文本挖掘的很厚的英文电子书,看英文大部头,很容易边看边忘记. 1.An Introduction to Text Mining 1.1 介绍文本挖掘的三个问题: a. 主要的算法模型是什 ...
文本检测论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

【笔记】Every Document Owns Its Structure Inductive Text Classifification via

【笔记】Every Document Owns Its Structure: Inductive Text Classifification via Graph Neural Networks

一、背景

1.1 作者通过什么样的方法，解决了怎样的问题，得出了怎样的结论？

1.2 作者方法的三大贡献

二、方法

2.1 图的构造（Graph Construction）

2.2 基于图的单词交互（Graph-based Word Interaction）

2.3 读出函数（readout function）

2.4 模型变量（Model Variant）

三、实验

3.1 Datasets(数据集)

3.2 Baselines（基础）

3.3 Experimental Set-up（实验设置）

3.4 Results（结果）

3.5 Under Inductive Condition （）

3.6 Case Study (案例研究)

3.7 Parameter Sensitivity(参数敏感性)

四、结论

四、结论

【笔记】Every Document Owns Its Structure Inductive Text Classifification via相关推荐

最新文章

热门文章