21.Selective Attention Based Graph Convolutional Networks for Aspect-Level Sentiment Classification阅

21.Selective Attention Based Graph Convolutional Networks for Aspect-Level Sentiment Classification阅读笔记

Abstract
1. Introduction
2. Related Works
3. Proposed Model
- 3.1 Overview of the Model
- 3.2 Encode for Aspect Term and Context
- - BERT Encoder
- 3.3 GCN over Dependency Trees
- 3.4 SA-GCN :Selective Attention based GCN
- 3.5 Classifier
- 3.6 Opinion Extractor
4. Experiments
- Datasets
- 4.1 Experimental Results
- 4.2 Model Analysis

(中文翻译：用于属性级情感分析的基于图卷积网络的选择注意力)

论文地址：https://arxiv.org/pdf/1910.10857.pdf
Author Information:：Xiaochen Hou^* , Jing Huang, Guangtao Wang, Xiaodong He, Bowen Zhou

Institutions Information:

JD AI Research, Mountain View, California

ACL 2021

Abstract

最近很多属性级情感分类任务利用图卷积网络（GCN:Graph Convolutional Networks ）的依存关系树，学习属性词和情感词之间的关系。在一些实例中，属性词相对应的情感词并不能够通过依存关系树的两个hops找到彼此之间的联系，这就要求使用GCN网络建模。然而，GCN网络经常是2层取得最优的性能，更深层次的网络并不能够使性能更优。因此，本文设计了一个新颖的基于选择性注意的GCN模型。一方面，本文提出的模型，通过自注意力操作使得属性词和上下文能够直接交互，没有依存关系树的距离限制。另一方面：设计了一个top-k选择程序，通过选择K个注意力得分最高的上下文来定位情感词。在几个常用的数据集上进行了实验，实验结果验证，本文的模型优于基准模型。

1. Introduction

任务定义不再赘述。
已有的研究证明了属性词和其上下文（包含情感词）之间的交互对于识别给定属性词的情感极性是十分重要的。大多数的工作考虑了上下文的语义信息，并且利用注意力机制去学习交互。然而，已经表明，从依赖解析中获得的句法信息在捕获表面形式模糊的长期句法关系方面是非常有效的。最近一种流行的学习语义感知表示的方法是在依赖树上使用图卷积网络(GCN)它将在信息传递中引入句法归纳偏差。
在绝大多数的句子中，最重要的上下文信息（如情感词）在依赖树中与属性词之间的距离往往大于two-hops(两跳)，如图1 所示：

属性词"Mac OS"和情感词“easily picked up”之间的距离是4跳（four-hops）,这就要求GCN大于两层才能学习到它们之间的交互。然而，已有的工作证明了，GCN的最优工作层数是2，更深层次的GCN并不能取得更优的效果。
为了解决上述问题，我们提出了一个新颖的基于GCN的选择注意力（SA-GCN, 它结合了依赖树上的GCN模型和句子上基于自我注意的序列模型。一方面，自注意序列模型使属性词和上下文之间能够直接交互，因此它可以处理术语远离依赖树上的情感词的情况。另一方面，在自注意力操作之后，应用top-k 注意力选择模型。其旨在定位给定属性词的情感词。
具体来说，基本模型是依赖树上的GCN模型。该模型使用预先训练的BERT来获得作为属性词及其上下文词在依赖树上的初始节点特征的表示。
接下来，GCN输出喂入多头 top-k注意力选择模型。对每个头（head），对句子进行自注意操作，得到一个密集的注意得分矩阵(dense attention score matrix)，其中第i行将所有单词的注意得分对应于句子中的第i个单词。对每一个单词，前top-k个注意力得分的上下文单词会被选择，另外的单词会被忽略。它使注意力分数矩阵稀疏化，形成了一个稀疏图（sparse graph）。
我们使用两种策略来获取稀疏图：

1）对所有头部的注意得分矩阵求和得到的注意矩阵进行top-k选择，因此不同的头部共享相同的稀疏图。
2）对每个头部的个体注意得分矩阵进行top-k选择，因此不同的头部有自己的稀疏图。
最后，我们再次应用一个GCN层来整合来自每个头部的稀疏图(s)的信息，并连接GCN输出w.r.t.不同的头部作为情绪分析的最终单词表示。

本文的主要贡献点如下：
我们提出一个基于GCN的选择注意力模型，该模型利用了基于依赖树的GCN的优势，使得属性词直接获取来自最相关上下文的信息。这解决了属性词和情感词之间距离较远的问题。
我提出情感分类和属性抽取两个的任务。联合模型进一步提升了分类任务的性能。

2. Related Works

可参考论文。

3. Proposed Model

3.1 Overview of the Model

本文提出的SA-GCN模型的目标是预测句子中，给定属性词对应的情感极性。为了提高情感分类的性能和解释极性预测，本文还引入了联合训练的属性抽取任务。本文的整体模型图如下：

需要注意的一点：
对每一个句子而言，除了属性词自己本身之外的，都称为上下文（contextwords).

3.2 Encode for Aspect Term and Context

BERT Encoder

我们使用预训练模型BERT base获取句子中单词的embeddings。设定一个句子由n个单词组成。

其中，{w_r,w_r+1, …… w_r+m-1}代表属性词包含m个单词。
首先，将““[CLS] + sentence + [SEP] + term + [SEP]””输入形式，喂入BERT。这种输入格式使得整个句子和术语（term）之间能够进行显式交互，这样获得的单词表示是term参与的。然后，我们利用平均池化来总结BERT中单词所携带的信息，得到最终的词嵌入形式。

3.3 GCN over Dependency Trees

GCN已经被证明在关系抽取、阅读理解、和属性级情感分析任务上有一定的作用。在每一个GCN层，每个节点搜集来自one-hop的邻居信息并更新自己的表示。
在本文中，用依存关系树表示图（在依存关系树中，每一个单词是一个独立的节点，其表示被看作节点特征）。

其中，H^(l)表示l层GCN的输出，H⁽⁰⁾表示GCN第一层的输入，A表示邻接矩阵，W是权重参数。

节点特征通过GCN层传递，现在每个节点的表示通过依赖树中的语法信息进一步丰富。

3.4 SA-GCN :Selective Attention based GCN

本文的核心创新点。主要是提出了两种top-k选择策略。分别是Head-independent和Head-dependent。
尽管在依赖树上执行GCN会为每个单词的表示带来语法信息，但它仍然可以限制属性词和远距离情感词之间的交互，而这些交互对于确定情感极性至关重要。为了解决这个问题，我们使用SA-GCN块，识别出最重要的上下文信息，并且将此信息融合到属性词的表示中。多个SA-GCN块可以堆叠形成一个深度模型。每一个GCN模型有三部分组成：一个多头自注意力层（Self-Attention），top-k选择(Top-k Selection)，和一个GCN层(GCN Layer)。

Self-Attention
我们使用多头自注意力获取注意力得分矩阵 $A_{score}^{i} \in R^{nxn} (1\leqslant i \leqslant L)$ , L是头数量， $A_{score}^{i}$ 计算公式如下：

所得到的注意得分矩阵可以看作是L个全连通（完备）图，其中每个单词都与其他所有的具有不同注意权重的上下文单词相连。注意力权重有助于识别出不同的单词，全连通图仍然导致方面节点直接融合所有其他词信息，在GCN的特征聚合过程中经常引入噪声，进一步影响了情感预测。

Top-k Selection

对于每个注意力得分矩阵 $A_{score}^{i}$ ，我们找到每个单词最重要的k个上下文词，这有效地删除了 $A_{score}^{i}$ 中的一些边。我们选择top-k个上下文词的原因是，只有几个词就足以确定对一个属性词的情感极性。因此，我们丢弃其他注意力分数较低的单词，以去除不相关的嘈杂单词。
我们设计了两种top-k选择策略：head-independent 和head-dependent。head-independent选择通过聚合所有头部所做的决定来决定k个上下文词，并达成头部之间的协议。head-dependent使每一个头能够保持它，从中选择前k个重要的上下文。

head-independent
定义：我们首先将每一个头对应元素相乘得到的注意力得分矩阵相乘，然后使用函数topk函数生成的掩码找到top-k个上下文词。
例如，topk([0.3, 0.2, 0.5]) 函数,如果k设置为2，则返回的是[1,0,1]。最终，我们使用softmax函数更新注意力得分矩阵。过程可参考下面的公式：
head-dependent
头依赖通过每一个独立的头，来选择top-k个上下文单词。我们对每一个top-k注意力矩阵使用softmax操作，计算公式如下：

与头独立选择方法相比较，头独立只选择k个单词，但是，头依赖，选择的单词数会大于k个，因为每一个头可能选择不同的k个单词，合起来就会大于k。
获得的top-k得分矩阵A可被看作是一个邻接矩阵，A（p,q）表示单词p和单词q之间的边的权重。需要注意的是A并不包含自循环（self-loop）,因为我们为每一个节点都加入了自循环。

GCN Layer
对每一个注意力得分矩阵 $A_{score}^{i}$ 选择top-k个上下文之后，我们使用一个一层的gcn，更新节点特征，公式如下：

3.5 Classifier

3.6 Opinion Extractor

3.5和3.6联合任务。

4. Experiments

Datasets

去除“conflict”,仅保留“Positive”、“Neutral”,"Negative"三种词性。

4.1 Experimental Results

与将BERT作为baseline的几个模型比较。分别是BERT-SPC、AEN-BERT、TD-GAT-BERT、DGEDT-BERT、R-GAT+BERT。
通过表2，可以看出本文提出的SA-GCN模型，取得了最优的性能。其中，Joint SA-GCN中的joint是指多任务联合，并不是两种TOP-k联合的意思。

Qualitative Case Study

从表3可以看出，本文提出的SA-GCN,较GCN模型，可以正确识别出GCN模型识别错误的标签。

4.2 Model Analysis

从表5可以得出。头无关（Head_independent）、头有关（Head_dependent）、没有任何机制的三种模型中，没有top-k机制的GCN模型性能在三者中最低。Head_independent性能最优，Head_dependent次之。

Sentence Length Analysis

选择14Lap和1Res两个数据集，进行长度的性能验证。从图4 ，可以看出，无论何种长度，本文的SA-GCN模型，均比单纯的GCN模型，性能优。

对SA-GCN的k取值和block,也进行了实验验证，结果如下：