目录

标题翻译:基于Beta分布引导方面感知图的方面类别情感分析

原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf

摘要:

1 引言

2 相关工作

3 方法

3.1 任务定义

3.2 方面感知词派生

3.3 方面感知图的构建

3.4 方面感知情感学习

3.5 模型训练

4 实验

4.1 数据集与实验设置

4.2 比较模型

4.3 实验结果

4.4 消融实验

4.5 跳数的影响

4.6 GCN块的影响

4.7 方面感知词分析

4.8 案例研究

5 总结


标题翻译:基于Beta分布引导方面感知图的方面类别情感分析

原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf

摘要:

在本文中,我们从一个新的角度研究了方面类别情感分析(ACSA)任务,通过探索基于外部知识的Beta分布引导的方面感知图构建。也就是说,我们不再纠结于如何费力地从上下文中搜索粗粒度方面的情感线索,而是如何更好地在上下文中找到与方面高度情感相关的词汇,并根据公共知识库确定其重要性,从而在ACSA中自然地学习到与方面相关的上下文情感依赖关系。具体而言,我们首先以各方面为支点,从外部情感常识中推导出与方面高度相关的方面感知词。然后我们使用Beta分布来为每个方面感知词推导出方面感知权重,它反映了对方面的重要性。随后,方面感知词被用作粗粒度方面的替代品,以构造利用ACSA中与方面相关的上下文情感依赖关系的图。在6个基准数据集上的实验表明,我们的方法明显优于最先进的基线方法。

1 引言

方面类别情感分析(ACSA)旨在从给定的句子中检测粗粒度方面类别的情感极性。与目标依赖或方面项情感分析任务不同,ACSA的方面范畴并不一定出现在句子中,而这些任务的目标或方面项都明确地出现在句子中。在这里,方面类别(以下也称为方面)通常由实体E和属性A(即E#A)或仅由实体E组成。如图1所示,在句子“这个地方很贵,但披萨很好吃。”,句子中提到了两个方面“RESTAURANT#PRICES”(否定)和“FOOD#QUALITY”(肯定)。

现有的许多研究工作都集中在ACSA上,利用深度学习的方法来处理情感预测中方面类别的重要信息(Wang et al, 2016; Cheng等,2017; Liang等,2019a, b; 李等,2020a; Chen等,2020; Li et al, 2020b; Liang等,2020a)。尽管现有方法已经取得了很大的进展,但如何从上下文中搜索粗粒度方面的情感线索仍然是一个难题。然而,仅仅从隐性方面来理解面向方面的情感词是一项艰巨的任务。这主要是由于:①方面类别一般不会在上下文中体现;②多个方面和情感极性可能在同一上下文中。相反,我们可以利用显式出现在句子中的方面相关词来建模方面的上下文情感信息,如图1所示,句子中有一些与方面相关的单词“例如:“place”,“pricey”,“pizza”,“yummy””,允许我们显式地利用这些单词的情感依赖关系来识别方面的情感极性。

在此激励下,我们从一个新颖的角度研究ACSA任务,建议为上下文构造有关方面的方面感知图。更具体地说,我们将不同方面作为不同的支点,然后从外部知识中搜索与方面相关的词,称为方面感知词,这些词作为粗粒度方面的替代品,为特定方面构建上下文图。即将外部知识作为隐性方面范畴与语境之间的桥梁,通过图构的方式,巧妙主动地在高度方面相关的语境词与特定方面之间建立联系。此外,受到之前许多基于图形的方法的启发(Yao等人,2019; 秦等,2020; Liang等,2020b; 秦等,2021b, a; Zhang等,2021; Liang等,2021a),图中边的权值对于图信息的聚合很重要。此外,根据我们的实体研究(如图3图4所示),方面感知词对方面的贡献明显不同。例如,对于方面实体“RESTARUANT”,方面词“place”比“pizza”更重要。接下来,该思想的主要挑战演变为如何确定方面感知词对相应方面的重要性,这可以作为图中边的权重来学习方面的情感线索。

在知识库的基础上,形象地说,一个词可以通过各种途径连接或不连接到一个方面,连接成功的概率(对应于图中的一条变的权值)自然可以看作是一个二项分布。因此,我们通过Beta分布(Gupta and Nadarajah,2004)对基于外部知识的先验知识(路线和连接信息)的所有成功连接可能性的概率建模来检查边的权重,Beta分布是二项分布的共轭先验分布。通过这种方式,可以调查连接到方面的方面感知词的所有概率,从而确定方面感知词的最佳置信概率(权重),称为方面感知权重。随后我们根据方面感知词与其权重配对,为每个上下文构造关于方面的方面感知图。在此基础上,提出了一种面向方面的感知图卷积网络(AAGCN)结构,将上下文情感依赖关系提取到面向方面的ACSA中,主要工作成果如下:

(i)ACSA任务从一个新颖的角度进行,即学习如何找到与方面高度相关的方面词,并显出其对方面的重要性,从而用这些词构建一个图,学习ACSA中的上下文情感特征。

(ii)提出了一种利用Beta分布对方面感知词的所有重要概率进行建模的新方案,以获得方面感知权值,从而构建知识增强的方面感知图。

(iii)提出了一种方面感知图卷积网络,将上下文情感依赖关系引入方面进行情感检测,并取得了最先进的性能。

2 相关工作

以往对ACSA任务的研究主要关注于直接提取粗粒度方面类别的上下文情感。Wang等人(2016)提出了一种基于注意的LSTM模型,用于选择性地关注上下文表征的区域。Xue和Li(2018)利用门控卷积神经网络选择性地提取特定方面的情感信息,用于情感预测。Xing等人(2019)探索了一种方面感知的LSTM,将方面信息合并到ACSA的LSTM单元中。在多任务学习方法中,Li等(2020b)采用方面类别检测任务,从上下文中聚合对方面的情感。Chen等(2020)用协作图注意网络对文档级ACSA建模了文档级情感偏好。Cai等人(2020)探索了一种层次图卷积网络来建模性感预测中各方面的内部和相互关系。

此外,为了增强模型的学习能力,有一系列研究将外部知识纳入框架(Ma et al, 2018; Zhang et al, 2020; 田等,2020; Tong等,2020; Liang等,2021b)。其中,Tian等人(2020)基于自动挖掘的知识,将词、极性和方面层面的情感信息建模为情感分析中预先训练好的情感表示。Zhang等人(2020)利用语义和情感词汇作为桥梁,实现夸目标姿态检测中不同目标之间的知识转移。在基于目标方面的情感分析中,Ma等人(2018)利用情感知识扩展了经典的LSTM cell,以同时学习目标特异性注意和全局注意。

3 方法

在本节中,我们详细描述了我们提出的方面图卷积网络(AAGCN)。如图2所示,我们提出的模型由三个主要组成部分组成:1)方面感知词派生,它为外部知识中不同的方面生成一系列不同的情感词;2)方面感知图构造,基于方面感知词构造上下文的方面感知图;3)方面感知情感学习,基于方面感知图和上下文表示提取与方面相关的情感依赖项。

3.1 任务定义

给定一个句子s,由n个单词组成,s = {w1, w2,.....,wn}和相应的不一定存在于({wi}|i = 1, 2, .., n)当中的方面a。方面类别情感分析的目标是从上下文中检测方面的情感极性(即积极、消极或中性)。在这里,每个方面可能由实体E和属性A(即E#A)或仅由实体E组成。

3.2 方面感知词派生

为了构建句子中未出现的方面的上下文情感依赖图,我们探索了一种以方面为中心,在一定跳数内从外部情感知识中搜索与方面高度相关的词,从而得到方面感知词的新场景。具体来说,如果单词包含与方面的直接关系,那么这些单词就是1跳方面感知词。相应的,如果单词包含与1跳方面感知词的关系,那么这些单词就是2跳方面感知词,等等。此外,由于E和A在情感检测中的角色通常是不同的,当一个方面由E#A组成时,我们分别为实体E和属性A寻找方面感知词。

在这个场景中,直观地说,主要挑战是确定每个方面感知词相对于方面的情感重要性。总的来说,跳数大概是重要的影响。然而,如图3(a)和(b)所示,只包含唯一链接的2跳黄色点比同时连接许多不相关单词的绿色点更重要。对于每个连接到方面的单词,无论是否在k-hop范围内,每个方面感知单词都存在一个潜在的Beta分布,它揭示了与方面的关联度分布。因此,基于外部获得的先验知识,我们使用Beta分布,通常采用它来建模一个实验的所有成功的概率,来推导各方面意识词的重要性ρ(wi):

CDF(f(µi; α, β))表示f(µi; α, β)的累积分布,其中,μi表示方面感知词wi对方面的不相关概率,为知识中wi的邻居数,为方面感知词邻居数。是k-hop方面感知单词的词汇量,N是整个语料库的词汇量。γ1和γ2是控制不相关邻居和跳数影响的系数。也就是说,在推导方面感知权值的时候,我们同时考虑了不相关邻居和跳数的影响。正如图4中描述的例子所示,与方面相关的单词“yummy”比“red”更重要,尽管它的跳数更大。f(θ; α, β)表示所有重要性概率θ的Beta分布,定义为:

其中B(·)为归一化的Beta函数。这里α和β表示Beta分布对先验知识从外部知识中学到的方面的参数:

在此基础上,我们可以为每个方面感知词派生出一个合适的方面感知权重。此外,我们将方面和每个不相关单词的方面感知权重分别设置为1和0。

3.3 方面感知图的构建

在本节中,我们将描述构建有关方面的上下文依赖关系图的新解决方案,假设方面不出现在句子中。基于方面感知词及其方面感知权值,我们计算方面感知图中每个词对的边权值,如下所示:

这里受到了之前许多基于图标的研究的启发(Zhang等人,2019;Huang和Carley,2019;Liang等,2020b),我们还使用句子的依赖树来更好的捕捉句法关系。即,如果wi和wj在句子的依赖树中包含依赖项,则的边权值加一。然后构建无向图来丰富情感和依赖关系: = ,并为每个词设置一个自循环: = 1.

3.4 方面感知情感学习

对于每个句子,我们首先从嵌入查找表V ∈ 中检索每个词在句子中的嵌入。因此对于一个有n个单词的句子,我们可以得到对应的嵌入矩阵X = [X1,X2,...,Xn],其中Xi ∈是wi的词嵌入,在训练过程中进行了微调。M是嵌入的维数。然后,将嵌入矩阵X作为输入输入到双向LSTM(BiLSTM)层,以导出句子的隐藏上下文表示:

其中,ht∈表示Bi-LSTM层推导出的时间步t的隐藏表示。

在此基础上,我们将句子的方面感知图和隐藏的上下文表示H输入到方面感知的GCN中,以绘制方面的上下文情感依赖关系。对于由E#A组成的方面,我们采用了一种新的交互式GCN块来捕获实体和属性之间的潜在交互。根据其邻域在实体和属性图邻接矩阵中的隐藏表示来更新第l个GCN块中的每个节点,该过程定义为:

其中 是由前面的GCN块演化而来的隐藏表示。A是一个归一化对称邻接矩阵:

其中为Ai的度。在这里,从Bi-LSTM层学习的隐藏表示中检索第一个GCN块的原始输入节点,即。此外,对于仅由E组成的方面,方面感知GCN使用 Eq. (8)进行更新。然后,受(Zhang et al, 2019)的启发,我们采用基于检索的注意力机制来捕获重要的上下文方面相关情感线索。

因此,方面感知情感特征的最终表示形式如下:

其中softmax(·)为获取输出分布的softmax函数。

3.5 模型训练

我们的任务目标是通过最小化预测和真是分布之间的交叉熵损失来训练分类器:

S是训练规模大小,C是类的数量,是情感的真实分布,是L2正则化的权值,表示所有可训练参数。

4 实验

4.1 数据集与实验设置

我们在6个基准数据集上进行了实验,以验证我们提出的模型的有效性。

其中,来自Semeval 2015(Pontiki et al, 2015)(REST15和LAP15)和Semeval 2016(Pontiki et al, 2016)(REST16和LAP16)的方面包含E#A。即两个餐厅领域数据集(REST15和REST16)和两个笔记本电脑领域数据集(LAP15和LAP16)。为了展示处理由E组成的方面的可泛化性,我们在Semeval 2014 (Pontiki et al, 2014) (REST14)的数据集上进行了实验,以及在一个句子中包含多个情绪的数据集(MAMS)(Jiang et al, 2019)上进行了实验。每个例子由句子、方面和对方面的情感极性组成。数据集的统计数据如表1所示,根据(Cai et al, 2020),对于没有开发集的数据集,我们随机选择训练集的10%作为开发数据来调优超参数s3。

对于非Bert模型,我们使用GloVe(Pennington et al., 2014)将每个单词初始化为300维嵌入。隐向量维数是300。GCN块数为2。γ1和γ2的系数分别为0.4和0.6,λ为0.00001,这是初步研究中最优的超参数。Adam被用作优化器,学习率为0.001,mini-batch为16。我们在嵌入层后应用0.3的dropout。对于基于Bert的模型,我们使用预先训练的uncased BERT-base(Devlin et al, 2019),具有768维的嵌入,学习率是0.00002。SenticNet (Cambria et al, 2020)包含单词之间的情感常识关系,在这项工作中被用于派生方面感知的单词。我们将最大跳数设置为5。报告的结果是10次运行的平均分数,以获得统计上稳定的结果。

4.2 比较模型

我们将我们提出的AAGCN模型和各种各样的模型进行比较,包括:

(1)Non-BERT ACSA models: TC-LSTM (Tang et al., 2016), ATAE-LSTM (Wang et al., 2016), GCAE (Xue and Li, 2018), AA-LSTM (Xing et al., 2019), CapsNet (Jiang et al., 2019), AS-Capsules (Wang et al.,2019), GIN (Yin et al., 2020), MIMLLN (Li et al.2020b)。

(2)BERT-based models: BERT (Devlinet al., 2019), BERT-QA (Sun et al., 2019), CapsNet-BERT (Jiang et al., 2019), CoGAN (Chen et al.,2020), GIN-BERT (Yin et al., 2020), MIMLLN-BERT (Li et al., 2020b), Hier-GCN-BERT (Caiet al., 2020)。

我们还提供了我们提出的AAGCN的各种变体:

(1)为了验证我们提出的基于不同预训练模式的模型的有效性,我们提供了AAGCN的GloVe(AAGCN)和BERT(AAGCN-BERT)。AAGCN-BERT以“[CLS]句子[SEP]方面[SEP]”作为输入。”

(2)为了证明我们的方法的可泛化性,使用另一个包含单词之间概念关系的外部知识(ConceptNet (Speer et al., 2017))来生成方面感知的单词。然后推导出AAGCN-c和AAGCN-BERT-c两个比较模型。

(3)为了评估在我们提出的方法中利用的分布的重要性,我们设计了没有分布的模型的两个变体。即“AAGCN-one”和“AAGCN-hop”,它们的方面感知权值分别计算为ρ(wi) = 1和ρ(wi) = 1/ki。

(4)为了证明Beta分布在确定方面感知权重方面的有效性,我们还使用所提出的AAGCN执行了其他三个相关的分布。包括二项分布(AAGCN-BD),其方面感知权重定义为:见下图;泊松分布(AAGCN-PD),其方面感知权重定义为:见下图;和伽马分布(AAGCN-GD),其方面感知权重定义为:见下图。

我们还设置了我们提出的AAGCN的几个变种来分析不同成分在消融实验中的影响。我们还设置了我们提出的daagcn的几个变种来分析不同成分在消融研究中的影响。“w/o ρ+D”表示为每个句子构造全连通图,即每个词对包含一条边。“w/o ρ”表示没有感知方面的单词,“w/o D”表示没有依赖树。

4.3 实验结果

如表2所示,在6个数据集上的实验结果表明,我们提出的模型在非bert和基于bert的模型以及E#A和E方面的表现始终优于比较模型。这验证了我们提出的模型在ACSA中的有效性。

与不使用分布来获得方面感知权重的模型相比,在任何分布中性能都得到了整体改进。这表明,探索分布来建模单词和相应方面之间的成功连接概率更适合从外部知识中获得更有价值的方面感知权重。此外,由不同分布产生的结果表明,我们提出的AAGCN(探索Beta分布来确定方面感知权重)显著优于几个相关分布。这意味着,基于从外部知识中学习到的先验知识,部署Beta分布来建模方面感知词成功连接概率的所有概率,从而获得更多的方面感知权重,并导致ACSA性能的提高。

对不同的外部知识场景,AAGCN和AAGCN-c的总体表现都好于基线模型,这证明了我们提出的方法在派生方面感知词方面的可泛化性。此外,与基于ConceptNet的模型相比,SenticNet模型在非bert和基于bert的条件下都显示出相当大的优势。这表明包含情感关系的SenticNet可以使模型更好地利用情感信息,在ACSA中获得更好的性能。

4.4 消融实验

我们进行了消融实验,并将结果报告在表3中。注意,全连通图和删除方面感知词都严重下降了性能。验证了在ACSA任务中从上下文中识别方面感知词对构图的意义和有效性。此外,不适用依赖树的模型会导致性能稍差,这意味着将语法关系合并到图中可以进一步提高ACSA性能。

4.5 跳数的影响

为了研究从外部知识派生方面感知词时不同跳数的影响,我们将跳数从1改到8,并在图5中报告结果。注意,随着跳数从1增加到5,所有数据集上的性能都会稳步提高,当跳数大于5时,曲线会出现不规律的波动。这意味着方面感知图带来的显著学习优势依赖于适当数量的方面感知词,而过度扩展搜索方面感知词的跳数可能会带来跳声,所以我们在模型中将跳数设置为5。

4.6 GCN块的影响

为了分析GCN块的层数对我们提出的模型性能的影响,我们通过将层数从1改为6进行实验,并将结果显示在图6中。注意,2层的GCN块总体性能更好,因此我们在实验中将GCN块的层数设置为2层。相比之下,1层GCN块的表现不尽如人意,这可能表明1层块不足以从上下文中利用精确的方面相关情感信息。随着GCN块层数的增加,性能出现波动,当GCN块层数大于4时,性能有明显下降趋势。这意味着,粗略增加GCN块容易由于模型参数的急剧增加而导致模型的学习能力急剧下降。

4.7 方面感知词分析

为了研究方面感知词在句子中 的出现,我们报告了图7(a)中不同数据集上方面意识词的覆盖率。注意,所有数据集中方面感知词的覆盖率都超过95%。也就是说,95%以上的句子包含方面感知词。这验证了方面相关词通常作为句子中相应方面的情感描述的假设,验证了我们提出的方法在ACSA任务中的说服力和意义。此外,我们从REST15数据集中随机选择50个句子,并在图7(b)中显示了方面感知词的分布。注意,几乎所有的句子都包含适当数量的方面感知词。这暗示了方面感知词通常作为句子中的关键线索出现。我们在图7(c)中展示了一些典型的方面感知词与它们为方面词“食物”派生的权重配对。注意:1)与“食物”高度相关的词具有很大的权重(红色示例),2)常见的情感词具有平均权重(绿色示例)3)不相关的词具有较小的权重(蓝色示例)。这定性地验证了我们提出的部署Beta分布来获得方面感知权重的方法在ACSA中是有效的。

4.8 案例研究

为了定性地演示上下文方面感知单词如何在ACSA任务中工作,我们在图8中可视化了方面感知权重。虽然例句(a)的方面(E和A)在句子中都不存在,但借助于方面感知词可以很容易地了解到方面的情感线索。例句(b)和(c)是两个包含多个方面的实例,其中,在例(b)的句子中出现了实体“food”,而在例(c)的句子中没有出现任何方面。请注意,在学习方面相关情感表达时,可以借助方面感知词提取和区分与不同方面相关的重要上下文词汇。

5 总结

在本文中,我们从一个新颖的角度研究了方面类别情感分析(ACSA)任务,即学习如何更好地找到与方面高度相关的方面感知词,并在公共知识的基础上用Beta分布来计算它们的权重。面向方面的词与其权重配对,用于构造面向方面的上下文图,以使用图卷积结构学习ACSA中的上下文情感依赖关系。在6个基准数据集上的实验结果验证了该方法的有效性。

Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis论文阅读笔记(EMNLP2021)相关推荐

  1. LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation【论文阅读笔记】

    文章目录 1.文章为了解决什么问题? 2.文章提出了什么方法? 3.模型架构以及原理? 4.模型有效性分析 5.改进的效果如何以及比较的对象 6.future work 这篇论文提出了LightGCN ...

  2. TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation论文阅读笔记

    论文标题:TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation 发表于:2020 SIGIR 作 ...

  3. Decoupling the Depth and Scope of Graph Neural Networks(ShaDow-GNN)论文阅读笔记

    红色部分为个人的一些解读,不足之处请多多指点! 文章目录 链接 一.摘要 二.引言 三.前文 总结 链接 论文题目:解耦图神经网络的深度和范围(ShaDow-GNN)(2021NIPS) 论文链接:2 ...

  4. 【ACSA】Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis

    Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis with Affective Kn ...

  5. 23.Position-Aware Tagging for Aspect Sentiment Triplet Extraction阅读笔记

    23.Position-Aware Tagging for Aspect Sentiment Triplet Extraction阅读笔记 Author Information::Lu Xu* 1, ...

  6. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  7. 论文阅读笔记:Multi-view adaptive graph convolutions for graph classification

    论文阅读笔记:Multi-view adaptive graph convolutions for graph classification 文章目录 论文阅读笔记:Multi-view adapti ...

  8. [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings

    [论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构 解 ...

  9. 论文阅读笔记:MGAT: Multi-view Graph Attention Networks

    论文阅读笔记:MGAT: Multi-view Graph Attention Networks 文章目录 论文阅读笔记:MGAT: Multi-view Graph Attention Networ ...

最新文章

  1. PMP知识要点(第七章)
  2. php获取谷歌地图api接口,谷歌地图 API 开发之信息窗口
  3. python中elif老是出错_python为什么会存在if执行了依然会执行elif的情况?
  4. python做数据库界面_python数据库界面设计
  5. Keras-10 模型可视化
  6. c语言中判断输入是否为数字_C语言编程判断回文数
  7. pytorch学习笔记(十五):模型构造
  8. DHCP中继数据包互联网周游记
  9. Python线程池(thread pool)创建及使用+实例代码
  10. 【通过输入身份证前17位得到省份,性别,年龄,出生日期和最后一位】
  11. 网站被攻击如何正确防护
  12. 网元的概念 --- 分布式1
  13. 在AIX或Linux下,如何查看磁盘是否包含数据?
  14. C++ GUI Programming with Qt4 Second Edition 之 附录A.2 Windows系统Qt的安装
  15. win10定时关机怎么设置(Win10怎么设置亮度)
  16. 用c语言switch计算奖金,求助。。关于用switch编写简易计算器
  17. onload什么时候执行
  18. webRTC(二十四):web远程多台android的实现
  19. 加粉啦 - 微信复制加粉统计,竞价加粉统计免费试用
  20. 软件加密技术和注册机制加密基础

热门文章

  1. 计算机关闭自带杀毒,电脑系统自带杀毒软件怎么关闭?两种Windows defender彻底关闭方法(图文)...
  2. 服务器10的系统杀毒怎么关,Win10自带杀毒软件怎么关闭?彻底关闭Windows Defender方法...
  3. vb.net中datagridview取消首行选中_解锁Excel中那些隐藏很深但很实用的功能!真的太好用了!...
  4. 动作捕捉技术对演员的演技诉求
  5. Flash控件使用参考手册
  6. 35 - 用正则表达式分别提取电话号的区号、电话号和分机号
  7. c++手机编程软件_手机也能编程?盘点这5个可以用手机编程的App!快收藏!
  8. 按了锁定计算机,鼠标锁定了按什么键解锁
  9. 【adb】cmd命令行输入adb时始终提示adb为非内部命令
  10. 英文单词缩写规则(转自天涯)