文章名:《BiLSTM with Multi-Polarity Orthogonal Attention for Implicit Sentiment Analysis》

作者 Jiyao Wei a,1, Jian Liaoa,1, Zhenfei Yanga, Suge Wanga,b,∗, Qiang Zhaoa

年份 2019

1 Introduction

目前文本情感分析多分析带有表现明显情感极性词语的文本，而隐性表达作者情感的文本分析相关研究很少。

2 Related Work

常用的注意机制可以根据注意的排列位置分为全局机制和局部机制，它们也可分为来源目标注意、自我注意和多头注意。这些研究启发了作者引入情感关注，它为捕捉情感极性之间的特征差异嵌入了额外的信息。

3. BiLSTM with multi-polarity orthogonal attention model

3.1. Framework of the proposed model

该模型包含6层：输入层、预训练层、BiLSTM层、多极注意层、fully connected层和输出层。

（1）Input layer

采用one-hot编码为每个词生成索引嵌入向量，（加粗字体表示词嵌入或者矩阵，|V|表示全集，下同）将索引嵌入喂入预处理。

（2）pretraining layer

预处理层分成静态层和动态层。

静态层生成共享查找表。它采用预先训练的词嵌入资源作为初始化，编码更多的初始语义信息，其中de是词嵌入的维数。最后的词嵌入表示为Wt：。在动态层中，根据上下文信息动态编码词嵌入，能够更准确表达词信息，公式为。

分别表示通过模型LM优化的前向和后向BiLSTM编码器的隐层输出。实验中也有使用另一位研究者的方法进行动态编码：

（3）BiLSTM layer

BiLSTM是LSTM的实质性改进，有效地解决了简单RNN中梯度消失或爆炸的问题。BiLSTM就是包含两层基础LSTM。每个基本单元的计算公式如下：表示遗忘门、输入门、输出门。表示内部信息状态，

表示在 t 时刻的输出结果。是每个门使用的权重矩阵。为偏差。为隐藏层的单元数。预处理层的词嵌入。分别表示矩阵乘法和元素乘法，表示激活函数。

BiLSTM模型通过连接每个模型的隐藏层输出来实现序列信息的正序和逆序，如公式（12）和（13）所示。mt是句子中第 t 个单词的正向和向后隐藏层输出的连接，M表示含有T个词的句子。

(4) Multi-polarity attention layer.

该注意机制能有效地融合序列编码过程中关键字的上下文敏感信息。

其中v是加权上下文嵌入，αi是对应于索引 i 处的隐藏层输出hi的权重，ei是i处的保留分数，W是通过双线性函数连接注意查询q和hi的权重矩阵。在同种极性分析中，隐含情感词权重没有明显不同，但是在不同的情绪极性中，与每个极性相关的注意权重会有明显差异。因此提出多种极性注意机制。引入一个单独的查询qi，用于在特定的情感导向场景下捕捉单词的特征。多极性注意机制使得每个查询向量更加关注不同情感极性的特征。

（*）其中vj是在情绪极性设定为 j 的情景下的加权上下文嵌入，最后，我们将情感极性的加权嵌入融合表示作为隐含情感句子的最终表示。n是对应于情绪极性类的注意力查询数。

模型初始化调整查询q都是带有主观情感极性的，使用具有相同情感极性的单词嵌入的融合表示，初始化查询向量。表示情感极性j的第i个单词嵌入，qj表示第i个注意查询向量的初始化向量。Nj 表示有N种情感极性。

(5) Fully connected layer and output layer.

在fully connected layer中，模型将极性相关的融合分布特征表示映射到实例标签空间（类似分类器）。

在输出层输出情感值 y 对应情感分类的某一类。

A表示参数矩阵，V同上述加粗的（*）同，b是偏差。

3.2. Orthogonal attention mechanism

因为基本的注意机制很难实际区分不同情感极性之间的区别，导致即使是不同的情感极性，产生的嵌入向量也相差无几。因此提出正交注意机制。本文提出的机制中：语料库是在一个超空间上生成的，在这个超空间中，每一个句子都具有语义和情感极性信息，每一个句子的情感极性都由空间中的一个超曲面表示。（正交注意机制的灵感来自于文献[41]对潜在话题之间相似性的限制。例如，在实际应用中，预期的潜在主题集合是“军事”、“经济”和“健康”等；但是，如果不使用相似约束，生成的主题集合可以是“国防”、“武器”、“经济”和“健康”。因此，将相似约束策略引入到潜在主题检测层是非常重要和必要的。）本文将情感的极性表示为情感的保留查询，并将其作为空间的基础。结果表明，通过对所有查询的嵌入串接，可以从数学上计算出传感器的综合情感极性信息。提出的正交注意机制在训练过程中对每个查询的嵌入施加正交约束。它可以通过最小化所有注意查询的成对余弦相似度之和来有效地保持注意之间的差异，如公式所示。

（**）n是attention的数量，qi是attention i 的查询嵌入。

3.3. Model optimization

在所提出的模型中使用两个损失函数来学习隐含情感句子的表示。L1即（**）公式。学习attention查询嵌入q的正交性以获得attention之间的差异。另一个是输出层的经典交叉熵损失函数，

在训练过程中，对于每个训练批次，我们用一个权重参数γ（在公式中表示）联合最小化 L1和 L2。

4. Experiment and analysis

4.1. Datasets and evaluation index

（Datasets）本次实验是在SMP2019（中国社交媒体处理的顶级学术会议之一）的中文内隐情绪分析任务评估数据集上进行的。该数据集主要来自于两个平台:微博和携程旅游。其中携程提供的是对产品和服务的评价，数据长度更长，可以提供更多的上下文信息。详细数据如下：

为了证明提出的方法在不同数据集上的有效性和通用性，作者在COAE（2015）和SemEval（2013-2017）数据集上也进行了测试。

（Evaluation index）作者使用每个感知极性的F1分数和宏F1来评估模型，公式如下(macro：宏)，其中i是情绪极性的索引指数，pi和ri分别是具有情绪极性i的实例的精确性和召回性。

4.2. Implementation details（忽略）

4.3. Baselines

将处理显性情感的经典模型作为基准模型用于处理隐含情感模型进行比对。有下图的method。

4.4. Results and analysis

在表3中，att表示注意，static或dynamic elmo/bert分别表示由静态预训练词em-bedding初始化的输入或由elmo 15/bert 16在预训练层动态地重新训练的输入。表3表明模型处理多极性以及正交约束的有效性。将该模型应用到显性情感分析，效果如表4。由于预训练层表现出很大的改善，可能掩盖了作者提出的多极或多极注意机制的有效性。所以进一步比较了各个模型的动态和静态预训练层，我们将结果显示在表5中进行比较。Random是指输入时嵌入单词的随机初始化。根据表5，使用动态Elmo预训练层，该模型比基线模型BiLSTM+att提高了0.4%（第6行-第2行）。如果采用动态Bert预训练层，则可实现更大的改进（第8行-第4行）。

该模型利用具有不同方向的情感词来初始化情感极性的特定注意。正交注意机制可以保持模型优化过程中情感极性的差异。表6给出了多极性和正交注意机制的性能结果。在表6中，具有多注意模型的BiLSTM表示为BMA。预排序表示我们对多注意查询的嵌入进行随机正交初始化。pun表示在模型优化过程中加入了正交处理。pol表示我们使用不同方向的情感词来初始化情感极性的特定注意。如果注意查询的嵌入在训练过程中可以更新，则表示为训练；否则表示为未训练。

(5) Visualization and instance analysis

第一行对应于真实和预测的标签，最后三行分别对应于中性、正面和负面注意信息。我们根据注意的权重用不同的颜色深度给每个句子中的单词上色：权重越重，颜色越深。对于正面信息，“金光灿灿”权重最重，负面信息，“无缘”权重最重。

5.Conclusion

本文提出了一种新的基于多极性正交注意的隐式情绪分析BiLSTM模型。对于含蓄情感的表达，由于含蓄情感是模糊的，且不包含明显的感伤词，该模型侧重于建模注意权值在极性之间的差异。多极性注意机制利用情感词对极性特定注意查询进行初始化，并在优化过程中引入正交处理以保持注意的差异性。

《BiLSTM with Multi-Polarity Orthogonal Attention for Implicit Sentiment Analysis》论文阅读笔记相关推荐

《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记
<Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记主要挑战贡献: KG上的推理挑战主要 ...
论文阅读 | NIPS‘20 | Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs
很有意思的一篇paper.在众多Knowledge Graph Embedding (KGE) 的论文中通过问题设计和有意思的解决方式脱颖而出. 首先来看看问题设计. 一般的KGE model都是利用 ...
Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis论文阅读笔记（EMNLP2021）
目录标题翻译:基于Beta分布引导方面感知图的方面类别情感分析原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf 摘要: 1 引言 2 相关工 ...
Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记
问题: 因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差.且字节2020在EMNLP上的 ...
DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记
DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记 Article Background ...
[论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构解 ...
论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics（AAAI，2020）
这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机很多机器 ...
论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》
<a simple but tough-to-beat baseline for sentence embeddings>published at ICLR 2017. ICLR会议的论文 ...
Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记
我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...
斯坦福图机器学习CS224W笔记自用: Reasoning in Knowledge Graphs using Embeddings
1. 基于嵌入的知识图推理目标:如何对知识图进行多跳推理? 知识图推理: 回答多跳查询路径查询连接查询 Query2box 示例:生物医学图知识图谱上的预测查询我们是否可以进行多跳推理,即在 ...

《BiLSTM with Multi-Polarity Orthogonal Attention for Implicit Sentiment Analysis》论文阅读笔记