《A Transformer-based joint-encoding for Emotion Recognition andSentiment Analysis》论文翻译

论文地址：https://doi.org/10.48550/arXiv.2006.15955

论文代码：GitHub - jbdel/MOSEI_UMONS: A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis

摘要：

理解表达的情感和情绪是人类多模态语言的两个关键因素。本文提出了一种基于转换器的联合编码方法，用于情感识别和情感分析。除了使用Transformer架构之外，我们的方法还依赖于模块化的共同关注和一个展示层来共同编码一个或多个模态。提出的解决方案也已提交给ACL20:第二届多模态语言大挑战，在CMU-MOSEI数据集上进行评估。复制本实验的代码是开源的。

1 引言

从多媒体中预测情感状态是一项具有挑战性的任务。情绪识别任务主要针对不同类型的信号，如音频、视频和文本。深度学习技术允许开发新的范式，在一个模型中使用这些不同的信号，以利用从不同来源的联合信息提取。本文旨在提出一种基于机器翻译(Transformer，V aswani等人(2017))和视觉问答(模块化共同注意，Y u等人(2019))思想的解决方案。我们的贡献不仅具有很高的计算效率，而且为情感分析和情感识别提供了可行的解决方案。我们的结果可以与CMU-MOSEI数据集上这两个任务的最新水平相比较，有时甚至超越(Zadeh等人，2018b）。

本文的结构如下:首先，在第2节中，我们快速浏览了在MOSEI数据集上评估的相关工作，我们然后在第3节中继续描述我们的模型，然后在第4节中解释我们如何从原始视频中提取我们的模态特征，最后，我们在第5和6节中展示了用于我们的实验的数据集和它们各自的结果。

2 相关工作

多年来，在情感分析和情感识别领域，研究界提出了许多创造性的解决方案。在本节中，我们将继续描述在CMU-MOSEI数据集上评估的不同模型。据我们所知，这些想法都没有使用基于transformer的解决方案。

内存融合网络(MFN, Zadeh等人(2018a))使用多视图门选存储器同步多模态序列，该存储器存储随时间变化的视图内和视图交叉交互。

图-MFN (Zadeh等人，2018b)由建立在MFN之上的动态融合图(DFG)组成。DFG是一种在多模态语言中处理跨模态动力学本质的融合技术。融合网络是一个学习对n模态交互进行建模的网络，在推理过程中可以根据每个n模态动力学的重要性动态改变其结构以选择合适的融合图。

Sahay等人(2018)使用张量融合网络(TFN)，即模态的外部乘积。这个操作可以在整个序列上执行，也可以逐帧执行。当模式被加入时，第一个导致特征空间的指数增长，这是计算昂贵的。因此，第二种方法更受欢迎。与2例早期融合基线相比，他们有改善。最近，Shenoy和Sardana(2020)提出了一种基于上下文感知RNN的解决方案，Multilogue-Net，用于会话中的多模态情感检测和情感分析。

3 模型

本节旨在描述在我们的实验中评估的两种模型变式:单模态变式和多模态变式。单模态变式根据L(语言学)、V(视觉)或A(声学)被用来单独对情绪和情绪进行分类。多模态版本用于模态的任何组合。

我们的模型基于Transformer模型(V aswani et al.， 2017)，这是一种新的编码架构，完全避免序列编码的循环，而是完全依赖于注意力机制和前馈神经网络(FFN)来绘制输入和输出之间的全局依赖关系。与循环神经网络(RNN)相比，Transformer允许明显更多的并行化，RNN生成一个隐藏状态 $h_{t}$ 序列，作为前一个隐藏状态 $h_{t-1}$ 的函数和位置 t 的输入。

3.1 Monomodal Transformer Encoding

单模编码器由一堆相同的B块组成，但它们有自己的一组训练参数。每个块有两个子层。两个子层周围都有一个残差连接，然后进行层归一化(Ba et al.， 2016)。每个子层的输出可以写成这样:

式中，subblayer (x)为子层自身实现的函数。在传统的Transformer中，两个子层分别是一个多头自我注意机制和一个简单的多层感知器(MLP)。注意机制由键K和查询Q组成，它们相互作用，输出应用于上下文C的注意图:

在自我注意的情况下，K, Q 和C是相同的输入。如果该输入的大小为 N × k，通过操作 $QK^{T}$ 得到一个平方的注意矩阵，其中包含了每一行N之间的亲和关系。 $\sqrt{k}$ 是一个比例因子。多头注意(multi-head attention, MHA)是将来自不同表示子空间的信息在不同位置上叠加多个自我注意的思想 :

一个子空间被定义为特征维数为 k 的切片。当有四个头时，一个切片的大小为 k/4。其思想是为不同的特征子空间产生不同的注意权重集。通过块编码后，输出 $\tilde{x}$ 可以被映射层用于分类。在图1中，x可以是第4节中描述的任何模态特性。

3.2 Multimodal Transformer Encoding（多模态转换器编码）

多模态转换器的思想包括为我们所使用的每个模态添加一个专用转换器(第3.1节)。虽然我们的贡献遵循这个过程，但我们也提出了三个想法来增强它:联合编码、模块化共同注意(Y u et al.， 2019)和每个块的末尾的展示层。

模块化co-attention由调制的self-attention形态,我们叫它 y,初级形态 x 。为此，我们将自我注意的键 K 和上下文 C 从 y 切换到 x 。操作 $QK^{T}$ 会产生一个注意力映射，它就像一个在模态矩阵 x和 y 行之间的亲和力矩阵。这个计算出来的对齐将应用于上下文 C (现在是x)，最后我们添加残差连接 y 。以下等式描述了新的注意力子层:

在这种情况下，为了使 $QK^{T}$ 操作和残差连接(加法)工作，x 和 y 的特征大小必须相等。这可以通过MHA模块的不同转换矩阵进行调整。因为编码是联合的，每个模态都是在同一时间编码的(也就是说，我们不会在进入另一个模态之前展开一个模态的编码块)。这样，对 block b的模态 y 的MHA注意就通过block b的 x 表示完成了。

最后，我们在每个模态块的最后添加一个层，称为展示层，在这里，模态被映射到一个新的表示空间。展示层由叠加G层以及叠加它们的输出组成。每一次温柔的关注都被视为一种展示。形式上，我们用MLP和加权和定义软注意(SoA) i，输入矩阵 $M\in R^{N\times K}$ :

其中 $W_{m}$ 为大小为 2k×k 的变换矩阵， $v_{i}^{a}$ 为大小为1 × 2k 的向量， $m_{i}$ 为大小为k的向量。那么我们可以定义大小为 $G^{m}$ 的矩阵M的瞥见机制为所有展示的叠加:

注意，在参数 $W_{m}$ 之前，它的作用是将矩阵 M 嵌入到更高的维度中，它在所有展示之间共享(因此这个操作只计算一次)，而在这个更大的空间中计算注意力权重的向量集{ $v_{i}^{a}$ }是专门用于每次展示的。在我们的贡献中，我们总是选择 $G^{m}$ = N，因此大小允许我们执行最终的残差连接M = LayerNorm(M + $G_{M}$ )。

图2:用于联合编码的两模态多模态转换器编码器。

图2描述了两种特性的编码，其中模态 x 调制模态 y 。这种编码可以通过复制架构移植到任意数量的模态。在我们的例子中，总是语言模态调节其他的。

3.3 分类层

在计算完所有Transformer块之后，模态进入最后一个大小为1的展示层。因此结果只有一个向量。每个模态的向量按元素求和，我们把求和的结果称为s，然后根据下面的方程映射到可能的答案上:

如果只有一种模态，则省略求和操作。

4 特征提取

本节的目的是解释我们如何预计算每个模态的特性。这些特性是Transformer块的输入。请注意，特征提取是针对数据集的每个示例独立完成的。

4.1 Linguistic

每句话都是标记化的，小写的。我们还删除了特殊字符和标点符号。我们4根据训练集构建词汇表，最终得到14.176个独特的词汇表。我们使用GloV e (Pennington et al.， 2014)将每个单词嵌入一个300维的向量中。如果来自验证或测试集的单词不在我们的词汇表中，我们将其替换为未知标记“unk”。

4.2 声学

视频信号的声学部分包含大量的语音。在对话中，言语是用来与文字交流信息的，但也包含了很多非语言的信息，如非语言表达(笑、呼吸、叹息)和韵律特征(语调、语速)。这些都是情绪识别任务中的重要数据。

声学特征广泛应用于语音处理领域，如F0、共振峰、MFCCs、谱斜率等，由手工制作的高级特征集组成，这些特征在需要解释时很有用，但通常会丢弃大量信息。相反，我们决定使用低级特征来进行语音识别和合成，即meld声谱图。随着深度学习系统的突破，mel谱图已经成为一种合适的选择。

信号的频谱是通过傅里叶分析得到的，该分析将信号分解为一组正弦信号。正弦波的振幅构成了振幅谱。谱图是信号窗口的谱随时间的拼接。梅尔声谱图是声谱图的压缩版，利用了人耳对低频比高频更敏感的事实。因此，这种表示对低频比使用梅尔滤波器组的高频具有更高的分辨率。在最先进的系统中，meln -谱图通常作为文本到语音合成的中间步骤(Tachibana等人，2018年)，作为音频表示，因此我们认为它是维数和表示能力之间的良好折衷。

我们的mel谱图的提取过程与(Tachibana等人，2018)中librosa (McFee等人，2015)库中80个滤波器组(因此嵌入大小为80)的提取过程相同。通过每16帧选择一帧来进行透射电镜气孔缩小。

4.3 视觉

受卷积神经网络(convolutional neural networks, CNNs)在不同任务中成功的启发，我们选择使用预先训练好的CNN来提取视觉特征。目前的视频分类模型使用带有3D卷积核的cnn来处理视频的时间信息和空间信息(Tran et al.， 2015)。三维cnn学习时空特征，但其成本远高于二维cnn，且容易出现过拟合现象。为了降低复杂性，Tran等。(2018)明确地将三维卷积分解为两个独立的连续操作，一个二维空间卷积和一个一维时间卷积。我们选择R(2+1)D-152模型提取视频特征用于情感识别任务。模型在Sports-1M和Kinetics上进行预训练。

该模型以32 RGB帧的视频片段作为输入。每一帧被缩放到128 x 171的大小，然后裁剪一个大小为112 x 112的窗口。通过提取时空池的输出来提取特征。通过以8帧为步长滑动32 RGB帧的窗口获得整个视频的特征向量。

我们选择不裁剪视频的脸部区域，并保留整个图像作为网络的输入。事实上，视频已经以人为中心，我们希望像手这样的身体运动可以成为情绪识别和情绪分析任务的良好指标。

5 数据集

我们在一个名为cmu -多模态意见情绪和情绪强度的新数据集上测试我们的联合编码解决方案(CMU-MOSEI, Zadeh等人(2018b))的多模态情绪和情绪识别。它由23453个注释句子组成，来自1000个不同的说话者。每句话都按[-3,3]从高度消极(-3)到高度积极(+3)的范围对情绪进行了注释，对情绪进行了6个等级的注释:快乐、悲伤、愤怒、恐惧、厌恶、惊讶。在我们的实验范围内，情绪是要么存在，要么不存在(二元分类)，但两种情绪可以同时存在，这是一个多标签问题。

图3显示了CMU-MOSEI数据集中情绪和情绪的分布。这种分布向更常用的情绪自然倾斜。最常见的类别是幸福，有超过12000个正样本点。在近1900个阳性样本中，最不常见的情绪是恐惧。调查还显示，积极情绪略有上升。

图3:MOSEI统计数据，摘自作者的论文

6 实验

在本节中，我们报告在第3节中描述的模型变量的结果。我们首先解释我们的实验设置。

6.1 实验设置

我们使用Adam优化器(Kingma and Ba, 2014)训练我们的模型，学习率为1e−4，小批量大小为32。如果验证集上的准确性得分在给定的时间内没有增加，我们就应用0.2因子的学习速率衰减。我们的学习率下降了2倍。之后，我们使用三个epochs。本文的结果来自于5个模型的平均预测。

除非另有说明，我们使用6个隐藏大小为512的Transformer块，无论编码的形式如何。自我注意有4个多头，MLP有一个1024的隐藏层。我们对每个块的输出应用 0.1的 dropout (式4)，对分类层的输入应用 0.5 的dropout (式6中的s)。

对于声学和视觉特征，我们截断了40以上空间维度的特征。我们也用这个数字来表示展示的次数。这个选择基于图4。

图4:声音和视觉模态的时间维度(即我们的特征矩阵中的行)

6.2 结果

表1显示了我们不同情态组合的得分。我们不比较准确的情绪与以前的作品，因为他们使用加权精度变量，而我们使用标准精度。

表1:测试集的结果。请注意，情绪的f1得分权重与之前的最先进技术一致。此外，我们不比较情绪的准确性，因为之前的作品使用加权变量，而我们使用标准的准确性。G-MFN是Graph-MFN模型，Mu-Net是Multilogue-Net模型。

我们注意到我们的L+A(语言+声音)是最好的模式。不幸的是，添加可视化输入并没有增加结果，这表明它仍然是最难集成到多模态管道中的模态。在情感任务中，7类任务的改进更明显，表明我们的L+A模型在更复杂的分类问题上比我们的单模模型L在仅使用语言输入的情况下学习到更好的6种表示。我们还超越了之前的最先进的技术来完成这项任务。对于情绪，我们可以看到，Multilogue-Net对一些类给出了更好的预测，如高兴，悲伤，愤怒和厌恶。我们假设这是因为Multilogue是一种上下文感知方法，而我们的模型没有考虑前一句或下一句来预测当前的话语。这可能会影响我们在情绪测试中的准确性和f1分数。

下表2描述了我们发送给第二次多模态语言大挑战的解决方案的结果。它已经在为该挑战发布的私人测试版本上进行了评估，可以作为未来研究的基线。请注意，在这个表中，f1分数是未加权的，未来的结果应该是公平的比较和解释的结果。

表2: 7类情绪问题及每种情绪的私测折线结果。准确性用a表示。与表1不同，该表中的f1分数没有加权。

7 讨论

提出了一种基于CMU-MOSEI的高效、鲁棒的情感分析和情感识别模型。尽管我们在准确性上取得了强有力的结果，但我们可以看到在f1分数上仍有很大的改进空间，尤其是对于数据集中较少出现的情感类。据我们所知，基于变压器的联合编码给出的结果是情感任务在数据集上的最高分数。下面列出了我们计算的其他特征，作为我们模型的输入，这些特征导致了较弱的表现。

（1）我们尝试了OpenFace 2.0特性(Baltrusaitis等人，2018年)。该策略计算人脸地标，特征专门用于人脸行为分析;

（2）我们尝试了一个简单的2D CNN命名为DenseNet (Huang et al.， 2017)。对于视频的每一帧，取平均池化层的输出，提取一个特征向量;

（3）我们尝试了不同的mel滤波器组数(512和1024)和时间缩减(1、2、4和8帧)，我们也尝试使用全谱图;

（4）我们尝试不使用GloV e嵌入。

图5:根据每个Transformer的块数划分的7级情感准确率

《A Transformer-based joint-encoding for Emotion Recognition andSentiment Analysis》论文翻译相关推荐

【论文翻译】Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild
Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild 野外目标的小样本目标检测与视点估计论文地址:ht ...
论文翻译《Salient object detection: A survey》
传统的方法: 可大致分为三类:基于block和intrinsic cues的模型.基于region和intrinsic cues的模型.基于extrinsic cues的模型(包括block和regi ...
【论文翻译】FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
文章目录 PaperInfo Abstract 1 Introduction 2 Related Work 2D Object Detection Monocular 3D Object Detect ...
论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》
BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 文章目录 BEVDet: High-Perform ...
【论文阅读】【综述】3D Object Detection 3D目标检测综述
目录写在开头 3D Object Detection 相关博客: Sliding window Vote3Deep: Fast Object Detection in 3D Point Clouds ...
点云 3D 目标检测 - CenterPoint：Center-based 3D Object Detection and Tracking（CVPR 2021）
点云 3D 目标检测 - CenterPoint: Center-based 3D Object Detection and Tracking - 基于中心的3D目标检测与跟踪(CVPR 2021) ...
3D Object Detection 3D目标检测综述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/wqwqqwqw1231/articl ...
CVPR2021 三维目标检测(3D object detection)
[1] 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection(利用IoU预测进行半监督3D对象检测 ...
论文阅读笔记：(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...
【论文翻译】Orthographic Feature Transform for Monocular 3D Object Detection
标题:<Orthographic Feature Transform for Monocular 3D Object Detection> 作者:Thomas Roddick, Alex ...

《A Transformer-based joint-encoding for Emotion Recognition andSentiment Analysis》论文翻译

《A Transformer-based joint-encoding for Emotion Recognition andSentiment Analysis》论文翻译相关推荐

最新文章

热门文章