一篇来自ACM MM2020年关于跨模态-bert模型的文献

ACM MM:ACM Multimedia Conference 领域顶级国际会议，全文的录取率极低，但Poster比较容易。多媒体技术，数据压缩.

文献下载地址：

CM-BERT | Proceedings of the 28th ACM International Conference on Multimedia

代码下载地址：

thuiar/Cross-Modal-BERT: CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis（MM2020） (github.com)

摘要

多模态情感分析是一个新兴的研究领域，旨在使机器识别，解释和表达情感。通过多模态情态互动，我们可以更全面地了解说话人的情感特征。基于 Transformer(bert)的双向编码器表示是一种有效的预训练语言表示模型。微调它已经在十一个自然语言处理任务(如问题回答和自然语言推理)上获得了最新的成果。然而，以往的大多数工作都是基于文本数据对bert进行微调，如何通过引入多模态信息来学习更好的表示仍然值得探讨。本文提出了基于文本相互作用和语音通道相互作用的跨模态 bert (CM-bert)模型，对训练好的 bert 模型进行了微调。作为 CM-bert 模型的核心单元，多模态Mask注意通过结合文本信息和听觉模态信息来动态调整词的权重。我们对公众多模态情感分析数据集CMU-MOSI和CMU-MOSEI的方法进行了评估。实验结果表明，该算法在以前的基线和纯文本细化算法的基础上，显著提高了所有指标的性能。此外，我们还对多模态注意进行了可视化处理，证明了通过引入听觉模态信息可以合理地调整单词的权重。

介绍

随着通信技术的进步和 facebook、 youtube 等社交平台的普及，人们每天都会产生大量具有丰富情感信息的多模态数据。情感在人类的人际沟通中起着至关重要的作用。情感分析作为人机交互的关键技术之一，影响着人工智能的发展，已经被广泛应用于许多应用场景，如人机对话、自动驱动等。文本是我们日常生活中不可或缺的一种形式，它通过词语、短语和关系表达情感。在过去的几年中，文本情感分析已经取得了很多成就，例如，TextCNN [13]在句子级别分类任务的预训练词向量的基础上进行了训练，并在7个任务中的4个任务上进行了改进。

然而，文本模态所包含的信息是有限的。在某些情况下，很难通过文本信息准确判断情绪。在日常生活中，文本情态往往伴随着有声情态。音频通道中包含的情感信息是拥有属性声音特征的变化，例如音调、能量、音量、响度以及其他与频率相关的测量[14]。文本与听觉通道的互动可以提供更全面的信息，捕捉更多的情感特征[3]。图1是文本与听觉通道互动的一个例子。“但你知道是他干的”这句话的情感是模棱两可的，它可以在不同的情况下表达各种各样的情感。根据这些词判断句子的意思很有挑战性。在引入相应的音频信息后，由于说话人的低声和抽泣，不难预测该句的情绪是否定的。来弥补单一模式的不足，多情感分析作为越来越广泛的情感计算领域已经吸引了广泛的注意[12]。多模态融合就是通过模态间的相互作用，将不同模态的信息进行整合。由于融合信息可以提供更多的情感特征，它往往提高了整体结果或决策的准确性[18]

最近，来自 Transformers (Bert)的双向编码器表示作为一种有效的预训练语言模型，已经展示了十一种自然语言处理任务的最新成果，包括问题回答、自然语言推理和其他。与传统的预先训练的语言模型不同，Bert通过联合条件作用在所有层次的左右语境中生成语境词表示。因此，这些词的表现形式可以描述上下文内容。经过预先训练的Bert已经在大量的句子级别和token级别的任务上取得了有效的性能[25]。然而，大多数微调策略都是基于文本情态设计的，如何将其从单模态扩展到多模态，并获得更好的表征仍然是一个有待研究的问题。

本文提出了一种引入语音通道信息的跨模态 Bert (CM-Bert)模型，以帮助语篇通道对训练好的 Bert 模型进行微调。掩蔽多模态注意作为 CM-Bert 的核心单元，通过跨模态交互动态调整词的权重。为了证明我们的方法的有效性，我们对公共多模态情绪分析数据集 CMU-mosi [35]和 CMU-mosei [36]进行了评估。实验结果表明，CM-Bert 算法在以往基线和纯文本细化算法的基础上，显著地提高了所有指标的性能。本文的主要贡献可以概括如下：

1、我们提出了一个跨模态的 Bert (CM-Bert)模型，该模型引入了语音通道信息，有助于文本通道对训练好的 Bert 模型进行微调。

2、我们设计了一种新颖的多模态注意，通过文本和语音通道之间的交互动态调整单词的权重。

3、我们表明我们的模型只使用文本和音频模态的数据，创建一个一个新的最先进的多模式情绪分析结果的公众情绪基准数据集 CMU-MOSI 和 CMU-MOSE1。

2.1多模态情绪分析

多模态情感分析是自然语言处理中一个新的研究热点。考虑到不同模式之间的内部相关性，多模式融合可以捕获更有效的情感特征进行情感分析[2]。多模态融合的难点在于如何有效地整合多模态信息。到目前为止，主要有两种融合策略: 特征融合和决策融合[9,21]。特征融合是通过连接等方法融合不同形态的特征。由于融合特征包含了更多的情感信息，可以明显提高系统的性能。结合文本和音频通道的特点，设计了一个半监控的多路径生成神经网络，以更好地推断情绪。为了获得更好的多模态信息表示，zadeh 等[32]提出了一种利用多模态特征乘积表示多模态信息的张量融合网络。与传统的张量融合网络不同，liu 等[17]提出了一种基于低秩张量的低秩多峰融合方法，实验结果表明，该方法不仅降低了参数，而且提高了情感分析的性能。话语是相互关联的，它们可以相互影响。考虑到话语之间的关系，poria 等人[22]提出了一种语境短时记忆网络，它可以利用话语层面的语境信息来捕捉更多的情感特征。在决策融合过程中，对不同模式的特征进行独立的检验和分类，并将其结果作为决策向量进行融合，得到最终的决策。实验结果表明，采用加权和和加权乘积规则进行音视频决策级融合的性能优于加权和。

随着注意机制的普及，它在多模态融合中发挥着越来越重要的作用。Zadeh 等[34]提出了一种多注意递归网络，该网络通过使用一个多注意块来发现不同形式之间的相互作用。提出了一个多模态多话语双模态注意框架，该框架利用注意力在多模态表征上来了解多话语之间的相关特征。此外，tsai 等人[26]在他们的多模态转换模型中使用了一个定向的成对交叉注意，它可以关注跨越不同时间步骤的多模态序列之间的交互作用，并潜在地将流从一种模态调整到另一种模态。

2.2预训练语言模型

近年来，预训练语言模型在自然语言处理中得到了广泛的应用，并在大量的句子级和标记级任务中取得了较好的效果例如问答和命名实体识别[7]。Peters 等人[19]介绍了来自语言模型(elmo)的嵌入，这种嵌入是通过使用深层的双向语言模型在大型文本语料库上进行预训练的。实验结果表明，它可以显著提高六个任务的性能。此后，为了学习一种通用表示，radford 等人提出了生成预训练变换器(gpt)。与以前的方法相比，它们在微调过程中使用了任务感知的输入转换，并且可以很好地通过最小的体系结构进行转换。与 elmo 和 gpt 不同，transformers (bert)的双向编码器表示是一种掩码语言模型，该模型通过使用两个无监督的掩码预测任务和下一句预测任务进行预训练。对训练前的 bert 进行微调显然优于其他训练前的语言模型，并且在十一个自然语言处理任务上创造了最新的结果[5,10]。

方法

本文提出了交叉模态 bert (cm-bert)算法，该算法将文本信息和语音信息结合起来，对训练好的 bert 模型进行微调。其核心是采用掩蔽多模态注意，通过跨模态交互动态调整词的权重。在下面的小节中，第3.1节讨论了问题的定义。第3.2节描述了 cm-bert 模型的体系结构。第3.3节介绍了掩蔽多模态注意的原则

Cm-bert: 跨模态 bert

Cm-Bert 模型的输入由两部分组成: 单词标记的文本序列和单词级比对音频特征。首先，文本序列将通过预先训练的 Bert 模型，最后一个编码层的输出作为文本特征，由于词级对齐音频特征的维数明显小于文本特征的维数，采用了一维时间卷积层控制它们到相同的维数。

文本过预训练BERT 得到最后一层encoder 的结果作为文本输入
通过1维卷积将文本特征维度进行缩小，缩小到和声音特征维度相同
为了防止点集过大对其进行放缩

为了使文本和音频信息充分交互，我们将它们输入到掩蔽多模态注意中，通过结合不同模式下词语的表现来调整词语的权重。在获得了掩蔽多模态注意的输出之后，接下来的工作[8,29] ，我们使用了一个残留连接，以保持数据的原始结构。然后它会通过一个线性层和一个标准化层。最后，我们可以得到最后线性层的输出。

将文本注意矩阵at和音频注意矩阵Ba定义为:

Q 和 K 同源且使用Relu 进行算权重

为了通过文本与音频模态的交互来调整每个词的权重，我们对文本注意矩阵和音频注意矩阵进行权重加和，计算出加权融合注意矩阵如下:

通过加权计算出两个模态的融合表示

其中wt 表示每个单词的权重 wa 表示声音的权重， b表示偏置

通过mask机制解决 sequence padding 问题， solfmax算权重

和Transformer里面的mask机制是一样的，

将BERT 得到的单词向量进行加权

数据集和实验设置

我们评估了我们在 cmu 多模态意见水平情感强度(cmu-mosi)[35]和 cmu 多模态意见情感强度(cmu-mosei)[36]数据集上的方法。Cmu-mosi 有93个来自 youtube 电影评论的观点视频。视频跨越了2199段话。每句话的标签由5个不同的工作人员注释，其连续范围为 -3至 3，其中 -3表示高度负面，3表示高度正面。考虑到说话者不应该同时出现在训练和测试集中，以及正负数据的平衡，我们将52,10,31个视频分成训练，验证和测试集，共计1284,229,686个话语。与 cmu-mosi 类似 cmu-mosei 是一个多模态情感和情感分析数据集，由 youtube 上的23,454个电影评论视频片段组成。我们采取的策略与先前发表的著作[26,30]是一致的。

在我们提出的 cm-bert 模型中使用的预先训练的 bert 模型是未分解的 bertbaseversion，它由12个变压器块组成。为了防止过度拟合，我们将编码器层的学习率设置为0.01，其余层的学习率设置为2e-5。为了获得更好的性能，我们冻结了嵌入层的参数。对于 cm-bert 模型的训练，我们将批量大小和最大序列长度分别设置为24和50，最大序列长度设置为3。另外，我们使用了带损失函数的优化器。

音频特征和多模式对齐

在这项工作中，我们使用 COVAREP[4]来提取音频特征。每个分段由12个mel-频率倒谱系数(MFCCs)、音高和分段特征、声门源参数、峰值斜率参数和最大色散系数组成的74维特征向量表示。为了获得单词级别的对齐特性，在[26]之后，我们使用 P2FA[31]来获得每个单词的时间步长。然后在相应的单词时间步内对音频特征进行平均。为了与文本模态的序列长度保持一致，采用零向量对音频序列进行填充。

基准线

我们比较了 cm-bert 和以前的模型在多模态情感分析任务上的表现。我们比较的模型如下:

融合 lstm (ef-lstm)将多通道输入连接起来，并使用单个 lstm 来学习上下文信息。

Lmf [17]低阶多模态融合(low-rank multimodal fusion，lmf)是利用低阶权值张量使多模态融合有效而不影响性能的一种方法。它不仅大大降低了计算复杂度，而且显著提高了性能

Mfn [33]记忆融合网络(mfn)主要由 lstms 系统、 delta 记忆注意网络和多视点选通记忆组成，它明确地反映了神经系统结构中的相互作用，并随时间不断地对它们进行建模

多重注意回归网络(marn)利用多重注意块和长短期混合记忆来发现不同形式之间的相互作用

Rmnn [16]递归多级融合网络(rmnn)将多级融合过程与递归神经网络相结合，建立了时间和模式间相互作用的模型。

Mfm [27]多模态分解模型(multimodal factorization model，mfm)可以将多模态表示分解为多模态识别因子和特定模态生成因子，它们可以互相帮助因素侧重于学习跨多模态数据和标签的联合信息子集。

Mctn [20]多模态循环翻译网络(mctn)通过在不同模式之间进行转换来学习鲁棒的联合表示，它只能在测试过程中使用文本模态数据，从而产生新的最新结果。

多模态变换器(mult [26] mult)利用多模态序列之间的交互作用，跨越不同的时间步长，并潜在地适应从一个模态到另一个模态的流，是目前 mosi 数据集上最先进的方法。

T-bert [5]来自 transformers (bert)的双向编码器表示，仅使用文本模态信息对其进行微调

结果和讨论

在这一部分，我们展示了我们的实验结果，并讨论了我们的方法和以前的工作之间的区别。此外，我们还对多模态注意进行了可视化，并讨论了引入音频模态信息后注意矩阵的变化。

结论

本文提出了一种新的多模态情感分析模型——CM-Bert(CM-Bert)。与以往的研究不同，我们将训练好的bert模型从单模态扩展到多模态。我们引入了语音模态信息来帮助文本模态对bert进行微调，从而得到更好的表示。MASK多模态注意作为CM-Bert模型的核心单元，通过文本与听觉模态之间的互动，动态调整词语的权重。实验结果表明，CM-Bert对 CMU-MOSI数据集和CMU-MOSEI数据集的性能有明显的改善。此外,我们还对注意力矩阵进行了可视化处理，可以清楚地显示出多模态注意在引入听觉模态后，能够合理地调整单词权重。事实上，CM-Bert也适用于文本和视频情态，它可以灵活地适用于两种以上的情态。在未来的研究中，由于现实世界中大多数的多模态数据通常是不对齐的，我们更愿意探讨如何利用神经网络对不同的模态数据进行对齐，以及如何利用预先训练好的模型从未对齐的多模态数据中学习更好的表示。

CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis--文献笔记和翻译相关推荐

Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...
使用BERT的两层encoder实现tweet sentiment extraction
文章目录使用BERT的两层encoder实现tweet sentiment extraction 1.前言 1.1 Required 1.2 分析给定的数据 2. 模型构造 2.1 数据清洗 2.2 ...
文献记录(part19)--Cross modal similarity learning with active queries
学习笔记,仅供参考,有错必纠关键词:主动学习;跨模态相似学习;度量学习文章目录 Cross modal similarity learning with active queries 摘要简介 ...
Transformer课程第7课Gavin大咖 BERT文本分类-BERT Fine-Tuning
Transformer课程第7课Gavin大咖 BERT文本分类-BERT Fine-Tuning Part III - BERT Fine-Tuning 4. Train Our Classifi ...
2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis
abstract 多模态情感分析是一个新兴的研究领域,旨在使机器能够识别.解释和表达情感.通过跨模态互动,我们可以得到说话者更全面的情绪特征.来自Transformers(BERT)的双向Encode ...
BERT模型—1.BERT模型架构
文章目录引言一.Bert模型总览二.注意力机制 1.Seq2seq中的注意力操作 2.注意力的一般形式(三步曲) 3. transformer中的自注意力机制-Self.Attention 4. ...
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence 论文总结
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence <通过构建辅助句利用 ...
Bert讲解+基于Bert的情感多分类任务(超高精度)
NLP Project Sentiment Analysis 实验流程: 1.数据集介绍 2.什么是Transformer? 3.Bert的介绍 4.代码和输出分析 5.结论 6.Readme 稍微说 ...
Text Data for Trading—Sentiment Analysis 代码复现（二）
Test Data for Trading-Sentiment Analysis系列文章是对<Machine Learning for Algorithmic Trading>第十四章内容 ...

CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis--文献笔记和翻译