abstract

多模态情感分析是一个新兴的研究领域，旨在使机器能够识别、解释和表达情感。通过跨模态互动，我们可以得到说话者更全面的情绪特征。来自Transformers(BERT)的双向Encoder表示是一种有效的预训练语言表示模型。通过微调，它在11个自然语言处理任务，如问题回答和自然语言推理上获得了新的最先进的结果。然而，以往的大多数工作都只基于文本数据对BERT进行微调，如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中，我们提出了跨模态BERT(CM-BERT)，它依赖于文本和音频模态的交互作用来微调预先训练过的BERT模型。masked 多模态注意作为CM-BERT的核心单元，被设计为通过结合文本和音频模态的信息来动态调整单词的权重。我们在公共多模态情绪分析数据集CMU-MOSI和CMU-MOSEI上评估了我们的方法。实验结果表明，与以往的基线和BERT的仅文本微调相比，它显著提高了所有指标的性能。此外，我们可视化了掩蔽的多模态注意，并证明了它可以通过引入音频模态信息来合理地调整单词的权重。

1. Introduction

随着通信技术的进步和Facebook和YouTube等社交平台的普及，人们每天都会产生大量具有丰富情感信息的多模态数据。情感在人类的人际交往中起着至关重要的作用。情绪分析作为人机交互的关键技术之一，影响着人工智能的发展，已广泛应用于许多应用场景，如人机对话、自动驱动等。文本是我们日常生活中的一种基本的方式，它通过词语、短语和关系来表达情感。在过去的几年里，文本情绪分析取得了很多成就，例如，TextCNN 在针对句子级分类任务的预训练词向量之上进行训练，并在 7 个任务中的 4 个任务上改进了最新技术。

然而，在文本模态中所包含的信息是有限的。在某些情况下，很难通过文本信息来准确地判断情绪。在日常生活中，文本模式往往伴随着音频模式。音频模态中包含的情感信息的特点是语音特征的变化，例如音高、能量、发声力度、响度和其他与频率相关的度量。文本和音频模式之间的交互作用可以提供更全面的信息和捕捉更多的情感特征。图1是文本和音频模态之间模态交互的示例。“But you know he did it”这句话的情绪是模棱两可的，它可以在不同的情况下表达各种情绪。根据这些话来确定这句话的情绪是具有挑战性的。在引入相应的音频信息后，由于说话者的声音较低和啜泣，不难预测这句话的情绪是negative。为弥补单模态的不足，多模态情感分析作为一个日益广泛的情感计算领域受到了广泛的关注。多模态融合是通过模态间的相互作用来结合来自不同模态的信息。由于融合信息可以提供更多的情感特征，它往往会提高整体结果或决策的准确性。

最近，来自 Transformers (BERT) 的双向编码器表示作为一种高效的预训练语言模型，在 11 项自然语言处理任务上取得了最新成果，包括问答、自然语言推理等。与传统的预训练语言模型不同，BERT 通过对所有层的左右上下文进行联合调节来生成上下文词表示。因此，单词的表示可以描述上下文内容。微调预训练的 BERT 在大量句子级和token级任务上取得了高效的表现。然而，大多数微调策略仅基于文本模态设计，如何将其从单模态扩展到多模态并获得更好的表示仍然是一个悬而未决的研究问题。

在本文中，我们提出了一种跨模态 BERT (CM-BERT)，它引入了音频模态的信息，以帮助文本模态微调预训练的 BERT 模型。作为 CM-BERT 的核心单元，masked multi-modal attention 旨在通过跨模态交互动态调整词的权重。为了证明我们方法的有效性，我们在公共多模态情感分析数据集 CMU-MOSI 和 CMU-MOSEI 上对其进行了评估。实验结果表明，CM-BERT 在所有指标上都比以前的基线和 BERT 的纯文本微调显着提高了性能。本文的主要贡献可以总结如下：

我们提出了一种跨模态 BERT (CM-BERT) 模型，该模型引入了音频模态的信息，以帮助文本模态微调预训练的 BERT 模型。
我们设计了一种新颖的屏蔽多模态注意力，可以通过文本和音频模态之间的交互动态调整单词的权重。
我们展示了我们的模型仅使用文本和音频模态数据在公共情绪基准数据集 CMU-MOSI 和 CMU-MOSEI 上创建了新的最先进的多模态情感分析结果。

2. Related work

2.1 Multi-modal Sentiment Analysis

多模态情绪分析是自然语言处理中一个新的流行研究领域。考虑到不同模式之间的内部相关性，多模态融合可以捕获更有效的情绪特征来进行情绪分析。多模态融合的难点在于如何有效地集成多模态信息。迄今为止，融合策略主要有两种类型：特征融合和决策融合。特征融合是通过连接和其他方式来融合不同模式的特征。由于融合特征包含了更多的情感信息，因此它可以明显地提高性能。

A semi-supervised multi-path generative neural network approach

结合了文本和音频模态的特征，设计了一个半监督的多路径生成神经网络来更好地推断情绪。
Tensor Fusion Network for Multi-modal Sentiment Analysis.

为了获得更好的多模态信息表示，提出了一种利用多模态特征乘积的多模态融合网络来表示多模态融合信息。
Efficient Low-rank Multi-modal Fusion With Modality-Specific Factors

与张量融合网络不同，Liu等人采用低秩融合的低秩多模态融合方法来提高效率，实验结果表明，它不仅降低了参数，而且提高了情绪分析性能。
Context-dependent sentiment analysis in user-generated videos.

这些话语是相互关联的，而且可以相互影响。考虑到话语之间的关系，玉兰等人引入了一个语境长期短期记忆网络，可以利用话语水平的语境信息来捕捉更多的情绪特征。在决策融合过程中，对不同模式的特征进行了独立的检验和分类，并将其结果融合为决策向量，得到最终的决策。
Towards efficient multi-modal emotion recognition.

Dobrišek等人将权重和加权乘积规则用于音视频决策级融合，实验结果表明加权乘积的性能优于权重和。

随着注意机制的普及，它在多模态融合中起着越来越重要的作用。

Multi-attention recurrent network for human communication comprehension

Zadeh等人提出了一种多注意力循环网络，它可以通过使用多注意力块来发现不同模式之间的交互作用
Contextual inter-modal attention for multi-modal sentiment analysis

Ghosal等人提出了一个多模态多话语双模态注意框架，利用注意多模态表示来学习其中的贡献特征。
Multimodal Transformer for Unaligned Multimodal Language Sequences.

Tsai等人在他们的多模态转换模型中使用了定向成对的跨模态注意，它可以关注跨不同时间步长的多模态序列之间的相互作用，并潜在地将流从一种模态调整到另一种模态。

2.2 Pre-trained Language Model

近年来，预训练的语言模型在自然语言处理中得到了广泛的应用，它在一系列句子级和标记级任务（如问答和命名实体识别）上提高了性能。Peters等人介绍了语言模型嵌入（ELMo），它使用深度双向语言模型在大型文本语料库上进行了预训练。实验结果表明，它可以显着提高六个任务的性能。之后，为了学习通用表示，Radford 等人。提出了Generative Pre-trained Transformer (GPT)。与之前的方法相比，他们在微调期间利用了任务感知输入转换，并且可以很好地转移以最小的架构进行更改。与 ELMo 和 GPT 不同，来自 Transformers 的双向编码器表示（BERT）是一种掩码语言模型，它通过使用两个无监督预测任务 Masked LM 和 Next Sentence Prediction 进行预训练。微调预训练的 BERT 明显优于其他预训练的语言模型，它在 11 项自然语言处理任务上创造了新的最先进的结果。

3. Methodology

在本文中，我们提出了跨模态BERT(CM-BERT)，它可以结合来自文本和音频模态的信息来微调预先训练过的BERT模型。采用掩蔽多模态注意作为其核心，通过跨模态交互作用来动态调整单词的权重。

3.1 Problem Definition

给定一个word-piece token的文本序列:

2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis相关推荐

科大讯飞2020完整事件抽取系统(bert+数据集)
科大讯飞2020完整事件抽取系统(bert+数据集) 事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测.文本摘要.自动问答.事理图谱自动构建等领域有着重要应用.在真实新闻中,由于文本中 ...
使用BERT的两层encoder实现tweet sentiment extraction
文章目录使用BERT的两层encoder实现tweet sentiment extraction 1.前言 1.1 Required 1.2 分析给定的数据 2. 模型构造 2.1 数据清洗 2.2 ...
文献记录(part19)--Cross modal similarity learning with active queries
学习笔记,仅供参考,有错必纠关键词:主动学习;跨模态相似学习;度量学习文章目录 Cross modal similarity learning with active queries 摘要简介 ...
Transformer课程第7课Gavin大咖 BERT文本分类-BERT Fine-Tuning
Transformer课程第7课Gavin大咖 BERT文本分类-BERT Fine-Tuning Part III - BERT Fine-Tuning 4. Train Our Classifi ...
BERT模型—1.BERT模型架构
文章目录引言一.Bert模型总览二.注意力机制 1.Seq2seq中的注意力操作 2.注意力的一般形式(三步曲) 3. transformer中的自注意力机制-Self.Attention 4. ...
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence 论文总结
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence <通过构建辅助句利用 ...
Bert讲解+基于Bert的情感多分类任务(超高精度)
NLP Project Sentiment Analysis 实验流程: 1.数据集介绍 2.什么是Transformer? 3.Bert的介绍 4.代码和输出分析 5.结论 6.Readme 稍微说 ...
Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记
GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...
Text Data for Trading—Sentiment Analysis 代码复现（二）
Test Data for Trading-Sentiment Analysis系列文章是对<Machine Learning for Algorithmic Trading>第十四章内容 ...

2020 CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis