【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism

论文标题：Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism

来源：NLPCC 2021

论文链接：https://arxiv.org/abs/2109.15153

动机

随着视频通信的普及，多模态场景分析受到了广泛关注。在目前的多模态反讽识别中，存在着一个关键的问题：如何对话语中存在的模态间的不一致性进行建模（例如，文本表达的是赞美，而声学音调表示的是抱怨）。而对于这个问题并没有人进行过深入研究。

因此，作者提出来了一个基于对比注意机制的反讽检测模型(ConAttSD)，该模型利用对比注意机制来提取多模态反讽检测的模态间的不一致性。

Contributions

设计了一个基于对比注意的反讽检测（ConAttSD）模型来检测视频会话中的讽刺。
提出一种模态间对比注意机制来提取对比特征，以表示模态间的不一致性
使用GRU和Transformers 来对对话中的顺序语境和说话人进行建模。

Methods

作者提出的ConAttSD模型，可分为三个部分顺序上下文编码器、基于对比注意的编码器和线性解码器。

其中顺序上下文编码器动态捕获随对话传输的模态内影响，基于对比注意的编码器提取会话中模态之间的不一致信息，然后通过情态间对比注意机制，线性解码器将讽刺标签分配给话语 $u_{i}$ ，标签格式为(1: sarcasm; 0: no sarcasm)

模型结构图如下所示:

下面先介绍模态特征提取采用的方法，然后再分别详细地介绍顺序上下文编码器、基于对比注意的编码器、线性解码器。

模态特征提取

文本模态提取：使用预训练模型BERT提取一个768维的文本特征向量。

音频特征提取：使用Librosa库提取包括MFCC等在内的声学特征，然后取平均值得到一个298维的音频特征向量。

视觉特征提取：使用预训练的ResNet-152提取视频帧的视觉特征，对所有帧的视觉特征取平均值得到一个2048维的视觉特征向量。

Sequential Context Encoder

在顺序上下文编码器中有两个子编码器：基于GRU的编码器和基于Transformers的编码器。其中基于GRU的编码器使用GRU来提取顺序上下文信息，基于Transformers的编码器则用于输出GRU的信息。

在基于GRU的编码器中，对于话语 $u_{i}$ ，为了更好的提取话语的顺序上下文信息，作者定义全局状态 $g_{i}^{m}$ 和说话人状态 $q_{s(u_{i}),i}^{m}$ ，而且通过下面的公式对全局状态和说话人状态进行迭代更新。

其中， $c_{i}^{m}$ 是使用双重影响网络的第i个话语的上下文表示，包括模态内和模态间信息。

在基于Transformers的编码器中，用Transformer提取了更有效的顺序上下文信息，在捕获上下文信息依赖方面表现出了比RNN模型优越的性能。Transformer由B个相同块的堆栈组成，每个块有两个子层(包括一个多头自注意力机制和一个多层感知器)，具有残差连接，在本文中，作者使用一个Transformer来捕获全局状态 $g_{i}^{m}$ (

【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism相关推荐

【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别
Multi-Modal Sarcasm Detection 图文反讽识别题目:Multi-Modal Sarcasm Detection in Twitter with Hierarchical F ...
论文阅读 - DeepSBD: A Deep Neural Network Model with Attention Mechanism for Social Bot Detection - CCFA
论文链接:http://www.abulaish.com/uploads/TIFS21.pdf 目录摘要 1 绪论 1.1 OSN和Socialbots 1.2 背景和动机 1.3我们的贡献 2 ...
论文阅读：Salient Object Detection: A Benchmark
论文阅读:Salient Object Detection: A Benchmark 南开大学的显著性检测benchmark 链接:http://mmcheng.net/zh/salobjbenchm ...
论文阅读笔记——DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects)
论文阅读笔记--DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects 论文简介 1 引言 2 DLT- ...
论文阅读ICLR2020《ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS》
论文阅读ICLR2020<ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS> 摘要确定节点相似性时图的结构 Ad ...
论文阅读和分析： “How Attentive are Graph Attention Networks?”
下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊. 数据集 1.脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1. ...
论文阅读：Visual Semantic Localization based on HD Map for AutonomousVehicles in Urban Scenarios
题目:Visual Semantic Localization based on HD Map for Autonomous Vehicles in Urban Scenarios 中文:基于高清地图 ...
显著性检测论文解析2——Visual Saliency Detection Based on Bayesian Model, Yulin Xie, ICIP2011
最近感觉玩的差不多了,现在准备好好学习了,所以就又开始随便写点,就当是自己学习的笔记.这次要说的的是卢湖川的Visual Saliency Detection Based on Bayesian Mo ...
【论文阅读】Siamese Neural Network Based Few-Shot Learning for Anomaly Detection in Industrial Cyber-Physi
文章目录 Abstract 1. Introduction 2. Related Work 2.1 Anomaly Detection techniques for CPS 2.2 Few-Shot ...
[论文阅读] Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net
论文地址:https://arxiv.org/abs/2108.07851 发表于:Arxiv 2021.08 Abstract 现有的显著目标检测(SOD)方法主要依靠基于CNN的U型结构,通过跨层 ...

【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism

动机

Contributions

Methods

模态特征提取

Sequential Context Encoder

【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism相关推荐

最新文章

热门文章