论文标题:Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism

来源:NLPCC 2021

论文链接:https://arxiv.org/abs/2109.15153

动机

随着视频通信的普及,多模态场景分析受到了广泛关注。在目前的多模态反讽识别中,存在着一个关键的问题:如何对话语中存在的模态间的不一致性进行建模(例如,文本表达的是赞美,而声学音调表示的是抱怨)。而对于这个问题并没有人进行过深入研究。

因此,作者提出来了一个基于对比注意机制的反讽检测模型(ConAttSD),该模型利用对比注意机制来提取多模态反讽检测的模态间的不一致性。

Contributions

  1. 设计了一个基于对比注意的反讽检测(ConAttSD)模型来检测视频会话中的讽刺。
  2. 提出一种模态间对比注意机制来提取对比特征,以表示模态间的不一致性
  3. 使用GRU和Transformers 来对对话中的顺序语境和说话人进行建模。

Methods

作者提出的ConAttSD模型,可分为三个部分顺序上下文编码器基于对比注意的编码器线性解码器

其中顺序上下文编码器动态捕获随对话传输的模态内影响,基于对比注意的编码器提取会话中模态之间的不一致信息, 然后通过情态间对比注意机制,线性解码器将讽刺标签分配给话语,标签格式为(1: sarcasm; 0: no sarcasm)

模型结构图如下所示:

下面先介绍模态特征提取采用的方法,然后再分别详细地介绍顺序上下文编码器、基于对比注意的编码器、线性解码器。

模态特征提取

文本模态提取:使用预训练模型BERT提取一个768维的文本特征向量。

音频特征提取:使用Librosa库提取包括MFCC等在内的声学特征,然后取平均值得到一个298维的音频特征向量。

视觉特征提取:使用预训练的ResNet-152提取视频帧的视觉特征,对所有帧的视觉特征取平均值得到一个2048维的视觉特征向量。

Sequential Context Encoder

在顺序上下文编码器中有两个子编码器:基于GRU的编码器和基于Transformers的编码器。其中基于GRU的编码器使用GRU来提取顺序上下文信息,基于Transformers的编码器则用于输出GRU的信息。

基于GRU的编码器中,对于话语,为了更好的提取话语的顺序上下文信息,作者定义全局状态和说话人状态,而且通过下面的公式对全局状态和说话人状态进行迭代更新。

其中,是使用双重影响网络的第i个话语的上下文表示,包括模态内和模态间信息。

基于Transformers的编码器中,用Transformer提取了更有效的顺序上下文信息,在捕获上下文信息依赖方面表现出了比RNN模型优越的性能。Transformer由B个相同块的堆栈组成,每个块有两个子层(包括一个多头自注意力机制和一个多层感知器),具有残差连接,在本文中,作者使用一个Transformer来捕获全局状态(

【论文阅读】Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism相关推荐

  1. 【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别

    Multi-Modal Sarcasm Detection 图文反讽识别 题目:Multi-Modal Sarcasm Detection in Twitter with Hierarchical F ...

  2. 论文阅读 - DeepSBD: A Deep Neural Network Model with Attention Mechanism for Social Bot Detection - CCFA

    论文链接:http://www.abulaish.com/uploads/TIFS21.pdf 目录 摘要 1 绪论 1.1  OSN和Socialbots 1.2 背景和动机 1.3我们的贡献 2 ...

  3. 论文阅读:Salient Object Detection: A Benchmark

    论文阅读:Salient Object Detection: A Benchmark 南开大学的显著性检测benchmark 链接:http://mmcheng.net/zh/salobjbenchm ...

  4. 论文阅读笔记——DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects)

    论文阅读笔记--DLT-Net: Joint Detection of Drivable Areas, Lane Lines, and Traffic Objects 论文简介 1 引言 2 DLT- ...

  5. 论文阅读ICLR2020《ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS》

    论文阅读ICLR2020<ADAPTIVE STRUCTURAL FINGERPRINTS FOR GRAPH ATTENTION NETWORKS> 摘要 确定节点相似性时图的结构 Ad ...

  6. 论文阅读和分析: “How Attentive are Graph Attention Networks?”

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊. 数据集 1.脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1. ...

  7. 论文阅读:Visual Semantic Localization based on HD Map for AutonomousVehicles in Urban Scenarios

    题目:Visual Semantic Localization based on HD Map for Autonomous Vehicles in Urban Scenarios 中文:基于高清地图 ...

  8. 显著性检测论文解析2——Visual Saliency Detection Based on Bayesian Model, Yulin Xie, ICIP2011

    最近感觉玩的差不多了,现在准备好好学习了,所以就又开始随便写点,就当是自己学习的笔记.这次要说的的是卢湖川的Visual Saliency Detection Based on Bayesian Mo ...

  9. 【论文阅读】Siamese Neural Network Based Few-Shot Learning for Anomaly Detection in Industrial Cyber-Physi

    文章目录 Abstract 1. Introduction 2. Related Work 2.1 Anomaly Detection techniques for CPS 2.2 Few-Shot ...

  10. [论文阅读] Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net

    论文地址:https://arxiv.org/abs/2108.07851 发表于:Arxiv 2021.08 Abstract 现有的显著目标检测(SOD)方法主要依靠基于CNN的U型结构,通过跨层 ...

最新文章

  1. Problem 62 Java中的final关键字?
  2. JSP 获得服务器时间和浏览器时间
  3. 数万开发者在追的直播,进大咖群和大佬聊天,你只差这个机会!
  4. 芯片行业相关公司及就业岗位汇总
  5. 桌面点击:右键点击-显示设置,提示“该文件没有与之关联的程序来执行该操作“解决方法总结
  6. 旧电脑很卡怎么重新安装电脑系统?
  7. 关于Python爬虫常见的面试题
  8. html左侧悬浮音乐插件,固定在网页底部的HTML5音乐播放器插件代码
  9. 自编剧本——爱上坑神姐姐的少女(很H很暴力)
  10. Mac 卸载/安装 maven
  11. TLS certificate verification has been disabled!
  12. 全球顶级白帽子:美女、通缉犯、公务员
  13. 【DEBUG】2021-06-27 不定期的自我检讨002
  14. 懒猴子CG数据模型配置2分钟教程
  15. 杠杆股票买哪些股票容易出现涨停板?
  16. 脑机接口基础学习03-认识及创建Epoch
  17. html文件必须由特定的程序进行编译和执行才能显示,这种编译器就是,计算机基础知识题库...
  18. 宇宙探路者:揭秘NASA在火星及更远太空上的人工智能大计划
  19. 打破传统|自动化打磨去毛刺-柔性力控技术
  20. 解码百度Apollo智能车联开放平台,受益的不止车企

热门文章

  1. 【喷嚏图卦】 委内瑞拉崩溃的背后:渐行渐近的石油危机
  2. spanning tree protocol
  3. vsCode自动保存与浏览器自动刷新
  4. CodeLite12.0.0 MinGW 8.1.0 安装配置
  5. codelite14中文语言包_CodeLite中文语言包
  6. 2021-2027全球与中国环卫云平台市场现状及未来发展趋势
  7. [渝粤教育] 平顶山学院 学前心理学 参考 资料
  8. Oracle SQL 批量修改资料库邮箱后缀名称
  9. CSS3的癫疯展示——3D立方体动画(你要的全景视图来了)
  10. Web前端页面访问权限控制总结