论文：CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Network

论文链接：CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Network - ACL Anthologyhttps://aclanthology.org/2021.acl-long.412/

论文、动机及相关工作介绍

该论文发布在ACL-2021，由浙江省脑机协作智能关键实验室、计算机科学与技术学院等共同发表。该论文主要研究解决模态缺失情况下的多模态情感分析任务。

MSA任务主要的挑战在于模态融合，又因为模态融合过程中可能存在模态缺失的问题，从而导致预测任务效果不好。该论文提出了基于couple learning的双向交互模型——the coupled-translation fusion network (CTFN)。该模型主要在CMU-MOSI和MELD（Sentiment）两个benchmark上进行实验证明。通过与baselines进行对比，显示了该模型优于SOTA模型。

Baseline

现有多模态情感融合架构包含：translation-based、non-translation based model.。

Translation-based:GEM-LSTM、bc-LSTM、MELD-base、CHFusion、MMMU-BA.

Non-translation based model:seqseq2sent、MCTN、TransModality.

下图为本论文提出的模型与不同baseline的对比：

模型方法介绍

该论文的模型是一个分层体系结构，主要由3个CTFN结合构成的Coupled-Translation Fusion Network；以及一个Multimodal convolutional fusion block构成。总体架构如下图所示：

（1）Coupled-Translation Fusion Network

该模块的整体架构如下图，它主要由3个CTFN构成，其中CTFN旨在融合双向翻译过程中的信息（进行双向跨模态的关联）。CTNF模型还包含有the cyclic consistency constraint，该约束提高了Translation的性能，并丢掉了Transformer的decoder使其变得更加轻便。主要工作流程包含the primal process和the dual process两个流程。the primal process是模态的正向转换，如：audio->video表示为TranA→V (Xa,Xv);the dual process则是反向转换TranV →A(Xv, Xa)。

注：Xa，Xv，Xt分别表是三种话语级别的模态（下面介绍一个CTFN的转换）

The primal process

将Xa输入a densely connected layer得到一个线性转换Xa RTa×La，将Xa直接传入translation process得到Xv'= TranA→V (Xa, Xv),Xv用于分析Xv和Xv'之间的不同。然后Xv'通过TranV →A得到Xa'=TranV→A(Xv',Xa)。

The dual process

Xv ∈ RTv×Lv捕获基于输入的Xv ∈ RTv×dv (注：Tv为video话语的数量，Lv表示a densely connected layer的输出维度，dv表示单模态特征维度)，Xa'=TranV→A(Xv',Xa)∈ RTa×La和重构表示Xv'= TranA→V (Xa, Xv)∈ RTv×Lv。

其本质上，TranA→V和TranV→A是由几个sequential encoder layers实现的。在本文作者假设编码的中间层包含了跨模态的融合信息，并能有效的平衡两个模态的贡献。因此，中间编码器层输出的TranA→V[L/2]和TranV→A[L/2]代表多模态融合知识，其中L为层数，当L为奇数时，则L=L+1。对于模型奖励the primal process的直接奖励rp= ||Xa − TranV→A (Xv')||F和the dual process的相关奖励rd = ||Xv − TranA→V (Xa')||F，其表明真实数据和重建输出的翻译之间的相似性。为简单起见，将两个过程的奖励通过线性模块融合rall=αrp+(1-α)rd。其中α被用来平衡the primal process和the dual process之间的贡献。其损失函数如下：

其中，lA→V(Xa，Xv)和lV→A(Xv，Xa)分别表示the primal process和the dual process的训练损失，lA↔V表示bi-directional translator unit的损失。lA↔V则为couple learning模型的the cycle-consistency constraint。循环一致性约束指融合前向和后向的循环。这种直接引入循环一致性约束在CTFN中并不能有效的将couple learning模型中的the primal process和the dual process任务联系起来，从而不能很好地解决模态缺失问题。因此作者提通过使用参数α平衡前向和后向循环一致性的贡献来平衡原始循环一致性的约束，从而得到更灵活的循环一致性。

（2）Multimodal convolutional fusion block

该模块的流程图解如下。

基于CFTN每个模态作为（M-1）次源时刻，即意味着每个模态需要超（M-1）个方向转换。{Tran modality_source→modality_m} m∈{1,M},M为模态的总数。将两个跨模态中间关联Tran audio→vedio[L/2]和Tran audio→text[L/2]沿时间域连接到一个表示单元中,其时间序列都相同（Tt=Tv=Ta）,因此连接的大小为Ta × (Lv + Lt):

随后作者采用1维的temporal convolutional layer去探索局部模型。

其中，Kcontat为卷积核的大小，Ld为跨模态积分维数的长度。

（3）Hierarchical Architecture

基于CTFN和多模态卷积融合网络提出了多模态双向翻译分层体系架构模型，从而实现双模态的融合嵌入。例：如果有M个模态，则有 $C^{_{M}^{2}}$ 个双模态嵌入。本论文根据源模态（source/guidance）的贡献， the modality-guidance translations可以表示为：TranT←A→V=[TranA→V[L/2]，TranA→T{L/2]]，TranT←V→A=[TranV→A[L/2]，TranV→T[L/2]],TranV←T→A=[TranT→A[L/2]，TranT→V[L/2]];根据目标模态可以表示为：TranT→A←V=[TranV→A[L/2]，TranT→A{L/2]]，TranT→V←A=[TranA→V[L/2]，TranT→V{L/2]]，TranA→T←V=[TranA→T[L/2]，TranV→T{L/2]]。随后，多模态卷积网络利用和source/target(源模态/目标模态)相关联的the modality-guidance translations间的显示局部交互。

该模型总共有“12+1”个损失结构——3个CTFN，每个含有4个训练损失（(primal & dual translator training loss）；1个分类损失（classifification loss）。为了平衡primal和dual的贡献引入超参数α，3个CTFN公用同一个α。分类损失用于训练对3个CTFN输出进行分类。

实验

该模型只在CMU-MOSI和MELD（Sentiment）数据集上进行了实验证明。在CMU-MOSI数据集上CTFN超过SOTA--TranModality模型4.5，在MELD数据集上CFTN提升了0.78。在三模态融合任务上CTFN比SOTA--TranModality模型提升了0.06，且TranModality需要4 encoders and 4 decoders，而CTFN只需要6个encoder。

对于模态缺失问题，本文提出了与基于翻译的序列模型seqseq2sent分别再三模态、双模态（缺失一个模态）、单模态（缺失两个模态）情况下仅在CMU-MOSI数据集上进行对比实验。结果如下：

除此之外，作者还进行了消融实验来探究模态间的翻译方向、翻译层数、翻译的链接策略。

其中text->audio和text->video效果比audio->text、video->text更好。audio->video和video->audio效果相差不大。翻译层数则在CMU-MOSI上5层最佳，MELD上1层最佳。对于连接策略，基于音频的目标连接[(T→A)⊕(V→A)]的表现明显优于[(A→T)⊕(A→V)]，并且具有很大的边际。类似地，基于视频的目标连接[(T→V)⊕(A→V)]比[(V→A)⊕(V→T))效果更好。

本文还提出了单个模态的输入，其流程如下：

注：个人见解仅供参考。

多模态情感分析论文解读——CTFN模型相关推荐

近3三年多模态情感分析论文及其代码
排行榜: 在CMU-MOSE数据集排行榜 CMU-MOSEI Benchmark (Multimodal Sentiment Analysis) | Papers With Code 在MOSI数据集 ...
多模态情感分析研究综述论文笔记
这里写目录标题论文标题引言论文学术结构 1.总体介绍 2.介绍叙述式多模态情感分析 3.介绍交互式多模态情感分析 4.多模态情感分析存在的交互建模科学问题 5.结束语阅读论文初体验思维导图 ...
每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析
[论文速递]EMNLP2022-随机模态缺失情况下的多模态情感分析 [论文速递] EMNLP2022-EMMR:Mitigating Inconsistencies in Multimodal Sen ...
最新最全论文合集——多模态情感分析
AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现. ...
INTERSPEECH2020 语音情感分析论文之我见
本文分享自华为云社区<INTERSPEECH2020 语音情感分析论文总结一>,原文作者:Tython. 1. Learning Utterance-level Representatio ...
读文章笔记（八）：多模态情感分析数据集整理
读文章笔记(八):多模态情感分析数据集(Multimodal Dataset)整理双模态(一般是文本.图像和语音的两两组合) 三模态(一般是文本.图像加语音) 作者:骑着白马的王子地址:https ...
【NLP】文献翻译5——用自我监督的多任务学习学习特定模式的表征，用于多模态情感分析
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal S ...
读文章笔记（七）：赛尔笔记 | 多模态情感分析简述
读文章笔记(七):多模态情感分析简述相关任务概览数据集和方法面向图文的情感分类任务面向图文的方面级情感分类任务赛尔笔记 | 多模态情感分析简述 https://zhuanlan.zhihu. ...

多模态情感分析论文解读——CTFN模型

论文、动机及相关工作介绍

模型方法介绍

实验

多模态情感分析论文解读——CTFN模型相关推荐

最新文章

热门文章