Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

1、基本信息

  • 作者:Yan Ling, Jianfei Yu, Rui Xia

  • 会议:ACL 2022

  • 单位:南京理工大学

2、主要框架

  • 任务:Multimodal Aspect-Based Sentiment Analysis(MABSA)

    1. Multimodal Aspect Term Extraction(MATE)

      • input: text-image pair
      • output: aspect terms(mentioned in the text)
    2. Multimodal Aspect-oriented Sentiment Classification(MASC)
      • input: extracted aspect term
      • output: sentiment class
    3. Joint Multimodal Aspect-Sentiment Analysis(JMASA)【如下图1所示】
      • input: text-image pair
      • output: aspect-sentiment pairs

  • 问题

    1. 现有方法要么分别使用预训练的视觉、文本模型,忽略了模态间的对齐关系
    2. 要么使用经通用预训练任务的视觉-语言模型,不足以识别细粒度的aspect、opinion和模态间的对齐关系
  • 方法
    • A task-specific Vision-Language Pre-training framework for MABSA(VLP-MABSA)

      • BART-based generative multimodal architecture
      • 所有预训练任务和下游任务都可以通用的(unified)多模态encoder-decoder 架构
    • 3类task-specific 预训练任务
      1. Language

        • Masked Language Modeling(MLM)
        • Textual Aspect-Opinion Extraction(AOE)
      2. Vision
        • Masked Region Modeling(MRM)
        • Visual Aspect-Opinion Generation(AOG)
      3. Multimodal
        • Multimodal Sentiment Prediction(MSP)
  • 实验结果:超过SOTA

3. VLP-MABSA

模型骨干是BART,a denoising autoencoder for sequence-to-sequence models。将其扩展为同时编码文本和视觉输入,可解码不同模态的预训练任务或下游任务。

3.1. Feature Extractor

  1. Image Representation:用Faster R-CNN抽取的mean-pooled convolutional features作为视觉特征。

    1. 抽取并取置信度前36个regions,即R={r1,...,r36}R=\{r_1, ..., r_{36}\}R={r1,...,r36},并保留其semantic class distribution,记为q(v)q(v)q(v)(用于MRM)。
    2. 每个region的视觉特征向量的维度本来是2048,即ri∈R2048r_i \in \mathbb R^{2048}riR2048,为了和文本特征一致,再用linear transformation layer投影成d维向量,即V∈Rd×36V \in \mathbb R^{d \times 36}VRd×36
  2. Text RepresentationEmbedding Matrix
    1. 句子分词成tokens,E={e1,...,eT}E=\{e_1, ..., e_T \}E={e1,...,eT}记录其下标序列,TTT是文本长度。
    2. 从Embedding Matrix中取相应tokens的embeddings,即W={w1,...,wT}W=\{ w_1, ..., w_T\}W={w1,...,wT}

3.2. BART-based Generative Framework

  1. Encoder:多层双向Transformer

    1. 在编码器的输入端,分别用 和 ,和标识visual features,textual input的起始和结束。
    2. XXX表示concatenated的多模态输入。
  2. Decoder:多层单向Transformer
    1. 在解码端的输入端,因为所有预训练任务共享同样的解码器,为标识不同预训练任务,分别都用两个special tokens作为解码器输入的开始。

      • <bos><mlm>, <bos><aoe>, <bos><mrm>, <bos><aog>和 <bos><msp>分别是5个预训练任务的special tokens。

3.3. Pre-training Tasks

  • Original dataset: MVSA-Multi

    • input: image-text pairs
    • output: coarse-grained sentiments

3.3.1 Textual Pre-training

  1. Masked Language Modeling(MLM)对齐文本和视觉特征

    • mask的策略和BERT一样;

    • 损失函数如下,X~\widetilde {X}X

      指的是masked的拼接后的多模态输入XXX
      LMLM=−EX∼D∑i=1TlogP(ei∣e<i,X~)L_{MLM}=-\mathbb E_{X \sim D} \sum_{i=1}^{T} log P(e_i|e_{<i}, \widetilde{X}) LMLM=EXDi=1TlogP(eie<i,X

      )

  2. Textual Aspect-Opinion Extraction(AOE)生成文本中的aspects和opinions

    1. 数据集中不提供aspect和opinion的标注,需用其他的方法构造监督信号

      1. Aspect:一个Named Entity Recognition(NER)工具中的预训练模型(2011)
      2. Opinion:a sentiment lexicon(SentiWordNet)(2006)
    2. an index generation task:生成所有aspects和opinions的起止下标。

      1. target标注Y=[a1s,a1e,...,aMs,aMe,<sep>,o1s,o1e,...,oNs,oNs,<eos>]Y=[a_1^s, a_1^e, ..., a_M^s, a_M^e, <sep>, o_1^s, o_1^e, ..., o_N^s, o_N^s, <eos>]Y=[a1s,a1e,...,aMs,aMe,<sep>,o1s,o1e,...,oNs,oNs,<eos>] ,其中M,NM,NMN指aspect terms 和opinion terms的数量,as,aea^s, a^eas,aeos,oeo^s, o^eos,oe分别是每个的起止下标。、标识分割、结束。
      2. 例子如图所示:
      3. 公式流程:得到token的概率分布。
        1. htd=Decoder(He;Y<t)h_t^d = Decoder(H^e;Y_{<t})htd=Decoder(He;Y<t)HeH^eHe指编码器的输出,Y<tY_{<t}Y<t指解码器t时前的输出。
        2. H‾Te=(W+HTe)/2\overline{H}_T^e=(W+H_T^e)/2HTe=(W+HTe)/2。一个文本一个固定的值。HTeH_T^eHTeHTH_THT对应的文本部分。
        3. P(yt)=Softmax([H‾Te;Cd]htd)P(y_t)=Softmax([\overline{H}_T^e;C^d]h_t^d)P(yt)=Softmax([HTe;Cd]htd)CdC_dCdC=[<sep>,<eos>]C=[<sep>,<eos>]C=[<sep>,<eos>]的d维embeddings。
      4. 损失函数如下,O=2M+2N+2O=2M+2N+2O=2M+2N+2指target标注YYY的长度。

      LAOE=−EX∼D∑t=1OlogP(yt∣Y<t,X)L_{AOE}=-\mathbb E_{X \sim D} \sum_{t=1}^OlogP(y_t|Y_{<t},X) LAOE=EXDt=1OlogP(ytY<t,X)

3.3.2 Visual Pre-training

用以下两个任务捕获图像中的主体和客体信息

  1. Masked Region Modeling(MRM):预测masked region的semantic class distribution

    1. 编码器输入端,regions以15%的概率随机被mask,相应的特征会改为零向量。

    2. 解码器输入端,masked region的提示词为,其余为。

    3. 解码器输出后,所有的会追加一个MLP分类器,用以预测其semantic class distribution,记为p(v)p(v)p(v)

    4. 损失函数:减少预测分布和target分布的KL散度。Z指masked regions的数量。
      LMRM=EX∼D∑z=1ZDKL(q(vz)∣∣p(vz))L_{MRM}= \mathbb E_{X\sim D}\sum_{z=1}^ZD_{KL}(q(v_z)||p(v_z)) LMRM=EXDz=1ZDKL(q(vz)p(vz))

    5. 例子如图所示

  2. Visual Aspect-Opinion Generation(AOG):生成图像中的aspect-opinion对

    1. 监督信号

      1. Adjective-Noun Pair(ANP)(2013):如smiling man and beautiful landscape,分别能捕获细粒度的aspects 和opinions,因此将其作为图像中的aspect-opinion对。
      2. 用一个预训练ANP检测器DeepSentiBank(2014),预测2089个预先定义的ANPs的类分布概率最高的ANP作为监督信号。
    2. a sequence generation task

      1. G={g1,...,g∣G∣}G=\{g_1,...,g_{|G|}\}G={g1,...,gG}指target ANP的tokens,∣G∣|G|G指ANP tokens的数量

      2. 公式流程:

        1. hid=Decoder(He;G<i)h_i^d=Decoder(H^e;G_{<i})hid=Decoder(He;G<i)
        2. P(gi)=Softmax(EThid)P(g_i)=Softmax(E^Th_i^d)P(gi)=Softmax(EThid);E指词汇中所有tokens的embedding matrix。【跟之前E的定义不一样?词汇中是所有词典还是输入文本的词?】
      3. 损失函数:
        LAOG=−EX∼D∑i=1∣G∣logP(gi∣g<i,X)L_{AOG}=-\mathbb E_{X\sim D}\sum_{i=1}^{|G|}logP(g_i|g_{<i},X) LAOG=EXDi=1GlogP(gig<i,X)

      4. 例图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7W2DprLy-1668692099370)(C:/Users/26282/AppData/Roaming/Typora/typora-user-images/image-20221112163228101.png)]

3.3.3 Multimodal Pre-training

不像前两类预训练任务,MSP的监督信号是多模态的。识别文本和视觉的客观信息,以及他们之间的对齐关系。

  1. Multimodal Sentiment Prediction(MSP)

    1. MVSA-Multi数据集提供粗粒度的情感标签,将其作为监督信号

    2. a classification task

      1. 公式流程:

        1. hmspd=Decoder(He;Emsp)h_{msp}^d=Decoder(H^e;E_{msp})hmspd=Decoder(He;Emsp)EmspE_{msp}Emsp指两个special tokens相应的embeddings
        2. P(s)=Softmax(MLP(hmspd))P(s)=Softmax(MLP(h_{msp}^d))P(s)=Softmax(MLP(hmspd));s指相应的情感标签
      2. 损失函数:
        LMSP=−EX∼DlogP(s∣X)L_{MSP}=-\mathbb E_{X\sim D}logP(s|X) LMSP=EXDlogP(sX)

      3. 例图

3.3.4 Full Pre-training Loss

目标函数
L=λ1LMLM+λ2LAOE+λ3LMRM+λ4LAOG+λ5LMSPL=\lambda_1L_{MLM}+\lambda_2L_{AOE}+\lambda_3L_{MRM}+\lambda_4L_{AOG}+\lambda_5L_{MSP} L=λ1LMLM+λ2LAOE+λ3LMRM+λ4LAOG+λ5LMSP

3.4 Downstream Tasks

  • 下游任务:MABSA的3个子任务,即Joint Multimodal Aspect-Sentiment Analysis(JMASA),Multimodal Aspect Term Extraction(MATE),和Multimodal Aspect-oriented Sentiment Classification(MASC)。

  • 模型:和预训练任务一样

  • 模型输出

    • JMASA:Y=[a1s,a1e,...,ais,aie,si,...]Y=[a_1^s,a_1^e,...,a_i^s,a_i^e,s_i,...]Y=[a1s,a1e,...,ais,aie,si,...]a1s,aie,sia_1^s, a_i^e,s_ia1s,aie,si分别指文本中某aspect的起止下标和情感。
    • MATE:Y=[a1s,a1e,...,ais,aie]Y=[a_1^s,a_1^e,...,a_i^s, a_i^e]Y=[a1s,a1e,...,ais,aie]
    • MASC:Y=[a1s‾,a1e‾,s1,...,ais‾,aie‾,si,...]Y=[\underline {a_1^s},\underline {a_1^e},s_1,...,\underline {a_i^s},\underline {a_i^e},s_i,...]Y=[a1s,a1e,s1,...,ais,aie,si,...],下划线表示推理时是已知的。
  • index generation tasks

    • 与AOE一样的公式流程,除了special token集合 C=[<POS>,<NEU>,<NEG>,<EOS>]C=[<POS>,<NEU>,<NEG>,<EOS>]C=[<POS>,<NEU>,<NEG>,<EOS>]改成了感情类别。
    • JMASA图例

4. 实验

4.1 Experimental Settings

Dataset

下游数据集使用TWITTER-2015和TWITTWE-2017评估VLP-MABSA模型

4.2 对比实验

JMASA

  1. 从text-based methods的对比可以看出VLP-MABSA中基础模型BART的优越性
  2. Multimodal methods中JML采用了辅助任务来检测图像与文本的关系,超越了此前所有方法;而VLP-MABSA的F1得分比它分别高了2.5和2.0,这可以归功于3类task-specifc 预训练任务识别了aspects、opinion和模态间的对齐关系。

MATE

MASC

  1. 要注意JML只评估了正确预测的aspect的结果,而其他都是评估了所有的golden aspects。

4.3 消融实验

以weak supervision为例具体分析每个预训练任务的效果,只加入MLM、MRM提效甚微,AOE、AOG提高很明显,特别是MSP。

  • 下游训练时的样本数量少时,预训练带来的提效比没有预训练来的高。数量多时,效果是一样的。

    • 这表明预训练方法的鲁棒性和有效性,特别在数据集少的领域。

4.4 实例展示

MM是没有预训练的多模态输入的框架,VLP是预训练后的。

5.思考

  1. 预训练任务里加入图像与文本的关系

2.1 Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis相关推荐

  1. [论文阅读]A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis

    摘要 基于方面的情感分析 (ABSA) 涉及三个基本子任务:方面术语提取.观点术语提取和方面级情感分类.早期的工作只专注于单独解决这些子任务之一.最近的一些工作集中在解决两个子任务的组合,例如,提取方 ...

  2. 2019_AAAI_Multi-Interactive Memory Network for Aspect Based Multimodal Sentiment Analysis

    Multi-Interactive Memory Network for Aspect Based Multimodal Sentiment Analysis 论文地址:https://ojs.aaa ...

  3. X-VLM: Multi-Grained Vision Language Pre-Training

    Contents Introduction Method Experiment References Introduction 大部分 VLM (Visual-Language Model) 依赖于目 ...

  4. Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM

    Efficient Large-Scale Language Model Training on GPU ClustersUsing Megatron-LM 1 INTRODUCTION 在这篇文章中 ...

  5. Multimodal Sentiment Analysis论文汇总

    多模态情绪分析论文 Year Title Network Publish Paper Code Read 2019 Multimodal Transformer for Unaligned Multi ...

  6. 【论文泛读】Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment Analysis

    论文题目:Deep-HOSeq: Deep Higher Order Sequence Fusion for Multimodal Sentiment Analysis 时间:2020 来源:ICDM ...

  7. 论文翻译(5)-Contextual Inter-modal Attention for Multi-modal Sentiment Analysis

    Contextual Inter-modal Attention for Multi-modal Sentiment Analysis 多模态情感分析中的语境跨模态注意 github地址:https: ...

  8. A Co-Memory Network for Multimodal Sentiment Analysis

    Xu N, Mao W, Chen G. A co-memory network for multimodal sentiment analysis[C]//The 41st internationa ...

  9. MABSA(Multimodal Aspect-Based Sentiment Analysis)2022ACL 预训练

    大致浏览,没有细看. 论文题目(Title): Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis ...

最新文章

  1. C C++输出语句printf()输出保留小数点后保留1,2,3,4,5,6,7..n位(默认四舍五入)
  2. Zabbix,Nagios,OneAPM Servers 安装部署
  3. python是不是特别垃圾-【转】python是垃圾吗?
  4. C++:不同数据类型作为参数传递和作为返回值的例子
  5. 正则的文字替换和字符串的替换哪个快_JavaScript正则表达式怎么用?
  6. 简单的Net::FTP模块的简单应用
  7. python自动化客户端_python 在 nwjs 应用客户端做 UI 自动化
  8. 谈谈你对TCP三次握手和四次挥手的理解
  9. 频繁项集挖掘算法之FPGrowth
  10. Arcgis Android 基本概念 - 浅谈
  11. 【论文笔记】多智能体强化学习值分解基础论文5篇
  12. 开放平台API安全设计方案
  13. A股全市场股票历史行情Level2快照高频数据
  14. 两台电脑共享上网怎么设置?快解析轻松解决共享上网问题
  15. (三星)安卓神器xposed框架ROOT使用指南
  16. android渠道版本号,2. 验证Android渠道版本渠道号 - 测试手册
  17. 【腾讯云】记录一次Could not connect to SMTP host: smtp.163.com, port: 25的解决办法
  18. C#实战011:Excel操作-获取Excel某一列数据并存入数组
  19. Python 如何画出漂亮的地图?
  20. redis 的6种过期策略

热门文章

  1. DOS命令格式化制作U盘
  2. feign调用简单实例
  3. 2020计算机夏令营+预推免统计
  4. C++编程练习3--给出年、月、日,计算该日是该年的第几天
  5. python调用shell命令
  6. APP功能测试点(全)
  7. 东南西北十字图_怎么辨别东南西北的方向 分清东南西北口诀与窍门技巧(图)...
  8. C语言控制桌面背景图
  9. 《剑指offer》刷题笔记(发散思维能力):求1+2+3+...+n
  10. 四十八 停电与打牌(中) 我在软件园的那些日子里