Efficient Low-rank Multimodal Fusion with Modality-Specific Factors

  • Introduction
  • 相关工作
  • Method
    • 使用张量表示的多模态融合
      • tensor fusion
      • drawbacks of tensor fusion
    • 利用模态特定因子进行低秩多模态融合
      • low-rank weighted decomposition
  • Experiment
    • Impact of Low-rank Multimodal Fusion
    • Complexity Analysis
    • How different low-rank settings impact the performance
  • Reference

为了解决基于张量的多模态融合方法计算效率差的问题,文章提出了一种低秩多模态融合的方法(Low-rank Multimodal Fusion, LMF)的方法。通过将张量和权重并行分解,利用模态特定的低阶因子来执行多模态融合。避免计算高维的张量,降低了内存开销,将指数级的时间复杂度降低到了线性。

Introduction

  • 融合的目标是将多种模态结合起来,以利用异质数据的互补性,提供更有力的预测。

  • (Fukui et al., 2016), (Zadeh et al., 2017) 使用tensor来进行多模态表示学习。张量在多模态表示中具有很大的优越性。但是, 这些方法由于输入tensor的变换,会使得维度会有指数级的增长,计算复杂性也比较高。这严重限制了这些模型的适用性,尤其当数据集有两个以上的模态时。

  • 因此这篇文章提出了低秩多模态融合的方法,利用low-rank weight tensors来进行有效的多模态融合。框架如下:

  • contributions

    • 提出低秩多模态融合算法,与模态数呈线性关系。
    • 与SOTA性能相当。
    • 与之前的tensor的方法比,本文提出的方法参数少,效率高。

相关工作

  • 多模态融合使我们能够利用多模态数据中存在的互补信息,从而发现信息对多模态的依赖性。
  • 多模态融合方法
    • early fusion:

      • feature concatenation 直接拼接特征。
      • 直接拼接,甚至有时候会去除时间的依赖,因此 对模态内部(intra-modal)的交互被潜在的抑制,模态内部的上下文信息、时间依赖就会损失
    • late fusion:
      • 每个模态构造一个模型,然后将输出通过多数表决或者加权平均将结果整合到一起。
      • 但是由于模型是分开创建的,所以视图之间的交互作用不能很好的建模。
    • intermediate:
      • both intra- and inter- modal.
      • Zadeh et al. (2017) 提出 Tensor Fusion Network, 从三个模态计算单个模态表示之间的外积来计算一个张量表示。
        但是,这种方法要对多个模态的表示进行外积操作,导致 tensor representation 维度很高,
  • 单个模态下 low-rank tensor approximation 应用广泛,但尚未有使用 low-rank tensor 技术来进行多模态融合的。

Method

文章提出一种模型,将权重分解为低阶因子,这样可以减少模型中参数的数量。这种分解可以通过利用低阶权重张量和输入张量的并行分解来有效地进行基于张量的融合。

使用张量表示的多模态融合

这篇论文将多模态融合表述为一个多线性函数 f∶V1×V2×…×VM→Hf ∶ V_1 × V_2 × … × V_M → Hf∶V1​×V2​×…×VM​→H。
其中{zm}m=1M\{z_m\}_{m=1}^M{zm​}m=1M​是M个单个模态的编码信息,而多模态融合的目标是将单模态的表示整合为一个紧凑的多模态表示来进行 下游 的工作。

tensor fusion

张量表示是一种成功的多模态融合方法,它首先将多输入转换为高维张量,然后将其映射回一个低维输出向量空间。通过对输入模态取外积可以得到张量表示。

为了能够用一个张量来模拟任意模态子集之间的相互作用。 Zadeh et al. (2017)提出在进行外积之前,给每个表示zzz后面加一个1。所以输入的张量Z\mathcal{Z}Z通过单个模态的表示计算得到:Z=⨂m=1Mzm,zm∈Rdm\mathcal{Z}=\bigotimes_{m=1}^{M} z_{m}, z_{m} \in \mathbb{R}^{d_{m}}Z=⨂m=1M​zm​,zm​∈Rdm​, zmz_mzm​是附加1的输入表示。

输入张量Z∈Rd1,d2,...,dm\mathcal{Z} \in \mathbb{R}^{d_1,d_2,...,d_m}Z∈Rd1​,d2​,...,dm​通过一个线性层g(⋅)g(\cdot)g(⋅)产生一个向量表示:
h=g(Z;W,b)=W⋅Z+b;h,b∈Rdyh = g(\mathcal{Z};\mathcal{W},b) = \mathcal{W} ⋅ \mathcal{Z} + b;~h, b \in \mathbb{R}^{d_y}h=g(Z;W,b)=W⋅Z+b; h,b∈Rdy​
其中W\mathcal{W}W是权重,bbb是偏移量。

由于Z\mathcal{Z}Z是MMM阶张量,因此W\mathcal{W}W是M+1M+1M+1阶的张量,维度为d1×d2×…×dM×dhd_1×d_2×…×d_M×d_hd1​×d2​×…×dM​×dh​,额外的第M+1M+1M+1层为输出表示的大小dhd_hdh​。在进行张量点积的过程中,我们可以把W\mathcal{W}W看作是dhd_hdh​个MMM阶张量,即可以被划分为
W‾k∈Rd1×…×dM,k=1,…,dh\overline{\mathcal{W}}_{k} \in \mathbb{R}^{d_{1} \times \ldots \times d_{M}}, k=1, \ldots, d_{h}Wk​∈Rd1​×…×dM​,k=1,…,dh​,每一个W‾k\overline{\mathcal{W}}_{k}Wk​都在输出的向量hhh中贡献一个维度,即hk=W‾k⋅Zh_k=\overline{\mathcal{W}}_{k} \cdot \mathcal{Z}hk​=Wk​⋅Z。

下图为用两个模态的例子来解释张量融合

drawbacks of tensor fusion

  • 我们需要显式地创建一个高维的张量Z\mathcal{Z}Z,其维度为∏m=1Mdm\prod_{m=1}^M d_m∏m=1M​dm​会随着模态数目呈指数增长。
  • 要学习的权重张量 W\mathcal{W}W 也会相应地指数级增长。
  • 不仅引入了大量的计算,而且使模型面临着过度拟合的风险。

利用模态特定因子进行低秩多模态融合

为了解决tensor-based fusion方法的问题,文章提出了一种低秩多模态融合的方法(Low-rank Multimodal Fusion)(LMF)的方法,将W\mathcal{W}W分解为一组modality-specific low-rank factors, 且利用Z\mathcal{Z}Z也可以分解为{zm}m=1M\{z_m\}_{m=1}^M{zm​}m=1M​。通过这种并行分解的方式,文章可以不显性获得高维的张量而直接计算到hhh。

low-rank weighted decomposition

把W\mathcal{W}W看作是dhd_hdh​个MMM阶张量,每个MMM阶张量可以表示为W‾k∈Rd1×…×dM,k=1,…,dh\overline{\mathcal{W}}_{k} \in \mathbb{R}^{d_{1} \times \ldots \times d_{M}}, k=1, \ldots, d_{h}Wk​∈Rd1​×…×dM​,k=1,…,dh​,存在一个精确分解成向量的模式:W‾k=∑i=1R⨂m=1Mwm,k(i),wm,k(i)∈Rmd\overline{\mathcal{W}}_{k}=\sum_{i=1}^{R} \bigotimes_{m=1}^{M} w_{m, k}^{(i)}, ~~~ w_{m, k}^{(i)} \in \mathbb{R}_{m}^{d}Wk​=∑i=1R​⨂m=1M​wm,k(i)​,   wm,k(i)​∈Rmd​, 最小的使得分解有效的RRR称为张量的rank。

向量的集合{{wm,k(i)}m=1M}i=1R\left\{\left\{w_{m, k}^{(i)}\right\}_{m=1}^{M}\right\}_{i=1}^{R}{{wm,k(i)​}m=1M​}i=1R​称为原始张量的秩RRR分解因子。

文章固定RRR为rrr,然后用rrr分解因子{{wm,k(i)}m=1M}i=1r\left\{\left\{w_{m, k}^{(i)}\right\}_{m=1}^{M}\right\}_{i=1}^{r}{{wm,k(i)​}m=1M​}i=1r​来重建低秩版本的W‾k\overline{\mathcal{W}}_{k}Wk​。
这些向量可以重新组合为MMM个modality-specific low-rank的因子。令wm(i)=[wm,1(i),wm,2(i),…,wm,dh(i)]\mathbf{w}_{m}^{(i)}=\left[w_{m, 1}^{(i)}, w_{m, 2}^{(i)}, \ldots, w_{m, d_{h}}^{(i)}\right]wm(i)​=[wm,1(i)​,wm,2(i)​,…,wm,dh​(i)​],则模态mmm对应的低秩因子为{wm(i)}i=1r\left\{\mathbf{w}_{m}^{(i)}\right\}_{i=1}^{r}{wm(i)​}i=1r​。

那么低秩的权重张量可以用下式重建得到:W=∑i=1r⨂m=1Mwm(i)\mathcal{W}=\sum_{i=1}^{r} \bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)}W=∑i=1r​⨂m=1M​wm(i)​


基于W\mathcal{W}W的分解,再根据Z=⨂m=1Mzm\mathcal{Z}=\bigotimes_{m=1}^{M} z_{m}Z=⨂m=1M​zm​,我们可以把原来计算hhh的式子推算如下:
h=(∑i=1r⨂m=1Mwm(i))⋅Z=∑i=1r(⨂m=1Mwm(i)⋅Z)=∑i=1r(⨂m=1Mwm(i)⋅⨂m=1Mzm)=⋀m=1M[∑i=1rwm(i)⋅zm]\begin{aligned} h &=\left(\sum_{i=1}^{r} \bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)}\right) \cdot \mathcal{Z} =\sum_{i=1}^{r}\left(\bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)} \cdot \mathcal{Z}\right) \\ &=\sum_{i=1}^{r}\left(\bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)} \cdot \bigotimes_{m=1}^{M} z_{m}\right) \\ &=\bigwedge_{m=1}^{M}\left[\sum_{i=1}^{r} \mathbf{w}_{m}^{(i)} \cdot z_{m}\right] \end{aligned}h​=(i=1∑r​m=1⨂M​wm(i)​)⋅Z=i=1∑r​(m=1⨂M​wm(i)​⋅Z)=i=1∑r​(m=1⨂M​wm(i)​⋅m=1⨂M​zm​)=m=1⋀M​[i=1∑r​wm(i)​⋅zm​]​

其中⋀m=1M\bigwedge_{m=1}^{M}⋀m=1M​表示为一系列张量的元素积,即⋀t=13xt=x1∘x2∘x3\bigwedge_{t=1}^{3} x_{t}=x_{1} \circ x_{2} \circ x_{3}⋀t=13​xt​=x1​∘x2​∘x3​。

  • 举一个两模态的例子:
    h=(∑i=1rwa(i)⊗wv(i))⋅Z=(∑i=1rwa(i)⋅za)∘(∑i=1rwv(i)⋅zv)\begin{aligned} h &=\left(\sum_{i=1}^{r} \mathbf{w}_{a}^{(i)} \otimes \mathbf{w}_{v}^{(i)}\right) \cdot \mathcal{Z} =\left(\sum_{i=1}^{r} \mathbf{w}_{a}^{(i)} \cdot z_{a}\right) \circ\left(\sum_{i=1}^{r} \mathbf{w}_{v}^{(i)} \cdot z_{v}\right) \end{aligned}h​=(i=1∑r​wa(i)​⊗wv(i)​)⋅Z=(i=1∑r​wa(i)​⋅za​)∘(i=1∑r​wv(i)​⋅zv​)​
  • 三个模态的流程框架

这么做的好处显而易见:

  • 对Z\mathcal{Z}Z和W\mathcal{W}W并行分解,避免了从zmz_mzm​去创建高维Z\mathcal{Z}Z的过程。
  • 不同的模态之间是解耦的,这使得方法可以扩展到任意模态数目的数据。
  • 可微,{wm(i)}i=1r,m=1,…,M\{\mathbf{w}_{m}^{(i)}\}_{i=1}^r,~m=1,…,M{wm(i)​}i=1r​, m=1,…,M可以通过反向传播来优化。
  • 将原始的张量融合的方法O(dy∏m=1Mdm)O\left(d_{y} \prod_{m=1}^{M} d_{m}\right)O(dy​∏m=1M​dm​)的计算复杂性降低到线性O(dy×r×∑m=1Mdm)O\left(d_{y} \times r \times \sum_{m=1}^{M} d_{m}\right)O(dy​×r×∑m=1M​dm​)。

Experiment

Impact of Low-rank Multimodal Fusion


实验表明所提方法在所有数据集上都优于Tensor Fusion Network(TFN)

Complexity Analysis


速度超过TFN两倍以上。

How different low-rank settings impact the performance


随着rank的增加,训练结果越来越不稳定,而使用较低的rank就足以达到令人满意的性能了。

Reference

Amir Zadeh, Minghai Chen, Soujanya Poria, Erik Cam-bria, and Louis-Philippe Morency. 2017. Tensor fu-sion network for multimodal sentiment analysis. In Empirical Methods in Natural Language Processing, EMNLP.

Efficient Low-rank Multimodal Fusion with Modality-Specific Factors 论文相关推荐

  1. Multimodal Fusion(多模态融合)

    Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题.我觉得那会很有趣. 多模态学习 为了使人工智能进一步加强对我们周边事物的理解,它需要具备解释多模态信号的 ...

  2. 多模态特征融合机制(含代码):TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)

    文章目录 写在前面 简单的concat TFN融合策略 LWF融合策略 论文全称: <Tensor Fusion Network for Multimodal Sentiment Analysi ...

  3. Sparse low rank approximation

    1. Sparse and low rank approximation (source codes) :http://www.ugcs.caltech.edu/~srbecker/wiki/Main ...

  4. Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

    Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition 基于层次注意的视频情感识别多模 ...

  5. Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Modal Fusion论文笔记

    CVPR2021论文笔记 题目:Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Mod ...

  6. IMF: Interactive Multimodal Fusion Model for Link Prediction

    [2303.10816] IMF: Interactive Multimodal Fusion Model for Link Prediction (arxiv.org) 目录 1 背景 2 贡献 3 ...

  7. 《论文阅读笔记》Attention Bottlenecks for Multimodal Fusion

    转自于https://blog.csdn.net/me_yundou/article/details/121070837 查看全文 http://www.taodudu.cc/news/show-62 ...

  8. 论文阅读-Attention Bottlenecks for Multimodal Fusion(多模态特征融合)

    一.论文信息 论文题目:Attention Bottlenecks for Multimodal Fusion paperwithcode:https://paperswithcode.com/pap ...

  9. 【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测,多模态融合

    本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文. 论文标题:Multimodal Fusion with Co-Attention Networks for Fake Ne ...

  10. Choosing Smartly: Adaptive Multimodal Fusion for Object Detection in Changing Environments论文阅读笔记

    论文:https://arxiv.org/pdf/1707.05733v1.pdf Abstract 对象检测是在动态和变化的环境中运行的自动机器人的基本任务.机器人应该能够在存在传感器噪声的情况下也 ...

最新文章

  1. JS arguments 对象
  2. SpriteBuilder实际操作中如何确定合适Breaking force的值
  3. 【算法与数据结构】一道检测inversion count的初级算法
  4. 采用DCO-OFDM的VLC系统
  5. getDeclaredFields()应用
  6. idea,eclipse创建多模块项目
  7. Mysql数据库,项目需求需要数据还原的数据表结构构思方案
  8. jquery-手风琴效果
  9. 小米立 Flag:要做年轻人的第一个深度学习框架
  10. IBatis.Net学习笔记三--两种常用的DAO
  11. 流程生产订单和离散生产订单的区别_离散式生产和流程式生产的区别
  12. Myeclipse8.5 cn 序列号
  13. 解决Typora图片显示不出来问题
  14. 18软工实践-团队现场编程实战(抽奖系统)
  15. 跨模态行人重识别综述 - 计算机视觉
  16. Python_首字母大写
  17. 数学之美:数学究竟是如何被运用到生活中的?
  18. Python爬虫报错HTTPSConnectionPool(host=‘heat.qq.com‘, port=443)处理
  19. 正面刚Apple Watch:Fitbit第一款真正的智能手表
  20. python代码编写

热门文章

  1. vCenter资源池
  2. php处理头像,(头像处理)PHP把图片转换成圆形png
  3. IPVS使用的Netfilter Hook点
  4. Android图片加载框架最全解析(一),Glide的基本用法
  5. elementUI中日期时间插件(DateTimePicke) 限制结束时间大于开始时间且开始时间小于当前时间
  6. 缠中说禅:缠非缠、禅非禅,枯木龙吟照大千(整理版)
  7. 内存核心频率、工作频率,等效频率、总线频率
  8. 计算机打字声音,键盘打字声音在哪设置
  9. Android像素密度dpi/ppi计算公式,px、sp、dp互转工具类——概念解释
  10. 分辨率,像素,像素密度易懂