Efficient Low-rank Multimodal Fusion with Modality-Specific Factors

Introduction
相关工作
Method
- 使用张量表示的多模态融合
- - tensor fusion
  - drawbacks of tensor fusion
- 利用模态特定因子进行低秩多模态融合
- - low-rank weighted decomposition
Experiment
- Impact of Low-rank Multimodal Fusion
- Complexity Analysis
- How different low-rank settings impact the performance
Reference

为了解决基于张量的多模态融合方法计算效率差的问题，文章提出了一种低秩多模态融合的方法(Low-rank Multimodal Fusion, LMF)的方法。通过将张量和权重并行分解，利用模态特定的低阶因子来执行多模态融合。避免计算高维的张量，降低了内存开销，将指数级的时间复杂度降低到了线性。

Introduction

融合的目标是将多种模态结合起来，以利用异质数据的互补性，提供更有力的预测。
(Fukui et al., 2016), (Zadeh et al., 2017) 使用tensor来进行多模态表示学习。张量在多模态表示中具有很大的优越性。但是, 这些方法由于输入tensor的变换，会使得维度会有指数级的增长，计算复杂性也比较高。这严重限制了这些模型的适用性，尤其当数据集有两个以上的模态时。
因此这篇文章提出了低秩多模态融合的方法，利用low-rank weight tensors来进行有效的多模态融合。框架如下：
contributions
- 提出低秩多模态融合算法，与模态数呈线性关系。
- 与SOTA性能相当。
- 与之前的tensor的方法比，本文提出的方法参数少，效率高。

Method

文章提出一种模型，将权重分解为低阶因子，这样可以减少模型中参数的数量。这种分解可以通过利用低阶权重张量和输入张量的并行分解来有效地进行基于张量的融合。

使用张量表示的多模态融合

这篇论文将多模态融合表述为一个多线性函数 f∶V1×V2×…×VM→Hf ∶ V_1 × V_2 × … × V_M → Hf∶V1×V2×…×VM→H。
其中{zm}m=1M\{z_m\}_{m=1}^M{zm}m=1M是M个单个模态的编码信息，而多模态融合的目标是将单模态的表示整合为一个紧凑的多模态表示来进行下游的工作。

tensor fusion

张量表示是一种成功的多模态融合方法，它首先将多输入转换为高维张量，然后将其映射回一个低维输出向量空间。通过对输入模态取外积可以得到张量表示。

为了能够用一个张量来模拟任意模态子集之间的相互作用。 Zadeh et al. (2017)提出在进行外积之前，给每个表示zzz后面加一个1。所以输入的张量Z\mathcal{Z}Z通过单个模态的表示计算得到:Z=⨂m=1Mzm,zm∈Rdm\mathcal{Z}=\bigotimes_{m=1}^{M} z_{m}, z_{m} \in \mathbb{R}^{d_{m}}Z=⨂m=1Mzm,zm∈Rdm， zmz_mzm是附加1的输入表示。

输入张量Z∈Rd1,d2,...,dm\mathcal{Z} \in \mathbb{R}^{d_1,d_2,...,d_m}Z∈Rd1,d2,...,dm通过一个线性层g(⋅)g(\cdot)g(⋅)产生一个向量表示：
h=g(Z;W,b)=W⋅Z+b;h,b∈Rdyh = g(\mathcal{Z};\mathcal{W},b) = \mathcal{W} ⋅ \mathcal{Z} + b;~h, b \in \mathbb{R}^{d_y}h=g(Z;W,b)=W⋅Z+b; h,b∈Rdy
其中W\mathcal{W}W是权重，bbb是偏移量。

由于Z\mathcal{Z}Z是MMM阶张量，因此W\mathcal{W}W是M+1M+1M+1阶的张量，维度为d1×d2×…×dM×dhd_1×d_2×…×d_M×d_hd1×d2×…×dM×dh，额外的第M+1M+1M+1层为输出表示的大小dhd_hdh。在进行张量点积的过程中，我们可以把W\mathcal{W}W看作是dhd_hdh个MMM阶张量，即可以被划分为
W‾k∈Rd1×…×dM,k=1,…,dh\overline{\mathcal{W}}_{k} \in \mathbb{R}^{d_{1} \times \ldots \times d_{M}}, k=1, \ldots, d_{h}Wk∈Rd1×…×dM,k=1,…,dh，每一个W‾k\overline{\mathcal{W}}_{k}Wk都在输出的向量hhh中贡献一个维度，即hk=W‾k⋅Zh_k=\overline{\mathcal{W}}_{k} \cdot \mathcal{Z}hk=Wk⋅Z。

下图为用两个模态的例子来解释张量融合：

drawbacks of tensor fusion

我们需要显式地创建一个高维的张量Z\mathcal{Z}Z，其维度为∏m=1Mdm\prod_{m=1}^M d_m∏m=1Mdm会随着模态数目呈指数增长。
要学习的权重张量 W\mathcal{W}W 也会相应地指数级增长。
不仅引入了大量的计算，而且使模型面临着过度拟合的风险。

利用模态特定因子进行低秩多模态融合

为了解决tensor-based fusion方法的问题，文章提出了一种低秩多模态融合的方法(Low-rank Multimodal Fusion)(LMF)的方法，将W\mathcal{W}W分解为一组modality-specific low-rank factors, 且利用Z\mathcal{Z}Z也可以分解为{zm}m=1M\{z_m\}_{m=1}^M{zm}m=1M。通过这种并行分解的方式，文章可以不显性获得高维的张量而直接计算到hhh。

low-rank weighted decomposition

把W\mathcal{W}W看作是dhd_hdh个MMM阶张量，每个MMM阶张量可以表示为W‾k∈Rd1×…×dM,k=1,…,dh\overline{\mathcal{W}}_{k} \in \mathbb{R}^{d_{1} \times \ldots \times d_{M}}, k=1, \ldots, d_{h}Wk∈Rd1×…×dM,k=1,…,dh，存在一个精确分解成向量的模式：W‾k=∑i=1R⨂m=1Mwm,k(i),wm,k(i)∈Rmd\overline{\mathcal{W}}_{k}=\sum_{i=1}^{R} \bigotimes_{m=1}^{M} w_{m, k}^{(i)}, ~~~ w_{m, k}^{(i)} \in \mathbb{R}_{m}^{d}Wk=∑i=1R⨂m=1Mwm,k(i), wm,k(i)∈Rmd, 最小的使得分解有效的RRR称为张量的rank。

向量的集合{{wm,k(i)}m=1M}i=1R\left\{\left\{w_{m, k}^{(i)}\right\}_{m=1}^{M}\right\}_{i=1}^{R}{{wm,k(i)}m=1M}i=1R称为原始张量的秩RRR分解因子。

文章固定RRR为rrr，然后用rrr分解因子{{wm,k(i)}m=1M}i=1r\left\{\left\{w_{m, k}^{(i)}\right\}_{m=1}^{M}\right\}_{i=1}^{r}{{wm,k(i)}m=1M}i=1r来重建低秩版本的W‾k\overline{\mathcal{W}}_{k}Wk。
这些向量可以重新组合为MMM个modality-specific low-rank的因子。令wm(i)=[wm,1(i),wm,2(i),…,wm,dh(i)]\mathbf{w}_{m}^{(i)}=\left[w_{m, 1}^{(i)}, w_{m, 2}^{(i)}, \ldots, w_{m, d_{h}}^{(i)}\right]wm(i)=[wm,1(i),wm,2(i),…,wm,dh(i)]，则模态mmm对应的低秩因子为{wm(i)}i=1r\left\{\mathbf{w}_{m}^{(i)}\right\}_{i=1}^{r}{wm(i)}i=1r。

那么低秩的权重张量可以用下式重建得到：W=∑i=1r⨂m=1Mwm(i)\mathcal{W}=\sum_{i=1}^{r} \bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)}W=∑i=1r⨂m=1Mwm(i)

基于W\mathcal{W}W的分解，再根据Z=⨂m=1Mzm\mathcal{Z}=\bigotimes_{m=1}^{M} z_{m}Z=⨂m=1Mzm，我们可以把原来计算hhh的式子推算如下：
h=(∑i=1r⨂m=1Mwm(i))⋅Z=∑i=1r(⨂m=1Mwm(i)⋅Z)=∑i=1r(⨂m=1Mwm(i)⋅⨂m=1Mzm)=⋀m=1M[∑i=1rwm(i)⋅zm]\begin{aligned} h &=\left(\sum_{i=1}^{r} \bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)}\right) \cdot \mathcal{Z} =\sum_{i=1}^{r}\left(\bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)} \cdot \mathcal{Z}\right) \\ &=\sum_{i=1}^{r}\left(\bigotimes_{m=1}^{M} \mathbf{w}_{m}^{(i)} \cdot \bigotimes_{m=1}^{M} z_{m}\right) \\ &=\bigwedge_{m=1}^{M}\left[\sum_{i=1}^{r} \mathbf{w}_{m}^{(i)} \cdot z_{m}\right] \end{aligned}h=(i=1∑rm=1⨂Mwm(i))⋅Z=i=1∑r(m=1⨂Mwm(i)⋅Z)=i=1∑r(m=1⨂Mwm(i)⋅m=1⨂Mzm)=m=1⋀M[i=1∑rwm(i)⋅zm]

其中⋀m=1M\bigwedge_{m=1}^{M}⋀m=1M表示为一系列张量的元素积，即⋀t=13xt=x1∘x2∘x3\bigwedge_{t=1}^{3} x_{t}=x_{1} \circ x_{2} \circ x_{3}⋀t=13xt=x1∘x2∘x3。

举一个两模态的例子：
h=(∑i=1rwa(i)⊗wv(i))⋅Z=(∑i=1rwa(i)⋅za)∘(∑i=1rwv(i)⋅zv)\begin{aligned} h &=\left(\sum_{i=1}^{r} \mathbf{w}_{a}^{(i)} \otimes \mathbf{w}_{v}^{(i)}\right) \cdot \mathcal{Z} =\left(\sum_{i=1}^{r} \mathbf{w}_{a}^{(i)} \cdot z_{a}\right) \circ\left(\sum_{i=1}^{r} \mathbf{w}_{v}^{(i)} \cdot z_{v}\right) \end{aligned}h=(i=1∑rwa(i)⊗wv(i))⋅Z=(i=1∑rwa(i)⋅za)∘(i=1∑rwv(i)⋅zv)

三个模态的流程框架

这么做的好处显而易见：

对Z\mathcal{Z}Z和W\mathcal{W}W并行分解，避免了从zmz_mzm去创建高维Z\mathcal{Z}Z的过程。
不同的模态之间是解耦的，这使得方法可以扩展到任意模态数目的数据。
可微，{wm(i)}i=1r,m=1,…,M\{\mathbf{w}_{m}^{(i)}\}_{i=1}^r,~m=1,…,M{wm(i)}i=1r, m=1,…,M可以通过反向传播来优化。
将原始的张量融合的方法O(dy∏m=1Mdm)O\left(d_{y} \prod_{m=1}^{M} d_{m}\right)O(dy∏m=1Mdm)的计算复杂性降低到线性O(dy×r×∑m=1Mdm)O\left(d_{y} \times r \times \sum_{m=1}^{M} d_{m}\right)O(dy×r×∑m=1Mdm)。

Experiment

Impact of Low-rank Multimodal Fusion

实验表明所提方法在所有数据集上都优于Tensor Fusion Network(TFN)

Complexity Analysis

速度超过TFN两倍以上。

How different low-rank settings impact the performance

随着rank的增加，训练结果越来越不稳定，而使用较低的rank就足以达到令人满意的性能了。

Reference

Amir Zadeh, Minghai Chen, Soujanya Poria, Erik Cam-bria, and Louis-Philippe Morency. 2017. Tensor fu-sion network for multimodal sentiment analysis. In Empirical Methods in Natural Language Processing, EMNLP.

Efficient Low-rank Multimodal Fusion with Modality-Specific Factors 论文相关推荐

Multimodal Fusion（多模态融合）
Jeff Dean:我认为,2020年在多任务学习和多模态学习方面会有很大进展,解决更多的问题.我觉得那会很有趣. 多模态学习为了使人工智能进一步加强对我们周边事物的理解,它需要具备解释多模态信号的 ...
多模态特征融合机制(含代码)：TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)
文章目录写在前面简单的concat TFN融合策略 LWF融合策略论文全称: <Tensor Fusion Network for Multimodal Sentiment Analysi ...
Sparse low rank approximation
1. Sparse and low rank approximation (source codes) :http://www.ugcs.caltech.edu/~srbecker/wiki/Main ...
Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition
Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition 基于层次注意的视频情感识别多模 ...
Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Modal Fusion论文笔记
CVPR2021论文笔记题目:Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Mod ...
IMF: Interactive Multimodal Fusion Model for Link Prediction
[2303.10816] IMF: Interactive Multimodal Fusion Model for Link Prediction (arxiv.org) 目录 1 背景 2 贡献 3 ...
《论文阅读笔记》Attention Bottlenecks for Multimodal Fusion
转自于https://blog.csdn.net/me_yundou/article/details/121070837 查看全文 http://www.taodudu.cc/news/show-62 ...
论文阅读-Attention Bottlenecks for Multimodal Fusion（多模态特征融合）
一.论文信息论文题目:Attention Bottlenecks for Multimodal Fusion paperwithcode:https://paperswithcode.com/pap ...
【论文阅读】Multimodal Fusion with Co-Attention Networks for Fake News Detection --- 虚假新闻检测，多模态融合
本博客系本人理解该论文之后所写,非逐句翻译,预知该论文详情,请参阅论文原文. 论文标题:Multimodal Fusion with Co-Attention Networks for Fake Ne ...
Choosing Smartly: Adaptive Multimodal Fusion for Object Detection in Changing Environments论文阅读笔记
论文:https://arxiv.org/pdf/1707.05733v1.pdf Abstract 对象检测是在动态和变化的环境中运行的自动机器人的基本任务.机器人应该能够在存在传感器噪声的情况下也 ...

Efficient Low-rank Multimodal Fusion with Modality-Specific Factors 论文