冗余性 和 互补性 是多模态各种特性存在的基础

1.双线性池化

特征融合即输入两个模态的特征向量,输出融合后的向量。最常用的方法是拼接、按位乘、按位加。有些作者认为这些简单的操作效果不如外积/叉乘得tensor,不足以建模两个模态间的复杂关系。但外积计算存在复杂度过高的问题。双线性(Bilinear)就是向量外积的计算。双线性池化(Bilinear Pooling)是对双线性融合后的特征进行池化。
例如LMF(Low-rank Multimodal Fusion),PTP (polynomialtensor pooling)
双线性池化的详解,改进和相关论文
Ps:模态对齐的挑战
模态对齐面临着许多困难:少有显示标注模态对齐的数据集;很难设计模态间的相似性度量;存在多种可能的模态对齐,而且一个模态中的elements可能在另一个模态中没有对应。

2.多模态特征表示

主要任务是学习如何更好的提取和表示多模态数据的特征信息,以利用多模态数据的互补性
主要存在的问题有:(1)如何组合来自不同模态的数据 (2)如何处理不同模态不同程度的噪音 (3)如何处理缺失数据。
联合特征表示(Joint representations)和协同特征表示(coordinated representations)。联合特征表示将各模态信息映射到相同的特征空间中,而协同特征表示分别映射每个模态的信息,但是要保证映射后的每个模态之间存在一定的约束,使它们进入并行的相互映射的协同空间。(投影到分离但相关的空间)
联合特征表示主要用于在训练和测试阶段都是多模态数据的任务。
协同特征表示是为每个模态学习单独的特征提取模型,通过一个约束来协同不同的模态,更适合于在测试时只有一种模态数据的任务,如:多模态检索和翻译。
协同架构包括跨模态相似模型和典型相关分析,其目的是寻求协调子空间中模态间的关联关系;由于不同模态包含的信息不一样,协同方法有利于保持各单模态独有的特征和排它性,

  • 协同架构在跨模态学习中已经得到广泛应用,主流的协同方法是基于交叉模态相似性方法,该方法旨在通过直接测量向量与不同模态的距离来学习一个公共子空间。而基于交叉模态相关性的方法旨在学习一个共享子空间,从而使不同模态表示集的相关性最大化。
  • 交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构,期望相同语义或相关对象的跨模态相似距离尽可能小,不同语义的距离尽可能大。
  • 与其它框架相比,协同架构的优点是每个单模态都可以独立工作,这一特性有利于跨模式迁移学习,其目的是在不同的模态或领域之间传递知识。缺点是模态融合难度较大,使跨模态学习模型不容易实现,同时模型很难在两种以上的模态之间实现转移学习。

3.多模态融合(fusion)

多模态融合是将来自多种不同模态的信息进行整合,用于分类任务或回归任务。值得注意的是,在最近的工作中,对于像深度神经网络这样的模型,多模态表示和融合之间的界限已经模糊了,其中表示学习与分类或回归目标交织在一起。
优点有三,一是对比单模态更加鲁棒,二是模态信息互补,三是其一模态信息缺失仍能运行

模型无关的方法(Model-agnostic approaches)不依赖具体机器学习方法
(可以兼容任何一种分类器或者回归器)

  1. 早期融合:提取特征后简单连接,利用低水平特征间的相关性和相互作用,训练容易(特征级的融合,多模态表示的前期尝试)不过无法充分利用多个模态数据间的互补性,且存在信息冗余问题(可由PCA,AE等方法缓解)
    pixel level:对原始数据最小粒度进行融合。
  2. 晚期融合:针对不同的模态训练不同的模型,然后进行集成,更好地对每种模态数据进行建模(不融合,类似继承学习),模型独立,鲁棒性强。融合的方式即在特征生成过程中(如多层神经网络的中间)进行自由的融合,从而实现更大的灵活性,本质上忽略了模态之间的低水平交互作用,即底层特征之间的关系(推理结果融合)可以较简单地处理数据的异步性
    利用单一模态的预测结果,通过投票机制、加权、signal variance或者一个模型进行融合
    decision level 对决策结果进行融合,这就和集成学习很像了。
  3. 混合融合:多者结合

基于模型的方法(Model-based approaches)
基于内核的方法(Multiple kernel learning):SVM的扩展,不同模态不同内核,灵活选择kernel可以更好的融合异构数据,主要优势是MKL的损失函数是凸函数,可以得到全局最优解,模型训练可以使用标准的优化package和全局优化方法,劣势在于测试时对于数据集的依赖推理速度慢,缺点在于测试期间依赖于训练数据(sv),测试慢内存大
概率图模型(Graphical models):生成模型(联合概率)和概率模型(条件概率),耦合和阶乘隐马尔可夫模型以及动态贝叶斯网络,CRF
图模型能够很容易的发掘数据中的空间和时序结构,同时可以将专家知识嵌入到模型中,模型也可解释
神经网络模型(Neural networks):多模态特征提取部分和多模态融合部分可以进行端到端的训练且能够学习其他方法难以处理的复杂决策边界。神经网络方法的主要缺点就是可解释性差以及需要依赖大量高质量的训练数据。

融合挑战

1.不同模态的信息在时间上可能不是完全对齐的,同一时刻有的模态信号密集,有的模态信号稀疏。
2.融合模型很难利用模态之间的互补性
3.不同模态数据的噪音类型和强度可能不同

4.多模态共同学习

旨在通过发掘另一种模态的信息来帮助当前模态建模
相关场景:一种模态的资源有限,缺乏标注数据或者输入噪声大,标签可靠性低
1.并行数据:模态之间共享一个实例集合,两种方法:协同训练和表征学习
协同训练:当某一个模态的标记数据非常少时,可以利用协同训练生成更多的标注训练数据(图像增强RGB,文本增强翻译德法语),或者利用模态间的不一致性过滤不可靠标注样本
协同训练方法能够生成更多的标注数据,但也可能会导致overfitting

迁移学习:多模态玻尔兹曼机或者多模态自编码器将一种模态特征表示转化为另一种,这样不仅能得到多模态表征,而且对于单模态而言推理过程中也能得到更好的性能。

2.非并行数据:不需要依赖模态间共享的实例,有共享的类别或者概念(concept)即可
迁移学习:迁移学习能够从一个数据充分、干净的模态学习特征表示迁移到另一个数据稀缺、噪声大的模态,这种迁移学习常用多模态协同特征表示实现。(zero shot)

Conceptual grounding:通过语言以及其他附加模态,例如视觉、声音、甚至味觉,学习语义含义,单纯的利用文本信息不能很好的学习到语义含义,例如人学习一个概念的时候利用的是所有的感知信息而非单纯的符号。(共感觉性/通感)

grounding通常通过寻找特征表征间的共同隐空间或者分别学习每个模态的特征表示拼接,conceptual grounding和多模态特征对齐之间有很高的重合部分。

需要注意的是,grounding并不能在所有情况下带来性能的提升,仅当grounding与具体任务相关时有效,例如在视觉相关任务中利用图像进行grounding

3.混合数据:通过共享的模态或者数据集连接两种非数据并行的模态,典型的任务例如多种语言进行图像描述,图片会与至少一种语言之间建立联系,语言之间的可以利用机器翻译任务建立起联系。

目标任务如果仅有少量标注数据,也可利用类似或相关任务去提升性能,例如利用大量文本语料指导图像分割任务(有点prompt的意思)。

多模态协同学习通过寻找模态之间的互补信息,使一种模态影响另一种模态的训练过程。
多模态协同学习是与任务无关的,可以用于更好的多模态特征融合、转换和对齐。

5.关键技术梳理

设计一个Vision-Language 预训练模型,其实主要涉及到三个关键技术:特征提取、特征融合和预训练任务。
(1)特征提取要解决的问题是怎么分别量化文字和图像,进而送到模型学习?
(2)特征融合要解决的问题是怎么让文字和图像的表征交互?
(3)预训练任务就是怎么去设计一些预训练任务来辅助模型学习到图文的对齐信息?
当然还有一些其他的零零散散的,但是也很重要的trick,比如:
(1) 训练的数据是文本和图像pair,怎么挖掘?
(2) 训练好的预训练模型怎么增量学习?
(3) 训练好的预训练模型怎么压缩?
(4) …
目前这三个技术的通常做法是:
(1) 特征提取:文本端的表征标配就是bert的tokenizer,更早的可能有LSTM;图像的话就是使用一些传统经典的卷积网络,按提取的形式主要有三种Rol、Pixel、Patch三种形式。
(2) 特征融合:目前的主流的做法不外乎两种即双流two-stream或者单流single-stream;前者基本上就是双塔网络,然后在模型最后的时候设计一些layer进行交互,所以双流结构的交互发生的时间更晚。后者就是一个网络比如transformer,其从一开始就进入一个网络进行交互,所以单流结构的交互时间发生的更早且全程发生,更灵活;当然还有一类是Multi-stream(MMFT-BERT),目前还不多,不排除将来出现基于图文音等Multi-stream多模态模型。
(3) 预训练任务:这里就是最有意思的地方,也是大部分多模态paper的idea体现。这里就先总结一些常见的标配任务,一些特色的任务后面paper单独介绍。

  5.1 Masked Language Modeling ( MLM ):传统的文本屏蔽语言模型,针对的是文本流。5.2 Masked Region Modeling(MRM):模仿MLM,只不过这里是对图片进行随机mask,针对的是图像流。被随机屏蔽的概率是15% ,替换成 0 和保持不变的概率分别是 90%和10%,这里又可以细化的分为Masked Region Feature Regression (MRFR) ,Masked Region Classification (MRC)和Masked Region Classification with KL-Divergence (MRC-kl)。主要的loss分别是L2 regression,cross-entropy (CE) loss,KL divergence 。5.3 Image-Text Matching ( ITM ): 图文匹配任务,针对的是图文交互流,即判断当前pair是不是匹配(就是个分类任务),具体的是将图片的IMG token和文本的cls做element-wise product再经过一个MLP层来做相似性的监督学习。

可以看到其实 5.1是Language-Modal的,5.2是Vision-modal的,5.3是Cross-modal

Conclusion

(1)基本上现在的标配:就是single-modal层面的MASK预测,以及cross-modal层面的对齐学习。
(2) single-stream好还是two-stream好,目前没有一个绝对的结论,就目前看使用single-stream更多一些,使用single-stream的好处是特征融合更早更充分,使用two-stream一个明显的优势是参数量更多(意味着可以容纳更多的信息),先在前期提取了各种低阶特征,进而在高阶进行融合。
(3) 图像的提取Rol到Pixel到Patch,目前使用Rol方式居多,但是必然缺失了很多信息,最直观的就是空间,尽管一些模型都显示的加了位置embedding,但是一些隐式的也有缺失,毕竟目标外的甚至是目标检测模型不能检测的目标信息都丢失了,所以从包含的信息的角度考虑后两种更全。
(4) 粒度越来越细。语言模态上:从简单的MLM到mask 场景图,视觉模态上:从单纯的mask region 区域到mask object目标,kaleido-BERT的设计的AKPM任务等等。对齐任务上面的比如:kaleido-BERT的设计的AGM。这里也是可以挖掘的一个方向可以更细粒度,当然难点就是要挖掘的粒度下的训练pair的挖掘。对齐先验知识很重要,这块有更大的挖掘空间。
(5) 数据量越来越大。不论是使用对比学习还是什么手段,本质上就是为了使的模型可以利用更大的数据集。谁能利用的数据量更大且谁能挖掘更细粒度的对齐,效果应该是越好。
(6) 大一统模态即一个模型同时可以多模态单模态可能是一个方向,因为其利用的数据可以更多,且一个模型解决可以覆盖所有任务,应用也广。
这个作者有图文介绍,结合着看可能会更好
多模态文本分类

多模态关键任务与应用综述(从表示到融合,从协同学习到关键技术梳理)相关推荐

  1. 多模态融合与协同学习

    多模态的几种融合方法 前端融合 前端融合将多个独立的数据集融合成一个单一的特征向量,然后输入到机器学习分类器中. 后端融合 常见的后端融合方式包括最大值融合(max-fusion).平均值融合(ave ...

  2. (五十二):多模态情感分析研究综述_张亚洲

    (五十二):多模态情感分析研究综述_张亚洲 Abstract 1 叙述式多模态情感分析 1. 1 静态多模态情感分析(文本与图像划分为静态文档) 1. 1. 1 基于机器学习的方法 1. 1. 2 基 ...

  3. 多模态情感分析研究综述 论文笔记

    这里写目录标题 论文标题 引言 论文学术结构 1.总体介绍 2.介绍叙述式多模态情感分析 3.介绍交互式多模态情感分析 4.多模态情感分析存在的交互建模科学问题 5.结束语 阅读论文初体验 思维导图 ...

  4. 多模态大语言模型综述来啦!一文带你理清多模态关键技术

    夕小瑶科技说 原创 作者 | 智商掉了一地.Python 随着 ChatGPT 在各领域展现出非凡能力,多模态大型语言模型(MLLM)近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为&q ...

  5. Multi-Modal 3D Object Detection in Autonomous Driving: a Survey(自动驾驶中的多模态3D目标检测综述)论文笔记

    原文链接:https://arxiv.org/pdf/2106.12735.pdf 1.引言 1.1 单一传感器3D目标检测         基于图像的3D目标检测.低费用换来满意的性能.但存在遮挡. ...

  6. 自动驾驶中图像与点云融合的深度学习研究综述

    Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review IEEE TRANSACTIONS ON ...

  7. 技术动态 | 「新一代知识图谱关键技术」最新2022进展综述

    转载公众号 | 专知 链接:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829 近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一 ...

  8. 工赋开发者社区 | 「新一代知识图谱关键技术」最新2022进展综述

    近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体 的典型应用也逐渐走进各个行业领域,包括智能问答.推荐系统.个人助手等.然而,在大数据环境和新 基建背景下,数据对象和 ...

  9. 自动驾驶中图像与点云融合的深度学习研究进展综述

    点云PCL免费知识星球,点云论文速读. 文章:Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Revie ...

  10. 读“基于深度学习的图像识别技术研究综述”有感

    "基于深度学习的图像识别技术研究综述"总结 现在流行的图像识别技术都是基于深度学习的算法,经过前辈们的探索改进,图像识别技术经历很多阶段,现如今图像识别技术已经广泛的应用于生活的方 ...

最新文章

  1. lucene 学习一
  2. 模板:网络流(Dinic算法)
  3. go语言 select
  4. 动态改变类名_反调试之检测类名与标题名
  5. tomcat7官网下载
  6. 生信技能树 电脑配置linux,2019-07-23生信Linux20题---生信技能树
  7. visio:没有“形状”界面
  8. DirectX11,DirectX12,OpenGL,Vulkan学习资料
  9. runtime error python 3.5_Python 3.5 RuntimeError: can't start new thread
  10. Python+Vue计算机毕业设计个人学习博客系统wyz5v(源码+程序+LW+部署)
  11. 【项目】小帽学堂(十一①)
  12. 判断ip是内网还是外网, 判断请求来之pc还是mobile
  13. java编写一个表示二维平面_JAVA习题集2精品名师资料.doc
  14. ps意外崩溃_Mark!小白实用PS小技巧,秒变PS达人
  15. Glass-theme cod mw2 for win7|Windows7主题下载
  16. GitChat · 架构 | 大规模私有云产品自动升级的架构选型和实战
  17. 循环冗余校验检错方案
  18. 华清远见-重庆中心-数据库阶段技术总结:
  19. 高频逆变器都有哪些特性?-道合顺大数据Infinigo
  20. 最新「智能车联网」综述论文,170篇文献全面概述智能车联网(VANETs)技术

热门文章

  1. 深度学习TF—4.随机梯度下降
  2. 排序算法之——三路快排分析
  3. 指令重排序导致的可见性问题
  4. 五步法建设你的数据中台
  5. 店庆遇上双11,买书的最大优惠来了!
  6. Android应用程序的Activity启动过程简要介绍和学习计划 .
  7. 由MindManager命令构成的实用导图
  8. 项目经理感悟之风险管理
  9. 从门户到搜索:谁为百度打工?
  10. 网站运营之比较和差异化