多模态预训练背景

相关公司:腾讯、百度、阿里、谷歌、微软、Facebook、UCLA等

多模态数据集

NLP和CV两个模态处理信息的方式十分不同,在涉及这两个领域信息的多模态任务,如VQA(视觉问答),VCR(视觉推理)等时,就需要让不同的模态的信息对齐和交互。多模态预训练就是通过海量数据学习这种跨模态理解能力,进而迁移到下游应用中。

多模态相关问题:

特征提取要解决的问题是怎么分别量化文字和图像,进而送到模型学习?

特征融合要解决的问题是怎么让文字和图像的表征交互?

预训练任务就是怎么去设计一些预训练任务来辅助模型学习到图文的对齐信息?

训练的数据是文本和图像pair,怎么挖掘?

训练好的预训练模型怎么压缩?

特征提取:文本端的表征标配就是bert的tokenizer,更早的可能有LSTM;图像的话就是使用一些传统经典的卷积网络,按提取的形式主要有三种Rol、Pixel、Patch三种形式。

特征融合:目前的主流的做法不外乎两种即双流two-stream或者单流single-stream;前者基本上就是双塔网络,然后在模型最后的时候设计一些layer进行交互,所以双流结构的交互发生的时间更晚。后者就是一个网络比如transformer,其从一开始就进入一个网络进行交互,所以单流结构的交互时间发生的更早且全程发生,更灵活。

预训练PreTask:这里就是最有意思的地方,也是大部分多模态paper的idea体现。

双塔预训练模型

特征提取:文本、图片都采用transformer,其中图片采用patc

预训练任务:采用对比学习。

特征提取:文本、图片都采用transformer,其中图片采用的是patch。

预训练任务:采用的也是对比学习

采用18亿张图片进行训练

相当于结合clip和simclr两个对比学习的损失,等于文本图像对比学与图像图像对比学习结合。

预训练任务:采用的是图文对比学习+图像自监督。

FILIP

引入一种新颖的细粒度对比学习目标,加上跨模态后交互机制,它能够考虑到图像patch和文本token之间的细粒度交互。

Cross-model Late Interaction

从对比损失可以看出,跨模态相互作用反映在我们如何计算第i幅图像和第j幅文本的相似性和。以前的方法,如CLIP和ALIGN只是将每个图像或文本分别编码为全局特征,即和,并计算这两个相似性,如下所示:

忽略两种模态之间的细粒度交互(例如,单词-patch对齐),作者采用了跨模态后期交互来建模token式的跨模态交互。具体而言,将n1和n2分别表示为第i个图像和第j个文本的(非填充)token数量,相应的编码特征为和。对于第k个视觉token,作者计算其与的所有文本token的相似性,并使用最大的一个:

单塔预训练模型

VILT

特征提取:文本、图片都采用transformer,其中图片采用的是patch。

预训练任务:这里采用的是I m a g e T e x t M a t c h i n g + M a s k e d L a n g u a g e M o d e l i n g。

AIBEF

一个图像编码器、一个文本编码器和一个多模态编码器组成,提出一种图像文本对比损失,在图像文本融合之前对图像文本进行统一表示建模

图文对比学习

掩码语言建模

图文匹配任务

从网络上收集的图像-文本对往往是弱相关的:文本可能包含与图像无关的词,或者图像可能包含文本中没有描述的实体。为了从嘈杂的数据中学习,我们提出了动量蒸馏法,即使用动量模型为图像-文本对比学习和掩码语言建模生成伪目标。下图显示了一个图像的伪目标文本的例子,它产生了 "年轻女人 "和 "树 "等新概念。我们还从相互信息最大化的角度提供了理论解释,表明动量提炼可以被解释为 为每个图像-文本对产生一系列新的视角。

双塔结构:视觉和文本编码器(Encoder)分开编码,然后在模型最后的时候设计一些

layer进行交互,所以双流结构的交互发生的时间更晚。

优点:速度快,下游使用方便,适合跨模态检索;缺点:缺少足够的模态交互,有些下游任务如VQA、NLVR效果不太好

代表:CLIP ,ALIGN, SLIP等

单塔结构:使用一个网络比如transformer,其从一开始就进入一个网络进行交互,所以单流结构的交互时间发生的更早且全程发生,更灵活。

优点:有足够的模态交互,在下游任务如VQA、NLVR效果更好,但是在下游任务使用时不方便,且跨膜态检索速度慢

代表:VILT ,UNITER等

多模态预训练模型简介相关推荐

  1. KD-VLP:知识蒸馏和预训练还能这么结合?上科大IntelMSRA提出基于知识蒸馏的端到端多模态预训练模型...

    关注公众号,发现CV技术之美 本文分享论文『KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowl ...

  2. 追求极致速度,极简多模态预训练模型ViLT,推理速度比UNITER快60倍!(ICML2021)...

    关注公众号,发现CV技术之美 ▊ 写在前面 视觉和语言预训练(VLP)提高了各种联合视觉和语言下游任务的表现.然而,当前的VLP方法严重依赖于图像特征提取的过程,其中大部分涉及区域监督(例如,目标检测 ...

  3. 从LXMERT到VLMO:多模态预训练模型的演变史

    ©作者 | 吉雅太 单位 | 清华大学 研究方向 | 多模态研究 自从 2018 年 BERT 在 NLP 领域声名鹊起,通过预训练在 n 多 NLP 任务中刷榜,成功发掘出了 transformer ...

  4. 从多篇2021年顶会论文看多模态预训练模型最新研究进展

    ©PaperWeekly 原创 · 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 背景 1.1.什么是预训练 目前随着数据量爆炸式的增长,靠人工去标注更多数据是 ...

  5. 多模态预训练模型综述

    前言 2021年诺贝尔生理学.医学奖揭晓,获奖者是戴维·朱利叶斯(DavidJulius)和阿代姆·帕塔博蒂安(Ardem Patapoutian),表彰他们在"发现温度和触觉感受器&quo ...

  6. UNITER多模态预训练模型原理加代码解读

    UNITER多模态预训练模型原理 1. 数据 ​ 过去的5年中,Vision+NLP的研究者所使用的主要数据集如下展示: ​ 本文中所使用到的4种数据集如下图所示,Conceptual Caption ...

  7. 多模态预训练模型学习

    一.什么是预训练? 目前随着数据量爆炸式的增长,靠人工去标注更多数据是非常昂贵,并且也不太现实的.因此预训练的方式就出现了,也逐渐成为了一种主流的方法.那到底什么是预训练呢?简单地说,预训练就是:&q ...

  8. 多模态预训练模型简述

    1.介绍 让机器能以人类智能相似的方式作出反应一直是人工智能研究人员的目标.为了让机器能听会说.能看会认.能理解会思考, 研究者提出一系列相关任务,如人脸识别.语音合成.阅读理解等来训练及评价机器在某 ...

  9. EMNLP'22 Findings | 南大提出:从文本视角探究多模态预训练模型的语义对齐能力...

    每天给你送来NLP技术干货! 来自:南大NLP 01 研究动机 对齐不同模态的语义是多模态预训练 (VLP) 模型的一个重要能力.然而,VLP模型的内部对齐机制是不可知的.许多研究已经关注到这个问题, ...

最新文章

  1. 2017全球硬科技创新大会今日开幕 科技大腕聚集共绘西安“硬科技”发展蓝图
  2. 初步理解Java的三大特性——封装、继承和多态
  3. Spring Hibernate使用TransactionInterceptor声明式事务配置
  4. Ubuntu下查找命令
  5. 生成jar文件的方法
  6. C# 的扩展方法在 LINQ 中实现数组排序
  7. java集合的某项相加_java8实现list集合中按照某一个值相加求和,平均值等操作代码...
  8. 腾讯云服务器性能测试心得经验总结
  9. asp连接mysql oledb_provider=microsoft.jet.oledb……数据库连接方法的疑惑?
  10. 刘翔博客答即时通信公司网友提问
  11. ReportViewer教程(15)-矩阵报表-5
  12. 新型监控告警工具prometheus(普罗米修斯)入门使用(附视频讲解)
  13. 一秒钟世界上会发生多少事_再多涂改,人性也总会醒来,也总会主动去追寻那一秒钟...
  14. 计算机网络期末复习要点(谢希仁第8版)抱佛脚通用
  15. VB利用SHFileOperation实现拷贝、删除、重命名文件
  16. 画图必备工具:25个常用Matplotlib图的Python代码总结
  17. KNN——简单手写体识别
  18. cesium加载地形
  19. IOC 之深入理解 Spring IoC
  20. 与开发团队合作的8个技巧

热门文章

  1. Python面试宝典(第二章 Python基础)
  2. 流放者柯南rust_流放者柯南游戏评测
  3. word在另外计算机格式不对,【2人回答】Word在别人电脑里排版不一样。如何解决?-3D溜溜网...
  4. oracle的chr的使用,Oracle 学习之:ASCII,CHR函数的作用和用法
  5. Altium designer18系列教程二 原理图库制作
  6. Word中NoteExpress不显示的问题
  7. conda 命令和pip命令的区别,以及conda命令大全
  8. A - Bookshelf Filling (非二分法,好像还更快)
  9. 前端笔记知识点整合之JavaScript(四)关于函数、作用域、闭包那点事
  10. 她,从种蘑菇卖煤球,到开源 Zadig