文 | 子龙

编 | 智商掉了一地

厉害了！作者将单一模型运用于三个不同领域的不同任务，结构简单且训练直观，还能有着出色的表现。

自Transformer横空出世，从NLP到CV，再到今天的多模态，无数基于Transformer的模型被应用于各类任务，似乎真的印证了当年文章的标题“Transformer is ALL you need”。然而，纯粹的NLP任务有BERT、RoBERTa，CV任务有ViT，多模态任务又有VLBERT、OSCAR，虽然都是基于Transformer的结构，但是仍然是针对不同任务设计不同模型，那么“万能”的Transformer能否构建出一个统合各类任务的模型，实现真的的一个模型解决所有问题呢？

今天文章的作者就关注到了当前各个模型的局限，提出了一个适用于NLP+CV+多模态的模型FLAVA，可运用于三种领域共计35个任务，且都有着出色的表现。

论文题目:
FLAVA: A Foundational Language And Vision Alignment Model

论文链接:
https://arxiv.org/abs/2112.04482

介绍

文章标题中，作者称模型为“Foundational”，他们不希望借助各种奇技淫巧的Tricks，而是通过尽可能简单的结构，配合直观的的训练手段，达到涵盖NLP、CV、多模态的目的。

FLAVA基于三种不同的输入：

匹配的图片-文本
单独文本
单独图片

解决三个领域的问题：

NLP：语言理解（如GLUE）
CV：视觉识别（如ImageNet）
多模态：多模态解释（如VQA）

图片编码器(Image Encoder)

FLAVA直接借用既有模型ViT的结构，同时仿照ViT的处理方法，分割图片进行编码。在ViT输出的隐状态上，FLAVA利用单一模态数据集中的图片进行Masked Image Modeling。首先，利用dVAE将图片转化为类似词向量的token；再参照BEiT，对masked隐状态进行分类，即利用周围图片分块，预测masked的图片属于dVAE划分的哪一类，这样在图片上也可以像BERT那样做mask modeling。

文本编码器(Text Encoder)

FLAVA在文本部分多处理就相对简单，作者采取常见的Masked Language Modeling，对一部分masked token进行预测，和其他方法对区别在于，FLAVA没有采用BERT之类纯文本语言模型的结构，而是和图片编码器一样，使用了ViT的结构，不过因为是不同的模态，自然采用了不同的模型参数。

多模态编码器(Multimodal Encoder)

在图片编码器和文本编码器之上，FLAVA添加了一层多模态编码器做模态融合，多模态编码器将前两者输出的隐藏状态作为输入，同样利用ViT的模型结构进行融合。

多模态预训练

在文本编码器和图片编码器中，FLAVA在单一模态上进行了预训练，在多模态预训练方面，FLAVA使用了三种多模态预训练任务：

对比学习：FLAVA利用图片编码器和文本编码器的隐藏状态，增大相匹配的图片-文本对之间的余弦相似度，减小非匹配的图片-文本对之间的余弦相似度。
Masked Multimodal Modeling：与图片编码器上的MIM类似，只不过改为利用多模态编码器的隐状态进行预测。
图片-文本匹配：与许多现有模型一样，FLAVA利用多模态编码器的[CLS]的隐状态，识别当前图片与文本是否匹配。

效果

从上述模型细节可以看出，无论是模型结构，还是预训练任务，文本与图片之间高度对称，同时也设计也十分直观。接下来看看在35个任务上的表现。

图中下划线表示最优结果，加粗表示在公开数据集上训练的最优结果。

从各个任务平均上看，FLAVA能够取得整体上的最优结果，多模态任务平均比CLIP高出2个百分点左右，整体平均比CLIP高出10个百分点左右。从具体任务上看，在不少任务上都取得了十分显著的提高，如STS-B数据集提高了69.69，MNLI数据集提高了46.81。

小结

不同于现有模型，FLAVA最大的特点，也可以说是创新点，在于作者实现了将单一模型运用于三个不同领域的不同任务，而且都有着不错的效果，虽然FLAVA并没有奇迹般在所有任务上都达到SOTA，但是整体性能上并不弱于现有模型，同时有着更广阔的运用场景，模型设计也没有各种奇技淫巧，这对未来研究通用模型有着很大的启发。

萌屋作者：子龙(Ryan)

本科毕业于北大计算机系，曾混迹于商汤和MSRA，现在是宅在UCSD(Social Dead)的在读PhD，主要关注多模态中的NLP和data mining，也在探索更多有意思的Topic，原本只是贵公众号的吃瓜群众，被各种有意思的推送吸引就上了贼船，希望借此沾沾小屋的灵气，paper++，早日成为有猫的程序员！

作品推荐：

1.别再搞纯文本了！多模文档理解更被时代需要！

2.Transformer哪家强？Google爸爸辨优良！

3.预训练语言真的是世界模型？

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！相关推荐

吊打 CLIP 平均10个点，Meta 多模态通用模型 FLAVA真香啊
厉害了!作者将单一模型运用于三个不同领域的不同任务,结构简单且训练直观,还能有着出色的表现. 自Transformer横空出世,从NLP到CV,再到今天的多模态,无数基于Transformer的模型被 ...
多模态生成模型ERNIE-VILG
前言多模态现在可真谓是一大研究热点,之前我们已经介绍了比较多的多模态模型,感兴趣的小伙伴可以穿梭看之前笔者微信公众号的文章: 多模态预训练模型综述紧跟研究热点,快来打卡多模态知识点吧~https:/ ...
多模态大模型——通用人工智能路径的探索
7月9日,中国科学院自动化研究所所长徐波在2021世界人工智能大会(WAIC2021)上就人工智能的最新进展进行报告,发布了自动化所研发的跨模态通用人工智能平台-"紫东太初". & ...
#今日论文推荐# 多边形战士模型，微软提出19亿参数的超大通用模型BEIT-3，刷榜多个CV和多模态任务
#今日论文推荐# 多边形战士模型,微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...
#今日论文推荐# 多边形战士模型！微软提出19亿参数的超大通用模型BEIT-3，刷榜多个CV和多模态任务
#今日论文推荐# 多边形战士模型!微软提出19亿参数的超大通用模型BEIT-3,刷榜多个CV和多模态任务语言.视觉和多模态预训练的大融合正在出现.在这项工作中,作者引入了一个通用的多模态基础模型 B ...
《预训练周刊》第42期：通用模型、训练计算优化、多模态训练
No.42 智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...
悟道·文澜详解：目前最大的中文多模态通用预训练模型
近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被推至新 ...
AI：人工智能的多模态融合模型的简介、发展以及未来趋势
AI:人工智能的多模态融合模型的简介.发展以及未来趋势目录人工智能的多模态融合模型的简介.发展以及未来趋势多模态融合模型的简介多模态融合模型的发展趋势多模态常见应用分类 1.按照模态分类 2 ...
昇腾AI与“紫东.太初”赋能法律服务，多模态大模型迈向“多专多能”
日前举办的华为全联接大会2022上,中国科学院自动化研究所所长徐波在演讲中提出了一个新观点:"多模态是人工智能迈向通用化的关键一步." 学术界并不缺少大模型的"摇旗者&q ...

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！

介绍

图片编码器(Image Encoder)

文本编码器(Text Encoder)

多模态编码器(Multimodal Encoder)

多模态预训练

效果

小结

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！相关推荐

最新文章

热门文章