点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

兴坤 发自 凹非寺
量子位 报道 | 公众号 QbitAI

谷歌新推出了弱监督看图说话模型SimVLM,能够轻松实现零样本学习(zero-shot)任务迁移。

从文字描述图像到回答图片相关问题,模型无需微调也能样样精通。

对于一般的视觉语言预训练(VLP)模型,训练数据集中要求包含大量精准标签。而模型的任务迁移,则需要针对特定任务重新进行数据集的标签标注。

总结下来,就是标注数据集不仅耗时耗力,还不能多任务通用。

能不能开发出一种又简单又万能的VLP模型呢?

谷歌新开发的这款模型使用了弱监督学习进行模型训练,通过利用大量的弱对齐图像-文本对进行建模,简化了VLP的训练流程,大大降低了训练的复杂性。

SimVLM使用前缀语言建模的单一目标进行端到端训练,并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用,从而能够更好地实现零样本学习泛化效果。

SimVLM模型是如何实现的?

SimVLM模型的预训练过程采用了前缀语言建模(PrefixLM)的单一目标,接受序列的前缀作为输入,通过模型解码器来预测其延续的内容。

对于数据集中的图像-文本对,图像序列可视作其文本描述的前缀。

这种方法可以简化训练过程,最大限度地提高模型在适应不同任务设置方面的灵活性和通用性。

模型的主干网络,则使用了在语言和视觉任务上均表现突出的Transformer架构。

对输入的原始图像数据提取上下文patch,这里采用了ResNet卷积网络。

如上图所示:视觉模态中,图片被分割成多个patch,然后压缩为一维序列。文本模态语句则被映射到了一个表征向量中。

本模型使用了包含大约1.8B噪声的图像-文本对ALIGN训练集进行预训练,以此来实现更好的零样本学习泛化能力。

为了补偿训练集中的噪声影响,训练模型另外还使用了共800G的Colossal Clean Crawled Corpus (C4)数据集。

SimVLM模型基础性能如何?

模型的预训练完成后,需要在多模式任务中对模型进行微调,以测试性能。

这里用到的多模式任务有:VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps和Multi30K En-De。

性能指标:BLEU-4 (B@4)、METEOR (M)、CIDEr (C)、SPICE (S)

将SimVLM模型与现有的功能完善的模型进行比较,测试结果如上表所示,参与评估的SimVLM模型还包括了三种不同规模:8600万参数、3.07亿参数和6.32亿参数。

跨模式任务的测试结果中,SimVLM模型的性能表现最好(数据越大越好),除了CoCo Caption的B@4指标,在其他任务上都取得了新的SOTA结果,充分证明了该模型的先进性。

SimVLM模型零样本泛化

SimVLM模型在跨模式任务测试中可以取得不错的性能表现,那么它能否顺利执行零样本跨模态转移呢?

预训练的SimVLM模型仅对文本数据进行微调或完全不进行微调,通过图像字幕、多语言字幕、开放式VQA和视觉文本生成等任务,对模型进行测试。

测试结果如下图所示:

给定图像和文本提示,预训练模型无需微调即可预测图像的内容。

除此之外,未进行过微调的模型在德语字幕生成、数据集外的答案生成、基于图像内容的文字描述、开放式视觉问题回答等应用上均有不错的表现。

为了量化SimVLM的零样本学习性能,这里采用了预训练的固化模型在COCO Caption和NoCaps上进行解码,然后与监督标准基线(Sup.)进行比较。

从结果对比上来看,即使没有监督微调,SimVLM也可以达到有监督的训练质量水平。

作者介绍

本研究的第一作者是谷歌学生研究员王子瑞,现就读于卡内基梅隆大学,曾以第一作者身份在ICLR、EMNLP、CVPR等顶会上发表了多篇论文。

截止到2020年12月20日,他在SuperGLUE数据集上获得了第一个超过人类得分的SOTA性能(分数超过90),目前则被百度团队赶超,位居第二。

这一次开发的SimVLM也在6个视觉语言基准测试中达到了单模型SOTA性能,并实现了基于文本引导的零样本学习泛化能力。

参考链接:
https://arxiv.org/abs/2108.10904
https://ai.googleblog.com/2021/10/simvlm-simple-visual-language-model-pre.html
http://www.cs.cmu.edu/~ziruiw/

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

谷歌发布最新看图说话模型,可实现零样本学习,多类型任务也能直接上手相关推荐

  1. 《预训练周刊》第27期:谷歌发布最新看图说话模型、GitHub:平台上30%的新代码受益于AI助手Copilot...

    No.27 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及少样本理解.图像检测.决策图.大模型微调.对话微调.分子建模.蛋白质结构预测 ...

  2. CVPR2021-RSTNet:自适应Attention的“看图说话”模型

    0 写在前面 由于强大的建模能力,Transformer结构被用在一系列CV.NLP.Cross-modal的任务中.但是基于grid特征,用Transformer结构处理Image Captioni ...

  3. 看图说话实战教程 | 第三节 | 模型构建及训练

    欢迎来到<看图说话实战教程>系列第三节.在这一节中,我们正式进入看图说话深度模型的构建与训练. 文章目录 1. 加载数据 2. 构建模型 3. 拟合模型 4. 完整代码 5. 结束语 1. ...

  4. 看图说话实战教程 | 第一节 | 教程简介及准备工作

    引言 从上图中你看到了什么? 你会说"一条站在草地上的小狗"."草地上的一条白色小狗"等等,这些都是能够描述这张图片传达的信息的. 对我们人类而言,用文字描述图 ...

  5. 对Image caption的一些理解(看图说话)

    1. 背景 ​ 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域.而"看图说话"要实现的功能是,给定一张图像,计算机能告诉我们图片的内容,显然,这会 ...

  6. 谷歌浏览器中文版_中国科学家设计超薄指尖传感器,厚度不到A4纸五分之一 / 谷歌发布地图时光机:百年前,你家街道啥样?/ AI看图说话首超人类...

    关注我们了解计算机视觉最新动态 ! 动态先览 1 中国科学家设计超薄指尖传感器,厚度 不到A4纸五分之一 2 谷歌发布地图「时光机」:100年前, 你家街道长啥样? 3 仿真环境跟车2分钟,就让自动驾 ...

  7. 实战 | 一行命令实现看图说话(Google的im2txt模型)

    一行命令实现看图说话|Google的im2txt模型 1.项目介绍 这次给大家介绍一个google的深度学习模型im2txt,这个模型的作用跟它的名字一样,image-to-text,把图像转为文字, ...

  8. 教你用PyTorch实现“看图说话”(附代码、学习资源)

    作者:FAIZAN SHAIKH 翻译:和中华 校对:白静 本文共2200字,建议阅读10分钟. 本文用浅显易懂的方式解释了什么是"看图说话"(Image Captioning), ...

  9. 看图说话之网络2008

    看图说话之网络2008 2008年即将过去,来记住这一年发生的几则网事吧.看图说话,欢迎各位看官留言指正补足. 1.恒源祥引发的网络声讨 2008年的除夕,"恒源祥羊羊羊"广告的升 ...

最新文章

  1. Thinkpad T61/R61/X61安装XP驱动流程
  2. C++_类和对象_对象特性_构造函数和析构函数---C++语言工作笔记040
  3. 转载CentOS7 yum 安装与配置MySQL5.7
  4. javascript 学习--javascript高级程序设计
  5. 软件测试记录包括哪些,bug记录里通常包括哪些内容?
  6. 1. 如何创建python环境
  7. KGB知识图谱完善保险行业的知识应用体系
  8. 【敏捷团队】7.敏捷最后冲刺
  9. 04-2. 打印九九口诀表(15)
  10. Linux下安装DB2数据库步骤及常用命令
  11. 针对初创型企业的高新企业认定知识及建议!
  12. MySQL集群:主从模式
  13. 谷歌浏览器设置缓存方法
  14. 滴滴java开发面试题_滴滴出行(小桔科技)亲身面试经验分享,java开发岗
  15. 2020.11.03 底层相关,汇编
  16. 无参考图像质量评价NR-IQA
  17. oracle 安装sde,linux安装SDE 10
  18. linux rpm -qa,为什么使用rpm -qa命令显示是空的?
  19. 张宇基础30讲 第9讲
  20. MATLAB找圆心之路

热门文章

  1. jQuery(一)引入
  2. 把时间当作朋友(第一版)笔记
  3. effective C++ 读书笔记(11-28)
  4. 电子学会青少年编程等级考试Python一级题目解析11
  5. 技术图文:双指针在链表问题中的应用
  6. 【ACM】杭电OJ 1001
  7. 健身也内卷?这届网友用 Python 掌握了做标准俯卧撑的秘诀
  8. 丢弃Transformer,FCN也可以实现E2E检测
  9. PyTorch关键算法疑似侵权,Facebook被起诉
  10. 易观的大数据中台之路