当NLPer爱上CV:后BERT时代生存指南之VL-BERT篇

小鹿鹿lulu

被数学/NLP/炼丹持续折磨的吃货一枚

前言

BERT的出现让NLP发展实现了一个大飞跃,甚至有大佬说NLP已经没有可以做的啦,后面就是拼机器拼money了。但是,我认为任何领域的进步之后都会有更苛刻的要求,科研没有尽头,需求也永远无法满足。而多模态,要求机器拥有多维度的感知能力,就是一个更强的挑战。 关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。

所以,为了迎上发展的势头,在继videoBERT之后又调研了一番image和BERT结合的工作。下文将介绍 MSRA出品的VL-BERT,通过这个模型来一览现阶段 image+BERT 的研究现状吧。

模型介绍

VL-BERT模型以transformer为骨干,将BERT的输入扩展为文本+图像。那么问题来了,怎样将两者花式融合呢?让我们揣测一下作者的炼丹思路:

  1. 图片和文本没法直接对齐,暴力输入整张图

于是就有了图中用红色虚线框起来的部分,直接将图像、文本、segment和position embeding加和输入。这样做MLM任务是没问题了,但怎样确定模型能准确提取图像信息呢?

2. 提取图像中的重要部分,增加无文本的图像输入

由于整张图片的粒度远大于文本token,一次性输入整张图片显然不利于图像和文本信息的交互。 所以使用了目标检测工具对图片进行分块,提取图像中感兴趣的核心部分RoI(region-of-interest),加上[IMG]标识,输入到模型中(图中浅绿色实线框起来的部分)。 为了不失掉全局信息,在[END]对应的位置又加上了整张图像。另外,我们假设图片的不同区域是没有顺序可言的,即position embedding是一样的。

类比文本输入,模型实际上接受的是文本token(subword)对应的word embedding,所以我们会对所有图像输入(不管是整张图片还是局部RoIs)使用pre-trained R-CNN提取2048维的visual feature embedding输入到模型中。

自监督学习任务(pretrain)

结合上文介绍的模型结构,再强调一下两个预训练任务:

  1. Masked Language Model with visual Clues

根据文本+图像信息预测文本token,升级版的MLM。 唯一不同的是被mask的word除了根据没被mask的文本来预测还可以根据视觉的信息来辅助。比如上图中的例子,被mask后的word sequence是kitten drinking from [MASK],如果没有图片给我们的视觉信息是无法预测出被mask的词是bottle。

2. Masked RoI Classification with LinguisticClues

根据文本+图像信息预测RoIs的类别,针对图像的“MLM”。 以下图为例,首先对图片使用目标检测工具提取RoIs并获得所属类别,然后随机mask局部区域(树叶部分)。需要注意的是,由于模型会接收整张图片的输入,为了避免信息泄露,整张图片对应的部分也要mask。最后,模型根据文本信息和被mask的图片信息预测mask区域所属类别。

下游任务(finetune)

模型通过接收<text, image>输入,通过自监督任务学习到general跨模态表示后,可以很自然的应用很多跨模态的任务中。延续原始BERT的设定,[CLS]最后输出的feature可以预测文本和图片的关系(sentence-image-relation),被mask的text token或者RoI的输出用来做word-level或者RoI-level的预测。

下面来看看不同的下游任务是怎么实现的叭~

  1. 视觉常识推理(VCR)

给定一张图片中的多个RoIs和问题(Q),需要选出答案(A)并解释为什么(R)。VCR任务超越目标检测(object detection),是需要结合认知层面的复杂推理任务。下图展示了数据中的两个例子[1],确实很难很复杂

当NLPer爱上CV:后BERT时代生存指南之VL-BERT篇相关推荐

  1. 好书分享、能量传递-《软技能 代码之外的生存指南》自我营销篇

    分享是一种态度,学习是一种习惯,点赞是一种风格,评论是一种魄力,纠错是一种礼节,本文仅以此献给那些需要的人!!! 自我营销: 如果你在酒吧夜店看过驻场乐队演出,细心的广众会发现乐队的演唱水平丝毫不亚于 ...

  2. 软技能-代码之外的生存指南读后感 自我营销篇

    在软件开发行业,营销的名声并不好,很多人会直接把营销和骗局.夸大效果画等号 其实我们每个人在职场中都有个自己的人设,这个人设决定了别人怎么看待你,以及上级需要你做什么样的工作,这个人设在我们入职一段时 ...

  3. 给小白的Java EE生存指南(4) : 一只叫Tom的猫

    本文是给小白的Java EE生存指南的第4篇, 讲一下几乎100%Java 开发人员都要用的 Tomcat. 为什么有Tomcat ? 其实需要从Servlet 说起. 记得<给小白的Java ...

  4. 虽被BERT碾压,但还是有必要谈谈BERT时代与后时代的NLP

    作者 | 吴金龙,爱因互动技术合伙人,算法负责人 来源 | 授权转载自AINLP(ID:nlpjob) 2018年是NLP的收获大年,模型预训练技术终于被批量成功应用于多项NLP任务.之前搞NLP的人 ...

  5. 后BERT时代:15个预训练模型对比分析与关键点探索(附链接)

    来源:知乎 作者:JayLou 本文约7800字,建议阅读10分钟. 本文对ELMo以来的15个代表性的预训练语言模型进行了多维度的对比和分析. 前言 在之前写过的<NLP的游戏规则从此改写?从 ...

  6. 后BERT时代:15个预训练模型对比分析与关键点探究

    前言 在小夕之前写过的<NLP的游戏规则从此改写?从word2vec, ELMo到BERT>一文中,介绍了从word2vec到ELMo再到BERT的发展路径.而在BERT出现之后的这大半年 ...

  7. 后 BERT 时代的那些 NLP 预训练模型

    本文介绍对于 BERT 的 Pretraining 过程进行改进的几篇文章,包括 Pre-Training with Whole Word Masking for Chinese BERT.ERNIE ...

  8. 后金融风暴时代,什么样的开发人员能生存?

    版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章原始出版.作者信息和本声明.否则将追究法律责任.本文地址:http://blog.csdn.net/jobchanceleo/archiv ...

  9. Bert时代的创新:Bert应用模式比较及其它 | 技术头条

    作者:张俊林,中国中文信息学会理事,中科院软件所博士.目前在新浪微博 AI Lab 担任资深算法专家.在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总 ...

最新文章

  1. 最大医学影像平台将首个实现把医疗AI引入实际应用
  2. C语言学习笔记 (005) - 二维数组作为函数参数传递剖析
  3. wamp测试mysql_Wamp 配置及测试
  4. 三种编程命名规则:驼峰命名法 (壹)
  5. 大数据python试卷_大数据起步--Python语言-中国大学mooc-试题题目及答案
  6. linux定时备份mysql数据库文件脚本
  7. 微信小程序开发系列六:微信框架API的调用
  8. PHP 电子商城基本数据表
  9. mysql默认存储引擎的索引结构是_InnoDB引擎的索引和存储结构
  10. HTML5公式插件,在HTML5中使用MathML数学公式
  11. FISCO BCOS简介
  12. Linux chapter test 9
  13. 解决办法:对BZ2_bzDecompressInit/BZ2_bzDecompress/BZ2_bzDecompressEnd未定义的引用
  14. U盘刻录方式安装CentOS 7
  15. 三次样条插值证明过程及代码实现
  16. 计算几何专项:UVa 12307
  17. 【论文笔记】:Region Proposal by Guided Anchoring
  18. linux分屏显示命令文件夹,Linux简易命令整理
  19. 图的单源最短路径算法
  20. 光线追踪与全域光渲染keyshot中文

热门文章

  1. bert模型图解 很详细的与其他模型对比实验
  2. cbow 和skip-gram比较
  3. EJB调用原理分析 (飞茂EJB)
  4. ORACLE 查询约束
  5. 迭代器模式(Iterator pattern)
  6. java对象序列化克隆_JAVA 对象克隆和序列化
  7. 北京智源人工智能研究院2020年博士后招收简章
  8. 这 23 道题,全世界的数学家花费 100 年时间,只解答了一半
  9. 【连载】高效人士的116个IT秘诀(第2版)——秘诀23早晨就来一次突破
  10. AAAI-19 日程 安排