ViLBERT (short for Vision-and-Language BERT)是一个Task-Agnostic(无特定任务的)的多模态图文预训练模型。
论文链接: link.

首先从结构上来说。

他是一个双流的结构。这一点跟LXMERT十分的相似。本文使用faster-rcnn 来提取图片的区域特征,大多数多模态预训练模型都是使用faster-rcnn 来提取图片特征。如uniter,unimo等等。本文认为图片提取完特征是具备高层的语义信息,此时(刚embed完)文本不具备高层语意信息。所以文本是需要先通过几个transformer 模块之后再与图片特征进行交互。其结构上的创新是这个Co-Attentional Transformer Layers.


这个layer结构也十分简单容易理解。self-attention中的q,k,v都是来自自己的输入,只不过只不过输入通过不同的线性网络得到q,k,v。 该结构中只不过是图片k,v去与文本的q做self- attention计算,文本的k,v去与图片的q做self- attention计算。简单说就是图片流中的k,v 和文本流的q 输入到文本流,文本流中的k,v 和图片流的q 输入到图片流。
其图片上结构也非常清晰。文本流 [cls]word…[sep] 先与bert的处理是一样的,通过几个标准的transformer block 后与图片流。[img] v0,v1…vt. 进入k个跨模态模块,注意的是跨模态模块中是一个Co-Attentional Transformer Layers 加一个标准的transformer block 。 使用最后一层的[img]作为图片的表征。最后一层的[cls]. 作为文本的表征。

预训练方法上来说。
有两个预训练方法:masked multi-modal modelling and multi-modal alignment prediction.。


masked multi-modal modelling task:跟bert的mlm差不多。随机mask掉百分之15的图片区域和文字,让模型去还原。百分之90的时间mask掉,百分之10的时间保持不变。其预测文字的地方使用的损失跟bert一样就是预测是哪个单词。其mask 图片区域特征方式是使该区域特征全为0。举个小例子,使用的base版本的bert。图片流的输入是[img]v0 v1 …vn 是n个768维的向量,mask v1的话,v1就变成了768维的0向量。 使其还原使用的损失函数是 KL divergence

还有一个在还原frame,或region 时常用的损失是nce loss。这个以后讲到时再介绍。

multi-modal alignment prediction :这个也十分简单。将文本与图片对随机替换其中的一个,构建了图文描述不一致的图文对。通过输入模型去[img] 与[cls] 做 Hadamard乘积,就是对应位置元素相乘,然后输入到一个线性网络做二分来判断图文信息是否一致。

剩下的就是下游任务微调和实验结果,感兴趣的可以去读原文。
以上就是本论文的核心思想了,哎,该早点开始写博客,现在都能积累一堆了。

论文解读ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks相关推荐

  1. 论文解读:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

    论文解读:It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners   PET作者认为之前的P ...

  2. 论文解读:《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》

    <语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...

  3. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

    目录 ViLBERT: Extending BERT to Jointly Represent Images and Text Experimental Settings References ViL ...

  4. 论文解读:NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence

    论文解读:NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence ...

  5. CVPR 2019 ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language

    动机 现存方法的两大局限性: 视觉理解任务使用的主要策略是先基于其他大规模任务分别预训练视觉和语言模型,然后将其作为具体任务的一部分基础知识.然而,1)这种方案学习到的基础知识并不牢靠,当visiol ...

  6. 【论文笔记】ViLBERT:Pretraining Task-Agnostic VisiolinguisticRepresentations for Vision-and-Language Tasks

    论文标题: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tas ...

  7. TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文解读

    TAPAS: Weakly Supervised Table Parsing via Pre-training 原论文理解解读 这里只进行原论文解读,若有不正确的地方希望指正,不明白的地方我也会写上, ...

  8. 论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training

    论文解读:Correcting Chinese Spelling Errors with Phonetic Pre-training(ACL2021)   中文拼写纠错CSC任务具有挑战性,目前的SO ...

  9. 论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

    论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information(2021ACL) 简要信息: 序号 属性 ...

最新文章

  1. [Java基础]字符缓冲流
  2. FreeSql (三十一)分区分表
  3. 计算机课件知识,计算机基础知识1认识计算机课件.ppt
  4. SpringCloud Consul Config 配置中心(一)
  5. day6--pandas
  6. 【青梅快讯】不断前行,Greenplum发布最新版本 6.16.2
  7. 8583:全面掌握ISO8583报文协议zz
  8. 深透研究病毒3—威金病毒
  9. Unity HDRP卡通角色自然渲染shader
  10. 离散数学——容斥原理
  11. CCW 算法( POJ_1912)
  12. 联想拯救者y7000p加内存条_联想 拯救者Y7000P 如何插入SD卡?
  13. 微信小程序 wx.miniProgram.navigateTo和wx.miniProgram.navigateBack无效问题解决
  14. UOJ #141. 【UER #4】量子态的棋盘
  15. unreal4怎么设置游戏模式_UE4如何设置默认游戏模式和关卡_资源库
  16. android 自定义图片裁剪,Android图片裁剪工具封装
  17. BACnet安全连接(BACnet/SC) 介绍
  18. java string转short_java类型转换
  19. WebRequest设置代理
  20. 看完不会的来打我!Mycat和Mysql搭建高可用企业数据库集群

热门文章

  1. 子类调用父类方法时,方法中的变量用谁的
  2. pycharm在import提示Unresolved问题解决
  3. 新生研讨课——人脸识别浅谈
  4. 漫谈程序员系列 3D打印能打印出程序猿吗
  5. AD13.1无法导入DDB等文件问题
  6. 几款主流分叉币现状分析
  7. 计算机组装与维护教学工作计划,计算机教学计划范文五篇
  8. 架构师必备:多维度查询的最佳实践
  9. vpp 中 load balance 的实现
  10. android 仿华为手机悬浮窗设计