目录

  • ViLBERT: Extending BERT to Jointly Represent Images and Text
  • Experimental Settings
  • References

ViLBERT: Vision-and-Language BERT

ViLBERT: Extending BERT to Jointly Represent Images and Text

  • Two-stream Architecture: ViLBERT 采用 two-stream 架构,由两个并行的 BERT-style 模型分别对 image region features v1,...,vTv_1,...,v_{\mathcal T}v1​,...,vT​ 和 text input w0,...,wTw_0,...,w_Tw0​,...,wT​ 进行信息建模 (文本部分的 BERT 参数可由 BERT 进行初始化)。每个 stream 都由一系列的 transformer blocks (TRM)co-attentional transformer layers (Co-TRM) 组成,其中 Co-TRM 被用来促进模态间的信息交换。最终模型输出 (hv0,...hvT)(h_{v_0},...h_{v_{\mathcal T}})(hv0​​,...hvT​​) 和 (hw0,...,hwT)(h_{w_0},...,h_{w_T})(hw0​​,...,hwT​​)
    注意到,两个 streams 之间的信息交换被限制在了特定的层上,并且由于输入的 image region features 本身就是经过 CNN 处理过的 high-level 特征,因此 text stream 在和 visual features 交互之前还做了更多的处理 (This structure allows for variable depths for each modality and enables sparse interaction through co-attention.)
  • Co-Attentional Transformer Layers (Co-TRM).
  • Image Representations. image region features 即为一个预训练好的 Faster R-CNN 抽取出的 bounding boxes 对应的 visual features,选出的 bounding boxes 均需超过 confidence threshold 并且每张图片只保留 10 到 36 个 high-scoring boxes。同时由于 image regions 缺少一个自然的排序顺序,我们转而用一个 5-ddd 向量对 image regions 的空间位置进行了编码,包括 region position (normalized top-left and bottom-right coordinates) 和 the fraction of image area covered。接着,该向量被投影到与 visual features 相同的维度进行相加,得到最终的 Image Representations。最后,我们还在图像特征输入的开头添加了特殊 token [IMG] 用于代表整张图片的信息 (i.e. mean-pooled visual features with a spatial encoding corresponding to the entire image)
  • Training Tasks and Objectives. (使用的数据集为 Conceptual Captions)
    • (1) masked multi-modal modelling: 类似于 BERT 的 MLM,随机遮盖 15% 的 words 和 image regions (被选中遮掩的 image regions 有 90% 的几率被置零,words 的处理与 BERT 一致),然后让模型重建被遮盖的 words 或预测出被遮盖的 image regions 对应的语义类别 (minimize KL divergence)
    • (2) multi-modal alignment prediction: 模型需要预测 image 和 text 是否匹配。我们将 hIMGh_{\text{IMG}}hIMG​ 和 hCLSh_{\text{CLS}}hCLS​ 作为视觉和语言输入的整体特征表示,将它们进行 element-wise product 后送入线性层得到最终的预测结果 (负例样本通过随机替换配对的图像或文字得到)

Experimental Settings

  • We apply our pretrained model as a base for four established vision-and-language tasks – Visual Question Answering (VQA), Visual Commonsense Reasoning (VCR) (Q →\rightarrow→ A, QA →\rightarrow→ R), Grounding Referring Expressions (localize an image region given a natural language reference), and Caption-Based Image Retrieval –setting state-of-the-art on all four tasks.

References

  • ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks相关推荐

  1. 【论文笔记】ViLBERT:Pretraining Task-Agnostic VisiolinguisticRepresentations for Vision-and-Language Tasks

    论文标题: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tas ...

  2. 【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020)

    [预训练视觉-语言模型文献阅读]VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020) 文章目录 ...

  3. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

    目录 Introduction Model Architecture Pre-training VL-BERT Experiments Visual Commensense Reasoning (VC ...

  4. 笔记:文澜:桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

    笔记:WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training 笔记:文澜:桥接视觉和语言的大规模的多模 ...

  5. Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...

  6. 【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations

    利用BERT联合学习视觉和语言之间的信息. Visual-Linguistic BERT的主干是多模态Transformer attention 模块,以视觉和语言嵌入特征作为输入.在输入中,每个元素 ...

  7. 论文解读:NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task——Next Sentence

    论文解读:NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence ...

  8. 读论文:Fine-grained Image Classification via Combining Vision and Language

    读论文:Fine-grained Image Classification via Combining Vision and Language 文章目录 一.概述 二.本文贡献 三.网络结构 1.目标 ...

  9. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

    ALBEF:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 论文链接 ...

最新文章

  1. 二叉搜索树-创建最小高度树(递归)
  2. 64位系统识别内存 服务器,服务器内存和电脑内存的区别
  3. JavaScript中的递归
  4. python代码示例图形-Python画高斯分布图形实例代码
  5. Android 6.0 PowerManagerService状态分析
  6. 机器学习-Stacking方法的原理及实现
  7. Redis入门到高可用(十一)—— 慢查询
  8. BXP无盘WINXP优化精华篇(转)
  9. 旧电脑再次起飞 分享一次联想Thinkpad X230黑苹果的完整过程
  10. 是时候更换你的无线路由器(wifi暴力破解)
  11. fortran程序设计2011年注册电气工程师基础考试大纲3
  12. 利用Power Design 进行数据库设计(超详细)
  13. Pytorch——报错解决:匈牙利匹配
  14. 大数据薪水大概多少_大数据工资一般多少
  15. Python简单GUI(模拟放大镜)
  16. 《OnlineChat996》基于微信群聊的在线实时通信工具
  17. [大话设计模式C++版] 第12章 牛市股票还会亏钱 —— 外观模式
  18. pmp考试报名麻烦吗?
  19. 第127届广交会将于六月中下旬在网上举办
  20. 香港内推 | 香港量子人工智能实验室招聘量子化学方向研究员/高级研究员

热门文章

  1. unity虚拟现实技术场景漫游
  2. Ubuntu 11.04安装pcsx2模拟器简明过程
  3. 【git系列004】解决 git 未指定冲突处理方法的问题
  4. 重庆科技学院数理学院mysql的期末考试_数据库期末考试重庆科技学院A.doc
  5. 抓虾 — Bloglines Plus
  6. 快递查询方法,一键查询全部快递的物流信息
  7. 【python小练】0014题 和 0015 题
  8. 我的2019秋招记忆(完整版) | 掘金技术征文
  9. rpgmaker是c语言编程吗,一起学rpgmaker脚本(1)【程序猿都能看懂的RGSS入门'`,、('∀`) '`,、】...
  10. 单极霍尔开关SS1368 无刷直流电机用