目录

  • ICCV 2019 VideoBERT
  • NIPS 2019 ViLBERT
  • arXiv 2019 VisualBERT
  • arXiv 2019 CBT
  • arXiv 2019 UNITER
  • EMNLP-IJCNLP 2019 B2T2
  • EMNLP-IJCNLP 2019 LXMERT
  • AAAI 2020 Unicoder-VL
  • ICLR 2020 VL-BERT
  • AAAI 2020 VLP
  • CVPR 2020 12-in-1
  • 对比

关于BERT和Transformer的介绍,可以看我的这篇博客。

ICCV 2019 VideoBERT

  • 题目
    VideoBERT: A Joint Model for Video and Language Representation Learning
    下载链接
  • 简述
    本文将BERT从NLP领域移植到了视频+语言的跨模态领域,将BERT中的“句子pair”改为了“句子视频pair”,类似于BERT,对视频帧进行随机的MASK。最终在动作分类和video captioning上进行了测试。

NIPS 2019 ViLBERT

  • 题目
    ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
    下载链接
  • 简述
    本文采用双路输入(支持多模态输入),将图片和文本分别处理,并通过co-attention transformer层进行交互。最终在VQA、VCR、Grounding Referring Expressions和Caption-Based Image Retrieval四个任务上进行了测试。

arXiv 2019 VisualBERT

  • 题目
    VisualBERT: A Simple and Performant Baseline for Vision and Language
    下载链接
  • 简述
    本文的结构和Video BERT类似,均将text feature和visual feature串联。不同的是,本文的visual feature使用的是region feature,但是没有对其进行mask。损失通过Objective1(word mask)和Objective2(输出序列整体)进行约束。

arXiv 2019 CBT

  • 题目
    Learning Video Representations using Contrastive Bidirectional Transformer
    下载链接
  • 简述
    本文和videoBERT一样,使用video feature作为visual feature。但是,本文没有将visual feature和word feature串联,而是分别进行,再通过一个跨模态Transformer对二者进行联合。

arXiv 2019 UNITER

  • 题目
    UNITER: Learning UNiversal Image-TExt Representations
    下载链接
  • 简述
    本文的结构也是使用region feature作为visual feature,将其与word feature串联,并进行mask。多了一个region mask objectives。

EMNLP-IJCNLP 2019 B2T2

  • 题目
    Fusion of Detected Objects in Text for Visual Question Answering
    下载链接
  • 简述
    本文提出了两种方法,分别是:late fusion和early fusion。late fusion的输入部分和BERT几乎没差,只是在[cls]输出端,融合visual feature进行分类。early fusion的输入部分,将word mask使用visual feature进行替换。本文的一大创新是,没有使用单独的visual feature输入序列。

EMNLP-IJCNLP 2019 LXMERT

  • 题目
    LXMERT: Learning Cross-Modality Encoder Representations from Transformers
    下载链接
  • 简述
    本文方法采用双路输入,上分支用于训练视觉能力,使用region feature作为输入;下分支用于训练文本能力,使用word feature作为输入;最终通过一个跨模态encoder进行交互。本文在VQA和 NLVR2(Natural Language for Visual Reasoning for Real)任务上进行了测试。

AAAI 2020 Unicoder-VL

  • 题目
    Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
    Pre-training
    下载链接
  • 简述
    本文在结构上类似于VideoBERT,将visual feature和text feature串联在一起,但是本文的visual feature使用的是region feature,预测部分直接预测label。

ICLR 2020 VL-BERT

  • 题目
    VL-BERT: Pre-training of Generic Visual-Linguistic Representations
    下载链接
  • 简述
    本文在方法上和Unicoder-VL类似,都是使用region feature作为visual feature。不同的是,本文在embedding中加入了Visual Feature Embedding(完整图像的特征)。本文方法基于Conceptual Captions数据集进行了训练,且在VCR排行榜上取得了single model的最好成绩。

AAAI 2020 VLP

  • 题目
    Unified Vision-Language Pre-Training for Image Captioning and VQA
    下载链接
  • 简述
    本文与前人工作不同的是,在预训练任务中引入了seq2seq的mask语言模型,使其更适合做Image Captioning和Visual Question Answering。

CVPR 2020 12-in-1

  • 题目
    12-in-1: Multi-Task Vision and Language Representation Learning
    下载链接
    详细介绍
  • 简述
    本文在NIPS 2019 ViLBERT的基础上,首先修改了预训练过程,有两个小修改:1. 对regions进行mask时,将IoU大于0.4的regions也mask掉,避免视觉信息泄漏;2. 在多模态对齐的负样本采样时,不强制masked multi-modal modelling loss,这样可以有效地降低负样本带来的噪声。其次,有两处不同(创新):1. 提出Clean V&L Multi-Task setup,可以在多任务训练过程中,确保没有任务泄漏;2. 提出多任务训练模型,在12个V&L数据集上同时训练,在四个任务上进行了验证:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。

对比

下图出自AAAI 2020 VLP

下图出自ICLR 2020 VL-BERT

Visual BERT论文的简单汇总相关推荐

  1. 【论文阅读】(2023.06.09-2023.06.18)论文阅读简单记录和汇总

    (2023.06.09-2023.06.12)论文阅读简单记录和汇总 2023/06/09:虽然下周是我做汇报,但是到了周末该打游戏还是得打的 2023/06/12:好累好困,现在好容易累. 目录 ( ...

  2. 【论文阅读】(2023.05.10-2023.06.03)论文阅读简单记录和汇总

    (2023.05.10-2023.06.08)论文阅读简单记录和汇总 2023/05/10:今天状态,复阳大残,下午淋了点雨吹了点风,直接躺了四个小时还是头晕- -应该是阳了没跑了. 2023/06/ ...

  3. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

  4. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  5. Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记

    Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记 一.Abstract 二.引言 三.R ...

  6. Bert 论文中文翻译

    BERT:预训练的深度双向 Transformer 语言模型 Jacob Devlin:Ming-Wei Chang:Kenton Lee:Kristina Toutanova Google AI L ...

  7. ICCV 2021 最新200篇ICCV2021论文分方向汇总

    ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎 不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...

  8. BERT 论文逐段精读【论文精读】-跟李沐学AI

    视频链接:BERT 论文逐段精读[论文精读]_哔哩哔哩_bilibili BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 -- ImageNet ...

  9. BERT 论文精读与理解

    1.论文题目 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2.论文摘要 本文引入了 ...

最新文章

  1. 用Python爬取42年数据,告诉你高考有多难!
  2. kali最新国内更新源sources
  3. 【干货】eval函数用法解释及对开发者的便利讲解
  4. 成功解决ValueError: Cannot feed value of shape (1, 10, 4) for Tensor Placeholder:0 , which has shape
  5. springboot 加载mybatis的流程
  6. 计算机网络实验做什么的,计算机网络实验,做网线.ppt
  7. 关于Xcode上的Other linker flags
  8. 虹软免费人脸识别SDK注册指南
  9. java组合与继承始示例_排列组合:用公式示例解释的差异
  10. Appium真机运行Device Name获取方法
  11. 《码农翻身》之浪潮之巅的Web
  12. EAGLE转Protel文件
  13. 开源项目9GAG源码解析与Material改造(二)
  14. candence与matlab电路仿真,电力电子电路仿真:MATLAB和PSpice应用
  15. js日期加横杆_JS 替换日期的横杠为斜杠
  16. MVC 架构解析 - 模型(Model)篇
  17. 英雄对决服务器未响应,lol点开始游戏没反应怎么办 完整解决办法一览
  18. IOS 获取农历节日 节气
  19. 揭秘;抖音美妆账号如何做?如何玩转抖音美妆类运营:国仁楠哥
  20. 【宏】【DEBUG宏】

热门文章

  1. 云炬Android开发笔记 10主界面-首页UI与数据解析器开发(RecyclerView)
  2. 斯坦福CS231n项目实战(三):Softmax线性分类
  3. Python实现一个简单数据库查询接口编写
  4. 北大中文期刊目录_最新版语言学C刊及北大核刊投稿方式全收录
  5. ethernet调试工具_开发者分享 | 如何调试10G/25G以太网IP自协商/Link Training
  6. C#中线程池的简单应用
  7. 概述---《TCP/IP协议》卷一 练习题
  8. java Junit 为什么@Test注解里的方法必须是public void修饰的
  9. idea-单独运行main类
  10. Swin Transformer对CNN的降维打击