ICCV 2019 VideoBERT

题目
VideoBERT: A Joint Model for Video and Language Representation Learning
下载链接
简述
本文将BERT从NLP领域移植到了视频+语言的跨模态领域，将BERT中的“句子pair”改为了“句子视频pair”，类似于BERT，对视频帧进行随机的MASK。最终在动作分类和video captioning上进行了测试。

NIPS 2019 ViLBERT

题目
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
下载链接
简述
本文采用双路输入（支持多模态输入），将图片和文本分别处理，并通过co-attention transformer层进行交互。最终在VQA、VCR、Grounding Referring Expressions和Caption-Based Image Retrieval四个任务上进行了测试。

arXiv 2019 VisualBERT

题目
VisualBERT: A Simple and Performant Baseline for Vision and Language
下载链接
简述
本文的结构和Video BERT类似，均将text feature和visual feature串联。不同的是，本文的visual feature使用的是region feature，但是没有对其进行mask。损失通过Objective1（word mask）和Objective2（输出序列整体）进行约束。

arXiv 2019 CBT

题目
Learning Video Representations using Contrastive Bidirectional Transformer
下载链接
简述
本文和videoBERT一样，使用video feature作为visual feature。但是，本文没有将visual feature和word feature串联，而是分别进行，再通过一个跨模态Transformer对二者进行联合。

arXiv 2019 UNITER

题目
UNITER: Learning UNiversal Image-TExt Representations
下载链接
简述
本文的结构也是使用region feature作为visual feature，将其与word feature串联，并进行mask。多了一个region mask objectives。

EMNLP-IJCNLP 2019 B2T2

题目
Fusion of Detected Objects in Text for Visual Question Answering
下载链接
简述
本文提出了两种方法，分别是：late fusion和early fusion。late fusion的输入部分和BERT几乎没差，只是在[cls]输出端，融合visual feature进行分类。early fusion的输入部分，将word mask使用visual feature进行替换。本文的一大创新是，没有使用单独的visual feature输入序列。

EMNLP-IJCNLP 2019 LXMERT

题目
LXMERT: Learning Cross-Modality Encoder Representations from Transformers
下载链接
简述
本文方法采用双路输入，上分支用于训练视觉能力，使用region feature作为输入；下分支用于训练文本能力，使用word feature作为输入；最终通过一个跨模态encoder进行交互。本文在VQA和 NLVR2（Natural Language for Visual Reasoning for Real）任务上进行了测试。

AAAI 2020 Unicoder-VL

题目
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
Pre-training
下载链接
简述
本文在结构上类似于VideoBERT，将visual feature和text feature串联在一起，但是本文的visual feature使用的是region feature，预测部分直接预测label。

ICLR 2020 VL-BERT

题目
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
下载链接
简述
本文在方法上和Unicoder-VL类似，都是使用region feature作为visual feature。不同的是，本文在embedding中加入了Visual Feature Embedding（完整图像的特征）。本文方法基于Conceptual Captions数据集进行了训练，且在VCR排行榜上取得了single model的最好成绩。

AAAI 2020 VLP

题目
Unified Vision-Language Pre-Training for Image Captioning and VQA
下载链接
简述
本文与前人工作不同的是，在预训练任务中引入了seq2seq的mask语言模型，使其更适合做Image Captioning和Visual Question Answering。

CVPR 2020 12-in-1

题目
12-in-1: Multi-Task Vision and Language Representation Learning
下载链接
详细介绍
简述
本文在NIPS 2019 ViLBERT的基础上，首先修改了预训练过程，有两个小修改：1. 对regions进行mask时，将IoU大于0.4的regions也mask掉，避免视觉信息泄漏；2. 在多模态对齐的负样本采样时，不强制masked multi-modal modelling loss，这样可以有效地降低负样本带来的噪声。其次，有两处不同（创新）：1. 提出Clean V&L Multi-Task setup，可以在多任务训练过程中，确保没有任务泄漏；2. 提出多任务训练模型，在12个V&L数据集上同时训练，在四个任务上进行了验证：Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。

对比

下图出自AAAI 2020 VLP

下图出自ICLR 2020 VL-BERT

Visual BERT论文的简单汇总相关推荐

【论文阅读】（2023.06.09-2023.06.18）论文阅读简单记录和汇总
(2023.06.09-2023.06.12)论文阅读简单记录和汇总 2023/06/09:虽然下周是我做汇报,但是到了周末该打游戏还是得打的 2023/06/12:好累好困,现在好容易累. 目录 ( ...
【论文阅读】(2023.05.10-2023.06.03)论文阅读简单记录和汇总
(2023.05.10-2023.06.08)论文阅读简单记录和汇总 2023/05/10:今天状态,复阳大残,下午淋了点雨吹了点风,直接躺了四个小时还是头晕- -应该是阳了没跑了. 2023/06/ ...
谷歌AI论文BERT双向编码器表征模型：机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)
谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪数据简化DataSimp 今天数据简化 ...
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记一.Abstract 二.引言 ...
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记一.Abstract 二.引言三.R ...
Bert 论文中文翻译
BERT:预训练的深度双向 Transformer 语言模型 Jacob Devlin:Ming-Wei Chang:Kenton Lee:Kristina Toutanova Google AI L ...
ICCV 2021 最新200篇ICCV2021论文分方向汇总
ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...
BERT 论文逐段精读【论文精读】-跟李沐学AI
视频链接:BERT 论文逐段精读[论文精读]_哔哩哔哩_bilibili BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 -- ImageNet ...
BERT 论文精读与理解
1.论文题目 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2.论文摘要本文引入了 ...

Visual BERT论文的简单汇总

目录

ICCV 2019 VideoBERT

NIPS 2019 ViLBERT

arXiv 2019 VisualBERT

arXiv 2019 CBT

arXiv 2019 UNITER

EMNLP-IJCNLP 2019 B2T2

EMNLP-IJCNLP 2019 LXMERT

AAAI 2020 Unicoder-VL

ICLR 2020 VL-BERT

AAAI 2020 VLP

CVPR 2020 12-in-1

对比

Visual BERT论文的简单汇总相关推荐

最新文章

热门文章