[论文笔记]Grounded Language-Image Pre-training

摘要
引言
方法: Grounded Language Image Pre-training
- 统一“度量衡”
- - Object detection as phrase grounding
  - Equivalence between detection and grounding
  - Grounding Formulation
- Visual-Language“深度融合”
- 基于“富语义数据”的预训练

论文地址：GLIPv1，GLIPv2
项目地址：https://github.com/microsoft/GLIP

摘要

GLIP提供了一个预训练模型，综合了目标检测和phase grounding两个任务，并且以自训练的方式为大量的图像文本对生成框，获取富语义知识
training data: 27million (3M human-annotated + 24M web-crawled 图像文本对)
在coco和lvis数据集上进行zero shot, fintune和one shot验证，性能超过SOTA

引言

GLIP应细粒度视觉理解的相关任务需求而生，诸如目标检测、分割、人体姿态估计、场景理解、动作识别等
将目标检测和和phase grounding两个任务相结合，因为目标检测可以视为上下文无关的phase grounding任务，以及phase grounding可视为上下文的目标检测任务
任务统一训练：用词-区域对齐的分数（比如区域（或框）视觉特征和标记（或短语）语言特征的点积）替换其框分类器中的目标分类逻辑；并且使用语言模型来提取语言特征，形成一个双编码器结构。在检测这一侧，grounding数据的引入丰富了视觉概念库。在grounding侧，检测数据引入了更多的边界框注释，有助于预训练新的SoTA模型。
通过大量图像文本对扩展视觉概念库：利用一个训练好的grounding模型，为大量图像文本对生成候选框来增广GLIP的预训练数据，其中名词短语由NLP Parser 生成。24M web-crawled 图像文本对数据中，包含78.1M
high-confidence (> 0.5) phrase-box 伪标签, 其中58.4M 为唯一名词短语。

方法: Grounded Language Image Pre-training

统一“度量衡”

Object detection as phrase grounding

目标检测的框分类器损失调整为

SgroundS_{ground}Sground为框中的视觉特征与通过文本prompt提取的文本特征之间的点积, 但是存在一个问题是token数量通常大于prompt中词的数量，原因如下：

(1) phrases 通常包含多个单词

(2) 单词的拆分

(3) special added token, 比如说"Detect: "或者 [NoObj]

做法：扩展 ccc 的长度为 MMM，如果该词为正样本，则其补充的sub words为正样本，添加的tokens全都视为负样本

Equivalence between detection and grounding

可信度验证：SoTA DyHead detector with Swin-Tiny backbone 在目标检测和上述做法中在COCO val2017数据集上得到的性能是一致的

Grounding Formulation

来源于MDETR’s fine-grained contrastive loss

Visual-Language“深度融合”

image encoder: DyHead (swin transformer tiny as backbone)
text encoder: Bert
BERTLayer: 在预训练的Bert模型后新加的bert layers

X-MHA 模块通过与另一个模态的交互，计算该模态下的上下文向量

基于“富语义数据”的预训练

先在目标检测和phase grounding的数据集上进行预训练，然后对大量的图像文本对输出预测框和对应的短语

Grounded Language-Image Pre-training相关推荐

LLMs之InstructGPT：《Training language models to follow instructions with human feedback》翻译与解读
LLMs之InstructGPT:<Training language models to follow instructions with human feedback>翻译与解读导读 ...
CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译
CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译文章目录 CLIP论文翻译.Learn ...
这三个普通程序员，几个月就成功转型AI，他们的经验是...
动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,AI科技大本营精选了三个特别典型的普通程序员成功转型AI的 ...
前沿分享：连接统计学，机器学习与自动推理的新兴交叉领域
导语什么是因果科学?它是如何发展的?本文将从以下3个部分介绍:第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是因果结合机器学习. 因果革命和以数据为中心的第一次 ...
普通程序员，几个月如何成功转型AI？
动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,精选了三个特别典型的普通程序员成功转型AI的案例,也是知乎 ...
各种编程语言的深度学习库整理（中英版）
本文总结了Python.Matlab.CPP.Java.JavaScript.Lua.Julia.Lisp.Haskell..NET.R等语言的深度学习库,赶紧收藏吧! Python 1. Thean ...
ACL2020 奇葩论文标题大赏
星标/置顶小屋,带你解锁最萌最前沿的NLP.搜索与推荐技术文 | 灵魂写手rumor酱编 | 不拖更的夕小瑶又是一年一度的ACL,之前通过卖萌屋Arxiv服务已经零零碎碎看了一些,还是准备刷 ...
【ICLR2019】Poster 论文汇总
ICLR2019 Poster 文章汇总, 共478 papers Convolutional Neural Networks on Non-uniform Geometrical Signals U ...
ACL2020-最新录用论文列表分享
ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言 ...

Grounded Language-Image Pre-training