[论文笔记]Grounded Language-Image Pre-training

  • 摘要
  • 引言
  • 方法: Grounded Language Image Pre-training
    • 统一“度量衡”
      • Object detection as phrase grounding
      • Equivalence between detection and grounding
      • Grounding Formulation
    • Visual-Language“深度融合”
    • 基于“富语义数据”的预训练

论文地址:GLIPv1,GLIPv2
项目地址:https://github.com/microsoft/GLIP

摘要

  1. GLIP提供了一个预训练模型,综合了目标检测phase grounding两个任务,并且以自训练的方式为大量的图像文本对生成框,获取富语义知识
  2. training data: 27million (3M human-annotated + 24M web-crawled 图像文本对)
  3. 在coco和lvis数据集上进行zero shot, fintune和one shot验证,性能超过SOTA

引言

  1. GLIP应细粒度视觉理解的相关任务需求而生,诸如目标检测、分割、人体姿态估计、场景理解、动作识别等
  2. 目标检测和和phase grounding两个任务相结合,因为目标检测可以视为上下文无关的phase grounding任务,以及phase grounding可视为上下文的目标检测任务
  3. 任务统一训练:用词-区域对齐的分数(比如区域(或框)视觉特征和标记(或短语)语言特征的点积)替换其框分类器中的目标分类逻辑;并且使用语言模型来提取语言特征,形成一个双编码器结构。在检测这一侧,grounding数据的引入丰富了视觉概念库。在grounding侧,检测数据引入了更多的边界框注释,有助于预训练新的SoTA模型。
  4. 通过大量图像文本对扩展视觉概念库:利用一个训练好的grounding模型,为大量图像文本对生成候选框来增广GLIP的预训练数据,其中名词短语由NLP Parser 生成。24M web-crawled 图像文本对数据中,包含78.1M
    high-confidence (> 0.5) phrase-box 伪标签, 其中58.4M 为唯一名词短语。

方法: Grounded Language Image Pre-training

统一“度量衡”

Object detection as phrase grounding

目标检测的框分类器损失调整为


SgroundS_{ground}Sground​为框中的视觉特征与通过文本prompt提取的文本特征之间的点积, 但是存在一个问题是token数量通常大于prompt中词的数量,原因如下:

(1) phrases 通常包含多个单词

(2) 单词的拆分

(3) special added token, 比如说"Detect: "或者 [NoObj]

做法:扩展 ccc 的长度为 MMM,如果该词为正样本,则其补充的sub words为正样本,添加的tokens全都视为负样本

Equivalence between detection and grounding

可信度验证:SoTA DyHead detector with Swin-Tiny backbone 在目标检测和上述做法中在COCO val2017数据集上得到的性能是一致的

Grounding Formulation

来源于MDETR’s fine-grained contrastive loss

Visual-Language“深度融合”


image encoder: DyHead (swin transformer tiny as backbone)
text encoder: Bert
BERTLayer: 在预训练的Bert模型后新加的bert layers

X-MHA 模块通过与另一个模态的交互,计算该模态下的上下文向量

基于“富语义数据”的预训练

先在目标检测和phase grounding的数据集上进行预训练,然后对大量的图像文本对输出预测框和对应的短语

Grounded Language-Image Pre-training相关推荐

  1. LLMs之InstructGPT:《Training language models to follow instructions with human feedback》翻译与解读

    LLMs之InstructGPT:<Training language models to follow instructions with human feedback>翻译与解读 导读 ...

  2. CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

    CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译 文章目录 CLIP论文翻译.Learn ...

  3. 这三个普通程序员,几个月就成功转型AI,他们的经验是...

    动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,AI科技大本营精选了三个特别典型的普通程序员成功转型AI的 ...

  4. 前沿分享:连接统计学,机器学习与自动推理的新兴交叉领域

    导语 什么是因果科学?它是如何发展的?本文将从以下3个部分介绍:第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是因果结合机器学习. 因果革命和以数据为中心的第一次 ...

  5. 普通程序员,几个月如何成功转型AI?

    动辄50万的毕业生年薪,动辄100万起步价的海归AI高级人才,普通员到底应不应该转型AI工程师,普通程序员到底应该如何转型AI工程师? 以下,精选了三个特别典型的普通程序员成功转型AI的案例,也是知乎 ...

  6. 各种编程语言的深度学习库整理(中英版)

    本文总结了Python.Matlab.CPP.Java.JavaScript.Lua.Julia.Lisp.Haskell..NET.R等语言的深度学习库,赶紧收藏吧! Python 1. Thean ...

  7. ACL2020 奇葩论文标题大赏

    星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 文 | 灵魂写手rumor酱 编 |  不拖更的夕小瑶 又是一年一度的ACL,之前通过卖萌屋Arxiv服务已经零零碎碎看了一些,还是准备刷 ...

  8. 【ICLR2019】Poster 论文汇总

    ICLR2019 Poster 文章汇总, 共478 papers Convolutional Neural Networks on Non-uniform Geometrical Signals U ...

  9. ACL2020-最新录用论文列表分享

    ACL会议(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最高级别的学术会议,由计算语言 ...

最新文章

  1. 在鱼眼和全向视图图像的深度学习方法
  2. sencha app refresh
  3. svn 提交到远程仓库_聊聊如何从SVN迁移源码到Git仓库
  4. 清北·NOIP2017济南考前冲刺班 DAY1 morning
  5. linux之systemctl设置自定义服务
  6. zabbix使用Omsa来监控Dell服务器的硬件信息
  7. mitmproxy安装证书_在 macOS 上使用 mitmproxy 透明代理进行网络抓包
  8. 今天遇到一个SQL的问题
  9. POJ2536 Gopher II【二分图最大匹配】
  10. Bcm96xx 系列芯片 SDK介绍(一)
  11. 各种编程技术资料分享
  12. wifi共享精灵2014最新版 v04.25.001 官方正式版
  13. 微信小程序tabBar创建
  14. 网络服务器充斥大量信息,使网络服务器中充斥着大量要求回复的信息,消耗带宽,导致网络或系统停止正常服务,这属于什么攻 - 普法考试题库问答...
  15. 文本处理三剑客与正则表达式详解
  16. css眨眼效果,CSS3 精巧的笑脸/眨眼变形动画
  17. mysql load escaped_MySQL load语句详细介绍
  18. 主线Linux用shell命令切换 OTG
  19. 计算机的配置鼠标,鼠标设置,教您鼠标设置在电脑的什么位置
  20. 梅赛德斯-奔驰将区块链技术应用于可持续交易账簿及供应链

热门文章

  1. 高速公路交警的经验之谈[转自QQ群]
  2. 临床执业助理医师(综合练习)题库【5】
  3. 移动端如何强制页面横屏
  4. 记录建hbase对应hive外表坑
  5. python 赌场掷骰子游戏
  6. Android Studio清单文件合并规则
  7. 30 行代码实现蚂蚁森林自动收能量(附送源码)
  8. 基于大数据的线上线下电商用户数据挖掘研究
  9. 鸿蒙曰蜉蝣不知所求,【经典金句408 · 庄子】:浮游,不知所求;猖狂,不知所往;游者鞅掌,以观无妄。...
  10. 使用turtle库,绘制一个正方形。