Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR
**本文内容仅代表个人理解,如有错误,欢迎指正**
1. Problem & Background Information
1.1 Problem
- 目前,人们基本上都采用基于深度学习的方法来解决Visual grounding任务。不论是全监督学习还是弱监督学习,都十分依赖人为标注的数据集,而人工标注不仅昂贵,还十分费时。因此,本篇论文的目标是减少模型对于人工标注数据的依赖。
1.2 Background Information
- 简单阐述Visual grounding任务背景下的全监督学习与弱监督学习。
- 全监督学习如图一(a)所示,给定Image、Query以及Image中相对应的Bounding box进行训练。
- 弱监督学习如图一(b)所示,仅给定Image、Query进行学习,没有给出图像中相对应的位置。
图一
2. Point
- 个人觉得本篇论文最大的亮点就是其通过无监督的方法构建有监督的学习,但无监督的方法所提供的信息/标签到底可不可靠,另说。主要思想如图二所示,在训练的时候,给定一张没有label的Image,通过Pre-trained detector得到object proposals;通过Pseudo-Query Generation Module得到Object Proposals的Pseudo queries。此时,等同于构建了一个有监督的数据集,即{Object proposal, Pseudo query}。利用这个构建得来的数据集训练Visual Language Model。然后在测试的时候,直接用Visual Language Model进行预测。
3. Main Components
图二
3.1 Overview
- Pseudo-Q主要由三部分组成 1) Pseudo-Query Generation Module 2) Query prompt module 3) Visual-Language model
- Bascially, 给定一张没有标签的Image,通过预训练的Detector可以得到proposals(类似于两阶段的Visual grounding方法,通过Pre-trained Faster RCNN得到Proposals)。然后将proposals输入至Pseudo-Query Generation Module中,为每一个proposal自动生成Nouns, attributes and relationships.,并通过这些元素生成伪query。再将伪query输入Query Prompt Module中,得到最终的Query。相当于,通过这种无监督的方式,构造数据集,进行有监督的训练。
3.2 Pseudo-Query Generation
- 为了更准确地框选出Refered object,在生成Pseudo-Query时重点关注三个元素 1. Nouns(主体) 2. Attributes 3. Relationships
1. 采用off-the-shelf detector得到object proposals,并依据detection confidence选出top-N的objects(能够得到主体)。
2. 采用off-the-shelf attribute classifier得到attribute信息,受限于模型,基本上只取一个属性。
3. 在Relationships方面,基本上考虑spatial relationship,主要分为三个方向 1. Horizontal(left, middle and right) 2. Vertical(top and bottom) 3. depth(front and behind)。
*note: "Each previously generated object proposal is represented by a set of coordinates which naturally embrace spatial information." 换句话说,我们可以利用这边的coordinate信息,得到object的spatial relationship。
- 针对Horizontal和Vertical spatial relationship,基本上模型只需在两个维度上对比object的中心坐标即可。
- 针对depth spatial information,主要利用成像近大远小的现象,通过计算不同object所占image的比例得到前后关系。
得到Nons、Attributes以及Relationships后,根据Pseudo Query Template生成Pseudo Query。
3.3 Query Prompt Module
* Prompt是研究者们为下游任务设计出来的一种输入形式或模板,其能够让预训练模型“回忆”起自己在预训练时“学习”到的东西,从而得到更好的表现。
- 在本论文中的Prompt为 1. “find the region that corresponds to the description {pseudo-query}” 2. "which region does the test {pseudo-query} describe?"
3.4 Visual-Language Model
- Visual-Language model主要由三部分组成(如图三所示) 1. Visual encoder 2. Language encoder 3. Cross-modality fusion module.
1. Visual encoder: 由CNN backbone(ResNet-50 pre-trained on ImageNet)和Transformer-based Network(The encoder part of DETR network)组成。
2. Language encoder: 由Token embedding layer和BERT(with 12 transformer layers)组成。
3. Cross-modality fusion module: 主要提出Multi-level cross-modality attention(ML-CMA),通过计算不同层级下图像特征和文本特征的cross-modality self-attention,并利用这个attention更新图像特征和文本特征,然后将图像特征和文本特征进行拼接。(简单来说就是,在每一个层级当中,都去计算图像特征和文本特征的attention,并对图像特征和文本特征进行更新,最后将图像特征和文本特征拼接在一起,记作融合特征A)因此,就有不同层级的融合特征A。此时,通过全连接网络将不同层级的融合特征A映射到同一个维度,并把不同层级的融合特征A进行拼接,得到最终的融合特征B,最后将B输入Regression Head中进行预测。
图三
4. Experimental Results
- 从Table 1中可以看出,同样是无监督的学习,在没有任何标注数据的情况下,本文的实验表现相较于21年无监督的模型有了巨大的提升,本文的实验表现甚至高于弱监督的部分模型。
图四
- 图四主要是为了证明本文的方法最大限度能够减少多少的人工标注(说起来有点不像人话了)。可以从图四中看到,在Pseudo-samples的比例占训练比例30%情况下,并不损伤模型表现,因此得出结论:本文所提出的方法可以在不影响模型效果的情况下减少大约30%的人工标注。
- 本文还针对Pseudo-Query Generation Module做了一些对比实验:
- 个人认为Object Number以及Pseudo-query Number的增加类似于扩大了训练数据集的数量,在一定程度上能够增强模型表现,但并不是每一个生成的object-query都是具有correct supervision signal,所以数量过多的话也有可能降低模型表现。
- 以下是正常的消融实验,不过多解释。可以从Table 3中看出Relationship(即位置关系)在Visual grounding任务中的重要性。
- 以及一些可视化的实验结果图:
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding, 2022 CVPR相关推荐
- ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自南加大,可以对训练集中没有出现的words(或categories)进行grounding. 下载链接 动机 已有的grounding方法在测试时,只 ...
- One-Stage Visual Grounding论文汇总
目录 现有方法 2017 arXiv 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 CVPR 题目 动机 简介 2017 IJCAI 题目 动机 简介 2018 arXiv 题目 ...
- Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...
- ECCV 2020 《Improving One-stage Visual Grounding by Recursive Sub-query Construction》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自罗彻斯特大学+腾讯AI Lab 下载链接 动机 现有的visual grounding方法可以分为两类:一阶段.两阶段.本文面向一阶段方法,提升现有方 ...
- Visual Studio 2022 Preview 3和2019 16.11发布
Visual Studio 2022 Preview 3 主要特点 个人和团队生产力 附加到进程改进 新项目设计器 黑暗主题提升 开发现代应用 远程测试 新的JavaScript和TypeScript ...
- Visual Studio 2022 预览版2 发布啦
我们很高兴地宣布 Visual Studio 2022 的第二个预览版发布啦!预览版 1 是有史以来第一个 64 位 Visual Studio,提供了改进的可扩展性.从预览版 2 开始,我们专注于提 ...
- Visual Studio 2022 的下载
子曰:"工欲善其事,必先利其器."要做好一件事,准备工具非常重要.本文将带领 大家下载Microsoft Visual Studio Community 2022 . 1.到网上搜 ...
- 论文:TransVG: End-to-End Visual Grounding with Transformers
作者 Abstract 在本文中,我们提出了一个简洁而有效的基于转换的视觉基础框架,即TransVG,以解决将语言查询与图像上相应区域的基础任务.最先进的方法,包括两阶段或一阶段的方法,依赖于一个复杂 ...
- Visual Studio 2022版本 B站黑马程序员C++自学分享-第一阶段(主要包括:自己敲的代码、通过注释来备注上自己对代码的理解)
Visual Studio 2022版本 B站黑马程序员C++自学分享-第一阶段(主要包括:自己敲的代码.通过注释来备注上自己对代码的理解) 前言 一.第一阶段 C++基础语法入门 对C++有初步了解 ...
- Visual Studio 2022版本 B站黑马程序员C++自学分享-第三阶段(1)(主要包括:自己敲的代码、通过注释来备注上自己对代码的理解)
Visual Studio 2022版本 B站黑马程序员C++自学分享-第三阶段(1)(主要包括:自己敲的代码.通过注释来备注上自己对代码的理解) 前言 三.第三阶段 C++提高编程 介绍C++泛型编 ...
最新文章
- 新书上市 | 人类程序员,你能不能比三体人更懂量子纠缠?
- jpa单向一对多关联映射
- Wpf使用Winform控件后Wpf元素被Winform控件遮盖问题的解决
- 用python玩转数据作业答案_大学mooc2020用Python玩转数据课后答案
- 游戏编程十年总结(下)(转)
- HDU - 6610 Game(带修莫队)
- javascript挑战编程技能-第九题:数据结构
- 01-SpringMVC 原理
- idea整合EasyCode基于lombok和swagger自定义模板
- 软件开发计划_软件开发的流程是怎么样的?福州IT告诉你:这五点是你需要掌握的...
- 泛微OA漏洞(综合)
- HTML | 分享几个HTML邮件样式模板
- JavaScript--对象类型详解
- 关于图像处理中的矩阵卷积运算
- vue 后台翻译_vue实现在线翻译功能
- 威联通(NAS)搭建个人音乐中心
- 腾讯 AI Lab招聘算法实习生
- 信息学奥赛一本通2011:【20CSPS提高组】贪吃蛇
- 从 拼多多 到 抖音
- 阿里云申请和部署项目
热门文章
- ibm服务器硬盘raid检测,IBM 3650 服务器做的RAID5,两块硬盘亮黄灯,但是系统正常,更换...
- office办公软件 下载与安装教程
- 47、backtrader的一些基本概念---技术指标(indicator)的使用教程
- System.Data.SqlClient.SqlError: Exclusive access could not be obtained because the database is in us
- 现在转行学软件测试还有前景吗?最真实的数据告诉你答案
- 错误:PriviledgedActionException as:LCH (auth:SIMPLE) cause:0: No such file or directory
- 国密SM2椭圆曲线密码算法
- [BZOJ5109/CodePlus2017]大吉大利,晚上吃鸡!
- html 加载c盘下的图片,SpringBoot取本地(服务器)的图片展示在html页面解决办法...
- 安卓手机管理器_安卓如何看撤回的微信