Point and Ask: Incorporating Pointing into VQA论文笔记
Point and Ask: Incorporating Pointing into VQA论文笔记
- 一、Abstract
- 二、引言部分
- 三、相关Work
- 1、Spatial Grounding in VQA
- 2、Point input
- 四、数据集1️⃣:PointQA-Local: reasoning about a region
- 1.PointQA-Local dataset
- 2、PointQA-Local models
- 3、PointQA-Local evaluation
- 4、Spatial vs Verbal Disambiguation
- 五、数据集2️⃣:PointQA-LookTwice: reasoning about a local region in the broader image context
- 1、PointQA-LookTwice dataset
- 2、Counteracting priors,反先验知识?牛皮
- 3、PointQA-LookTwice model
- 4、PointQA-LookTwice evaluation
- 六、数据集3️⃣:PointQA-General: generalized reasoning from a point input
- 1、PointQA-General dataset
- 2、PointQA-General models
- 3、PointQA-General evaluation
- 七、结论
- 八、附录部分
- A. Human Evaluations
- 总结
写在前面
这是第二篇论文笔记了,好好学习,多读论文多读书学习。
论文链接: Point and Ask: Incorporating Pointing into VQA
代码已开源: Github
一、Abstract
重点蓝色部分:点出本文内容:考虑包含一个空间点推理式的视觉问答;
本文contribution:
1:引入并促进了一种 point-input的问题;
2:定义了三种新颖的问题类型;
3:对于这三种问题,引入了对应的数据集和一系列模型;
区别于以往问题类型的依据:
1:确保设计出的问题需要根据spatial reference才能得出精确的答案;
2:采用的是point-spatial输入,而非传统的矩形框输入
二、引言部分
先表达一下VQA发展的快,针对一些问题(如GQA数据集中指向问题),批评其越来越不realistic,简短说,就是不像人话。所以作者提出自己的数据集(作为VQA任务的一个扩展),并指出与其他数据集不同的地方,也就是abstract中的“区别于以往问题类型的依据”:
1:确保设计出的问题需要根据spatial reference才能得出精确的答案;
2:采用的是point-spatial输入,而非传统的矩形框输入
下面是其示例:
输入是一幅带有spatial point的图像,输出是多选答案。
另外就是问题的设计了:
1、指向性代词与图片中的pixel point对应,也就是需要对图像局部进行分析;
2、对全局图像的理解;
3、构建point disambiguation数据集(改写Visual7W);
同时作者论述了这三种数据集的构建,以及拿一些模型来测试
本文的contributions:
1、引入了一种新的Point-input类型的问题;
2、设计了一系列 benchmark datasets;——这个应该有戏;
3、引入了解决该问题的模型;
三、相关Work
1、Spatial Grounding in VQA
首先介绍了VQA数据集的发展过程,例如:Visual7W,GQA 以及后来的VQAv2+VQAcp数据集,同时作者抛出自己的论点:visual grounding在VQA数据集中的重要性;
然后继续深入说明这几个数据集,先说优点,visual7W引入poin-QA,“which”问题;
VG 数据集引入region-based QAs,缺点是17%的问题才需要region区域才能回答出答案;
所以作者是第一个引入需要spatial grounding signal才能准确回答问题的benchmark;
接下来 将相应模型的主要核心也介绍了一下,主要是attention机制,poxel-wise 预测,heatmap or semantic segmentation。
2、Point input
强调了将spatial grounding input 送入模型还没有人这样干过。
四、数据集1️⃣:PointQA-Local: reasoning about a region
(后面分别介绍了三种数据集以及对应的模型,写作套路都是相同的)
首先引入一下数据集的介绍:
1.PointQA-Local dataset
从VG数据集产生,3种问题的模板,后面介绍了数据集是如何构建的
依据Attribute selection分成三类:color, shape, action,and size,而Size并非物体绝对属性所以被排除掉;
问题的产生:在相同种类中有超过一种属性的object将被排除在外,目的是为了避免混淆;
同时点明数据集存在的bias——97.2%都是有关颜色,以及举例,同时强调bisa无关问题难度。
数据集的分布:
最后提及了人类在该数据集上的表现:在test-final数据集上面76%的精度。
2、PointQA-Local models
采用Pythia作为基准模型,上来解释了一下为何需要这个 模型的原因:不复杂、简单易分析;
接下来讲了一下Pythia模型的结构:参考链接:Pythia v0.1: the Winning Entry to the VQA Challenge 2018
然后叙述一下对pythia模型的修改。主要是为了让输入匹配,同时描述一下优点
3、PointQA-Local evaluation
首先描述一下实验的设置,基本上差不多,学习率,梯度优化这种
然后作者根据删除区域的不同做了消融实验:
分析:主要根据注意力值的落点分析pythia模型的效果;
4、Spatial vs Verbal Disambiguation
两种消除歧义的方法:
1、引入空间点;
2、在question描述上更加具体;
作者分别设计两个数据集:
1、口语上消除歧义;
2、采用spatial point消除歧义
然后用pythia在这两者上实验,结果2效果很好
五、数据集2️⃣:PointQA-LookTwice: reasoning about a local region in the broader image context
这个数据集需要全面理解图像内容才能准确回问题:原因是都是计数问题,只有三种选项,1,2,>2,
从而引入PointQA-Look Twice,设计计数问题数据集。
1、PointQA-LookTwice dataset
计数问题的两种指代方式:两种问题类型,these,those,supercategory+these/those
2、Counteracting priors,反先验知识?牛皮
开始同样讲解数据集如何构建的,然后描述一下数据集的统计:
人类评估精度:test数据集上79%
3、PointQA-LookTwice model
与上一个模型讲解类似:简要介绍一下pythia处理过程;
4、PointQA-LookTwice evaluation
Global vs local-only attention:
局部注意力和全局注意力在计数数量上的分析,(在pointqa-local数据集上),验证了global model适用于 a wider range of pointing-based questions
六、数据集3️⃣:PointQA-General: generalized reasoning from a point input
同样简述:这次进行一个全局实验,修改transformer-based模型,在全新的数据集上进行。
1、PointQA-General dataset
第三个数据集:PointQA-General,改写Visual7W中的问题生成,主要将which问题转化为Is问题,从而简单一些:
答案的设置:点在正确的bbox上,答案为yes,否则答案为no
接下来是数据集的统计:
人类的评估精度:在test数据集上91%
2、PointQA-General models
这次用3个模型做测试:MCAN、LXMERT、Pythia
后面就是三个模型分别描述了一下,这里我就不过多解读了;
最后比较了两种处理思路:
外加一种可选的结构:整合image-feat和point-feat到singal feature里面,成为双流。
3、PointQA-General evaluation
首先和之前一样,讲一下模型的设置,
第二部分是测试结果:
注意一下:在双流模型中,LXMERT表项最好,可能的原因之一是其pooling 策略
Using Image Context这个部分文中提及主要是问题不仅需要某个点,而且需要结合上下文才能回答。
重点是在这里:
重点在这里:三流模型牛皮的地方在于能有有效地整合范围更广的图像上下文。
七、结论
结论没讲啥,三句话结束,数据集+模型+期望。
八、附录部分
A. Human Evaluations
讲解了是怎么做的人类评估。三个人,每个人回答100个问题,3个数据集,所以900个答案。
剩下的A1、2、3是对三个数据集的分开说明,也就是为什么有些问题人类没有回答正确,这些进行一些原因分析。
最后分析一下结果的可信度。
总结
这是第一次看这种数据集的论文,该论文发表在CVPR VQA workshop上,又恰巧被我看到了,只能说是缘分。
近些年来在VQA数据集方面做得工作有很多,数据集也不少,像本文提出的这种作为拓展,怎么说呢,格局有点小了,xdmen,应该单独整个这种类别的数据集的。现在的模型需要的数据量辣么多,一堆人在刷分,头疼。
Point and Ask: Incorporating Pointing into VQA论文笔记相关推荐
- 论文笔记 | Counterfactual Samples Synthesizing for Robust VQA
论文笔记整理:窦春柳,天津大学硕士. 来源:CVPR 2020 链接: https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Coun ...
- 《Catalysis Clustering with GAN by Incorporating Domain Knowledge》论文精读分析
<Catalysis Clustering with GAN by Incorporating Domain Knowledge>论文精读分析 ABSTRACT 背景介绍:聚类是一种重要的 ...
- 论文笔记《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》
论文笔记<Incorporating Copying Mechanism in Sequence-to-Sequence Learning> 论文来源:2016 ACL 论文主要贡献:提出 ...
- 论文笔记:CLIP:Learning Transferable Visual Models From Natural Language Supervision详解
paper:https://arxiv.org/abs/2103.00020 代码:GitHub - openai/CLIP: Contrastive Language-Image Pretraini ...
- Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记 一.Abstract 二.引言 三.R ...
- WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...
- Visual Question Answering with Textual Representations for Images 论文笔记
Visual Question Answering with Textual Representations for Images 论文笔记 一.Abstract 二.引言 三.方法 3.1 Lang ...
- LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记 一.摘要 ...
- 论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples
论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples 文章简要介绍 出处 ...
- MCAN论文进阶——MoVie: Revisting Modulated Convolutions for Visual Counting and Beyond 论文笔记
MCAN论文进阶--MoVie: Revisting Modulated Convolutions for Visual Counting and Beyond 论文笔记 一.Abstract 二.引 ...
最新文章
- HTML5 Canvas、内联 SVG、Canvas vs. SVG
- 嵌入式Tomcat容器的参数(maxParameterCount)设定
- java读取pfx或P12格式的个人交换库公私钥
- 技术讨论 | 一次尚未完成的薅羊毛行动
- mysql注入写一句话_Mysql注入root权限直接写一句话马
- 雪儿--北京欢迎你!!!
- api zabbix 拓扑图 获取_zabbix网络拓扑图配置-Maps(示例代码)
- 远程声控系统(MATLAB代码见CSDN资源)
- python 在末尾增加一个字符串,python - Python File.write在末尾添加额外的字符串 - SO中文参考 - www.soinside.com...
- 苹果失策?新iPhone捆绑Apple TV+或会致硬件利润率下滑
- 29 上传下载 socketserve
- NeatUpload
- 韦东山freeRTOS系列教程之【第五章】队列(queue)
- qt中添加注释的快捷键_Qt Creator快捷键
- 机器学习-SVD(隐语义模型)协同过滤
- 【转载】腾讯服务器centos服务器下mysql的安装
- SpringBoot 接口数据加解密技巧,so easy!
- QrCode类生成二维码海报
- 云原生时代,企业如何选取研发模式,并通过云效流水线落地
- python3.7,显卡CUDA版本11.1,安装pytorch-CUDA