论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统
论文笔记整理:李爽,天津大学。
链接:https://arxiv.org/pdf/2001.03615v1.pdf
动机
随着“自下而上”注意力的普及,基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征,成为视觉和语言任务的事实标准。然而,目前尚不清楚区域优势是否是自下而上的注意力成功的关键原因。作者重新审视了用于VQA的网格特性,发现它们的性能令人惊讶——在同样的精度下,运行速度要快一个数量级。通过大量的实验,作者验证了这种观察在不同的VQA模型(报告了最先进的VQA 2.0 test-std, 72.71)、数据集上都是正确的,并且可以很好地推广到其他任务,比如图像描述。作者从头到尾学习了VQA模型,从像素直接到答案,并证明了在训练前不使用任何区域标注也可以实现较强的性能。
亮点
在基于边界框的视觉特征已经广为应用,替代了传统的基于网格特征的现状下,作者又重新审视了网格特征,将网格特征与区域特征进行实验对比,探索二者的性能是否存在大的差异。
论文框架介绍
Bottom-Up Attention with Regions
自下而上的注意力方法使用了Faster R-CNN检测模型。为了获得像VQA这样的任务的自下而上的注意力特征,需要两个与区域相关的步骤:
1、区域选择。
由于Faster R-CNN是一个两级检测器,因此在管道中进行两次区域选择。第一个是通过区域建议网络,它变形并选择突出的候选“锚”作为感兴趣的区域(RoIs)。另一个选择作为后处理完成,以类的方式聚合顶部N个框。在这两个步骤中,都使用了非最大抑制(NMS),保持分类分数最高的区域,并去除局部邻域内的其他近重复项。
2、区域特性计算。
给定第一阶段的区域(最多数千个),使用RoIPool操作提取初始的区域级特征。然后,其他网络层分别计算区域的输出表示。最后,通过两次选择的区域特征被堆叠在一起作为自下而上的特征来表示图像。
需要注意的是,由于VG数据集的复杂性和使用的特定Faster R-CNN检测器,这两个步骤都需要大量计算。相反,直接使用网格特性可以跳过或加速这些步骤,并提供潜在的显著加速。
Grid Features from the Same Layer
将区域特征转换为网格的最简单的方法是看是否可以直接计算相同网络层的输出,但以共享的、完全卷积的方式。为此,进一步研究最初的自下而上的attention所使用的特定Faster R-CNN架构。
Faster R-CNN是C4模型的一个变体,增加了一个用于属性分类的分支。它将ResNet的权重划分为两个单独的集合:给定一个输入图像,它首先使用ResNet到C4的较低的块计算feature maps。这张feature map是所有区域共享的。然后,在14×14 RoIPool特征上分别应用C5块进行逐区域特征计算。然后,C5的输出被AvgPool转换为每个区域的最终向量,作为自下而上特征。由于最终的区域特征都来自C5,所以很容易将检测器转换回ResNet分类器,并使用相同的C5层作为我们的输出网格特征。如图说明了转换过程。
1×1 RoIPool for Improved Grid Features
简单地使用1×1 RoIPool对模型做一些最小的调整来改进网格特征。这意味着用一个向量来表示每个区域,而不是在Faster R-CNN中使用一个三维张量。虽然这种修改对VG上的对象检测性能有负面影响,但重要的是,使用1×1的RoIPool regions也意味着网格feature map上的每个向量必须单独覆盖一个空间区域的所有信息,这可能会导致更强的网格特征。
但是直接在原始模型上应用1×1 RoIPool是有问题的,可能是因为C5由几个ImageNet预先训练好的卷积层组成,这些层最适合特定空间维度的输入。为了解决这个问题,作者在对象检测和使用整个ResNet到C5作为共享特征计算骨干;对于区域级计算,在顶部放置两个1024D全连接(FC)层,默认情况下接受向量作为输入。
在使用C5汇聚的特征训练检测器时,为了减少低分辨率的影响,将stride-2层替换为stride-1层,其余的层以2的倍数扩张。对于网格特征提取,移除这个膨胀并将其转换回正常的ResNet。下图为改进网格之后的转换过程。
实验
从这一部分开始,报告比较区域和网格的实验结果。作者选择VQA2.0作为感兴趣的主要任务,因为它目前是评估联合视觉和语言理解的主要基准,并且具有清晰的评估指标。为了进行分析,默认情况下,作者将Faster R-CNN与ResNet-50骨干网一起在ImageNet上进行预训练,主要结果如下表所示。
为了了解这些不同数量的区域特征如何影响精度,作者对不同数量的特征N进行了实验,结果如下图所示。
与以前的设置不同,作者使用trainval + vqa-eval进行训练。下表为对比结果。与直接使用卷积特征图的网格特征不同,区域特征涉及区域选择和区域特征计算的其他操作。对于基于区域的模型,这些额外的操作花费了总推理时间的98.3%。将作者的网格特征作为输入的VQA模型比使用自下而上的区域特征的模型运行速度快48倍。
作者提出网格特征能够work的原因有以下两点:
Input Image Size
在ImageNet预训练模型的特征提取过程中使用的标准图像大小为448×448,丢弃了纵横比;而对于自下而上注意力中的VG检测,默认尺寸为600×1000,同时保持纵横比不变。作者对不同的组合进行了实验,下表为实验结果结果。从结果可以看出,对于网格特性,更大的输入大小意味着VQA模型有更多的特性。
Pre-Training Task
研究在ImageNet(分类)和VG(detection)中由于预训练任务而导致的VQA精确度的差异。为了更好地理解这些差异,作者在每个环境中引入了一个额外的预训练模型。对于分类,包括了一个在YFCC上训练过的模型,它有92M张带有图像标签的图像。对于检测,包括一个来自COCO的标准模型,它只有对象注释(没有属性)。所有型号都使用ResNet-50主干网进行公平比较。结果见下表。
总结
在文章中,作者重新讨论网格特征,作为视觉和语言任务中广泛使用的自下而上区域特征的替代方法,结果表明,二者的效果不相上下。作者也发现,相对于特征的“格式”(区域与网格),特征所代表的语义内容对其有效性更为关键,而这种有效的表示可以通过对对象和属性数据集(如VG)的预训练来实现。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统相关推荐
- 论文浅尝 - ICML2020 | 基于子图推理的归纳式关系预测
论文笔记整理:陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习. 论文来源:ICML 2020 Introduction 当前在知识图谱上(KnowledgeGraph,KG)进行关系预测的 ...
- 论文浅尝-综述 | 基于强化学习的知识图谱综述
转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...
- 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习
论文笔记整理:耿玉霞,浙江大学直博生.研究方向:知识图谱,零样本学习等. 来源:AAAI2020 论文链接:https://arxiv.org/pdf/2001.02332.pdf 本文是发表在AAA ...
- 论文浅尝 | GraphSAINT—基于图采样的归纳学习方法
论文笔记整理:杨海宏,浙江大学博士生,研究方向为开放世界下的多语言知识问答. 1. 简介 受显存的因素限制,应用图神经网络于大规模图学习任务上面临"邻居爆炸(Neighbor Explosi ...
- 论文浅尝 - IJCAI2022 | 基于自适应虚词增强的小样本逆关系分类
论文作者:窦春柳,天津大学,研究方向:知识图谱 论文链接:http://arxiv.org/abs/2204.12111 代码地址:https://github.com/DOU123321/FAEA- ...
- 论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...
论文作者:吴林娟,天津大学,研究方向为自然语言理解 论文链接:http://arxiv.org/abs/2204.00996 代码地址:https://github.com/wulinjuan/SSD ...
- 论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法
作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱.自然语言处理 接收会议 | AAAI2021 论文链接 | https://arxiv.org/pdf/2009.06207.pdf 摘要 在 ...
- 论文浅尝 - WSDM20 | 基于弱监督及逐步推理的多关系知识图谱问答
论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. 来源:WSDM '20 链接:https://dl.acm.org/doi/abs/10.1145/3336191.3371812 动机 知 ...
- 论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
论文笔记整理:吴锐,东南大学计算机学院硕士. 来源:ICLR 2020 链接:https://arxiv.org/pdf/1911.03082.pdf 动机 目前针对于GCN的研究大多数都关注在学习无 ...
最新文章
- Google Palette算法详解以及OC化
- html5语义元素表,HTML5的结构和语义(3):语义性的块级元素
- Maven打包时报Failed to execute goal org.apache.maven.plugins:maven-war-plugin:解决方案
- .Net高级技术——对象序列化
- 十二、Promise的学习笔记(Promise的基本使用、链式编程、all())
- python数据分析与机器学习(Numpy,Pandas,Matplotlib)
- E13- terminal is not big enough
- 流程代码中js报错,在javaScript或者jQuery中字符串比较没有equals()方法
- 32位jdk最大内存_Java安装之JDK下载篇
- 数据湖产业生态联盟简介
- 一键安装WinRAR主题界面美化
- 广东地区经纬度Python版
- EPLAN2.9程序安装及注意事项
- Whole Word Masking (wwm)
- Spark RDD简介
- 淘宝首页的搜索规律 高级搜索页搜索规律 淘宝商家应对的优化策略
- 分布式 —— 基于Raft算法的KV服务
- python练习题(基础篇2)
- 网址转base64二维码图片
- Hyperledger byfn.sh -m generate/up/down流程分析