Global Context Assisted Structure-Aware Vehicle Retrieval
Global Context Assisted Structure-Aware Vehicle Retrieval
车辆检索中的问题:
- 对车辆进行局部化处理,去除不相关的背景信息
- 负样本比正样本更普遍,负样本的信息在三重损失中没有得到充分利用
本文贡献:
- 我们在landmark对齐中引入局部-全局上下文网络,利用全局知识和局部结构对网络进行更新;
- 我们提出了一种结构感知四重Loss的方法,以便在车辆检索中使用多个不同的负样本;
- 构建了一个大型的车辆数据数据库;
方法:
Vehicle Detection
针对检测不精确的问题,对初始检测的边界框按20%的比例进行扩展,然后采用landmark对齐的方法对检测结果进行细化。在遮挡情况下,只有车辆被严重遮挡时,会出现假阴性(本来是车,未识别出来)结果,若只有一小部分被遮挡的情况下,检测到的置信度分数很低。
因此,使用包含相同车辆的多个帧来检测目标车辆,并将检测到的置信度最高的边界框用作对齐proposal。本文使用现成得CNN模型进行检测。
Local-Global Context in Alignment
漏斗网络:这个网络架构形态就像它的名字的一样,是由一个个的漏斗状的神经网络级联起来,每一个漏斗神经网络就像编码器和解码器合成,负责提取特征和生成热图结果。整个网络使用了大量的卷积/反卷积层,池化/反池化层,ResNet以及全连接层。网络的输入是一张或者batchsize的标准大小尺寸图片(256×256),输出是该张图片缩小到一定尺寸的各个节点的热图(64×64)。
输入图像首先经过一个7∗77*77∗7的卷积层开始,步幅为2,通道数为64;然后通过一个残差块之后,过一个最大池化层,依次通过3个残差块(通道数为128、128、128、256)。然后,利用nnn个沙漏网络来预测landmark的位置。
Local Inference Network(LIN)和Global-Local Context Network (GLCN)生成每个landmark的激活图,激活图的最大价值就是提供特定landmark的位置。
landmark的数量和位置是根据经验选择的。
设一个图G={V,E}G = \{V,E\}G={V,E}表示车辆各landmark之间的结构关系,节点vuv_uvu对应第uuu个landmark,边euve_{uv}euv用来描述第uuu个和第vvv个节点之间的关系。可以使用成对约束来强制landmark与groundtruth之间的距离。
但是当相邻的点(下图中紫色点)都偏离了正确的位置并产生偏移时,就没有办法利用两两关系来得到改进的结果(下图中橙色点)。
因此,我们需要一个可以同时更好地评估多个landmark的约束,即关于场景和物体的全局信息,包括观测视图(或车辆姿态)、车辆规模和车辆类型。
这是因为:
车辆外观会随着观察视野的变化而变化;
如果车辆距离摄像机较远,车辆在图像中的尺度较小,地标之间的距离会减小;
不同类型的车辆,如轿车和公交车,其框架不同,通用模型的通用性较差;
多点错误与这些因素有关。如果所有这些因素都被规范化,多点错误可以得到改善。
因此,除了沙漏结构的LIN外,我们还提出了一个全局推理网络(GIN)和一个全局-局部上下文网络来显式提取语义和姿态知识,并利用这些全局信息来辅助基于局部结构的地标定位。
GIN的输出对应全局因子ψ\psiψ,其中ψ={a,s,t}\psi=\{a,s,t\}ψ={a,s,t}为影响图像中地标位置的全局因子;a表示相机视图,我们用俯仰、平贴和相机的旋转角度来描述;s为车辆规模;t是车辆的类型,如小汽车、面包车或公共汽车等。我们会将推断出的全局因子扩展到与局域推断网络得到的热图具有相同的空间大小。然后,将扩展的全局因子和局部热图串联起来,通过另一个沙漏子网络对局部化结果进行微调。
Global-Local Context Network的损失函数为:
Lglobal−local(ψ)=∑uϕ(yu^,∑vϵb(u)f(ψ,yv^))L_{global-local}(\psi) = \sum_{u}{}\phi(\hat{y_u},\sum_{v\epsilon b(u)}{}f(\psi, \hat{y_v})) Lglobal−local(ψ)=u∑ϕ(yu^,vϵb(u)∑f(ψ,yv^))
其中b(u)b(u)b(u)表示第uuu个节点的相邻节点,f(ψ,yv^)f(\psi, \hat{y_v})f(ψ,yv^)输入第v个预测的邻居landmark yv^\hat{y_v}yv^和全局因子ψ\psiψ返回微调之后的定位结果。ϕ\phiϕ是衡量LIN得到的预测landmark和全局局部线索得到的landmark之间的相容性的函数。
在推理阶段,可以通过迭代的方式使用全局-局部结构损失函数来提高精确度:
其中,y^ul\hat{y}_u^ly^ul是在第lll次迭代中第uuu个landmark,可以根据全局约束和局部约束对其进行更新。
Structure-Aware Quadruple Loss in Retrieval
成对损失可以根据是否属于同一车辆产生不同种类的损失函数,例如:
Lcontra=Y(i,j)δxi,xj+(1−Y(i,j))max{τ−δxi,xj,0}L_{contra} = Y(i,j)\delta_{x^i,x^j}+(1-Y(i,j))max\{\tau-\delta_{x^i,x^j},0\} Lcontra=Y(i,j)δxi,xj+(1−Y(i,j))max{τ−δxi,xj,0}
其中,δxi,xj=d(f(xi),f(xj))\delta_{x^i,x^j}=d(f(x^i), f(x^j))δxi,xj=d(f(xi),f(xj))为特征图fff中图像xix^ixi和xjx^jxj的距离。Y(i,j)ϵ{0,1}Y(i,j)\epsilon\{0,1\}Y(i,j)ϵ{0,1}表示ID为i和ID为j是否属于统一对象(1)或不属于统一对象(0)。如果xix^ixi和xjx^jxj匹配,则它们的特征映射之间的差异最小;否则,差值将最大化。
Triple Loss惩罚了负样本到锚点的距离小于正样本的情况,公式如下:
Ltriple=max{α+δpos−δneg,0}L_{triple} = max\{\alpha+\delta_{pos}-\delta_{neg}, 0\} Ltriple=max{α+δpos−δneg,0}
其中,δpos=d(f(xa),f(xp))\delta_{pos}=d(f(x^a),f(x^p))δpos=d(f(xa),f(xp))是由锚样本xax^axa及其正样本xpx^pxp获得的特征图之间的距离,δneg=d(f(xa),f(xn))\delta_{neg}=d(f(x^a),f(x^n))δneg=d(f(xa),f(xn))是由锚样本xax^axa及其负样本xnx^nxn获得的特征图之间的距离,α\alphaα是一个常数参数,用于获取边界。
为了充分利用负样本中的信息,我们将三倍损失扩展为四倍损失,并使用两个负样本来优化网络中的权值,如图上(b)所示。
Lquadru=max{α+δpos−δneg1,0}+max{β+δpos−δneg2,0}L_{quadru} = max\{\alpha+\delta_{pos}-\delta_{neg1}, 0\}+max\{\beta+\delta_{pos}-\delta_{neg2}, 0\} Lquadru=max{α+δpos−δneg1,0}+max{β+δpos−δneg2,0}
采用硬样本挖掘方法可以得到xn1x^{n1}xn1和Xn2X^{n2}Xn2,即选取特征空间中与锚样距离最小的负样本。
在某些情况下,最硬样本xn1x^{n1}xn1和xn2x^{n2}xn2具有相似的外观,在特征空间中彼此接近。为了增强负样本的多样性,我们修改了硬样本挖掘的方法,如图7©所示。仍然选择xn1x^{n1}xn1作为与锚点样本距离最小的负样本,但在约束条件下选择xn2x^{n2}xn2,使与锚点样本的距离和与xn1x^{n1}xn1的相似度都很小。
xn2=argmin{δneg2+ϕ(xn1,xn2)}x^{n2} = argmin\{\delta_{neg2}+\phi(x^{n1},x^{n2})\} xn2=argmin{δneg2+ϕ(xn1,xn2)}
件下选择xn2x^{n2}xn2,使与锚点样本的距离和与xn1x^{n1}xn1的相似度都很小。
xn2=argmin{δneg2+ϕ(xn1,xn2)}x^{n2} = argmin\{\delta_{neg2}+\phi(x^{n1},x^{n2})\} xn2=argmin{δneg2+ϕ(xn1,xn2)}
其中,ϕ(xn1,xn2)\phi(x^{n1},x^{n2})ϕ(xn1,xn2)为负样本xn1x^{n1}xn1和xn2x^{n2}xn2的相似度。
Global Context Assisted Structure-Aware Vehicle Retrieval相关推荐
- 【NDN转发】Community Aware Content Retrieval in Disruption Tolerant Networks 全文翻译
Community Aware Content Retrieval in Disruption Tolerant Networks 延迟容忍网络中基于社团感知的内容获取研究 You Lu, Mario ...
- 论文记录:Neural Motifs: Scene Graph Parsing with Global Context (CVPR-18)
(这里只是记录了论文的一些内容以及自己的一点点浅薄的理解,具体实验尚未恢复.由于本人新人一枚,若有错误以及不足之处,还望不吝赐教) 总结 本文关注的问题是 Scene Graph 的生成.通过观察 V ...
- [Scene Graph] Neural Motifs: Scene Graph Parsing with Global Context 论文解读
[Scene Graph] Neural Motifs: Scene Graph Parsing with Global Context (CVPR 2018) 论文解读 简介 这篇文章工作的创新之处 ...
- Structure Aware Single-stage 3D Object Detection from Point Cloud
Structure Aware Single-stage 3D Object Detection from Point Cloud 作者:Chenhang He, Hui Zeng, Jianqian ...
- 论文阅读:Neural Motifs Scene Graph Parsing with Global Context(CVPR18)
MOTIF把场景图的生成分解成了以下三部分: (1)第一部分:Pr(B | I),给定image输出bounding box,标准的目标检测模型 (2)第二部分:Pr(O | B, I),给定imag ...
- 改进YOLOv7系列:首发最新结合Global Context Modeling结构(附YOLOv5改进),目标检测高效涨点
- Neural Motifs: Scene Graph Parsing with Global Context (CVPR 2018) 运行复现遇到的一些坑以及解决方法
写在前面 首先,感谢这篇文章 https://blog.csdn.net/weixin_38651565/article/details/87901172 的作者 @jiayan97 和他有很多交流帮 ...
- 目标检测--Object Detection via Aspect Ratio and Context Aware
Object Detection via Aspect Ratio and Context Aware Region-based Convolutional Networks https://arxi ...
- 跨模态检索最新高质量综述《Image-text Retrieval: A Survey on Recent Research and Development》
Image-text Retrieval: A Survey on Recent Research and Development 图像文本检索研究进展综述 2022.03 本文已把文献的引用逐个换成 ...
最新文章
- 【RecyclerView】 七、RecyclerView.ItemDecoration 条目装饰 ( getItemOffsets 边距设置 )
- 20应用统计考研复试要点(part13)--应用多元分析
- 计算机二级测试试题及答案,2017计算机二级测试题及答案解释
- oracle decode_ORACLE常见问题-100问(系列一)
- 通用计算机的时代,MIT论文:通用计算机时代即将终结
- python里我最容易搞不清楚问题之一的encode和decode
- 设置div绝对定位+居中
- ipMonitorAdministratorGuide
- 关于安装和使用IAR的出现的一些错误
- extjs6 带条件查询分页
- 三极管导通条件与电位关系
- 淘宝API(拍立淘)———图片搜索
- 人体红外感应的c语言程序,CC2530控制人体红外传感器的程序与详细教程
- Excel输入公式计算只显示公式不出结果
- 肠胃一直不好,该如何进行调理?
- Cisco AnyConnect Client设置默认网关(域名+IP)
- 【剑桥摄影协会】色彩管理之色域转换
- 嵌入式培训学费贵不贵?
- 365天挑战LeetCode1000题——Day 097 神策专场: 判定是否互为字符重排 按身高排序 按位与最大的最长子数组 找到所有好下标 好路径的数目
- DSPack初度应用小结