本文介绍旷视研究院提出具备视角感知力的车辆重识别网络 VANet,它可以克服因被拍摄车辆的视角变化过于巨大所造成的性能严重削弱的问题。

论文名称:Vehicle Re-identification with Viewpoint-aware Metric Learning

论文地址:https://arxiv.org/abs/1910.04104

目录

  • 导语

  • 简介

  • 方法

    • 度量学习baseline

    • 具备视觉感知力的度量学习方法

    • 网络架构

  • 实验

  • 讨论

  • 结论

  • 参考文献

  • 往期解读

导语

车辆重识别(Vehicle re-ID)任务旨在匹配城市管理场景中不同监控视角之下的车辆,其对公共安全和智慧交通而言意义重大。目前,车辆重识别任务面临的主要挑战是视角变化问题。

图 1:Vehicle re-ID 多视角图示

如图 1 所示,不同的两辆车从相似视角观察,视觉信息可能非常相似(图 1(a));而同一辆车,从不同视角看,视觉信息却差异较大(图 1(b))。

出于方便考虑,本文使用 S-view 表示相似视角 (similar-viewpoint),D-view 表示不同视角 (different-viewpoint)。在物体识别领域,视角变化问题在一些任务中(如行人重识别和人脸识别)已经多有研究。尽管深度度量学习已经在获取视角变化特征方面取得了一定成功,但是车辆的视角变化非常极端(往往能达到180度),极端视角变化的问题依然充满挑战。

本文用一个深度度量学习的 baseline 做了实验,D-view pos(具有不同视角的同类样本对) 和 S-view neg(具有相似视角的不同类样本对) 的距离分布如图 1(c)所示。经过统计,相较于 S-view neg,D-view pos 的距离往往要更大,这严重降低了重识别的检索精度。

简介

旷视研究院通过学习具备视角感知力(viewpoint-aware)的度量来回应这一挑战,这一想法受到人类识别车辆的认知行为的启发:当人对比两张车辆图像时,如果视角相似,则只观察细节性的视觉外观;如果视角不同,则需要联想和记忆,而不是直接对比视觉外观。换言之,人类会根据不同的视角关系对车辆图像采取不同的识别策略。

本文将该生物机制引入深度度量学习,提出 Viewpoint-Aware Network (VANet) 方法,它有两个分别针对不同视角关系的度量学习分支,从而建立了两个特征空间,分别学习 S-view 和 D-view 关系下的度量。

具体而言,本文在训练期间使用两类度量约束,即空间内约束(within-space constraint)和跨空间约束(cross-space constraint),空间内约束使得在每一个特征空间自身内,正样本对的距离小于负样本对(即 S-view pos vs S-view neg,D-view pos vs D-view neg);跨空间约束则是使得当正、负样本对分别在不同特征空间中的情况下,正样本对间的距离也总是比负样本对距离更小(即 D-view pos vs S-view neg,S-view pos vs D-view neg)。实验证明,上述两类约束是 VANet 判别能力的重要保障,显著提升了车辆重识别的精度,在该网络下各个样本对的距离分布如图 1(d)所示,可以看出正样本对的距离分布和负样本对的距离分布区分开来。

方法

为了学习到对于相似视角关系与不同视角关系各自的深度度量,旷视研究院团队设计了一个具有两个分支的网络,它们将输入图像映射到两个特征空间。进一步,系统会在每个特征空间内部分别计算样本对特征的欧氏距离。我们首先通过对比常用的基于 triplet loss 损失函数的度量学习 baseline 来说明我们的度量学习方法。

度量学习 baseline

研究人员使用常用的 trplet loss 构建了度量学习 baseline。D 为特征之间的欧氏距离,P = (x_i, x_j)为样本对,D(P)计算了样本对的欧氏距离;进一步,P^+\- 分别代表正样本对、负样本对,于是 triplet loss 损失函数定义如下:

它虽然能够缩小同类型样本距离,扩大非同类样本距离,但如图 1(c)可见,由于观察视角可能会存在很大的变化,所以 baseline 无法在 D-view pos 和 S-view neg 同时存在的情况下准确区分出 D-view 正样本对。

具备视角感知力的度量学习方法

图 1(c)证明了常用的度量学习方法(即单独一种计算相似度的度量)无法在 D-view pos 和 S-view neg 同时存在的情况下准确区分出 D-view pos 。因此旷视研究院团队转换思路,提出一种具备视角感知力的度量学习方法,该方法可以根据样本对视角为 S-view 和 D-view 的两种关系,分别学习两个独立的深度度量。为此,研究人员使用两个特征映射函数 f_s、f_d,将输入图像映射到两个不同的特征空间中,命名为 S-view 和 D-view 特征空间。然后,计算在两空间中每一对样本的距离。

研究人员发现对于学习具备视角感知力的度量来说,有两种约束十分重要,即空间内约束(within-space constraint)和跨空间约束(cross-space constraint)。空间内约束力图保证在两个空间各自内 D(P^+)总是小于D(P^-);而跨空间约束则力图保证当两个样本对分别在不同空间中时,D(P^+)也总是小于D(P^-)。

网络架构

结合了两种度量学习的 VANet 网络架构如图 3 所示。

图 3:VANet 架构

首先,VANet 网络需要识别输入图像对之间的视角关系(即是相似视角还是不同视角)。为此,网络首先使用了一个视角分类器来预测每张图像的的绝对视角(如:前、后、侧),从而判断图像对的视角关系是“相似”还是“不同”。如果两幅图的视角被认为是相同或类似,那么就将其归入相似视角(S-view)样本对范围内,不同视角同理。

随后,VANet 将图像输入一系列名为共享卷积(shared conv)的卷积层,输出的特征会附接到两个卷积网络分支。这两个网络分支结构相同,但不分享任何参数。每个分支都能被认为是一个独立提取特征的函数,分别对应之前提到的 f_s、f_d 两个函数,将图像分别映射到两个特征空间,即 S-view 特征空间(对应到图 3 上分支)和 D-view 特征空间(对应到图 3 下分支)。

对每张图而言,VANet 都会在两个不同的特征空间输出一个特征。在训练期间,给定一个由 N 张输入图像组成的 mini-batch,VANet 会同时生成其在 S-view 和 D-view 特征空间的两个距离矩阵。每个距离矩阵都由 N * N 个距离值组成。对于一个本来是 D-view 关系的样本对而言,VANet 仍然会在 S-view 特征空间计算其距离,即 D_s(P_d);对 S-view 同理。

接下来,在两个特征空间中,依据一开始视角关系分类器的结果,那些属于该视角关系的距离就会被绿色(红色)标注出来,通过 triplet 损失函数来学习该空间下的度量。如在 S-view 特征空间内(图 3 上分支),只有相似视角的样本对距离(绿色)贡献到损失函数中,不同视角的样本对距离(灰色)则不考虑。在两个特征空间中分别施加空间内约束后,VANet 会将这些对应的距离值(绿色、红色)整合为另一个距离矩阵。在这个矩阵中,绿色(红色)分别对应 S-view(D-view)距离矩阵里的距离值。据此整合后的距离矩阵,VANet 会根据所有红色和绿色距离值通过 triplet 损失函数施加跨空间约束。

在测试期间,给定一张查询图像,VANet 会用库中图像来对其进行特定视角关系下的对比。具体来说,即如果查询图像与库中图像被认为来自 S-view,那么就在 S-view 特征空间中计算其之间的距离 D_s(P_s),D-view 同理。

实验

研究人员在两个公开的车辆重识别基准数据集(VehicleID、Veri-776)上进行了车辆重识别实验。

在 VehicleI 上的性能见表 4;在 Veri-776 上的性能见表 5,可以发现 VANet 的性能显著优于当下同类领先模型,并相对于 baseline 方法有较大提升。

表 4:在 VehicleID上的对比,“+”代表在模型训练过程中利用了外部数据的方法

表 5:在 Veri-776 上的对比

结论

本文提出一个车辆重识别网络 VANet,它能够学习具有视觉感知力的深度度量。VANet 将车辆重识别分为两个场景,即相似视角(S-view,简单场景)和不同视角(D-view,困难场景)。相应的,VANet 分别学习了两种深度度量——S-view 度量和 D-view 度量。通过执行空间内约束与跨空间约束,VANet 可以改进重识别精度,并可以在相似视角图像干扰下检索不同视角的图像。实验结果证明 VANet 显著提高了车辆重识别精度,与已有方法对比实现了当前最佳性能。

参考文献

  • M Saquib Sarfraz, Arne Schumann, Andreas Eberle, and Rainer Stiefelhagen. A pose-sensitive embedding for person re-identification with expanded cross neighborhood reranking.

  • In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.

  • Yan Bai, Yihang Lou, Feng Gao, Shiqi Wang, Yuwei Wu, and Ling-Yu Duan. Group-sensitive triplet embedding for vehicle reidentification. IEEE Transactions on Multimedia, 2018.

  • Haiyun Guo, Chaoyang Zhao, Zhiwei Liu, Jinqiao Wang, and Hanqing Lu. Learning coarse-to-fine structured feature embedding for vehicle re-identification. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

  • Jinxian Liu, Bingbing Ni, Yichao Yan, Peng Zhou, Shuo Cheng, and Jianguo Hu. Pose transferrable person reidentification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.


车辆识别技术交流群

关注车辆检测、车牌识别、车辆重识别相关技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:车辆)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

ICCV 2019 | 旷视研究院提出VANet:具备视角感知力的车辆重识别网络相关推荐

  1. ICCV 2019 | 旷视研究院提出文字检测新方法:像素聚合网络PAN

    本文介绍ICCV 2019 旷视研究院提出任意形状文字检测模型:像素聚合网络 PAN,它考虑了任意文字识别过程中速度与精度的权衡,在大幅提升识别性能的同时也显著降低了计算量,成为当前该领域最佳方法. ...

  2. ICCV 2019 | 旷视研究院提出行人搜索当前最佳新方法

    本文中旷视研究院提出了一个基于行人重识别的定位修正框架,它能够修正行人检测的结果,使其更加有利于行人搜索任务.实验结果显示,该方法性能优于现有最领先方法. 论文名称:Re-ID Driven Loca ...

  3. CVPR 2019 | 旷视研究院提出Re-ID新方法VPM,优化局部成像下行人再识别

    全球计算机视觉三大顶级会议之一 CVPR 2019 将于当地时间 6 月 16-20 日在美国洛杉矶举办.届时,旷视研究院将带领团队远赴盛会,助力计算机视觉技术的交流与落地.在此之前,旷视每周会介绍一 ...

  4. ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体

    两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...

  5. CVPR 2019 | 旷视研究院提出TACNet,刷新时空动作检测技术新高度

    全球计算机视觉三大顶级会议之一 CVPR 2019 将于当地时间 6 月 16-20 日在美国洛杉矶举办.届时,旷视研究院将带领团队远赴盛会,助力计算机视觉技术的交流与落地.在此之前,旷视每周会介绍一 ...

  6. CVPR 2019 | 旷视研究院提出极轻量级年龄估计模型C3AE

    全球计算机视觉三大顶级会议之一 CVPR 2019 将于当地时间 6 月 16-20 日在美国洛杉矶举办.届时,旷视研究院将带领团队远赴盛会,助力计算机视觉技术的交流与落地.在此之前,旷视每周会介绍一 ...

  7. CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题

    全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)将于 6 月 16-20 在美国洛 ...

  8. ICCV 2019 | 旷视研究院11篇接收论文抢先读

    两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于 10 月 27 日 - 11 月 2 日 ...

  9. CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型

    全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)将于 6 月 16-20在美国洛杉 ...

最新文章

  1. 一个强迫症的Git 选择
  2. 可逆加密算法 php,php可逆加密的方法及原理
  3. win32 DLL 学习总结
  4. 【AI白身境】学AI必备的python基础
  5. python综合练习1-- 用户登录
  6. Qt--在.pro文件中添加链接库的写法
  7. c语言 字符转int型,C语言—类型之间的转换
  8. python flask 上传下载 api_Flask 文件下载API
  9. redis数据库配置
  10. POJ NOI0105-42 画矩形
  11. 计算机组成cpu性能公式,2020考研计算机组成原理知识点:计算机性能指标
  12. linux系统添加中文字体后不生效
  13. Jenkins下载历史Build版本的归档文件
  14. xposed框架android4,Xposed框架app_Xposed模块_xposed框架安卓4.4.4版-多特软件站安卓网...
  15. python 微博_用python发微博
  16. css强制一行显示超出的部分显示点点点
  17. linux服务器下进入BIOS,一种8路服务器Linux操作系统下刷新BIOS的方法与流程
  18. 每天一点matlab——特征提取之欧拉数
  19. 「分布式系统之美」知乎圆桌精选大放送第二期|不要放过任何你感兴趣的话题
  20. FTP客户端设计与实现

热门文章

  1. SpringMVC 运行原理及主要组件
  2. android画布原理,Android触摸事件如何实现笔触画布详解
  3. c语言练习书,谁有C语言入门的练习题?
  4. 去超市一定要存包吗_大桥路某超市收银时出现多收现象!大家付完钱一定要核对...
  5. php封装图片上传,PHP文件上传封装
  6. html表格添加选项代码,使用实例演示 表单 中的选项卡功能 在里面添加table id=bootstrap-table/table后不显示表格...
  7. jpa 托管_java – jpa非托管实体
  8. plsql修改表名称_Excel教程:常见的工作表技巧(内有冻结拆分窗格)Excel神技巧...
  9. 初中物理凸透镜成像动态图_初中物理:凸透镜成像、望远镜与显微镜的区别
  10. python有必要看数据结构_盘点 Python 10 大常用数据结构(上篇)