NeurIPS 2021 | 图像损坏场景下行人重识别新基准
关注公众号,发现CV技术之美
0. 导读
行人重识别(Person ReID)在安全部署领域有着广泛应用,当前的研究仅考虑ReID模型在干净数据集上的性能,而忽略了ReID模型在各种图像损坏场景(雨天、雾天等)下的鲁棒性。
现实场景中,采集到的数据不可避免地会受到天气、噪声、模糊等影响,因此,了解ReID模型在复杂损坏场景下的鲁棒性是重要的研究课题。
1. 论文和代码地址
Benchmarks for Corruption Invariant Person Re-identification
论文地址:https://arxiv.org/abs/2111.00880
开源代码:https://github.com/MinghuiChen43/CIL-ReID
2. 贡献
本文是SUSTech VIP Group(南方科技大学 视觉智能与感知课题组)针对图像损坏场景下的行人重识别的研究。
文章首次对单模态、跨模态行人重识别任务中模型的损坏鲁棒进行了详尽的研究,在单模态数据集(Market-1501, CUHK03, MSMT17)和跨模态数据集(RegDB, SYSU-MM01)上,评估了近年21个ReID模型在图像损坏场景下的鲁棒性;
文章首次揭示了模型跨数据集泛化能力与损坏鲁棒性之间的关联,表明损坏鲁棒性的研究更贴近现实场景中的域偏移问题;
文章针对图像损坏场景下行人重识别提出了新的基线方法,CIL(Consistent ID Loss, Inference before BNNeck, Local-based Augmentation)。
3. CIL-ReID Benchmark
3.1 评估指标
常用的衡量ReID模型性能的指标为 mAP (mean average precision)和CMC-k (cumulative matching characteristics, 即Rank-k)。除此之外,文章引入mINP (mean inverse negative penalty)来衡量模型在最难匹配样本上的性能。mINP的计算公式为:
其中,指最难样本的rank值,指正确匹配样本的总数。mINP首次由 Ye et al. [1] 提出,能够很好的衡量模型在面对最难匹配的正样本时的性能。
3.2 Corruption ReID数据集
文章基于现有的单模态数据集Market-1501,CUHK-03, MSMT17,跨模态数据集 RegDB,SYSU-MM01,结合20种现实场景中常见的图片损坏情形,构造了相应的损坏场景下的行人重识别数据集,Market-1501-C, CUHK-03-C, MSMT17-C, RegDB-C, SYSU-MM01-C。
20种图片损坏算法,包括15种来自ImageNet-C, 4种来自Extra ImageNet-C,以及额外引入的“下雨”这一常见的天气带来的图片损坏,包括噪声、模糊、天气、数码四种大类,如下所示:
每一种损坏情形,对应五种不同的剧烈程度(Level-1,.., Level-5),共同组成100种不同程度、类型的损坏场景。
以Gaussian (Noise), Defocus (Blur), Snow (Weather), Contrast (Digital)四种损坏场景为例,下图可视化了五种不同损坏程度下的行人图像。
相比于分类任务(输出类别信息)和检测任务(输出物体的bounding box),重识别是一个图片匹配的任务,测试集分为query和gallery。由于任务的特殊性,文章额外给出了三种测试设定:query和gallary都是损坏的图片;只有query是损坏的图片;只有gallery是损坏的图片。需要注意的是,对于跨模态数据集(RGB图片和红外图),只有RGB图片可能会经过损坏处理,而对红外图不做任何损坏处理。
3.3 损坏鲁棒性测试
文章选取了当前21个ReID方法,基于上述构建的5个损坏场景下的行人数据集,在四种测试设定下(正常数据集 + 3种损坏设定),评估了不同ReID方法的性能。21个ReID方法为:AGW,BoT,ABD-Net,OS-Net,DG-Net,MHN,BDB,TransReID,LGPR,F-LGPR,TDB,LUPerson,LightMBN,PLR-OSNet,CaceNet,PCB,Pyramid,AlignedReID++,RRID,VPM,和MGN,性能评估指标为,Rank-1,mAP,mINP。以Market-1501和Market-1501-C为例,结果如下图所示(具体数据见原文):
(1) 实验结果表明,现有的ReID方法在损坏场景下的性能很差。如图所示,现有模型在干净数据集上的性能和在损坏场景下的性能之间并没有明显的正相关性,例如,在LightMBN在Market-1501上能达到很好的性能(mAP: 91.54%,),而在Market-1501-C上的性能(mAP: 14.84%)相对较差。
(2) TransReID在损坏场景下的各项性能指标都能达到最高。基于part-level的ReID方法(PCB,Pyramid,RRID等)在干净数据集和损坏数据集上都能取得很好的性能,一定程度上表明,对于局部特征的挖掘有助于提升模型在图片损坏场景下的性能,例如,简单的PCB方法,在损坏场景下也能取得很好的性能。
(3) 上述的21种ReID方法中,部分方法是针对数据集噪声提出的,例如:严重遮挡(VPM), 不准确的bounding box(Pyramid),光照变换(BDB),风格变换(DG-Net),对抗扰动(F-LGPR)。但是,这些噪声鲁棒的方法在图片损坏场景下并没有取得很好的鲁棒性。本文认为,损坏鲁棒性ReID和之前研究的噪声棒性ReID存在互补关系,有待进一步挖掘。
3.4 基线方法——CIL
针对图片损坏场景下的行人重识别任务,本文提出了一种基线方法(CIL),在3个单模态数据集和2个跨模态数据集上取得了SOTA性能。CIL-ReID 包括从以下三个关键部分:
(1) 局部数据增强算法
随机擦除(Random Erasing)是一种数据增强方法,在模型训练阶段,其将图片中的随机一小块像素替换为随机噪声。随机擦除在多个ReID数据集上被验证能够提升模型在干净数据集上性能,但是本文发现随机擦除会损害模型的图片损坏场景下的性能。
同样,另一种数据增强方法,RandomPatch(在模型训练阶段将图片中的随机块替换为另一张图片的中随机块),也被证实能提升模型在干净数据集上的性能,但会损坏在损坏场景下的性能。
本文认为,这两种数据增强方法会影响模型挖掘局部信息的能力,进而,本文提出了两种数据增强方法:(a)Soft Random Erasing,将图片中的随机一小块以一定的比例替换为随机噪声,以一定比例保留原始的像素信息;(b)Self Patch Mixing,将图片中的随机一小块替换为该图片中另一个随即块。两组数据增强方法的可视化如下图所示。
(2) 一致性ID loss
现有的ID loss是基于cross-entropy计算而来的,如下,
现有的ID loss仅计算单张增强图片的损失,为了进一步约束模型从不同的增强图片挖掘一致性的特征,本文引入原始图片后验概率与增强图片后验概率之间的JS散度,如下,
其中,.
(3) 在BNNeck前推断
BNNeck是指在提取的图片特征和分类层之间的BN层,BNNeck之前的feature用于triplet loss的计算,BNNeck之后的feature用于分类loss的计算。BNNeck的引入是为了使挖掘到的图片特征在超球体表面服从高斯分布,并加速ID loss的收敛。本文发现,利用BNNeck之后的特征进行重识别任务会降低模型的损坏鲁棒性,如下表所示。
4. 实验
(1) 网络架构
在评估21种ReID方法后,文章发现,TransReID有着更好的损坏鲁棒性。由于TransReID有着区别于其他方法的特殊架构(Transformer),为进一步分析不同网络架构对损坏鲁棒性的影响,文章对比了基于CNN和Transformer两种骨干网络的ReID方法,如下表所示。
实验结果表明,同等参数量和计算开销下,基于Transformer架构的ViT有更好的损坏鲁棒性。此外,选取BN层前的feature进行推断,能显著提升模型的损坏鲁棒性。
(2) 数据增强
数据增强能帮助提升模型的损坏鲁棒性,文章对比了不同数据增强方法对模型损坏鲁棒性的影响,如下表所示。AugMix相较于其他方法,能更显著提升模型的损坏鲁棒性。在通AugMix相结合时,本文提出的Soft Random Erasing 和 Self Patch Mixing比传统的Random Erasing 和 Random Patch,能够取得更好的泛化性能(即同时提升在干净数据集和损坏数据集上的性能)。
(3) ReID损坏鲁棒性新基准
本文针对图片损坏场景下的重识别问题提出新的基线方法,CIL,其由三个关键部分组成:一致性ID loss (Consistent ID loss),BNNeck 前推断(Inference before BNNeck),局部数据增强(Local-based augmentation)。CIL在3个单模态数据集和2个跨模态数据集上的损坏鲁棒性都取得了SOTA的性能。如下表所示。
CIL三个关键组成部分的消融实验如下所示,
(4) 损坏鲁棒性和泛化性
以前对于损坏鲁棒性的研究中,并没有太多关于鲁棒性和跨数据集泛化性的讨论。例如,在图像分类任务中,Taori et al. [2] 表明,模型在合成的域偏移问题中的鲁棒性,对现实场景中的域偏移问题并不能起到很好的预见性。相反的是,本文发现,在行人重识别任务中,模型的损坏鲁棒性和跨数据集泛化性之间存在着一定的关联。如下图所示,文章在不同的ReID方法(图左)和不同的数据增强方法(图右)进行了验证实验,所有模型均在Market-1501上训练,红线为Market-1501测试集上的损坏鲁棒性,绿线为MSMT17测试集上的性能。实验结果表明,行人重识别任务中,模型的损坏鲁棒性和跨数据集泛化性之间存在强线性正相关(图左皮尔森相关系数ρ=0.97)。
5. 结论
本文提出了一个全新的ReID任务场景,图片损坏场景下的行人重识别。本文对21种ReID方法在5个数据集上进行了详尽的损坏鲁棒性评估,同时针对ReID中损坏鲁棒性提出了新的基线方法——CIL,并取得了SOTA的性能。
此外,本文发现在ReID任务中,模型的损坏鲁棒性和跨数据集泛化性之间存在着强线性正相关,因此,对损坏鲁棒性的研究对解决现实场景中域偏移问题有重要的启发作用。
[1] Ye M, Shen J, Lin G, et al. Deep learning for person re-identification: A survey and outlook[J]. TPAMI, 2021.
[2] Taori R, Dave A, Shankar V, et al. Measuring robustness to natural distribution shifts in image classification[J]. arXiv preprint arXiv:2007.00644, 2020.
附:Leaderboard
Market-1501-C:
https://paperswithcode.com/sota/person-re-identification-on-market-1501-c
CUHK-03-C:
https://paperswithcode.com/sota/person-re-identification-on-cuhk03-c
MSMT17-C:
https://paperswithcode.com/sota/person-re-identification-on-msmt17-c
RegDB-C:
https://paperswithcode.com/sota/cross-modal-person-re-identification-on-regdb-1
SYSU-MM01-C:
https://paperswithcode.com/sota/person-re-identification-on-sysu-mm01-c
本文为52CV粉丝投稿,原地址:
https://zhuanlan.zhihu.com/p/460011200
END
欢迎加入「行人重识别」交流群
NeurIPS 2021 | 图像损坏场景下行人重识别新基准相关推荐
- 囊括三大视觉顶会,行人重识别新基准方法AGW!已被TPAMI录用
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要13分钟 Follow小博主,每天更新前沿干货 来源:知乎 作者:叶茫 转载自:新智元 [导读]本文全面调研了近年来深度学习在Re-ID领域的 ...
- 深度学习自学(三十四):换衣场景下行人重识别
整理的人脸系列学习经验:包括人脸检测.人脸关键点检测.人脸优选.人脸对齐.人脸特征提取,Re-ID等学习过程总结,有需要的可以参考,仅供学习,请勿盗用.https://blog.csdn.net/Th ...
- 行人重识别(ReID) ——技术实现及应用场景
导读 跨镜追踪(Person Re-Identification,简称 ReID)技术是现在计算机视觉研究的热门方向,主要解决跨摄像头跨场景下行人的识别与检索.该技术能够根据行人的穿着.体态.发型等信 ...
- #超全#行人重识别数据集整理,附下载链接和介绍
数据集名称 时间 图片尺寸 (总)行人数量/图像 训练集人数/图像 query集人数/图像 gallery 集人数/图像 摄像头数量 图片说明 简介 图片命名 下载链接 文献 1.Market-150 ...
- 中山大学提出新型行人重识别方法和史上最大最新评测基准
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 导读:行人重识别,是利用 CV 技术判断图像或视频序列中是否存在特定行人的技术.常规的行人重识 ...
- 中山大学提出新型行人重识别方法和史上最大评测基准
本文转载自机器之心. 导读:行人重识别,是利用 CV 技术判断图像或视频序列中是否存在特定行人的技术.常规的行人重识别方法往往需要高昂的人工标注成本,计算复杂度也很大.在本文中,中山大学研究者提出的弱 ...
- 跨模态行人重识别研究综述
跨模态行人重识别研究综述 刘天瑜,刘正熙 摘要:传统的行人重识别主要工作集中在同一模态下的行人重识别上,大部分应用于光源充足的场景.随着视频安防监控要求的不断提升,为了克服可见光摄像头无法全天候进行使 ...
- 行人重识别综述学习笔记
文章目录 <行人重识别研究综述> 摘要: 1 行人重识别概述 1.1 背景与研究意义 1.2 研究现状 1.3 评价标准 2 基于图像的行人重识别研究(传统+深度) 2.1 特征表达方法 ...
- 行人重识别(Person re-identification)概述
在人的感知系统所获得的信息中,视觉信息大约占到80%-85%.行人重识别(person re-identification)是近几年智能视频分析领域兴起的一项新技术,属于在复杂视频环境下的图像处理和分 ...
最新文章
- HDU2015 偶数求和
- 被遗忘的Logrotate
- Angular property binding重复触发的问题讨论
- P4570 [BJWC2011]元素
- Hibernate Collection Cache如何工作
- 前端使用工具sublime text 3下载
- Aliyun Linux2安装Docker
- linux at命令关机,Linux at命令定时关机
- 蓝牙mesh组网-JDY-24M初步探索
- Flash遮罩之放大镜
- 浅谈地下污水处理厂电气特点和能效管理系统的实际应用
- 哔哩哔哩我来了,see goodbye 马总!!!
- 苹果7pnfc功能门禁卡_苹果NFC功能不再鸡肋?原来还能这么玩,内附门禁卡复制教程...
- 让devcpp支持c++11
- AutoSAR系列讲解 - 总目录
- C++实现复数矩阵求逆 matlab inv
- 自定义竖向SeekBar (VerticalSeekBar)
- 谷歌浏览器本地HTML文件无法打开
- LeetCode 340. 至多包含 K 个不同字符的最长子串 (滑动窗口)
- 【python 爬虫】 scrapy 入门--爬取百度新闻排行榜
热门文章
- 【转】HTML中的map标签
- OpenFlow网络中处理正常流量的工作流程
- 【拉普拉斯机制代码实现demo】差分隐私代码实现系列(四)
- 如何制作一个塔防游戏 Cocos2d x 2 0 4
- Java网络编程之NIO编程(待补充)
- micropython 蓝牙音箱_你愿意用ESPY-core做哪些有趣尝试?
- html pdf文档的格式控制符,关于Unicode控制字符RLO,LRO,PDF 的坑
- rdd分片 spark_大数据面试题(Spark(一))
- golang执行多个linux命令,golang执行系统command
- python 引用库的点.号_给大家分享一些实用的Python库