《Learning Discriminative Features with Multiple Granularities for Person Re-Identification》论文阅读之MGN

刷新三数据集纪录的跨镜追踪(行人再识别-ReID)技术

云从科技在跨镜追踪（行人再识别）技术（ReID）上获取重大突破。同时在Market-1501，CUHK03，DukeMTMC-reID三个数据集刷新了世界纪录，其中最高在Market-1501上的首位命中率（Rank-1 Accuracy）达到96.6%，让跨镜追踪（ReID）在准确率上首次达到商用水平，人工智能即将从「刷脸」跨到「识人」的新纪元。

paper:MGN

github:reid-mgn

知乎：https://zhuanlan.zhihu.com/p/35296881

背景导读

人脸识别技术经过进几年的发展，已较为成熟，在众多的场景与产品中都已有应用，但人脸识别技术只能用到人体的人脸信息，放弃了人体其他重要信息的利用，例如衣着、姿态、行为等，另外在应用时必须要有清晰的人脸正面照片，但在很多场景下无法满足要求，例如低头、背影、模糊身形、帽子遮挡等等。而跨镜追踪（ReID）技术正好能够弥补人脸识别的这些不足，行人重识别能够根据行人的穿着、体态、发型等信息认知行人。这将人工智能的认知水平提高到一个新的阶段，现在跨镜追踪已成为人工智能领域的重要研究方向。但现有的研究成果还不是很成熟，离实际商用的要求还有一定距离。而云从科技的跨镜追踪（ReID）技术获得了重大突破，将现有的技术水平提高到一个新的阶段，这将大大推动业界技术研究与应用落地的进度，也将大大推动人工智能由「刷脸」跨进全面「识人」的新纪元。

难点：

ReID技术与人脸识别技术类似，存在较多的困难点需要克服，例如光线、遮挡、图片模糊等客观因素。另外，行人的穿着多样，同一人穿不同的衣服，不同的人穿相似的衣服等等也对ReID技术提出更高的要求。行人的姿态多变导致人脸上广泛使用的对齐技术也在ReID失效。行人的数据获取难度远远大于人脸识别数据获取难度，而行人的信息复杂程度又远远大于人脸，这两个因素叠加在一起使得ReID的算法研究变得更加困难，也更加重要。通过算法的有效设计，降低对数据依赖来实现ReID效果的突破是现在业内的共识。

本次云从提出通过融合行人的全局信息以及具有辨识力的多粒度局部信息的思路，为解决ReID问题提供了一个非常不错的思路。云从科技本次提出的方案有几大优势（1）结构精巧：该方案实现了端到端的直接学习，并没有增加额外的训练流程，（2）多粒度：融合了行人的整体信息与有区分度的多粒度细节信息，（3）关注细节：模型真正懂得什么是人，模型会把注意力放在膝盖，衣服商标等能够显著区分行人的一些核心信息上。

Introduction

从不同的安防摄像机采集到的大批行人图像中检索出给定的行人是行人重识别一个极具挑战性的任务。由于监控视频图像的场景复杂性，person -ReID的主要挑战来自于人的较大变化诸如姿势、遮挡、衣服、背景混乱，检测失败等。深度卷积网络的蓬勃发展，对行人图像的识别和鲁棒性提出了更为强大的表现形式，将RID的性能提升到了一个新的水平。近几个月来，一些深层次的RID方法（3, 37, 32，25）取得了突破性的高识别率和平均平均精度。

结合全局与局部特征是提高提取行人关键可分辨信息的重要方法。之前的局部特征提取的方法专注在基于位置的显著信息提取，导致训练难度提高，同时在复杂场景的鲁棒性并不尽如人意。而作者新设计了一个多分支的端到端的深度网络，使得不同级别的网络分支能够关注不同粒度的分辨信息，也能够有效兼顾整体信息。损失函数部分，作者表示为了充分体现网络的真实潜力，该文章中只使用了在深度学习中非常常见的Softmax Loss与Triplet Loss。

多粒度的解析如图所示，从左到右是人体部分从粗粒度到精细粒度的过程。左边三张是完整的行人图片，中间是将行人图片分割为上下两部分，最有右边是将行人图片分成上中下三个部分。

多粒度网络(Multiple Granularity Network,MGN)如上图所示，该结构的基础网络部分采用业内最为常用的Resnet50。根据对Resnet50网络以及跨镜追踪的深刻分析，作者创新性地对Resnet50进行了合理的修改，使用Resnet50前三层提取图像的基础特征，而在高层次的语意级特征作者设计了3个独立分支。如图所示，第一个分支负责整张图片的全局信息提取，第二个分支会将图片分为上下两个部分提取中粒度的语意信息，第三个分支会将图片分为上中下三个部分提取更细粒度的信息。这三个分支既有合作又有分工，前三个低层权重共享，后面的高级层权重独立，这样就能够像人类认知事物的原理一样即可以看到行人的整体信息与又可以兼顾到多粒度的局部信息。

同时文章对损失函数部分也进行了精心而巧妙的设计。三个分支最后一层特征都会进行一次全局MaxPooling操作，而第二分支与第三分支还会分别再进行局部的MaxPooling，然后再将特征由2048维降为256维。最后256维特征同时用于Softmax Loss与Triplet Loss计算。另外，作者在2048维的地方添加一个额外的全局Softmax Loss，该任务将帮助网络更全面学习图片全局特征。

而在测试的时候只需使用使用256维特征作为该行人的特征进行比较，无需使用2048维的特征，使用欧氏距离作为两个行人相似度的度量。

正是这样简约的设计，使得整个网络对行人完成由粗粒度特征到精细粒度特征的理解。

作者最后使用Re-Ranking技术对结果进行处理。需要着重强调的是文章的数据显示，本方法在Market-1501的Rank1数值即使在没有使用Re-Ranking技术的情况下已达到95.7%，这个结果已经超越了其他方案使用Re-Ranking技术后的结果。另外本方案的所有结果都是根据每个数据集官方提供的训练数据以及评测方法进行，并没有做数据扩充或者将多个数据集融合训练这样的”技巧”性策略。

研究成果：

Market-1501，CUHK03，DukeMTMC-reID是衡量ReID技术的最主流的数据集。首位命中率（Rank-1 Accuracy）、平均精度均值（Mean Average Precision，mAP）是衡量ReID技术水平的核心指标。云从科技在这三个数据集中都刷新了业内最好的水平，在Market-1501数据集的Rank-1 Accuracy达到惊人的95.7%，使用Re-Ranking 技术后更是达到96.6%。mAP是更加全面衡量ReID算法效果的指标，它要求将检索图片与被检索图片都匹配正确，而不止首位命中。云从科技此次将Market-1501的mAP指标将现在最好的水平提高了近5%，达到86.9%，使用Re-Ranking技术之后更是达到了94.2 %。能够获得如此大幅度的突破，充分说明云从科技ReID的研究成果的价值，该成果必然能够推动ReID技术的大幅进步，也使得ReID离实际商业应用越来越近。

行人相对人脸的一个巨大的不足是数据的稀缺，行人最主流的数据集才1000-3000个行人ID，而人脸的公开数据集ID规模已超100万，企业私有的ID规模可能更大。这样的现象主要是由于行人数据集需要采集自同一个人在一段时间内同时出现在多个摄像头下，这样严苛的要求限制了行人数据集的构建。正因为数据的缺失，对ReID算法的研究提出了更高的要求。云从科技本次的方案不是以堆数据这么”简单粗暴”的方式提高精准度，而是通过对深度学习对行人学习的本质研究，通过设计针对性的网络结构与算法，使得人工智能对行人识别的理解达到一个全新的高度。

「刷脸」是计算机视觉领域的重要的应用，而「识人」将促使计算机视觉行业进入新的发展阶段。云从科技作为人脸识别领域的领导者之一，同样对行人识别的技术前景、应用场景、社会价值有极其深刻的研究。本次ReID技术的分享是一次尝试，云从科技在「识人」方向的众多细分领域已经有深入的研究，例如行人检测、行人结构化信息提取、人体关键点检测、姿态估计、行为动作识别等。云从科技希望能够与业内一起推动计算机视觉在「识人」这个方向上的发展，让大家能够更快地体会到「识人」的人工智能对智能安防、人机互动、自动驾驶、智能商业、家居生活等各方面的帮助与提升。

三个权威数据集简介：

Market-1501

该数据集在清华大学校园中采集，图像来自6个不同的摄像头，其中有一个摄像头为低像素。同时该数据集提供训练集和测试集。训练集包含12,936张图像，测试集包含19,732 张图像。图像由检测器自动检测并切割，包含一些检测误差（接近实际使用情况）。训练数据中一共有751人，测试集中有750人。所以在训练集中，平均每类（每个人）有17.2张训练数据。

DukeMTMC-reID

该数据集在杜克大学内采集，图像来自8个不同摄像头。该数据集提供训练集和测试集。训练集包含16,522张图像，测试集包含 17,661 张图像。训练数据中一共有702人，平均每类（每个人）有23.5 张训练数据。是目前最大的行人重识别数据集，并且提供了行人属性（性别/长短袖/是否背包等）的标注。

CUHK03

该数据集在香港中文大学内采集，图像来自2个不同摄像头。该数据集提供机器检测和手工检测两个数据集。其中检测数据集包含一些检测误差，更接近实际情况。平均每个人有9.6张训练数据。