点击我爱计算机视觉标星,更快获取CVML新技术


望楼武侯是怎么练成的!

天宝二年,吐蕃对大唐全面停止互市,并挑唆南诏叛唐,一时间局势骤然紧张起来。自古攘外必先安内,为了防止贼人趁机作乱,朝廷成立靖安司,负责两京及四方治安捕盗之事。

靖安司在长安城中每三百步设一望楼,并选边军善射者,驻扎在望楼之上,称为武侯,监控长安东西两市及一百零八坊。

武侯目力极佳,街面上的风吹草动都逃不过他们的眼睛。但是在人群之中能够连续追踪一个人却并非易事,需要武侯们相互配合,通过约定暗语将这个人的体貌特征传遍各个望楼,男女,服饰等等一一通过暗语穿出,但是却发现很多时候语焉不详。例如,同样是紫袍老者戴黑冠,可能是郭将军,也可能是何监,或者是右相。

因此武侯们不再强求暗语的意义,而是对每个人通过暗语发出一串数字。如果两串数字距离近,那么它们所代表的人就可能是同一个人;反之,那么它们就不应该是同一个人。

若要得到这串数字,武侯们便需要习得一套本领,对同一个人的时候,无论光照,方向,姿态如何,所得到的数字距离都要近;而对不同人的时候,数字的距离都需远。为了做到这一点,免不了进行大量的练习。

行人重识别(ReID),即判断不同摄像头下两张图中的人物是否为同一个人,在安防领域有着广泛的应用。在21世纪初,就已经有不少学者在做行人ReID的研究。

早期ReID的研究主要集中在两个层面:

(1)如何设计更好的行人特征,即上文中的“暗语”;

(2)如何对特征进行相似度的度量。

前者比较有代表性的方式是HOG特征和LOMO特征,而后者比较有代表的是KISSME和XQDA等等。但是传统手提特征+相似度度量的方法无法应对复杂的真实环境,而随着深度学习技术的发展,行人ReID和大量CV任务一样,开始进入深度学习时代。

靖安司让武侯尽数在西市训练,在六座望楼上观察了一千五百零一人,对每个望楼上观察到的每个人,按照同一规则编撰暗语。

开始的时候,暗语设计不甚高明,对于某一个望楼发出的暗语,有几乎一半的情况,另一个望楼收到暗语后,发现暗语最相近的是另外一个人。但功夫不负苦心人,武侯们昼夜苦练,这种情况终于减少到每一百次中仅出现五次左右。

2015年是ReID技术发展史中很重要的一个分水岭,该年郑良博士等人在ICCV上发布了Market1501数据集,从此ReID进入了深度学习时代。

起初,ReID多采用全局特征,主要特点是直接将网络Backbone输出的global feature作为行人图片的ReID特征,而研究的主要目标就是如何设计网络的损失函数。

全局特征最近研究的比较少,一般作为目前研究工作的baseline,可以参考“专栏第一篇”:https://zhuanlan.zhihu.com/p/61831669。

在全局特征发展一段时间之后,性能遇到了瓶颈,这时候局部特征local feature的方法开始发展,特点是融合多个局部区域的特征,根据局部区域取得的方式不同,可以分为人体语义分块和物理切割分块。

前者比较有代表性的方法包括SpindleNet,GLAD等;而后者代表的方法有PCB,AlignedReID,MGN等,用于Partial ReID的VPM也可认为是后者的变种,可以参考专栏第三篇”https://zhuanlan.zhihu.com/p/71260436。

靖安司大喜,令武侯们登上望楼执勤。但是武侯们却每每跟丢嫌犯,令圣人大为不满。靖安司也大为困惑:明明于西市之中,都能够准确跟踪他人,为什么一推广到整个长安就不灵了?

原来,在西市之中,有天时地利人和之便。所谓天时,武侯观察西市千余人和之后追踪他们都在同一时间,光照类似;所谓地利,是因为观察和追踪都在西市,场景类似;所谓人和,是因为西市多商贾,衣着风格类似。而一旦推广到整个长安,天时地利人和俱失,因此此法就不灵了。

局部特征把同源ReID的性能刷到了一个很高的水平,例如目前在Market1501上Top1最高可以达到95%以上,但类似精度的模型直接用于非同源任务,如DukeMTMC-reid,Top1往往不到40%。

这就是domain adaptation问题,在机器学习领域普遍存在。而考虑到ReID领域相对较小的数据集和较单一的场景,这个问题就格外严重了。

在cross-domain reid中,训练集来自于source domain,而测试集来自target domain,两个数据集之间通常存在显著的domain gap。

例如,公开数据集Market-1501采集在夏天国内校园,行人多着短袖、色彩也相对鲜明;而DukeMTMC-reID采集于冬季国外校园,行人多着厚重冬装、色彩也相对暗沉。

这种显著的着装风格差异塑造了两个数据集之间的domain gap,并降低模型在这两个数据集之间跨域使用的准确率,对模型的泛化能力提出了很高的要求。

为了能让望楼之法在长安推行,这个问题必须解决。靖安司让武侯们在观察西市中的一千五百零一人的时候,先用幻术将其幻化成在其他坊中的样子,甚至是在各个望楼上看到的样子,再来编撰暗语;或者把在西市习得的暗语,先用于其他各坊中人员,由此得到一个坊中人员的相似程度,再根据这先入为主的印象为该坊重编暗语;还有些武侯在观察西市众人时,同时观察其他坊中人物,只是并不知晓这些外坊人物中哪些是一个人,哪些又不是。

尽管如此,只要在编写暗语的时候,同时让这暗语与人的四肢躯干相吻合,用于外坊也大有补益。武侯们经过这些训练追踪嫌犯大有长进。终于,在长安,乃至大唐十道三百二十八府一千五百七十三县,武侯们能够如当初在西市中一样,侦稽捕盗,十有九中。

为解决cross-domain reid问题,学术界提出了很多方法:

A. source domain向target domain风格迁移。

该方案直截了当,希望能够把训练样本(source domain)风格迁移到测试集(target domain),在原始图像层面,减小domain gaps。这类方法大多需要依赖生成对抗网络(GAN)来实现风格迁移——给定sourcedomain的图像,GAN的生成器尝试将其转换成targetdomain 的图像、以假乱真;而GAN的鉴别器则试图区分生成图像的伪造本质。

生成器与鉴别器在这样一个左右手互搏下共同提高。CVPR2018 中,两篇工作就使用了这样的方案,分别是“Image-ImageDomain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity forPerson Re-identification”和“Person Transfer GAN toBridge Domain Gap for Person Re-Identification”。

值得一提的是,这些工作不只是简单地利用GAN进行风格迁移,为了更好地将GAN风格迁移与re-ID任务目标结合、提高迁移效果,它们还设计了一些特别的约束。例如“Image-ImageDomain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity forPerson Re-identification”设计了ID保持约束,即source domain图像向target domain进行风格迁移时,并不应该改变图像ID。为此,他们额外使用了一个re-ID中常用的metric (contrastive) loss来增强GAN的风格迁移效果:

公式中,当图像x1,x2分别是原域图像和风格迁移后图像时,二者构成正样对,希望二者的距离近可能接近0;当图像分别是风格迁移后图像与目标域图像时,我们可以断定二者ID不同,因此构成负样对,希望二者的距离尽可能远离。

原文实验证明这样一个re-ID约束与GAN风格迁移训练结合,提高了最终cross domain下的re-ID准确率。这就是上文中提到的通过“幻术”幻化出同一个人在不同坊内的样子。 

B.  target domain内部的风格迁移。

另一些研究表明,不直接在source domain和target domain之间进行风格迁移,而是在target domain内部进行细粒度的风格迁移同样也能提高模型在target domain的泛化能力。ECCV2018的“Generalizing A Person Retrieval Model Hetero- and Homogeneously”工作中,作者利用StarGAN让target domain不同相机图像之间互相迁移风格。

并且,该工作同样巧妙设置了一种ID保持机制——target domain的图像在迁移相机风格后,ID不应改变,与原图像可以构建正样对。与此同时,target domain的图像与source domain的任意图像可以构建负样对——毕竟,source domain和target domain图像属于同一个ID的概率几乎为0。这个工作在2018年取得了cross domain re-ID的国际领先水平。这就是上文所谓对每一座望楼进行幻化。

C.  在target domain进行无监督学习。上述两种方法牵涉到图像层面的风格迁移,都必须依赖GAN来实现。而2019年CVPR两篇工作中,舍弃了GAN,它们的共同特点是在target domain引入一些无监督学习任务,提高模型在target domain的泛化能力。

其中一篇是“Invariance Matters Exemplar Memory for Domain Adaptive”,它引入了三项invariance约束,分别是exemplar invariance, camerainvariance和neighborhood invariance。

除了第二项camera invariance仍然需要GAN的辅助、在不同相机见进行风格迁移,其它两项都直接依赖在target domain的无监督学习。

其中第一项给target domain每幅图像一个独立的标签——这个做法看上去匪夷所思,但是在之前无监督学习的一些工作中已经被探索并证明是有效的;

第三项则认为,target domain中,相近样本是有可能共享ID的,因此,给当前样本的K近邻的样本一定的概率,要求它们能够以相应的概率被预测到当前样本类别中;

另一篇工作“Unsupervised Person re-identification by Soft Multi-label Learning”是CVPR2019 Oral paper。

它提出了一种新颖的做法,利用sourcedomain模型给target domain图像生成各自的softlabel——这个label使用模型的softmax输出,表征一个连续的概率分布,因此是soft label。这个soft label虽然不够准确,但却被巧妙地用来监督deep embedding learning。为此,他们使用了如下的损失函数:

这个损失函数虽然采用了三元组构建(正、负样对),但与传统的contrastiveloss或者triplet loss形式并不相同,尽管如此,目标是一致的——在特征空间,让正样对距离减小、负样对距离增大。这就是上文提到根据先入为主的印象重新编写暗语。

D.  在target domain进行辅助的监督学习。

虽然目标域上没有行人ID标签,无法进行有监督的行人特征学习,但是并不妨碍引入一些辅助学习任务——这些附加的学习任务并不需要行人ID标签。

例如,“EANet: Enhancing Alignment for Cross-Domain PersonRe-identification”利用在目标域额外的human parsing任务,提高了模型在目标域的泛化能力。实现这样一个效果需要有两个前提:辅助任务的标签可以自动获取、辅助任务本身对re-ID性能有促进作用。

EANet正是找到了human parsing这样一个切入点:human parsing的标签可以用Deep Lab等模型自动产生,而human parsing帮助模型区分语义部件,对re-ID是有潜在好处的。这就是上文提到的通过让暗语与四肢躯干相吻合,而增进泛化能力。

天宝三年上元节,有狼卫混入长安,妄图焚毁大唐帝都。靖安司启用张小敬捉狼,在十二时辰中拯救了长安。其中,望楼武侯也贡献了自己的一份力量。

圣人本欲在大唐各地推行望楼之法。然而河东,范阳,平卢三镇节度使联名上书,言以此法监视百姓大不妥,遂作罢。后世经五代十国之乱,靖安司文档付之一炬,望楼之法遂绝于世。

欢迎各位同学关注旷视研究院视频分析组(及知乎专栏:https://zhuanlan.zhihu.com/r-video),简历可以投递给视频分析组负责人张弛(zhangchi@megvii.com)


ReID交流群

关注最新最前沿的行人重识别ReID技术,欢迎加入微信交流群,扫码添加CV君拉你入群,(如已为CV君好友请直接私信)

(请务必注明:ReID)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

《长安十二时辰》中的跨域行人重识别问题相关推荐

  1. 中科院地平线开源state-of-the-art行人重识别算法EANet:增强跨域行人重识别中的部件对齐...

    点击我爱计算机视觉标星,更快获取CVML新技术 编者按:前几天就看到这篇论文EANet,非常非常棒,有幸征得原作者同意授权"我爱计算机视觉"转载,感谢各位大佬的优秀工作~ 最重要的 ...

  2. 跨模态行人重识别研究综述

    跨模态行人重识别研究综述 刘天瑜,刘正熙 摘要:传统的行人重识别主要工作集中在同一模态下的行人重识别上,大部分应用于光源充足的场景.随着视频安防监控要求的不断提升,为了克服可见光摄像头无法全天候进行使 ...

  3. 跨模态行人重识别:Deep Learning for Person Re-identification:A Survey and Outlook(行人重识别综述)

    Deep Learning for Person Re-identification:A Survey and Outlook(行人重识别综述) 写在前面:感谢叶茫博士对AGW的开源,AGW非常适合刚 ...

  4. 可见光-红外的跨模态行人重识别最新研究成果汇总

    目录 Introduction Challenges Advantages Methods [2020 AAAI] Cross-Modality Paired-Images Generation fo ...

  5. 基于RK3588+TensorFlow的人工智能跨模态行人重识别方法及应用

    摘要: 跨模态行人重识别技术(cm-ReID)旨在可见光.红外等不同模态图像中识别出同一个人,其在人 机协同.万物互联.跨界融合.万物智能的智能系统与装备中有重要应用.提出一种数据增强的跨模态行人 重 ...

  6. 今日 Paper | 跨模态行人重识别;对抗时尚迁移;学会注意错误等

    2020-03-11 15:11:09 目录 跨模态行人重识别:共享与特异特征变换算法cm-SSFT GarmentGAN:具有图片真实感的对抗时尚迁移 学习将纹理从服装图像转移到3D人体 学会注意错 ...

  7. AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别

    ©PaperWeekly 原创 · 作者|张晓涵 学校|西安交通大学本科生 研究方向|计算机视觉/行人重识别 论文标题:Infrared-Visible Cross-Modal Person Re-I ...

  8. CVPR2020 | 跨模态行人重识别:共享与特异特征变换算法cm-SSFT

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :SuperMHP, htt ...

  9. 跨模态行人重识别:Cross-Modality Person Re-Identification viaModality-Aware CollaborativeEnsemble Learning学习笔记

    基于模态感知的协同集成学习的跨模态行人重识别  简介 本文针对VT-Reid提出了一种基于中间层共享双流网络(MSTN)的模态感知协同集成(MACE)学习方法,该方法同时处理了特征层和分类器层的模态差 ...

最新文章

  1. ios -使用NSLayoutConstraint实现多个view等宽等高等间距
  2. 如何改变eclipse控制台编码
  3. Tornado推出2.0版
  4. K Balanced Teams
  5. Android下实现GPS定位服务
  6. LintCode MySQL 1936. 张三的故事 III
  7. pythonb超分辨成像_深度原理与框架-图像超分辨重构-tensorlayer
  8. 计算机贡共享,做点小贡献,计算机、控制面板、网络和共享中心……的路径
  9. Google 网站品质指南
  10. ImageFun 使JPG的缩略图跟原图不一样 (刷微博必备)
  11. 拓扑排序----Kahn算法和字典序最小的拓扑排序
  12. 推荐Android中两个很好用的banner,可无限轮播,可使用第三方图片加载框架加载网络图...
  13. 二、制作BOM表格--物料表格--Bill of Materials
  14. 高效能人士的七个习惯读后感与总结概括-(第四章)
  15. python跳转下一页_用Beautifulsoup转到下一页
  16. 关于产品MVP的定义与实践
  17. 《数据库系统概论》:DBA的职责有些
  18. telnet不是内部或外部命令,也不是可运行的程序或批处理文件
  19. 快速傅里叶变换 (FFT)基础
  20. Linux(CentOS 7)、Windows双系统安装图文教程(超详细)适合初学者

热门文章

  1. String和QString之间的转化----可避免出现中文乱码的现象
  2. python 水位_Leetcode 42. 接雨水 - python - 递归 查找分水岭
  3. mvc4 html.dropdownlist,ASP.NET MVC4中使用Html.DropDownListFor的方法示例
  4. android权限适配 简书,Android动态权限适配
  5. html中如何使用渐变颜色代码,html – 如何在CSS中使用渐变作为字体颜色?
  6. php用正则匹配远程图片,php中通过正则表达式下载内容中的远程图片的函数代码...
  7. python requests 代理超时_python requests 超时与重试
  8. android studio sugar,Android | Sugar 的介绍和简单使用
  9. python 延时_理解Python多线程5:加锁解决问题,但又带来麻烦!
  10. 搭建自己的博客(二十七):增加登录注册以及个人资料按钮