Title: Joint Detection and Identification Feature Learning for Person Search;

  • aXiv上该论文的第一个版本题目是 End-to-End Deep Learning for Person Search

Authors: Tong Xiao1* ; Shuang Li1* ; Bochao Wang2 ; Liang Lin2;  Xiaogang Wang1

Affilations: 1.The Chinese University of Hong Kong; 2.Sun Yat-Sen University

Paper Code

第一遍看的时候看的是第一个版本,只简单地扫了一眼结构图,觉得就是对faster r-cnn做了小修,而且没有OIM loss,觉得创新性一般。然后发现好几篇后来的文章都用了OIM loss,回过头来再细看文章才发现文章有很多有意思的地方。惭愧!


Motivation

person re-id问题往往是用已经cropped的行人图像块进行检索,判断query和gallary中的图像是否是同一个identity。这里面存在几个问题:

  ①现实中检索都是直接从原始场景图像中实现,而不是利用detection之后的cropped image;

  ②很多数据集都是手动标注的框,实际上detector的检测精度以及是否存在漏检都会对行人重识别的结果造成影响。

因此,作者提出端到端的person search思想,将detection和re-id问题融在一起。

模型

  • 网络的输入是整张图像;
  • pedestrian proposal net:输入经过ResNet-50的第一个部分(conv1-conv4_3)之后输出1024d的feature maps(大小是原输入的1/16);类似于RPN,该feature map先经过一个$512\times3\times3$的卷积,得到的特征每个位置的9个anchors分别送入一个softmax classifier(person/non-person)和linear layer(bbox regression);bbox经过NMS,得到128个final proposals;
  • identification net:每个proposal经过ROI pooling得到$1024\times14\times14$的特征,然后送入ResNet-50的第二个部分(conv4_4-conv5_3),经过一个GAP(global average pooling)得到一个1024维的feature map;这个1024 feature map一分为三:①softmax二分类;②linear regression位置回归;③映射成一个256维、l2 normalized的子控件,实际上是一个FC层,得到256d的id-feat,inference阶段id-feat用来计算consine similarity,training阶段用来计算OIM loss。

Online Instance Matching Loss(OIM LOSS)

注意是用所有final proposals的256d id-feat计算OIM loss。

训练集中有$L$个labeled identities,赋予他们class-id(1到$L$);也有许多unlabeled identities;还有许多背景和错误信息。OIM只考虑前两种。

做法:

  • 对于labeled identities: 记mini-batch中的一个labeled identity为$x\in\mathbb{R}^D$,$D$是特征维度。线下计算和存储一个lookup table(LUT)$V\in\mathbb{R}^{D \times L}$,里面存储着所有labeled identities的id-feat。

    • 前向阶段,用$V^Tx$计算mini-batch中的样本和所有labeled identities之间的余弦相似性。
    • 后向阶段,如果目标的class-id是$t$,那么用$v_t \leftarrow \gamma v_t+(1-\gamma)x$更新LUT的第$t$列,其中$r\in[0,1]$不明白为什么这么更新
  • 对于unlabeled identities,由于数量不等,作者用了一个循环队列来存储$U\in\mathbb{R}^{D \times Q}$,$Q$是队列空间大小。同样用$U^Tx$来计算mini-batch中样本和队列中unlabeled identities的余弦相似性。每次循环,将新的feature vector push,pop一个旧的,保证队列大小不变。
  • 基于上述结构,$x$被认作class-id $i$的概率用softmax函数计算

  • 同样,被认作第$i$个unlabeled identity的概率是

  • OIM objective是最大化log似然的期望

  • 求导是

为什么不用softmax loss直接分类?

  • 一是类别太多,而每类的正样本太少,使得训练很难
  • 二是无法利用unlabeled identities,因为他们没有标签

Dataset

作者提出了新的person search的数据集,包含street view和视频截图,即CUHK-SYSY

Evaluation Protocols and Metrics

person search很自然地继承了detection和re-ID的评价指标,cumulative matching characteristics (CMC top-K) 和mean averaged precision (mAP)。这里要注意和person re-id中这两个指标的异同。

CMC

原文:a matching is counted if there is at least one of the top-K predicted bounding boxes overlaps with the ground truths with intersection-over-union (IoU) greater or equal to 0.5.

这里相对好理解,对于输出的bbox,与GT的IoU>0.5的算作candidates,然后和re-id一样计算top K中 是否包含,包含则算做匹配上。对于误检或者漏检不管。

mAP

原文:(MAP)is inspired from the object detection tasks. We follow the ILSVRC object detection criterion [29] to judge the correctness of predicted bounding boxes. An averaged precision (AP) is calculated for each query based on the precision-recall curve, and then we average the APs across all the queries to get the final result.

这个和reid的mAP应该有较大区别;应该是对每个query相当于一类,求detection的AP

转载于:https://www.cnblogs.com/xiaoaoran/p/11125791.html

[论文笔记]CVPR2017_Joint Detection and Identification Feature Learning for Person Search相关推荐

  1. Joint Detection and Identification Feature Learning for Person Search

    Joint Detection and Identification Feature Learning for Person Search 2018-06-02 本文的贡献主要体现在: 提出一种联合的 ...

  2. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  3. 论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022

    论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022 论文介绍 论文地址以及参考资料 Transformer 回顾 Self- ...

  4. 论文笔记:《DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks》

    论文笔记:<DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks> 摘要 1. ...

  5. 论文笔记VITAL: VIsual Tracking via Adversarial Learning

    论文笔记VITAL: VIsual Tracking via Adversarial Learning 1. 论文标题及来源 2. 拟解决问题 3. 解决方法 3.1 算法流程 4. 实验结果 4.1 ...

  6. 论文笔记——Fair Resource Allocation in Federated Learning

    论文笔记--Fair Resource Allocation in Federated Learning 原文论文链接--http://www.360doc.com/content/20/0501/1 ...

  7. 论文笔记-2019-Object Detection in 20 Years: A Survey

    Object Detection in 20 Years: A Survey Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jiep ...

  8. 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning

    Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...

  9. 【论文笔记】AAAI2022:Do Feature Attribution Methods Correctly Attribute Features?

    CV可解释性方向,第一次整理论文笔记,如有错误请批评指正. 原文链接:https://www.semanticscholar.org/paper/Do-Feature-Attribution-Meth ...

最新文章

  1. 为什么大家都不戳破深度学习的本质?!
  2. Android程序label居中
  3. oracle12c审计功能,oracle 12c开启关闭统一审计
  4. 刷题之旅2020.12.05
  5. PAT甲级1012 The Best Rank :[C++题解]4个成绩取排名最低:排序、二分(好题)
  6. python:opencv 二值化处理
  7. 双指针解决数组排序问题
  8. 渗透测试中dns log的使用
  9. 【转】0.SharePoint服务器端对象模型 之 序言
  10. QML文档阅读笔记-easing.type解析与实例
  11. 数据模型同学看过来|代码案例实操来袭
  12. 改变自己就是改变世界的开始
  13. layui 之button 事件绑定的一种方法
  14. 【精品收藏】世界上最有智慧的人是怎样理性思考的?查理·芒格的100个思维模型...
  15. 数据结构习题练习(一)-绪论
  16. BAT自动校对时间脚本,让WINDOWS系统自动校对时间
  17. 渥太华大学计算机专业,渥太华大学计算机专业解析
  18. ndoutils(ndo2db)安装部署
  19. 鸡啄米:C++编程入门系列之四(数据类型)
  20. 腐烂的橘子(广度优先搜索)(考虑同时搜索)

热门文章

  1. java怎么看dao文件_java通过实体类生成dao文件
  2. 2d的公式_旋转之二 - 三维空间中的旋转:罗德里格旋转公式
  3. 【sklearn学习】降维算法PCA和SVD
  4. 根据id删除localstorage数据_原生js利用localstorage实现简易TODO list应用
  5. HDU 1874 畅通工程续 2008浙大研究生复试热身赛(2)
  6. linux下的shell运算(加、减、乘、除)
  7. 我用AI回怼美女汽车销售系列[yolo车牌识别](二)
  8. 《TCP/IP详解》笔记----第二章 链路层
  9. understand软件使用教程
  10. 基本的MySQL操作