[论文笔记]CVPR2017_Joint Detection and Identification Feature Learning for Person Search
Title: Joint Detection and Identification Feature Learning for Person Search;
- aXiv上该论文的第一个版本题目是 End-to-End Deep Learning for Person Search
Authors: Tong Xiao1* ; Shuang Li1* ; Bochao Wang2 ; Liang Lin2; Xiaogang Wang1
Affilations: 1.The Chinese University of Hong Kong; 2.Sun Yat-Sen University
Paper Code
第一遍看的时候看的是第一个版本,只简单地扫了一眼结构图,觉得就是对faster r-cnn做了小修,而且没有OIM loss,觉得创新性一般。然后发现好几篇后来的文章都用了OIM loss,回过头来再细看文章才发现文章有很多有意思的地方。惭愧!
Motivation
person re-id问题往往是用已经cropped的行人图像块进行检索,判断query和gallary中的图像是否是同一个identity。这里面存在几个问题:
①现实中检索都是直接从原始场景图像中实现,而不是利用detection之后的cropped image;
②很多数据集都是手动标注的框,实际上detector的检测精度以及是否存在漏检都会对行人重识别的结果造成影响。
因此,作者提出端到端的person search思想,将detection和re-id问题融在一起。
模型
- 网络的输入是整张图像;
- pedestrian proposal net:输入经过ResNet-50的第一个部分(conv1-conv4_3)之后输出1024d的feature maps(大小是原输入的1/16);类似于RPN,该feature map先经过一个$512\times3\times3$的卷积,得到的特征每个位置的9个anchors分别送入一个softmax classifier(person/non-person)和linear layer(bbox regression);bbox经过NMS,得到128个final proposals;
- identification net:每个proposal经过ROI pooling得到$1024\times14\times14$的特征,然后送入ResNet-50的第二个部分(conv4_4-conv5_3),经过一个GAP(global average pooling)得到一个1024维的feature map;这个1024 feature map一分为三:①softmax二分类;②linear regression位置回归;③映射成一个256维、l2 normalized的子控件,实际上是一个FC层,得到256d的id-feat,inference阶段id-feat用来计算consine similarity,training阶段用来计算OIM loss。
Online Instance Matching Loss(OIM LOSS)
注意是用所有final proposals的256d id-feat计算OIM loss。
训练集中有$L$个labeled identities,赋予他们class-id(1到$L$);也有许多unlabeled identities;还有许多背景和错误信息。OIM只考虑前两种。
做法:
- 对于labeled identities: 记mini-batch中的一个labeled identity为$x\in\mathbb{R}^D$,$D$是特征维度。线下计算和存储一个lookup table(LUT)$V\in\mathbb{R}^{D \times L}$,里面存储着所有labeled identities的id-feat。
- 前向阶段,用$V^Tx$计算mini-batch中的样本和所有labeled identities之间的余弦相似性。
- 后向阶段,如果目标的class-id是$t$,那么用$v_t \leftarrow \gamma v_t+(1-\gamma)x$更新LUT的第$t$列,其中$r\in[0,1]$不明白为什么这么更新
- 对于unlabeled identities,由于数量不等,作者用了一个循环队列来存储$U\in\mathbb{R}^{D \times Q}$,$Q$是队列空间大小。同样用$U^Tx$来计算mini-batch中样本和队列中unlabeled identities的余弦相似性。每次循环,将新的feature vector push,pop一个旧的,保证队列大小不变。
- 基于上述结构,$x$被认作class-id $i$的概率用softmax函数计算
- 同样,被认作第$i$个unlabeled identity的概率是
- OIM objective是最大化log似然的期望
- 求导是
为什么不用softmax loss直接分类?
- 一是类别太多,而每类的正样本太少,使得训练很难
- 二是无法利用unlabeled identities,因为他们没有标签
Dataset
作者提出了新的person search的数据集,包含street view和视频截图,即CUHK-SYSY
Evaluation Protocols and Metrics
person search很自然地继承了detection和re-ID的评价指标,cumulative matching characteristics (CMC top-K) 和mean averaged precision (mAP)。这里要注意和person re-id中这两个指标的异同。
CMC
原文:a matching is counted if there is at least one of the top-K predicted bounding boxes overlaps with the ground truths with intersection-over-union (IoU) greater or equal to 0.5.
这里相对好理解,对于输出的bbox,与GT的IoU>0.5的算作candidates,然后和re-id一样计算top K中 是否包含,包含则算做匹配上。对于误检或者漏检不管。
mAP
原文:(MAP)is inspired from the object detection tasks. We follow the ILSVRC object detection criterion [29] to judge the correctness of predicted bounding boxes. An averaged precision (AP) is calculated for each query based on the precision-recall curve, and then we average the APs across all the queries to get the final result.
这个和reid的mAP应该有较大区别;应该是对每个query相当于一类,求detection的AP
转载于:https://www.cnblogs.com/xiaoaoran/p/11125791.html
[论文笔记]CVPR2017_Joint Detection and Identification Feature Learning for Person Search相关推荐
- Joint Detection and Identification Feature Learning for Person Search
Joint Detection and Identification Feature Learning for Person Search 2018-06-02 本文的贡献主要体现在: 提出一种联合的 ...
- Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
- 论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022
论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022 论文介绍 论文地址以及参考资料 Transformer 回顾 Self- ...
- 论文笔记:《DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks》
论文笔记:<DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks> 摘要 1. ...
- 论文笔记VITAL: VIsual Tracking via Adversarial Learning
论文笔记VITAL: VIsual Tracking via Adversarial Learning 1. 论文标题及来源 2. 拟解决问题 3. 解决方法 3.1 算法流程 4. 实验结果 4.1 ...
- 论文笔记——Fair Resource Allocation in Federated Learning
论文笔记--Fair Resource Allocation in Federated Learning 原文论文链接--http://www.360doc.com/content/20/0501/1 ...
- 论文笔记-2019-Object Detection in 20 Years: A Survey
Object Detection in 20 Years: A Survey Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jiep ...
- 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...
- 【论文笔记】AAAI2022:Do Feature Attribution Methods Correctly Attribute Features?
CV可解释性方向,第一次整理论文笔记,如有错误请批评指正. 原文链接:https://www.semanticscholar.org/paper/Do-Feature-Attribution-Meth ...
最新文章
- 为什么大家都不戳破深度学习的本质?!
- Android程序label居中
- oracle12c审计功能,oracle 12c开启关闭统一审计
- 刷题之旅2020.12.05
- PAT甲级1012 The Best Rank :[C++题解]4个成绩取排名最低:排序、二分(好题)
- python:opencv 二值化处理
- 双指针解决数组排序问题
- 渗透测试中dns log的使用
- 【转】0.SharePoint服务器端对象模型 之 序言
- QML文档阅读笔记-easing.type解析与实例
- 数据模型同学看过来|代码案例实操来袭
- 改变自己就是改变世界的开始
- layui 之button 事件绑定的一种方法
- 【精品收藏】世界上最有智慧的人是怎样理性思考的?查理·芒格的100个思维模型...
- 数据结构习题练习(一)-绪论
- BAT自动校对时间脚本,让WINDOWS系统自动校对时间
- 渥太华大学计算机专业,渥太华大学计算机专业解析
- ndoutils(ndo2db)安装部署
- 鸡啄米:C++编程入门系列之四(数据类型)
- 腐烂的橘子(广度优先搜索)(考虑同时搜索)
热门文章
- java怎么看dao文件_java通过实体类生成dao文件
- 2d的公式_旋转之二 - 三维空间中的旋转:罗德里格旋转公式
- 【sklearn学习】降维算法PCA和SVD
- 根据id删除localstorage数据_原生js利用localstorage实现简易TODO list应用
- HDU 1874 畅通工程续 2008浙大研究生复试热身赛(2)
- linux下的shell运算(加、减、乘、除)
- 我用AI回怼美女汽车销售系列[yolo车牌识别](二)
- 《TCP/IP详解》笔记----第二章 链路层
- understand软件使用教程
- 基本的MySQL操作