该文主要是对文献进行翻译,菜鸟一枚,翻译的有很多地方不太准确,欢迎提出,便于之后修改。谢谢!!
转载请指明出处!!!
一、摘要
首先先阐明了现有进行人物识别的方法都是基于单一尺度的外观信息,往往会将其他不同尺度的潜在的有用信息忽略,也会忽视掉隐层之间的相关性信息(信息间的互补关系,也就是信息的补充,类似于一个名词前面加上多个形容词,使得物体特征描述更加清晰)。在这项工作中,我们展示了使用卷积神经网络(CNN)学习多尺度人物外观特征的好处,**旨在共同学习辨别特定尺度特征,并影像输入中最大化多尺度特征融合选择。**该文章中,指定了一个新的深层次的卷积神经网络(DPFL),通过并行的每个尺度的重识别损失(losses)和交互式跨尺度共识正则化在闭环设计中同时优化,来进行多尺度外观特征融合。

二、介绍
人员重新识别(re-id)旨在通过在开放监视空间上部署的非重叠摄像机视图来匹配人物图像的身份类别。这是一项具有内在挑战性的任务,因为由于人体姿势,视角,照明,遮挡和背景杂乱中的未知协变量,人的视觉外观可能在不同的相机视图中发生显着变化。现有工作集中于设计身份判别特征表示或学习匹配距离度量或者深度模型构架。通过对齐局部正文进行特征提取,然后进行交叉视图匹配,现有方法通常将所有人物边界框图像调整为单个尺度,也把这种方法作为规范的预处理标准化步骤。由于目标物体和相机之间的距离不固定,图像总是在大范围检测空间内捕获对象(图1)。目标重识别本质上是一个多尺度重新匹配的问题。

在这我们认为,人员重新识别的单一尺度方法不是最理想的,多尺度表示是必要的。 单尺度表示模糊了在对象匹配中有用的不同尺度的显着信息。 我们的观点部分受到人类视觉系统的启发,该系统兼顾多尺度视觉信息,包括小(全局背景)和大(局部显着)尺度的特征表示。通常,在计算机视觉中,在不同尺度上,用于识别的对象、场景、事件被明确表示,特别是网络模型的输入部分。 金字塔表示的目的是在尺度不变的意义上,即图像中的尺度变化被特征金字塔内的尺度变化抵消。 在这项工作中,我们研究了针对人员重新识别的多尺度深度优化表示学习。但是在文献研究中显示有明显不足之处。
因此,提出下面几个问题:1、在不同尺度下,特征学习行为可能会有所不同甚至是完全不一致,因此对多尺度的特征直接连接不会达到最佳特征融合。2、任何不同模块间的互补关系是未知的,并且对于不同图像可能不是恒定的,因此必须在数据之间协同地学习和优化。3、人们出现在开放式的检测环境中的尺度是不定的(在屏幕中的大小不定), 导致在编码精细和更糙的外观环境下,学习不同尺度的特征之间的基础相关性变得具有挑战性。为了制定端到端的多尺度深度重建模型,一种直接的方法是首先组合特定尺度的特征层,然后以联合学习方式将监督损失反向传播到所有尺度特定的分支。 然而,这种设计忽略了不同分支中的异步学习行为,并可能破坏多尺度特征学习。为了确保在不同尺度上的协同相关特征学习,我们提出了深度金字塔特征学习(DPFL)CNN架构,用于明确地学习多尺度深度特征表示。具体而言,DPFL由m个特定尺度的分支组成,每个分支用于学习金字塔中的输入图像一个尺度,以及用于学习多尺度特征的互补的附加尺度融合分支(图2)。

关键的是,特定尺度的分支并不是相互独立的,而是协同相关的。这是(i)同时对每个分支进行单独学习和(ii)闭环交叉分支交互正则化的特殊设计机制的联合效应。前者旨在通过使所有特征区分标识约束最大化,来最大化特定于特定尺度的特征辨别能力,而后者旨在同时优化跨尺度的潜在互补优势。在闭环形式的个体学习和相关学习之间的这种平衡下,我们允许以端到端的方式同时学习所有分支,以便在人重识别上,最大化特定尺度的特征学习和从多尺度学习中的判别出最佳特征选择。
在这项任务中主要做了两个重要工作1、多尺度分析工作。这与仅考虑单尺度人的外貌信息的现有的重识别方法有所不同,因此对于本质上不同尺度下,捕获的跨试图人边界框图像的重识别可能不是最优的方法。2、提出了一种新的深度金字塔特征学习模型(DPFL)卷积网络结构,通过对同一人的标签信息同时优化多个分类损失,从而学习特定尺度的判别特征,同时通过闭环形式的多尺度一致性正则化,实现多尺度互补融合选择的共同最大化。改设计通过有原则的层间特征交互克服了跨尺度特征学习差异的挑战,同时在小批训练迭代中实现了多尺度互补特征的累计选择。在之前提到的三个数据集上,该方法优于各种先进的重识别方法。
3相关工作
特别是,MS-TriCNN通过硬嵌入层组合多尺度特征,并通过反向传播三元组排名损失来学习多分支CNN模型。DPFL特点1.协同式交叉金字塔尺度交互学习,共同传播实现规律性。(目的是为了克服多尺度特征优化中的学习差异)2、多损失并行监控(不知道啥意思,后续补充),这允许强制和改进特定尺度的特征学习。3、采用softmax分类损失,降低模型训练的复杂度,而且在提供大量的单相机不同水平的训练数据的情况下,提高模型学习的可扩展性。

三、多尺度person re-id(具体公式不描述参考原文)
3.1
对不同距离(L1/L2)的人re-id,提出一种不需要任何具体度量变换的深度表示模型。图片数为n,设为集合i,识别的类别为y。模型详见(图2)
模型构造:m个不同尺度的图像输入到m个cnn中,分别提取相应的特征,各个小组提取到特征后,一个是各自先分类拿出各自的方案,一个是传递到consensus learning网络中,每个小组在这里开会,讨论、交换意见,好了,最终达成一个共识,各个小组将最终完美的文件拿回到各组中,依照这个标准开始对自己的方案开始补充完善,最后拿出最后的方案。
3.2多尺度特征学习(公式不再添加)
(1)单尺度学习模型选择
选择42层的模块化v3网络。该模型优点计算效率高、较小的参数下具有较高的建模能力,不同空间尺度下学习更有鉴别性的视觉特征。也可以选择resnet、mobilenet、vggnet。
分类损失函数选择softmax。会计算出在数据集中该类别出现的概率。所选损失函数优点:简化了训练数据的批处理过程,随机采样展示了开创性的深度分类方法和重识别方法。
(2)多尺度共识学习
在最高卷积层(cxcx2048)通过模块(平均池化、矢量级联、降维)的方式完成特征融合,空间尺寸c与输入图片的分辨率成正比,融合产生2048*m维的共识学习特征。为了提高效率和设计的简单性,在多尺度融合特征上部署了一个身份分类层(一致学习层),在该部分也一致使用softmax分类层一致进行分类学习。
(3)基于共识传播的特征规范化
也就是在consensus learning网络中,加入人的标签进行约束规范化各个尺度的特征学习。几个公式比较简单。具体来说是通过概率以及线性运算来完成共识传播运算。
3.3模型优化
利用标准的随机梯度下降算法,通过反向传播每个分支损失设计的梯度,可优化所提出的的DPFL模型。而且该方法能够与现在的多种神经网络嵌套使用,不需要大量修改优化算法。在模型流程中,必须要处理好模型中各个步骤的工作流程。

四、实验
1、性能评价
标准:cmc和map
2、比较不同模型在三个数据集上的效果。cmc和map值
优化器选择:Adam 初始学习率为:0.0002 动量:0.5 0.999
3、端到端的多尺度联合很重要,否则会导致map值降低,要想获得更加详细的图片信息,我们可以采用更小的初始学习率。

person re-identification by deep learning multi-scale representations(阅读笔记)相关推荐

  1. ZH奶酪:【阅读笔记】Deep Learning, NLP, and Representations

    中文译文:深度学习.自然语言处理和表征方法 http://blog.jobbole.com/77709/ 英文原文:Deep Learning, NLP, and Representations ht ...

  2. Deep Learning Based Registration文章阅读(五)《Anatomy-guided Multimodal Registration by Learning Segment 》

    Deep Learning Based Registration文章阅读(五) 这篇文章是MIA2021新出的一篇文章<Anatomy-guided Multimodal Registratio ...

  3. 《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记(二)

    <Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network>阅读笔记–翻译 ...

  4. 【李宏毅机器学习】Tips for Deep Learning(p14) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 文章目录 Recipe if Deep Learning Do not always blame Overfitting 针对不同的状况使用不同的方法 在训练集上 ...

  5. 【李宏毅机器学习】Why Deep Learning(p15) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 这集语音部分属实听不明白了qaq 文章目录 Deep is better Fat+Short vs Thin+Tall Modularization 模块化 做d ...

  6. Low-Light Image and Video Enhancement Using Deep Learning: A Survey(论文阅读)

    (2021_TPAMI)Low-Light Image and Video Enhancement Using Deep Learning: A Survey   本文是南开大学程明明与南洋理工大学C ...

  7. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  8. 《Recent Advances in Deep Learning for Object Detection 》笔记

    最近看了一篇目标检测的综述,之前对目标检测的认识不是很多,所以简单地记录一下笔记,由于是很早之前写的,对目标检测的很多概念都还不是很清楚,简单记录一下.这篇论文主要讲了目前的目标检测算法的一些设置.检 ...

  9. Deep High-Resolution Representation Learning for Visual Recognition阅读笔记

    用于视觉识别的深度高分辨率表示学习 论文链接 摘要: 高分辨率表示对于人体姿态估计.语义分割和目标检测这类位置敏感的视觉问题至关重要.现有的 sota 框架首先通过串联 high-to-low 分辨率 ...

最新文章

  1. java开发企业级权限管理系统_Java开发企业级权限管理系统 视频教程
  2. linux+gpfs配置文件,GPFS for linux实施
  3. 16-CoreData之多表关联(存储自定义数据模型)
  4. Github无法拉代码
  5. matlab 辅助函数 —— 文件下载与文件解压
  6. so没有打包进AKP导致java.lang.UnsatisfiedLinkError: dlopen failed: library “lib.so“ not found
  7. 【转载】SAP用户出口清单(User Exits)
  8. ubuntu系统安装socket服务器,ubuntu 服务器安装socket需要安装啥
  9. 我妈打电话过来叫我不要搀扶路边摔倒的老奶奶——续 暨《南风窗》某文章读后感
  10. markdown温习笔记
  11. 盘点中国知名网络游戏公司
  12. 群晖3617可以有几个网卡_Nvme pcie千兆有线网卡
  13. quartus 使用技巧
  14. PHP ob缓冲浅析与理解
  15. 嵌入式心得 (转载)
  16. win10总是很快自动休眠,设置休眠时间也无效?
  17. Cocos2d的ChipMunk
  18. 深度学习中FLOPs计算
  19. All flavors must now belong to a named flavor dimension.
  20. 【设计模式】行为模式之Visitor访问者

热门文章

  1. PC通过tftp下载文件到GEC6818开发板出现ping fail;host is not alive問題
  2. 无线网标准IEEE802.11
  3. 六角星绘制-python实现
  4. Unity 游戏开发笔记01
  5. 2022年版中国煤焦油市场运营前景调研与投资可行性分析报告
  6. 路由器的dBi是什么意思?天线的增益越大越好吗?
  7. W25Q128数据手册翻译(2)
  8. 进入银行项目研发部后的感想
  9. opporeno5支持鸿蒙系统吗,opporeno5pro支持5G吗-支持北斗导航吗
  10. OFFICE 无法创建控件,因为它未经正确授权