2019 ICCV的一篇SOTA,文章[1]提出了多样专注网络Attentive but Diverse Network,ABD-Net(真是个不羁放纵爱自由的名字呢╮(╯▽╰)╭)。ABD-Net主要包含了注意力模块(attention module)和多样性正则化/频谱值差分正交正则化(Diversity Regularization/spectral value difference orthogonality (SVDO))两个部分,其旨在结合注意力模块和多样性作为相互补充的机制,共同提高ReID表现。通过在多个benchmark上的验证,ABD-Net证明了这个设计的成功,并达到了新的SOTA。

论文一览:

源码:

https://github.com/VITA-Group/ABD-Net

痛点

1)作者提出,基于注意力机制的模型倾向于更高相关性特征,或者说注意力机制倾向于使特征专注在更紧凑地子空间中(比如对比整张图,图1中的前景),低特征相关性不能天然地被注意力模型所保证。而前人工作使用注意力机制提取基于空间模式的局部特征,导致特征常常关注图像前景,忽视了低相关性特征。

2)一般权重的正交性施加严格的约束经常使用SVD(奇异值分解)。这些常用的基于SVD的硬正交约束在计算上成本很高,这将限制了模型学习的灵活性。

因此作者提出了结合attention module和SVDO regularization的ABD-Net,其中ABD-Net的attention module结合了空间和通道信息,提取的attention mask可直接从数据和上下文中学习,而无需依赖手动定义的零件,零件区域建议或姿势估计,而SVDO regularization通过直接约束Gram矩阵的条件数,约束可以避免过度关联和冗余的注意力特征。

模型

1 注意力模块 Attention Module

ABD-Net的attention模块包括Channel Attention Module(CAM) and Position Attention Module (PAM)。

类似于Dual Attention Network for Scene Segmentation[2]中的channel attention,其中CAM结构如下图2:

CAM分4路最下路为残差连接,上3路将(C,H,W)/(channel,height,width)的张量reshape成了(C,N(N=H*W))的matrix,其中最上路对(C, N)转置为(N,C),被第二路的(C,N)matrix点乘,得到(C,C)的matrix,经过softmax得到attention的概率图X,与第三行的(C,N)matrix进行elementwise multiplication,至此attention mask的施加完成,将得到的(C,N)的matrix重新reshape成(C,H,W),与原输入残差连接,如下式,CAM结束。

其中γ为CAM的权重因子。

Position Attention Module (PAM)结构如下图3:

输入经过convolution,BN和ReLU得到B,C,D。与CAM非常相似的,第一行和第二行reshape成(C,N),第一行转置为(N,C),后二者做点积,这次得到的是(N,N)的matrix,经过softmax得到attention的概率图S,对第三行的(C,N)的matrix施加,得到(C,N)matrix,reshape回(C,H,W),经过残差链接,PAM结束。

其中关于S和X的区别,看似只是矩阵乘积换了位置,实际S计算的是总的N个像素之间(spatial)的相关性,而X计算的是不同C之间(channel)的像素相关性,这是不一样的。

2 正交正则化 Orthogonality Regularization

作为得到特征多样性的补充,文章提出了正交正则化Orthogonality Regularization/Diversity Regularization/spectral value difference orthogonality (SVDO),其包括特征空间正交正则化Orthogonality regularizer on feature space(简称O.F.),和权重正交正则化The orthogonal regularizer on weight (O.W.)。O.F.用于减少使得直接匹配获益的特征相关性,O.W.用于鼓励卷积filter的多样性和学习能力。

对输入的feature map M∈RC×H×WM\in \mathbb{R}^{C\times H\times W}MRC×H×W,使其reshape成F∈RC×NF\in \mathbb{R}^{C\times N}FRC×N,这时候很多硬正交约束会使用SVD,但是SVD计算成本过高。这时候就有许多的软正则化函数通过限制F的Gram矩阵接近Frobenius范数下的恒等矩阵,这样可以避免SVD,且保持可微。但是由于矩阵的秩不足,可能会使F无法满足这一恒等性,从而使这些正则化方法出现偏差。

因此文章引入了基于频谱范数的正则化器(regularizer),可有效减轻偏差。

文章通过直接正则化协方差矩阵FFTFF^{T}FFT的条件数来施加正交性,如下式(3):

其中k(F)为条件数(F的最大奇异值与最小奇异值之比,反应矩阵的奇异程度),β为系数.由于计算k(F)需要进行SVD分解,为了避免这个事咧,文章将式(3)转化为了频谱值差分正交性(SVDO)正则化,如下式(4):

其中λ1(FFT)\lambda_{1}(FF^{T})λ1(FFT)λ2(FFT)\lambda_{2}(FF^{T})λ2(FFT)分别为FFTFF^{T}FFT的最大和最小特征值。

在梯度下降训练过程中,作者使用自动微分方法来得到SVDO的梯度,但是目前为止,该过程仍然需要求计算负担很重的特征值分解,为避免此过程,文章使用幂迭代法(power iteration)来求得近似特征值。随机一个q值,然后迭代计算(5)式(默认2次):

经过这些修改,整个计算过程都会变得高效。

3 ABD-Net总网络

ABD-Net总结构示意图如下图4:

backbone还是ResNet50,文章在ResNet50基础上,在res_conv2输出处加入CAM和O.F.,在res_conv1到res_conv5的所有conv layers中加入O.W.。网络res_conv4之后令网络分为两支路,如图4,上路为attention branch,下路为global branch,

attention branch照搬了ResNet50的res_conv5,输出的feature map经过一个reduction layer(包含linear layer,BN,ReLU和dropout,还使用了O.F.)得到比较小的feature map,然后分别个CAM和PAM(均使用了O.F.),他们的输出和reduction layer的输出进行堆叠,给global average pooling,attention branch结束。

在global branch,经过res_conv5(两个branch的res_conv5都去掉了down-sampling layer,将输出更大的feature map)后输出给global average pooling+reduction layer,得到vector,global branch结束。

两路branch的输出最终将堆叠到一起,作为最后的feature进行求loss。ABD-Net的loss为:

其中LO.F.L_{O.F.}LO.F.LO.W.L_{O.W.}LO.W.为SVDO惩罚项,而β为超参数调节不同loss的比重。

实验

在Market1501和Duke的分离实验如下:

其中XE为使用ResNet50+cross entropy loss的baseline配置。SVD layer是类似于SVD-Net[3]的正则化方式对照组。

在Market的SOTA实验如下:

在Duke的SOTA实验如下:

在MSMT17的SOTA实验如下:

注意力热图可视化结果如下:

相关矩阵的可视化如下:

可以看到注意力将feature embedding带到高相关性,而多样性减小了冗余并进一步提高了判别力。

相关性直方图:

tSNE可视化如下:

检索结果实例如下:

写作

写作写得很好,文章结构比较清晰,从ABD-Net到下辖的两个部分:attention module和spectral
value difference orthogonality (SVDO) Regularization,都做了全面的对相关痛点的阐述和本文工作的优势。

比如写spectral value difference orthogonality (SVDO) Regularization的内容就包括:

“orthogonality constraint”;

“is applied to both activations and weights, and is shown to effectively reduce learned feature correlations.”;

“efficiently enforces diversity on both hidden activations and weights.”;

“our added diversity constraint will avoid the overly correlated and redundant
attentive features.”;

“the gram matrix for an overcomplete F cannot reach identity because of rank deficiency, making those regularizers biased.hence introduced the spectral norm-based regularizer
that effectively alleviates the bias.”;

参考文献

[1] Chen T, Ding S, Xie J, et al. ABD-Net: Attentive but Diverse Person Re-Identification[C]. international conference on computer vision, 2019: 8351-8361.

[2] Fu J, Liu J, Tian H, et al. Dual Attention Network for Scene Segmentation[C]. computer vision and pattern recognition, 2019: 3146-3154.

[3] Yifan Sun, Liang Zheng, Weijian Deng, and Shengjin Wang. Svdnet for pedestrian retrieval. 2017 IEEE International Conference on Computer Vision (ICCV), Oct 2017.

【ReID】ABD-Net: Attentive but Diverse Person Re-Identification相关推荐

  1. 【ReID】Harmonious Attention Network for Person Re-Identification

    [ReID]Harmonious Attention Network for Person Re-Identification 模型 实验 写作 问题 参考文献 阅读了Harmonious Atten ...

  2. 【ReID】Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional...

    [ReID]Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Bas ...

  3. 【ReID】AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

    [ReID]AlignedReID: Surpassing Human-Level Performance in Person Re-Identification 模型 实验 写作 问题 参考文献 阅 ...

  4. 【ReID】AlignedReID ++ : Dynamically matching local information for person re-identification

    [ReID]AlignedReID ++ : Dynamically matching local information for person re-identification 模型 实验 问题 ...

  5. 【Re-ID】现有方法调研 - 无监督/半监督方法 - 其他方法

    文章目录 问题是什么 论文合集 [1.OSNet : Learning Generalisable Omni-Scale Representations for Person Re-Identific ...

  6. 【ReID】局部特征

    文章目录 1.概述 1.1 全局特征 1.2 局部特征 姿态 Part&Attention 水平池化 网格特征 2. 水平切块 2.1 Gate Siamese 2.2 AlignedReID ...

  7. 【ReID】Densely Semantically Aligned Person Re-Identification

    密集语义对齐的行人重识别(DSA-reID),2019 CVPR的一篇工作[1].DSA-reID在网络中包括全图像主流程main full image stream (MF-Stream),密集语义 ...

  8. 【ReID】Joint Discriminative and Generative Learning for Person Re-identification

    2019年CVPR的著名SOTA,现有方法中的生成模型pipeline与判别式re-id学习阶段保持相对分离,而作者反其道行之,提出了一种端到端地耦合ReID学习和图像生成的学习模型DG-Net.该包 ...

  9. 【ReID】表征学习和度量学习

    文章目录 1.表征学习 1.1分类损失 1.2验证损失 1.3表征学习总结 2.度量学习 2.1 Introduction 2.2 对比损失 2.3 三元组损失 2.4 改进三元组损失 2.5 四元组 ...

最新文章

  1. 从JDK源码角度看Long
  2. 实现java多线程的3种方式,99%人没用过第3种
  3. JavaFX自定义控件– Nest Thermostat第1部分
  4. 机器学习降维算法一:PCA(主成分分析算法)
  5. 本周Web2.0小工具推荐[2008-08-24]
  6. Transformer在计算机视觉领域走到哪了?
  7. Socket编程总结—Android手机服务器与多个Android手机客户端之间的通信(非阻塞)
  8. Codeforces Round #573 (Div. 2) C. Tokitsukaze and Discard Items
  9. 重新组织和重新生成索引sp_RefreshIndex
  10. Protues 仿真器件
  11. Mqtt客户端与服务端通讯
  12. 【M365运维】匹配用户UPN和Email地址
  13. 致那些正在入坑或纠结要不要入坑数学建模的小白们:来自一名大三狗的心路历程——愿你们少走些弯路,多取得些成绩
  14. 基于STM32F407四旋翼无人机---MS5611气压计(三)
  15. AAAI最佳论文Informer 解读
  16. 计算机网络之构造超网(无分类编址)
  17. eclipse如何汉化--安装各国语言包
  18. OSPF邻居震荡抑制
  19. 编码器的分类及工作原理
  20. rtos和linux在内存管理上,freertos与linux区别

热门文章

  1. 恒久는 變化中의 不變
  2. python中dic.get用法
  3. windows上安装并使用exiftool修改图像exif信息
  4. 比较两组数据的差异用什么图更直观_用Excel制作旋风图
  5. 如何在Genymotion虚拟设备上安装Google框架(Play,Accounts等)? [重复]
  6. 关于表情识别-综述 FER --FER2013
  7. 我们游戏后台架构学习
  8. 微信小程序自定义组件,和 父子组件 之间的传值
  9. RN cannot add a child that doesnot have a YogoNode to a parent without a measure function!
  10. “守法规知礼让、安全文明出行”背后需要良好的交通环境支撑 | 聚焦守法知礼...