论文地址:arXiv:2006.06525
代码地址:Attentive-WaveBlock

1 概述

这是一篇有关UDA Re-ID的文章,方法性能在paper with code上位居榜首,本文可以归类于基于伪标签的UDA,也是通过减少伪标签的噪声来提升模型性能的。文中的方法参考了一个很有意思的Re-ID框架——Mutual Mean-Teaching (MMT)1,MMT框架则来自于深度相互学习(Deep Mutual Learning)2方法,该方法和模型蒸馏/教师-学生模型类似,但是相互学习的目标是让一群学生模型也彼此学习,防止出现教师-学生模型中“瞎子带瞎子”的情况,方法作者也利用熵理论解释了深度相互学习的可行原因。不过MMT Re-ID框架只用到了两个网络,所以又变得和传统模型蒸馏相似,所以不可避免地,最终两个网络还是变得越来越像,互补性降低且回偏向同样的噪声(这也是本文动机)。

本文提出了一个无参数的轻量化模块——Attentive Wave Block (AWB),它可以集成到双网络中,在两个网络学习到的特征之间产生差异,增强网络网络的互补性,从而防止它们“误入歧途”(受同样的伪标签噪声影响)。此外,作者引入了注意力机制来进一步扩大特征间差异,寻找更多互补特征,并探索了两种组合方式:注意力分别放在Wave Block之前和之后。在Duke、Market以及MSMT17分别作为源域和目标域时,本文方法均取得了排行榜上最高性能。

2 贡献

  • 引入一个无参模块WaveBlock,可在双网络框架学到的特征间产生差异,增强其互补性;
  • 在WaveBlock的基础上采用注意力扩大网络间差异,设计了前(pre)注意力和后(post)注意力两种组合策略。

3 方法

3.1 MMT

MMT框架包含两个经过不同初始化的相同网络,它的pipeline是这样的:两个网络在源域上预训练得到初始化参数,每个epoch中,使用聚类算法生成离线的hard伪标签,在指定epoch的每次迭代中,两个网络会生成精炼的soft伪标签,将一个网络生成的hard标签和soft标签结合以监督另一个网络的学习,最后再于每次迭代中更新时间平均模型并用于预测。其实就是一个相互监督学习的过程,和模型蒸馏不一样,模型蒸馏是大模型监督小模型学习。

3.2 WaveBlock

下图是WaveBlock的示意,随机选择一个特征块/图保持不变,另一个特征块的特征的值乘以rwr_wrw​以形成一个波,说得很含糊。这样做更多的原始信息被保留了,不同于Dropblock。

具体地,给定特征 F∈RC×H×WF \in R^{C\times H \times W}F∈RC×H×W,波宽率rwr_wrw​和波高率rhr_hrh​,首先生成一个均匀分布的随机整数X∼U(0,[H⋅(1−rw)])X \sim U\left(0,\left[H \cdot\left(1-r_{w}\right)\right]\right)X∼U(0,[H⋅(1−rw​)]),[⋅][·][⋅]是四舍五入函数,经WaveBlock调整的特征图定义为F∗∈RC×H×WF^* \in R^{C\times H \times W}F∗∈RC×H×W,ijkijkijk分别表示特征的维度、高度和宽度的坐标。
Fijk∗={Fijk,X≤j<X+[H⋅rw]rh⋅Fijk,otherwise F_{i j k}^{*}=\left\{\begin{array}{l} F_{i j k}, X \leq j<X+\left[H \cdot r_{w}\right] \\ r_{h} \cdot F_{i j k}, \text { otherwise } \end{array}\right. Fijk∗​={Fijk​,X≤j<X+[H⋅rw​]rh​⋅Fijk​, otherwise ​
作者给出了为什么应用WaveBlock就能产生特征差异的证明,这里简要介绍,若F1,F2,F1∗,F2∗F_1,F_2,F_1^*,F_2^*F1​,F2​,F1∗​,F2∗​分别表示两个网络和WaveBlock的特征表示,X1,X2X_1,X_2X1​,X2​表示随机整数,计算两个网络产生相同波形的概率,假设F1,F2F_1,F_2F1​,F2​尺寸相同,要使F1∗,F2∗F_1^*,F_2^*F1∗​,F2∗​相同,那么X1,X2X_1,X_2X1​,X2​也得相同:
P(F1∗=F2∗)=P(X1=X2)=[H⋅(1−rw)][H⋅(1−rw)]2=1[H⋅(1−rw)]P\left(F_{1}^*=F_{2}^*\right)=P\left(X_{1}=X_{2}\right)=\frac{\left[H \cdot\left(1-r_{w}\right)\right]}{\left[H \cdot\left(1-r_{w}\right)\right]^{2}}=\frac{1}{\left[H \cdot\left(1-r_{w}\right)\right]} P(F1∗​=F2∗​)=P(X1​=X2​)=[H⋅(1−rw​)]2[H⋅(1−rw​)]​=[H⋅(1−rw​)]1​
多GPU的话每个GPU独立生成XXX,作者根据他们的实验环境得到的PPP结果是一个很小很小的数,表明概率很小,可以认为WaveBlock总能让特征存在差异。

3.3 Attentive WaveBlock

为了进一步扩大差异,寻找互补特征,作者将WaveBlock与注意力机制结合,AWB与MMT集成后如下图所示:

注意力和AWB的组合有两种方式,前注意力和后注意力,如下图所示,简单易懂,前注意力的优点是可以利用完整的特征来计算注意力,后注意力的优势是可以进一步增大特征差异。

作者用两种注意力来验证WaveBlock能和一般的注意力方法结合——CBAM和Non-local(这里用的简化版)。

CBAM: CBAM依次施加通道注意力K1=Mc(F)⊗FK_{1}=M_{c}(F) \otimes FK1​=Mc​(F)⊗F和空间注意力K2=Ms(K1)⊗K1K_{2}=M_{s}\left(K_{1}\right) \otimes K_{1}K2​=Ms​(K1​)⊗K1​ (⊗\otimes⊗是对应元素相乘),CBAM原文中是将注意力整合到ResNet块中的,但是本文作者认为这样增加了计算负担,于是作者将CBAM安排在stage之间,在每个改进的CBAM模块中,原始feature FFF与注意力feature K2K_2K2​相加得到新的特征,以防止信息丢失。

Non-local: 让FFF经过两个1×11 \times 11×1卷积θ、ϕ\theta、\phiθ、ϕ,维度分别降为原来的一半,然后得到的特征压成单通道,即θ′(F)∈RC2×HW\theta^{\prime}(F) \in R^{\frac{C}{2} \times H W}θ′(F)∈R2C​×HW和ϕ′(F)∈RC2×HW\phi^{\prime}(F) \in R^{\frac{C}{2} \times H W}ϕ′(F)∈R2C​×HW,然后得到一个HW×HWHW \times HWHW×HW维的矩阵J=(θ′(F))T⋅ϕ′(F)J=\left(\theta^{\prime}(F)\right)^{T} \cdot \phi^{\prime}(F)J=(θ′(F))T⋅ϕ′(F),然后用1H×W\frac{1}{H \times W}H×W1​作为放缩因子,不使用softmaxsoftmaxsoftmax,另一个分支中,FFF馈入函数ggg(一个带BN的一维卷积),类似地将g(F)g(F)g(F)压成单通道然后转置得g′(F)∈RHW×C2g^{\prime}(F) \in R^{H W \times \frac{C}{2}}g′(F)∈RHW×2C​,用JJJ乘g′(F)g^{\prime}(F)g′(F)转置并resize为C2×H×W\frac{C}{2}\times H \times W2C​×H×W,然后用一维卷积hhh将通道恢复为CCC,记为III,最终的特征由III和FFF加和得到。

所以前后注意力对应于CBAM和Non-local注意力的公式分别为:
F∗=WaveBlock (Ms(Mc(F)⊗F)⊗(Mc(F)⊗F)+F)F∗=WaveBlock (h((θ′(F))T⋅ϕ′(F)⋅g′(F))+F)\begin{aligned} &F^{*}=\text { WaveBlock }\left(M_{s}\left(M_{c}(F) \otimes F\right) \otimes\left(M_{c}(F) \otimes F\right)+F\right)\\ \\ &F^{*}=\text { WaveBlock }\left(h\left(\left(\theta^{\prime}(F)\right)^{T} \cdot \phi^{\prime}(F) \cdot g^{\prime}(F)\right)+F\right) \end{aligned} ​F∗= WaveBlock (Ms​(Mc​(F)⊗F)⊗(Mc​(F)⊗F)+F)F∗= WaveBlock (h((θ′(F))T⋅ϕ′(F)⋅g′(F))+F)​

F~=WaveBlock (F)F∗=Ms(Mc(F~)⊗F~)⊗(Mc(F~)⊗F~)+F~F∗=h((θ′(F~))T⋅ϕ′(F~)⋅g′(F~))+F~\begin{aligned} \widetilde{F} &=\text { WaveBlock }(F) \\ F^{*} &=M_{s}\left(M_{c}(\widetilde{F}) \otimes \widetilde{F}\right) \otimes\left(M_{c}(\widetilde{F}) \otimes \widetilde{F}\right)+\widetilde{F} \\ F^{*} &=h\left(\left(\theta^{\prime}(\widetilde{F})\right)^{T} \cdot \phi^{\prime}(\widetilde{F}) \cdot g^{\prime}(\widetilde{F})\right)+\widetilde{F} \end{aligned} FF∗F∗​= WaveBlock (F)=Ms​(Mc​(F)⊗F)⊗(Mc​(F)⊗F)+F=h((θ′(F))T⋅ϕ′(F)⋅g′(F))+F​

3.4 实验

下图给出了行人Re-ID的结果,作者还给出了车辆Re-ID的结果,实验设置和消融实验无需赘述,代码已经开源。

4 总结

这篇文章的方法出奇的简单,但是灵感的门槛应该挺高的,特别是这个WaveBlock,不知道是怎样想到的,有时候简单的方法反而创新性更高效果更好,但也更难发现,相比之下,对网络做加减法修修剪剪的门槛就降低了许多。如果结合新的网络和新的注意力机制以及最近提出的新的池化方法,本文的结果可能还会提升,但是这样做似乎没什么意义。

参考

  1. Ge Y, Chen D, Li H. Mutual mean-teaching: Pseudo label refinery for unsupervised domain adaptation on person re-identification[J]. arXiv preprint arXiv:2001.01526, 2020.
  2. Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4320-4328.

AWB——Complementarity-enhanced Mutual Networks for Unsupervised Domain Adaptation in Person Re-ID相关推荐

  1. 【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift

    Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...

  2. 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应

    会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...

  3. CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化

    CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化 0.摘要 ...

  4. 《Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation》论文阅读

    Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation 摘要 类先验分布(Class prior distributi ...

  5. 语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述

    Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...

  6. Unsupervised Domain Adaptation with Variational Approximation for Cardiac Segmentation

    Wu F, Zhuang X. Unsupervised domain adaptation with variational approximation for cardiac segmentati ...

  7. TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment

    TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment ...

  8. 无源领域自适应:Source Hypothesis Transfer for Unsupervised Domain Adaptation

    Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adap ...

  9. 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应

    会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...

最新文章

  1. PHP----------php封装的一些简单实用的方法汇总
  2. 姚期智担纲,清华今日成立量子信息本科班!“着眼学术尖端,致力国家战略需求“...
  3. JavaScript 浮点数陷阱及解法
  4. 时艳强对话酒儿:gate首发平台币的时机选择
  5. argo 现水下永动机器人_现水下永动机器人 水下永动机器人有什么作用?
  6. 嵌入式linux面试题解析(二)——C语言部分三
  7. 【QGIS入门实战精品教程】9.1:QGIS构建泰森多边形(Thiessen Polygon)实例精解
  8. mysql导出表结构 创建_mysql如何导出表结构为文本文件
  9. Linux学习笔记-动态库的生成
  10. Spring解决循环依赖
  11. python的系统模块_Python操作系统模块
  12. Vue packages version mismatch: 版本冲突;Error: EPERM: operation not permitted
  13. idea 设置代码的颜色
  14. Java迭代器和lambda的区别_【Java公开课|Java 使用Lambda表达式遍历Iterator迭代器,是你学习Java的超车途径】- 环球网校...
  15. OpenWrt开发必备软件模块——网络管理(CWMP、SSH、QoS、SMTP、NTP、uHTTPd)
  16. Attention-Based Aggregation GraphNetworks for Knowledge GraphInformation Transfer
  17. 2020世界人工智能大会 -- 落地AI,赋能未来
  18. JavaScript系列之详解原型和原型链
  19. Excel表格的密码设置与取消
  20. 幽默感七个技巧_培养幽默感的16种方法

热门文章

  1. Java 对接 阿里云 的短信服务完成短信的发送与查询
  2. 从还珠格格到延禧攻略,不变的是什么?
  3. MFC框架 afx_msg CComboBox OnDropdown
  4. PC党福音,育碧五款游戏大作登场E3 2014
  5. Unity 3D模型动画导出为帧序列
  6. Wine-Staging 5.6 修补游戏补丁
  7. java实验报告之模拟银行存取款业务
  8. VS单解决方案多项目多DLL多exe管理
  9. 浅析相机相关坐标系的相互转换(世界坐标系、相机坐标系、图像坐标系、像素坐标系、内参矩阵、外参矩阵、扭转因子)【相机标定计算机视觉】
  10. 低代码局中局:是IT革命还是高级外包? | 甲子光年