AWB——Complementarity-enhanced Mutual Networks for Unsupervised Domain Adaptation in Person Re-ID
论文地址:arXiv:2006.06525
代码地址:Attentive-WaveBlock
1 概述
这是一篇有关UDA Re-ID的文章,方法性能在paper with code上位居榜首,本文可以归类于基于伪标签的UDA,也是通过减少伪标签的噪声来提升模型性能的。文中的方法参考了一个很有意思的Re-ID框架——Mutual Mean-Teaching (MMT)1,MMT框架则来自于深度相互学习(Deep Mutual Learning)2方法,该方法和模型蒸馏/教师-学生模型类似,但是相互学习的目标是让一群学生模型也彼此学习,防止出现教师-学生模型中“瞎子带瞎子”的情况,方法作者也利用熵理论解释了深度相互学习的可行原因。不过MMT Re-ID框架只用到了两个网络,所以又变得和传统模型蒸馏相似,所以不可避免地,最终两个网络还是变得越来越像,互补性降低且回偏向同样的噪声(这也是本文动机)。
本文提出了一个无参数的轻量化模块——Attentive Wave Block (AWB),它可以集成到双网络中,在两个网络学习到的特征之间产生差异,增强网络网络的互补性,从而防止它们“误入歧途”(受同样的伪标签噪声影响)。此外,作者引入了注意力机制来进一步扩大特征间差异,寻找更多互补特征,并探索了两种组合方式:注意力分别放在Wave Block之前和之后。在Duke、Market以及MSMT17分别作为源域和目标域时,本文方法均取得了排行榜上最高性能。
2 贡献
- 引入一个无参模块WaveBlock,可在双网络框架学到的特征间产生差异,增强其互补性;
- 在WaveBlock的基础上采用注意力扩大网络间差异,设计了前(pre)注意力和后(post)注意力两种组合策略。
3 方法
3.1 MMT
MMT框架包含两个经过不同初始化的相同网络,它的pipeline是这样的:两个网络在源域上预训练得到初始化参数,每个epoch中,使用聚类算法生成离线的hard伪标签,在指定epoch的每次迭代中,两个网络会生成精炼的soft伪标签,将一个网络生成的hard标签和soft标签结合以监督另一个网络的学习,最后再于每次迭代中更新时间平均模型并用于预测。其实就是一个相互监督学习的过程,和模型蒸馏不一样,模型蒸馏是大模型监督小模型学习。
3.2 WaveBlock
下图是WaveBlock的示意,随机选择一个特征块/图保持不变,另一个特征块的特征的值乘以rwr_wrw以形成一个波,说得很含糊。这样做更多的原始信息被保留了,不同于Dropblock。
具体地,给定特征 F∈RC×H×WF \in R^{C\times H \times W}F∈RC×H×W,波宽率rwr_wrw和波高率rhr_hrh,首先生成一个均匀分布的随机整数X∼U(0,[H⋅(1−rw)])X \sim U\left(0,\left[H \cdot\left(1-r_{w}\right)\right]\right)X∼U(0,[H⋅(1−rw)]),[⋅][·][⋅]是四舍五入函数,经WaveBlock调整的特征图定义为F∗∈RC×H×WF^* \in R^{C\times H \times W}F∗∈RC×H×W,ijkijkijk分别表示特征的维度、高度和宽度的坐标。
Fijk∗={Fijk,X≤j<X+[H⋅rw]rh⋅Fijk,otherwise F_{i j k}^{*}=\left\{\begin{array}{l} F_{i j k}, X \leq j<X+\left[H \cdot r_{w}\right] \\ r_{h} \cdot F_{i j k}, \text { otherwise } \end{array}\right. Fijk∗={Fijk,X≤j<X+[H⋅rw]rh⋅Fijk, otherwise
作者给出了为什么应用WaveBlock就能产生特征差异的证明,这里简要介绍,若F1,F2,F1∗,F2∗F_1,F_2,F_1^*,F_2^*F1,F2,F1∗,F2∗分别表示两个网络和WaveBlock的特征表示,X1,X2X_1,X_2X1,X2表示随机整数,计算两个网络产生相同波形的概率,假设F1,F2F_1,F_2F1,F2尺寸相同,要使F1∗,F2∗F_1^*,F_2^*F1∗,F2∗相同,那么X1,X2X_1,X_2X1,X2也得相同:
P(F1∗=F2∗)=P(X1=X2)=[H⋅(1−rw)][H⋅(1−rw)]2=1[H⋅(1−rw)]P\left(F_{1}^*=F_{2}^*\right)=P\left(X_{1}=X_{2}\right)=\frac{\left[H \cdot\left(1-r_{w}\right)\right]}{\left[H \cdot\left(1-r_{w}\right)\right]^{2}}=\frac{1}{\left[H \cdot\left(1-r_{w}\right)\right]} P(F1∗=F2∗)=P(X1=X2)=[H⋅(1−rw)]2[H⋅(1−rw)]=[H⋅(1−rw)]1
多GPU的话每个GPU独立生成XXX,作者根据他们的实验环境得到的PPP结果是一个很小很小的数,表明概率很小,可以认为WaveBlock总能让特征存在差异。
3.3 Attentive WaveBlock
为了进一步扩大差异,寻找互补特征,作者将WaveBlock与注意力机制结合,AWB与MMT集成后如下图所示:
注意力和AWB的组合有两种方式,前注意力和后注意力,如下图所示,简单易懂,前注意力的优点是可以利用完整的特征来计算注意力,后注意力的优势是可以进一步增大特征差异。
作者用两种注意力来验证WaveBlock能和一般的注意力方法结合——CBAM和Non-local(这里用的简化版)。
CBAM: CBAM依次施加通道注意力K1=Mc(F)⊗FK_{1}=M_{c}(F) \otimes FK1=Mc(F)⊗F和空间注意力K2=Ms(K1)⊗K1K_{2}=M_{s}\left(K_{1}\right) \otimes K_{1}K2=Ms(K1)⊗K1 (⊗\otimes⊗是对应元素相乘),CBAM原文中是将注意力整合到ResNet块中的,但是本文作者认为这样增加了计算负担,于是作者将CBAM安排在stage之间,在每个改进的CBAM模块中,原始feature FFF与注意力feature K2K_2K2相加得到新的特征,以防止信息丢失。
Non-local: 让FFF经过两个1×11 \times 11×1卷积θ、ϕ\theta、\phiθ、ϕ,维度分别降为原来的一半,然后得到的特征压成单通道,即θ′(F)∈RC2×HW\theta^{\prime}(F) \in R^{\frac{C}{2} \times H W}θ′(F)∈R2C×HW和ϕ′(F)∈RC2×HW\phi^{\prime}(F) \in R^{\frac{C}{2} \times H W}ϕ′(F)∈R2C×HW,然后得到一个HW×HWHW \times HWHW×HW维的矩阵J=(θ′(F))T⋅ϕ′(F)J=\left(\theta^{\prime}(F)\right)^{T} \cdot \phi^{\prime}(F)J=(θ′(F))T⋅ϕ′(F),然后用1H×W\frac{1}{H \times W}H×W1作为放缩因子,不使用softmaxsoftmaxsoftmax,另一个分支中,FFF馈入函数ggg(一个带BN的一维卷积),类似地将g(F)g(F)g(F)压成单通道然后转置得g′(F)∈RHW×C2g^{\prime}(F) \in R^{H W \times \frac{C}{2}}g′(F)∈RHW×2C,用JJJ乘g′(F)g^{\prime}(F)g′(F)转置并resize为C2×H×W\frac{C}{2}\times H \times W2C×H×W,然后用一维卷积hhh将通道恢复为CCC,记为III,最终的特征由III和FFF加和得到。
所以前后注意力对应于CBAM和Non-local注意力的公式分别为:
F∗=WaveBlock (Ms(Mc(F)⊗F)⊗(Mc(F)⊗F)+F)F∗=WaveBlock (h((θ′(F))T⋅ϕ′(F)⋅g′(F))+F)\begin{aligned} &F^{*}=\text { WaveBlock }\left(M_{s}\left(M_{c}(F) \otimes F\right) \otimes\left(M_{c}(F) \otimes F\right)+F\right)\\ \\ &F^{*}=\text { WaveBlock }\left(h\left(\left(\theta^{\prime}(F)\right)^{T} \cdot \phi^{\prime}(F) \cdot g^{\prime}(F)\right)+F\right) \end{aligned} F∗= WaveBlock (Ms(Mc(F)⊗F)⊗(Mc(F)⊗F)+F)F∗= WaveBlock (h((θ′(F))T⋅ϕ′(F)⋅g′(F))+F)
和
F~=WaveBlock (F)F∗=Ms(Mc(F~)⊗F~)⊗(Mc(F~)⊗F~)+F~F∗=h((θ′(F~))T⋅ϕ′(F~)⋅g′(F~))+F~\begin{aligned} \widetilde{F} &=\text { WaveBlock }(F) \\ F^{*} &=M_{s}\left(M_{c}(\widetilde{F}) \otimes \widetilde{F}\right) \otimes\left(M_{c}(\widetilde{F}) \otimes \widetilde{F}\right)+\widetilde{F} \\ F^{*} &=h\left(\left(\theta^{\prime}(\widetilde{F})\right)^{T} \cdot \phi^{\prime}(\widetilde{F}) \cdot g^{\prime}(\widetilde{F})\right)+\widetilde{F} \end{aligned} FF∗F∗= WaveBlock (F)=Ms(Mc(F)⊗F)⊗(Mc(F)⊗F)+F=h((θ′(F))T⋅ϕ′(F)⋅g′(F))+F
3.4 实验
下图给出了行人Re-ID的结果,作者还给出了车辆Re-ID的结果,实验设置和消融实验无需赘述,代码已经开源。
4 总结
这篇文章的方法出奇的简单,但是灵感的门槛应该挺高的,特别是这个WaveBlock,不知道是怎样想到的,有时候简单的方法反而创新性更高效果更好,但也更难发现,相比之下,对网络做加减法修修剪剪的门槛就降低了许多。如果结合新的网络和新的注意力机制以及最近提出的新的池化方法,本文的结果可能还会提升,但是这样做似乎没什么意义。
参考
- Ge Y, Chen D, Li H. Mutual mean-teaching: Pseudo label refinery for unsupervised domain adaptation on person re-identification[J]. arXiv preprint arXiv:2001.01526, 2020.
- Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4320-4328.
AWB——Complementarity-enhanced Mutual Networks for Unsupervised Domain Adaptation in Person Re-ID相关推荐
- 【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift
Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...
- 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...
- CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化
CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化 0.摘要 ...
- 《Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation》论文阅读
Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation 摘要 类先验分布(Class prior distributi ...
- 语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述
Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...
- Unsupervised Domain Adaptation with Variational Approximation for Cardiac Segmentation
Wu F, Zhuang X. Unsupervised domain adaptation with variational approximation for cardiac segmentati ...
- TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment
TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment ...
- 无源领域自适应:Source Hypothesis Transfer for Unsupervised Domain Adaptation
Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adap ...
- 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...
最新文章
- PHP----------php封装的一些简单实用的方法汇总
- 姚期智担纲,清华今日成立量子信息本科班!“着眼学术尖端,致力国家战略需求“...
- JavaScript 浮点数陷阱及解法
- 时艳强对话酒儿:gate首发平台币的时机选择
- argo 现水下永动机器人_现水下永动机器人 水下永动机器人有什么作用?
- 嵌入式linux面试题解析(二)——C语言部分三
- 【QGIS入门实战精品教程】9.1:QGIS构建泰森多边形(Thiessen Polygon)实例精解
- mysql导出表结构 创建_mysql如何导出表结构为文本文件
- Linux学习笔记-动态库的生成
- Spring解决循环依赖
- python的系统模块_Python操作系统模块
- Vue packages version mismatch: 版本冲突;Error: EPERM: operation not permitted
- idea 设置代码的颜色
- Java迭代器和lambda的区别_【Java公开课|Java 使用Lambda表达式遍历Iterator迭代器,是你学习Java的超车途径】- 环球网校...
- OpenWrt开发必备软件模块——网络管理(CWMP、SSH、QoS、SMTP、NTP、uHTTPd)
- Attention-Based Aggregation GraphNetworks for Knowledge GraphInformation Transfer
- 2020世界人工智能大会 -- 落地AI,赋能未来
- JavaScript系列之详解原型和原型链
- Excel表格的密码设置与取消
- 幽默感七个技巧_培养幽默感的16种方法
热门文章
- Java 对接 阿里云 的短信服务完成短信的发送与查询
- 从还珠格格到延禧攻略,不变的是什么?
- MFC框架 afx_msg CComboBox OnDropdown
- PC党福音,育碧五款游戏大作登场E3 2014
- Unity 3D模型动画导出为帧序列
- Wine-Staging 5.6 修补游戏补丁
- java实验报告之模拟银行存取款业务
- VS单解决方案多项目多DLL多exe管理
- 浅析相机相关坐标系的相互转换(世界坐标系、相机坐标系、图像坐标系、像素坐标系、内参矩阵、外参矩阵、扭转因子)【相机标定计算机视觉】
- 低代码局中局:是IT革命还是高级外包? | 甲子光年