论文笔记：An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

论文链接

最近把毕业论文的题目确定了，这个专栏专门放相关论文的阅读笔记，个人理解可能有限，欢迎大家指正！

标题理解

阅读论文之前，首先对标题进行一定的理解，才能更好的理解论文的内容。
论文完整标题为：《Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation》，逐词翻译过来就是：更大的范数，更多的可转换性。一种自适应性特征范数方法用于无监督的领域适应。
从标题中可以看出，这篇论文主要涉及的内容为迁移学习(transter learning)中的领域适应(domain adaptation,DA)问题。

摘要

领域适应，通过降低在领域迁移时进行分布跨越的成本，使学者可以安全地将模型推广到新的环境中。
过去的相关工作并没有有效地揭示导致模型在领域迁移时严重退化的根本原因。而本文经验性地揭示了导致模型在目标域的不稳定的主要原因，是由于目标域的特征范数相对于源域的特征范数要小得多。
为此，本文提出了一种全新的无参数自适应特征范数方法。并证明了，让两个域的特征范数逐渐适应大范围的值可以带来显著的迁移收益。
本文成功地统一了标准和局部的领域适应的计算，并在负迁移问题上具有更高的鲁棒性。只用几行代码就大大提升了目标任务的性能。

Introduction

论文先简单介绍了研究无监督领域适应( Unsupervised Domain Adaptation (UDA) ) 的strong motivation。
现存在的大多数DA算法的关键思想是同时完成，区分任务以及域不变的表示。也就是同时最小化源域的误差和两个域之间特殊的统计差异。后者包括：H-散度，最大化平均差异等等。
随后介绍了对抗性的领域适应方法，使用对抗生成网络的方式降低两个域之间的差异，最近已经发展为该领域的主要方法。
论文指出，虽然模型在不同目标域发生的模型退化现象虽然已经得到DA社区的公认，但是很少有研究来分析这种现象的根本原因。因此有理由怀疑现有的统计差异方法并不能很好的描述领域转移。以及弥补这种差异也有可能并不能保证域之间的safe transfer。

在这篇论文中，试图用经验来揭示模型退化的本质，从图1中可以看出，目标域的特征范数比源域的要小得多，但是从目前的观察结果而言，仍有两种不同的假设：

特征范数偏差假设:源域和目标域之间的域转换依赖于它们的特征范数期望偏差。将两个域的平均特征范数匹配到一个共享的尺度，可以得到相应的转移增益。
特征范数过小假设:领域转移的效果基本依赖于那些目标任务中，信息过少、特征范数过小的特征。假设在对齐不严格的情况下，调整目标特征远离较小特征范数的区域仍能完成安全转移。

考虑到这些要点，论文提出了无参数自适应特征范数方法（AFN）：

首先，提出一种简单有效的统计距离来表征平均特征范数差异。
其次，设计了Hard AFN来桥接这个距离，通过限制两个域的特征范数期望来逼近一个共享标量。
为了以稳定的方式探索更充分的大特征范数，提出了Stepwise AFN

Method

Preliminaries

给出源域Ds，包含ns个带标签的样本，Cs个种类。以及一个目标域Dt，包含nt个无标签的样本，Ct个种类：
$D_s = \{(x_i^s, y_i^s)\}_{i=1}^{n_s}$
$D_t = \{x_i^t\}_{i=1}^{n_t}$
Vanilla Setting（标准设定）：源域与目标域共享一样的标签空间。即源域与目标域的种类相同，Cs = Ct。
表现在代码中如下：

Partial Setting（局部设定）：源域标签空间包含目标域标签空间。
表现在代码中如下：

L2-preserved Dropout：在使用dropout的同时保留L2-Norm。
在这一部分中，论文首先证明了标准的Dropout算子是L1保留的。由于论文算法是基于L2正则的隐层特征进行计算的，所以引入了L2保留的Dropout操作来满足我们的需要。

Framework

整个框架由以下几个部分组成：

G，作为通用的特征提取模块，使用比较流行的网络结构，如ResNet
F，作为一个特定任务的分类器，具有 l 个全连接层，将前 l-1 层定义为Ff，生成特征嵌入。定义最后一层Fy为softmax层。
整个框架的流程为：首先将图片数据输入到netG中进行特征提取得到bottleneck；然后将bottleneck输入到netF中，l-1层得到特征嵌入embedding，最后一层通过softmax得到cls_loss，特征嵌入则通过逼近一个共享尺度，得到ring_loss，最后将两个loss相加作为最终的loss，再进行反向参数更新迭代。

Hard Adaptive Feature Norm

基于特征范数偏差假设，论文提出了最大平均特征范数差异(MMFND)来表征两个分布之间的平均特征范数距离，并验证了填补这一域差是否能带来可观的转移收益。MMFND由下式定义，其中函数类H是l2范数算子与深度特征表示模块的所有可能函数的组合。

（H表示一个函数集，而h是H中的一个函数，sup表示上界函数，因此MMFND可以理解为源域与目标域的特殊距离的最大值，而目标是最小化这个最大值）
从直观上看，H类函数包含了大量的正实值函数，如果不对函数类型进行限制，其上界将大大偏离0。为了避免这种情况的发生，我们设置了一个限制尺度R来匹配相应的平均特征范数。通过限制两个域的平均特征范数分别收敛于共享尺度R, MMFND的域差距将趋于零。我们通过Hard Adaptive Feature Norm(HAFN)算法来实现，如下式所示：

优化目标由两项组成:

源域分类损失Ly，通过最小化源域标记样本的softmax交叉熵来获得任务判别特征
域可转移特征，是通过最小化两个域之间的特征范数差来获得，其中Ld为L2 距离，即计算源域与目标域到共享尺度R的L2距离。λ为权衡两个目标的超参数。

HAFN算法的缺点：具体来说，虽然将两个域的均值特征范数限制为很小的值(如R = 1，即特征归一化)已经取得了有效的结果，但是随着R的逐渐增大，所得到的模型仍有可能对目标任务实现更高的精度。因此，需要找到一个足够大的R值，并验证是否有必要将特征范数期望进行严格对齐。然而HAFN没有设置一个非常大的R，因为特征范数惩罚所产生的梯度可能最终导致梯度爆炸。

Stepwise Adaptive Feature Norm

为解决HAFN算法的问题，论文提出了一个改进的方法，称为逐步自适应特征范数(SAFN)，以鼓励模型以渐进的方式学习具有更大范数的特定任务特征。

其中θ = θg ∪θf。θ0和θ分别表示上一次迭代和当前迭代中已经更新和更新中的模型参数。△r为控制特征范数增大的正尺度。
SAFN没有指定一个确定值R，使优化过程更稳定，更容易在两个目标之间进行权衡。因此，执行SAFN可以生成具有更大范数的信息特征，从而提高目标任务的准确性。
值得注意的是，SAFN并没有严格地对准平均特征范数差，而是可以选择设置一个中止值R来限制无休止的放大，正如特征范数过小假设所表明的那样，一旦我们将目标样本适当地调整到较大范数区域，这种严格的比对就变得多余了。
具体代码实现如下：

Experiment

VisDA2017：一个具有挑战性的大规模基准数据集，它一共有12个对象类别的280K张图像。源域有152,397张由3D模型渲染生成的合成图像。目标域有55,388个来自Microsoft COCO的真实对象图像。
Office-Home：另一个具有挑战性的数据集，它收集日常物体的图像，形成四个领域:艺术图像(Ar)、剪贴画图像(Cl)、产品图像(Pr)和现实世界图像(Rw)。每个域包含65个对象类别，总计约15500个图像。
Office-31：一个广泛使用的可视化 DA基准数据集。它包含了亚马逊(A)、数码单反(D)和网络摄像头(W)三个领域的31个办公环境类别的4652幅图像，分别对应于在线网站、数码单反相机和网络相机图像。