论文笔记:An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation
论文链接
最近把毕业论文的题目确定了,这个专栏专门放相关论文的阅读笔记,个人理解可能有限,欢迎大家指正!
标题理解
阅读论文之前,首先对标题进行一定的理解,才能更好的理解论文的内容。
论文完整标题为:《Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation》,逐词翻译过来就是:更大的范数,更多的可转换性。一种自适应性特征范数方法用于无监督的领域适应。
从标题中可以看出,这篇论文主要涉及的内容为迁移学习(transter learning)中的领域适应(domain adaptation,DA)问题。
相关概念
论文中迁移学习的相关概念,如果阅读之前从未了解过的话,是无法理解的,所以先将相关概念或者名词解释一下。若读者熟悉的话就可以直接跳过了。
- 迁移学习:我们都知道大部分深度学习任务都是有目标的,比如说训练一个识别猫图片的模型,目标就是学习猫图片的特征。而迁移学习就是利用学习到的猫的特征,去识别老虎图片。其中利用了数据和领域之间存在的相似性关系,将已经学习到的知识,应用到新的领域,推陈出新。
- 领域适应:在做迁移学习的时候,通常来说,训练集和测试集是不一样的,换言之就是源域和目标域是不一致的。我们用猫的图片作训练的时候,或许是用老虎图片进行测试。这个时候,需要研究一种学习方法,去自适应的学习这两个不同的领域,找到两个领域的公共区域,这就是领域适应。
- 负迁移问题:负迁移指的是,在源域上学习到的知识,对于目标域上的学习产生负面作用。简单来说就是学到了不该学的东西。
- Feature Norm:即特征范数,具体可以理解为特征向量的长度。
- H-divergence:H-散度,散度可以理解为一种距离,但是不一定具备距离的性质,是一种弱化的距离。而H-散度是用来衡量两个分布之间的最大距离或者是最大误差的。
- identity layer
- bottleneck layer
摘要
领域适应,通过降低在领域迁移时进行分布跨越的成本,使学者可以安全地将模型推广到新的环境中。
过去的相关工作并没有有效地揭示导致模型在领域迁移时严重退化的根本原因。而本文经验性地揭示了导致模型在目标域的不稳定的主要原因,是由于目标域的特征范数相对于源域的特征范数要小得多。
为此,本文提出了一种全新的无参数自适应特征范数方法。并证明了,让两个域的特征范数逐渐适应大范围的值可以带来显著的迁移收益。
本文成功地统一了标准和局部的领域适应的计算,并在负迁移问题上具有更高的鲁棒性。只用几行代码就大大提升了目标任务的性能。
Introduction
论文先简单介绍了研究无监督领域适应( Unsupervised Domain Adaptation (UDA) ) 的strong motivation。
现存在的大多数DA算法的关键思想是同时完成,区分任务以及域不变的表示。也就是同时最小化源域的误差和两个域之间特殊的统计差异。后者包括:H-散度,最大化平均差异等等。
随后介绍了对抗性的领域适应方法,使用对抗生成网络的方式降低两个域之间的差异,最近已经发展为该领域的主要方法。
论文指出,虽然模型在不同目标域发生的模型退化现象虽然已经得到DA社区的公认,但是很少有研究来分析这种现象的根本原因。因此有理由怀疑现有的统计差异方法并不能很好的描述领域转移。以及弥补这种差异也有可能并不能保证域之间的safe transfer。
在这篇论文中,试图用经验来揭示模型退化的本质,从图1中可以看出,目标域的特征范数比源域的要小得多,但是从目前的观察结果而言,仍有两种不同的假设:
- 特征范数偏差假设:源域和目标域之间的域转换依赖于它们的特征范数期望偏差。将两个域的平均特征范数匹配到一个共享的尺度,可以得到相应的转移增益。
- 特征范数过小假设:领域转移的效果基本依赖于那些目标任务中,信息过少、特征范数过小的特征。假设在对齐不严格的情况下,调整目标特征远离较小特征范数的区域仍能完成安全转移。
考虑到这些要点,论文提出了无参数自适应特征范数方法(AFN):
- 首先,提出一种简单有效的统计距离来表征平均特征范数差异。
- 其次,设计了Hard AFN来桥接这个距离,通过限制两个域的特征范数期望来逼近一个共享标量。
- 为了以稳定的方式探索更充分的大特征范数,提出了Stepwise AFN
Method
Preliminaries
给出源域Ds,包含ns个带标签的样本,Cs个种类。以及一个目标域Dt,包含nt个无标签的样本,Ct个种类:
Ds={(xis,yis)}i=1nsD_s = \{(x_i^s, y_i^s)\}_{i=1}^{n_s} Ds={(xis,yis)}i=1ns
Dt={xit}i=1ntD_t = \{x_i^t\}_{i=1}^{n_t} Dt={xit}i=1nt
Vanilla Setting(标准设定):源域与目标域共享一样的标签空间。即源域与目标域的种类相同,Cs = Ct。
表现在代码中如下:
Partial Setting(局部设定):源域标签空间包含目标域标签空间。
表现在代码中如下:
L2-preserved Dropout:在使用dropout的同时保留L2-Norm。
在这一部分中,论文首先证明了标准的Dropout算子是L1保留的。由于论文算法是基于L2正则的隐层特征进行计算的,所以引入了L2保留的Dropout操作来满足我们的需要。
Framework
整个框架由以下几个部分组成:
- G,作为通用的特征提取模块,使用比较流行的网络结构,如ResNet
- F,作为一个特定任务的分类器,具有 l 个全连接层,将前 l-1 层定义为Ff,生成特征嵌入。定义最后一层Fy为softmax层。
- 整个框架的流程为:首先将图片数据输入到netG中进行特征提取得到bottleneck;然后将bottleneck输入到netF中,l-1层得到特征嵌入embedding,最后一层通过softmax得到cls_loss,特征嵌入则通过逼近一个共享尺度,得到ring_loss,最后将两个loss相加作为最终的loss,再进行反向参数更新迭代。
Hard Adaptive Feature Norm
基于特征范数偏差假设,论文提出了最大平均特征范数差异(MMFND)来表征两个分布之间的平均特征范数距离,并验证了填补这一域差是否能带来可观的转移收益。MMFND由下式定义,其中函数类H是l2范数算子与深度特征表示模块的所有可能函数的组合。
(H表示一个函数集,而h是H中的一个函数,sup表示上界函数,因此MMFND可以理解为源域与目标域的特殊距离的最大值,而目标是最小化这个最大值)
从直观上看,H类函数包含了大量的正实值函数,如果不对函数类型进行限制,其上界将大大偏离0。为了避免这种情况的发生,我们设置了一个限制尺度R来匹配相应的平均特征范数。通过限制两个域的平均特征范数分别收敛于共享尺度R, MMFND的域差距将趋于零。我们通过Hard Adaptive Feature Norm(HAFN)算法来实现,如下式所示:
优化目标由两项组成:
- 源域分类损失Ly,通过最小化源域标记样本的softmax交叉熵来获得任务判别特征
- 域可转移特征,是通过最小化两个域之间的特征范数差来获得,其中Ld为L2 距离,即计算源域与目标域到共享尺度R的L2距离。λ为权衡两个目标的超参数。
HAFN算法的缺点:具体来说,虽然将两个域的均值特征范数限制为很小的值(如R = 1,即特征归一化)已经取得了有效的结果,但是随着R的逐渐增大,所得到的模型仍有可能对目标任务实现更高的精度。因此,需要找到一个足够大的R值,并验证是否有必要将特征范数期望进行严格对齐。然而HAFN没有设置一个非常大的R,因为特征范数惩罚所产生的梯度可能最终导致梯度爆炸。
Stepwise Adaptive Feature Norm
为解决HAFN算法的问题,论文提出了一个改进的方法,称为逐步自适应特征范数(SAFN),以鼓励模型以渐进的方式学习具有更大范数的特定任务特征。
其中θ = θg ∪θf。θ0和θ分别表示上一次迭代和当前迭代中已经更新和更新中的模型参数。△r为控制特征范数增大的正尺度。
SAFN没有指定一个确定值R,使优化过程更稳定,更容易在两个目标之间进行权衡。因此,执行SAFN可以生成具有更大范数的信息特征,从而提高目标任务的准确性。
值得注意的是,SAFN并没有严格地对准平均特征范数差,而是可以选择设置一个中止值R来限制无休止的放大,正如特征范数过小假设所表明的那样,一旦我们将目标样本适当地调整到较大范数区域,这种严格的比对就变得多余了。
具体代码实现如下:
Experiment
- VisDA2017:一个具有挑战性的大规模基准数据集,它一共有12个对象类别的280K张图像。源域有152,397张由3D模型渲染生成的合成图像。目标域有55,388个来自Microsoft COCO的真实对象图像。
- Office-Home:另一个具有挑战性的数据集,它收集日常物体的图像,形成四个领域:艺术图像(Ar)、剪贴画图像(Cl)、产品图像(Pr)和现实世界图像(Rw)。每个域包含65个对象类别,总计约15500个图像。
- Office-31:一个广泛使用的可视化 DA基准数据集。它包含了亚马逊(A)、数码单反(D)和网络摄像头(W)三个领域的31个办公环境类别的4652幅图像,分别对应于在线网站、数码单反相机和网络相机图像。
论文笔记:An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation相关推荐
- 最优传输论文(一)Sliced Wasserstein Discrepancy for Unsupervised Domain Adaptation
前言 sliced就是投影,sliced wasserstein由于计算成本小,可作为差异度量指导特征生成器和分类器的优化. 本文可分为三步: 在有标记的源域上训练生成器G,两个分类器C1,C2. 固 ...
- 论文笔记:Contrastive Adaptation Network for Unsupervised Domain Adaptation
1. 任务设置 U n s u p e r v i s e d D o m a i n A d a p t a t i o n f o r I m a g e C l a s s i f i c a ...
- 遥感图像-Deep Feature Alignment Neural Networks for Domain Adaptation of Hyperspectral Data高光谱数据深度特征对齐神经
Deep Feature Alignment Neural Networks for Domain Adaptation of Hyperspectral Data高光谱数据领域自适应的深度特征对齐神 ...
- 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...
- 【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift
Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...
- 笔记: Gradient Reversal Layer (unsupervised domain adaptation by backpropagation. ICML 2015)
paper: Ganin, Yaroslav, and Victor Lempitsky. "Unsupervised domain adaptation by backpropagatio ...
- 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...
- 论文阅读(21 AAAI)Mind-the-Gap Unsupervised Domain Adaptation for Text-Video Retrieval
Task: 视频文本检索 Setting:Unsupervised Domain Adaptation 所使用的数据集:ActivityNet-Captions.MSR-VTT.LSMDC.MSVD ...
- 《Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation》论文阅读
Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation 摘要 类先验分布(Class prior distributi ...
最新文章
- 车辆密度估计--Understanding Traffic Density from Large-Scale Web Camera Data
- Linux 网卡相关操作
- 微信小程序利用缓存提高接口请求性能
- CNN/RNN TF1.4
- 后端如何收取多个文件_前段文件分片后后端怎么接收
- Less 混合(mixin)
- 【IDEA】IDEA 下 如何 jstack 线程状态
- kaggle实战之流浪猫狗归处预测
- 190404每日一句
- 常见路径规划算法介绍
- RecSys'22|CARCA:交叉注意力感知上下文和属性进行推荐
- linux如何初始化硬盘,Linux硬盘简易初始化(LVM)
- 联想G40-30安装win7
- 自己动手「焊」键盘,使用Python编写,一键放连招不在话下!
- Git - SSL_ERROR_SYSCALL 问题解决
- 电话号码的数字组合(Java)
- GridView相关
- 2022年登高架设考试练习题及答案
- [class]与[class=]
- Flyme 9.2系统更新:适配魅族17、18、18s系列