对《Geodesic Flow Kernel for Unsupervised Domain Adaptation》论文学习

文章目录

摘要
一、介绍
- 为了解决两个问题：
- 解决问题的方法：
- 主要贡献：
二、之前的相关工作
三、提出的方法
- 3.1背景
- 3.2采样测地流的子空间（SGF）
- 3.3我们的方法，测地线流核（GFK）
- - 构建测地流核
  - 计算测地线流核(GFK)
- 3.4子空间分歧测度(SDM)
- 3.5域秩(ROD)
四、实验
- 4.1设置
- 4.2无监督适应的结果
- 4.3半监督适应的结果
- 4.4选择最优维度
- 4.5用ROD描述数据集
- 4.6容易适应:对数据集的新视角?
五、总结
References

摘要

测地流核模型通过集成无限多个子空间来描述从源域到目标域的几何和统计特性的变化，从而实现域移动。

该方法自动推断重要的算法参数。

提出了能自动选择最优源域的度量。

一、介绍

引入领域自适应

为了解决两个问题：

如何利用数据集中的子空间
怎样去选择匹配目标域的源域

解决问题的方法：

文章提出基于核的域适应方法，测地线流核（geodesic flow
kernel ）是在源域和目标域的子空间上计算的，该方法提取在领域内不变的子空间方向。
文章提出一个度量：域秩（Rank of Domain），可以根据源域对域适应的适合程度对源域列表进行排序。
该度量有两个标准：
（1）源域与目标域子空间的重叠度。
（2）源数据与目标数据在子空间中的分布相似度。

主要贡献：

一种基于核的领域适应方法，利用数据集中的内在低维结构，不需要交叉验证参数
一种度量，可以预测哪个源域更适合于适应目标域，而不使用标记的目标数据
实证研究验证了，我们的方法在基准数据集上比现有方法更有优势
使用域自适应重新检查跨数据集泛化的新视角

二、之前的相关工作

Gopalan等人使用测地线流导出源域和目标域之间插值的中间子空间。他们对有限数量的子空间进行采样然后将这些子空间堆叠成一个非常高维的投影矩阵。
我们的内核方法在概念上和计算上都更简单，并且消除了Gopalan等人方法中需要调优的许多参数

三、提出的方法

我们的方法背后的主要思想是显式构造一个无限维的特征空间H∞H^\inftyH∞，它集合了源域DSD_ SDS、目标域DTD_TDT以及在这两者之间插值的“幻像”域的信息。H∞H^\inftyH∞的内积产生了一个可以高效地以封闭形式计算的核函数。

我们首先回顾格拉斯曼流形的基本概念：来自源域和目标域的数据的子空间被表示为一个这样的流形上的两点。然后，我们讨论了前面的一种方法，其中多个子空间从流形采样，以派生出新的特征表示。

3.1背景

我们经常假设数据可以嵌入到低维线性子空间中，对于主成分分析（PCA）
基是数据协方差矩阵的高d维特征向量。

所有d维子空间的集合构成格拉斯曼流形(G(d, D))，D是数据维度。
当映射到格拉斯满流形子空间的数据集相似时，流形中两个点的距离就会十分靠近。

如果这两个域在流形上相隔很远怎么办?
我们简要介绍Gopalan等人的早期工作。我们的方法在此基础上进行了扩展和改进。

3.2采样测地流的子空间（SGF）

关键思想是利用中间子空间学习领域不变特征来适应

采样测地线流的方法包括以下步骤：

在格拉斯曼曲线上构造连接源域和目标域的测地线流量曲线
从这条曲线中采样固定数量的子空间
将原始特征向量投影到这些子空间中，并将其拼接成特征超向量
降低超向量的维度
使用结果表示作为新的特征向量来构造分类器

SGF方法的局限性：

如何选择最佳抽样策略尚不清楚
有几个重要的参数需要调整：
（1）要采样的子空间数量
（2）子空间的维度
（3）如何处理新表示的高维性

3.3我们的方法，测地线流核（GFK）

我们的方法包括以下步骤：

确定嵌入子空间的最优维度
构建测地线曲线
计算测地线流核;
使用测地线流核构造一个带有标记数据的分类器

构建测地流核

设PSP_SPS, PS∈RD×dP_S\in \mathbb{R}^{D\times d}PS∈RD×d表示源域和目标域子空间的两组基,设RS∈RD×(D−d)R_S\in \mathbb{R}^{D\times (D-d)}RS∈RD×(D−d)表示PSP_SPS的正交补，即RSTPS=0R_S^\mathrm{T}P_S=0RSTPS=0
利用黎曼流形的正则欧氏度量，在Φ(0)=PS\Phi(0) = P_SΦ(0)=PS和Φ(1)=PT\Phi(1) = P_TΦ(1)=PT的约束下，将测地线流参数化为Φ:t∈[0,1]→Φ(t)∈G(d,D)\Phi:t\in[0,1]\to\Phi(t)\in G(d,D)Φ:t∈[0,1]→Φ(t)∈G(d,D)，对于其他的t，
Φ(t)=PSU1Γ(t)−RSU2Σ(t)\Phi(t)=P_SU_1\Gamma(t)-R_SU_2\Sigma(t)Φ(t)=PSU1Γ(t)−RSU2Σ(t),
其中U1∈Rd×dU_1\in\mathbb{R}^{d\times d}U1∈Rd×d和U2∈R(D−d)×dU_2\in\mathbb{R}^{(D-d)\times d}U2∈R(D−d)×d是标准的正交矩阵。
它们是由下面的一对SVD给出，
PSTPT=U1ΓVT,RSTPT=−U2ΣVTP_S^\mathrm{T}P_T=U_1\Gamma V^\mathrm{T}, R_S^\mathrm{T}P_T=-U_2\Sigma V^\mathrm{T}PSTPT=U1ΓVT,RSTPT=−U2ΣVT
Γ\GammaΓ和Σ\SigmaΣ是d×dd\times dd×d的对角矩阵，对角元素是cos⁡θi\cos\theta_icosθi和sin⁡θi\sin\theta_isinθi对于i=1,2,…,di=1,2,\dots,di=1,2,…,d。特别地，θi\theta_iθi被称为PSP_SPS和PTP_TPT之间的主角:
0≤θ1≤θ2≤⋯≤θd≤π/20\leq \theta_1 \le \theta_2 \le\cdots\le\theta_d\le\pi/20≤θ1≤θ2≤⋯≤θd≤π/2
它们衡量子空间的重叠程度，此外，Γ(t)\Gamma(t)Γ(t)和Σ(t)\Sigma(t)Σ(t)是对角矩阵，其元素分别为cos⁡(tθi)\cos(t\theta_i)cos(tθi)和sin⁡(tθi)\sin(t\theta_i)sin(tθi)。

计算测地线流核(GFK)

考虑t∈(0,1)t\in(0,1)t∈(0,1)的子空间Φ(t)\Phi(t)Φ(t)，计算Φ(t)Tx\Phi(t)^T\boldsymbol{x}Φ(t)Tx，即特征向量x\boldsymbol{x}x在该子空间中的投影。使用该投影来构建分类器，该分类器使用一系列来自源域和目标域的特征生成模型。

对于两个原始的d维特征向量xi\boldsymbol{x}_ixi和xj\boldsymbol{x}_jxj，我们计算它们对于从0到1的连续t的投影到Φ(t)\Phi(t)Φ(t)，并将所有的投影连接到无限维特征向量zi∞\boldsymbol{z}_i^\infinzi∞和zj∞\boldsymbol{z}_j^\infinzj∞。它们之间的内积定义了测地线流核。
⟨zi∞,zj∞⟩=∫01(Φ(t)Txi)T(Φ(t)Txj)dt=xiTGxj\langle\boldsymbol{z}_i^\infin,\boldsymbol{z}_j^\infin\rangle=\int_0^1(\Phi(t)^T\boldsymbol{x}_i)^T(\Phi(t)^T\boldsymbol{x}_j)dt=\boldsymbol{x^T_iGx_j}⟨zi∞,zj∞⟩=∫01(Φ(t)Txi)T(Φ(t)Txj)dt=xiTGxj
式中G∈RD×DG\in\mathbb{R}^{D\times D}G∈RD×D是半正定矩阵。这正是“核技巧”，即核函数诱导无穷维特征之间的内积。
矩阵G可以按照前面定义的矩阵的封闭形式计算:
G=[PSU1RSU2][Λ1Λ2Λ2Λ3][U1TPSTU2TRST]G= \begin{bmatrix} P_SU_1 & R_SU_2 \end{bmatrix} \begin{bmatrix} \Lambda_1 & \Lambda_2 \\ \Lambda_2 & \Lambda_3 \end{bmatrix} \begin{bmatrix} U_1^T P_S^T\\ U_2^T R_S^T \end{bmatrix} G=[PSU1RSU2][Λ1Λ2Λ2Λ3][U1TPSTU2TRST]

其中Λ1\Lambda_1Λ1到Λ3\Lambda_3Λ3是对角矩阵，它们的对角元素是

λ1i=1+sin⁡(2θi)2θi,λ2i=cos⁡(2θi)−12θi,λ3i=1−sin⁡(2θi)2θi\lambda_{1i}=1+ \frac{\sin(2\theta_i)}{2\theta_i},\lambda_{2i}=\frac{\cos(2\theta_i)-1}{2\theta_i}, \lambda_{3i}=1- \frac{\sin(2\theta_i)}{2\theta_i} λ1i=1+2θisin(2θi),λ2i=2θicos(2θi)−1,λ3i=1−2θisin(2θi)

3.4子空间分歧测度(SDM)

对于无监督域适应，我们必须能够自动选择最优d，我们通过提出子空间分歧测度(SDM)。
首先计算PCAS\boldsymbol{PCA}_SPCAS和PCAT\boldsymbol{PCA}_TPCAT两个数据集的PCA子空间。我们还将数据集合并为一个数据集，并计算其子空间PCAS+T\boldsymbol{PCA}_{S+T}PCAS+T。
SDM以主角度来定义D(d)=0.5[sin⁡αd+sin⁡βd]D(d)=0.5[\sin\alpha_d+\sin\beta_d]D(d)=0.5[sinαd+sinβd]
式中αd\alpha_dαd为PCAS\boldsymbol{PCA}_SPCAS与PCAS+T\boldsymbol{PCA}_{S+T}PCAS+T之间的第d个主角，βd\beta_dβd为PCAT\boldsymbol{PCA}_TPCAT与PCAS+T\boldsymbol{PCA}_{S+T}PCAS+T之间的第d个主角。
sin⁡αd\sin\alpha_dsinαd或sin⁡βd\sin\beta_dsinβd称为最小相关距离
我们方法唯一需要的自由参数是子空间d的维数。
为了确定最优d，我们采用贪心策略:
d∗=min⁡{d∣D(d)=1}d^*=\min\{d|D(d)=1\}d∗=min{d∣D(d)=1}
d∗d^*d∗应该尽可能的高，但不应该太高以至于两个子空间的方向是正交的。

3.5域秩(ROD)

我们引入了一个集成了两组信息的域秩(ROD)度量:
几何上，子空间之间的对齐，
统计上，数据分布在投影到子空间后的KL发散。
给定一对域，计算ROD包括3个步骤：

确定对于子空间的最佳维数d∗d^*d∗
在每个维i≤d∗i≤d^*i≤d∗上，用两个一维高斯函数近似两个域的数据分布，然后计算它们之间的对称KL散度
计算主角的kl -散度加权平均值，即
R(S,T)=1d∗∑id∗θi[KL(Si∣∣Ti)+KL(Ti∣∣Si)]R(S,T)=\frac{1}{d^*}\sum_{i}^{d^*}\theta_i[KL(S_i||T_i)+KL(T_i||S_i)]R(S,T)=d∗1i∑d∗θi[KL(Si∣∣Ti)+KL(Ti∣∣Si)]
SiS_iSi和TiT_iTi是上述两个高斯分布;它们是由投影到主向量上的数据估计出来的(与第i个主角相关)。

四、实验

4.1设置

我们使用了四个数据集，Amazon，Webcam， DSLR，Caltech-256。
我们提取了四个数据集共有的10个类。
BACKPACK, TOURING-BIKE, CALCULATOR, HEAD-PHONES, COMPUTER-KEYBOARD, LAPTOP-101,COMPUTER-MONITOR, COMPUTER-MOUSE, COFFEE-MUG, AND VIDEO-PROJECTOR。
我们使用SURF特性，并使用从Amazon图像子集训练的码本对800 bin直方图图像进行编码，直方图首先被归一化，然后进行z评分，使每个维度的平均值和单位标准差为零
使用1-最近邻作为我们的分类器。

4.2无监督适应的结果

我们对源数据使用两种类型的子空间：PCA，PLS
对目标领域仅仅使用PCA因此，我们基于内核的方法有两种变体:GFK(PCA, PCA)和GFK(PLS, PCA)。

所有域适应方法都提高了基线OrigFeat的准确性。此外，我们基于GFK的方法总体上优于SGF，GFK(PLS, PCA) 表现最佳。
两个关键因素可能有助于我们的方法的优越性:
该内核集成了所有的子空间沿流，因此能够更好地建模源和目标之间的域转移
该方法利用源域的判别子空间(由PLS)来包含标签信息。

4.3半监督适应的结果

4.4选择最优维度

随着维数的增加，sdm作为几何结构差异的代表迅速上升，最终达到最大值1。超过1，适应变得困难，因为子空间具有正交方向。
然而，在达到最大值之前，几何差异会被方差的增加所抵消。权衡发生在几何差异最大化的地方。

4.5用ROD描述数据集

易适应性起着晴雨表的作用，指示两个数据集在几何和统计上是否相似，并穿透每个数据集自身的特性。

4.6容易适应:对数据集的新视角?

为了量化每个数据集的质量，他们设计了一个“market value”指标。值越高的数据集越多样化
这些数据集在提高目标域的性能方面有多大价值？

“drop”列报告源域和目标域的平均准确度之间的识别准确度下降百分比，即“mean targets”列。
一旦我们应用了域自适应，我们就会观察到一个负的下降-即，目标域上的性能比源域本身上的性能更好！
我们推测，PASCAL VOC 2007中的数据可以分为两部分：一部分特别“hard”适应其他领域，另一部相对“easy”。与性能下降相反的是，域适应技术可以收获“easy”部分。

五、总结

我们提出了一种基于内核的域自适应技术。
该技术将数据集转换为格拉斯曼流形，并在它们之间构建测地线流，以模拟域转移。
所提出的方法集成了无限多个子空间来学习对域内变化具有鲁棒性的新特征表示。

References

[1] 论文：Geodesic Flow Kernel for Unsupervised Domain Adaptation

迁移学习—Geodesic Flow Kernel for Unsupervised Domain Adaptation相关推荐

【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...
【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...
【迁移学习】PointDAN: A Multi-Scale 3D Domain Adaption Network for Point Cloud Representation
文章目录摘要 1.介绍 2.相关工作 2.1 3D Vision Understanding 2.2 Unsupervised Domain Adaptation (UDA) 3.Model 3.1 ...
CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化
CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化 0.摘要 ...
《Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation》论文阅读
Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation 摘要类先验分布(Class prior distributi ...
语义分割-Unsupervised Domain Adaptation in Semantic Segmentation：a Review语义分割中的无监督领域自适应：综述
Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...
【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift
Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...
Unsupervised Domain Adaptation for Semantic Segmentation by Content Transfer
论文链接:https://arxiv.org/abs/2012.12545 此篇论文被AAAI2021接收. 文章目录 1 Motivation 1.1 Domain Gap 1.2 Class Im ...
论文笔记：An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation
论文链接最近把毕业论文的题目确定了,这个专栏专门放相关论文的阅读笔记,个人理解可能有限,欢迎大家指正! 标题理解阅读论文之前,首先对标题进行一定的理解,才能更好的理解论文的内容. 论文完整标题为: ...
Multi-Metrics Graph-Based Unsupervised Domain Adaptation for Cross-Modal Hashing
Multi-Metrics Graph-Based Unsupervised Domain Adaptation for Cross-Modal Hashing 1 Introduction 在没有任 ...

迁移学习—Geodesic Flow Kernel for Unsupervised Domain Adaptation