JDA（joint distribution adaptation)/2013

文章目录

**JDA（joint distribution adaptation)/2013**
- Abstract
- 1. Introduction
- - motivation
  - cross- domain problem
  - recent works
  - 分布差异的度量方法
  - 本文的问题设置
  - 本文的工作
  - 实验
- 2. Related work
- 3. Joint distribution adaptation
- - 3.1 问题定义
  - - 3.1.1符号定义
    - 3.1.2 问题定义
  - 3.2 proposed approach
  - - 3.2.1 feature transformation特征变换

Abstract

在domain adaptation应用在CV领域时，目前大多先验（prior）方法都没有同时减少域之间边缘分布和条件分布的difference。本文提出JDA，通过principled 降维操作，联合地（jointly）适应marginal distribution和conditional distribution，并且构建新的特征表达方法。实验证明JDA在4类cross-domain图像分类问题上效果优于最新的方法。

1. Introduction

motivation

cv领域，标签数据常常很稀疏sparse，所以希望通过related source domain的标签数据训练得到的分类器在target domain上复用。

cross- domain problem

source和target数据采样自不同的（边缘）概率分布，故主要的问题就是reduce the distribution difference between domains。

recent works

找到能降低分布差异、同时保留input数据的关键性质的shared feature representation

[15]Domain adaptation via transfer component analysis（TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue

re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data

分布差异的度量方法

只基于marginal，或者只基于conditional分布
同时匹配marginal和conditional
已有部分工作：[26],[18],[23]
问题：需要target有部分labeled data

本文的问题设置

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]

P(XS)≠P(XT)P(X_S)\not=P(X_T)P(XS)=P(XT)
也就是图中不区分类别（红色和蓝色），两个图中的点的分布不一样（聚集、离散密集程度不同，分布方向也不同）
P(YS∣XS)≠P(YT∣XT)P(Y_S|X_S)\not=P(Y_T|X_T)P(YS∣XS)=P(YT∣XT)
即给定一堆input数据，标签的分布，也就是正负样本的分布不同，图中来看，就是红色、蓝色标签样本的分布不同，分割平面（线）也不同。
target域没有任何labeled数据

本文的工作

同时adapt边缘和条件分布
拓展nonparametric MMD（maximum mean discrepancy)来度量边缘和条件分布，并整合到PCA上来构建有效、鲁邦的特征表达。

实验

数据集（4个）：
digit (USPS, MNIST)
face (PIE)
object (COIL20, Office+Caltech [20])
improvement：+7.57%

2. Related work

根据survey[16]，有两类transfer learning方法：

(1) instance reweighting：
给source domain的一些标签数据重新设置权重，然后在target domain中复用。
(2) feature extraction：
找到减小source和target差异的好的特征表达，同时减小分类回归误差。

本文方法是第二类，可以细分为以下两个子类：
- ① property preservation：
  
  通过保留重要的数据特性（如统计特性、几何结构），在domain之间共享隐空间的factors。
- ② distribution adaptation：
  最小化边缘分布，或者条件分布，或者同时最小化两个，的距离。未来实现条件分布的匹配，这些方法通常需要标记的target数据，或者多个source域。

3. Joint distribution adaptation

3.1 问题定义

3.1.1符号定义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]

domain

域 D\mathcal{D}D 包含mmm维特征空间X\mathcal{X}X，和在其上分布的边缘概率分布P(x)P(\rm{x})P(x)，即:

D={X,P(x)}\mathcal{D}=\{\mathcal{X},P(\mathbf{x})\}D={X,P(x)}，其中x∈X\bold{x}\in{\mathcal{X}}x∈X
task

Given domain D\mathcal{D}D, a task T\mathcal{T}T is composed of a CCC-cardinality label set Y\mathcal{Y}Y，i.e., T={Y,f(x)}\mathcal{T}=\{\mathcal{Y},f(\bold{x})\}T={Y,f(x)}, where y∈Yy\in{\mathcal{Y}}y∈Y，and a classifierf(x)=Q(y∣x)f(\bold{x})=Q(y|\bold{x})f(x)=Q(y∣x)can be interpreted as the conditional probability distribution，即已知数据的分类器也可以看成是一种条件概率分布。

3.1.2 问题定义

problem 1(joint distribution adaptation)

Given labeled source domain Ds={(x1,y1),...,(xns,yns)}\mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\}Ds={(x1,y1),...,(xns,yns)}，

unlabeled target domainDt={xns+1,...,xns+nt}\mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\}Dt={xns+1,...,xns+nt} under
the assumptions thatXs=Xt\mathcal{X}_s=\mathcal{X}_tXs=Xt，即数据特征空间是相同的，

Ys=Yt\mathcal{Y}_s=\mathcal{Y}_tYs=Yt，即标签空间或者说标签是类别是相同的，

再就是迁移学习的数据分布条件，边缘分布Ps(xs)≠Pt(xt)P_s(\bold{x}_s)\not=P_t(\bold{x}_t)Ps(xs)=Pt(xt)不等，

条件概率分布Qs(ys∣xs))≠Qt(yt∣xt))Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t))Qs(ys∣xs))=Qt(yt∣xt))不等，

我们迁移学习的目标：是学习一种特征表达，使得①边缘分布Ps(xs)P_s(\bold{x}_s)Ps(xs) 和Pt(xt)P_t(\bold{x}_t)Pt(xt)的分布差异（distribution difference）② 条件概率分布Qs(ys∣xs))Q_s(y_s|\bold{x}_s))Qs(ys∣xs))和Qt(yt∣xt))Q_t(y_t|\bold{x}_t))Qt(yt∣xt))的分布差异最小化。

3.2 proposed approach

本文方法是，通过一个特征变换（adaptation transformation)矩阵TTT，使得变换后的特征x\bold{x}x，加上标签yyy 的联合期望，在两个域之间是match的，从而我们说这时两个域是相似的，任务也是相似的，从而可以进行迁移学习。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]

由于target域没有标签数据，所以Qt(yt∣xt)Q_t(y_t|\bold{x}_t)Qt(yt∣xt)不能直接估计。最好的近似是假设条件分布是相同的，即Qt(yt∣xt)=Qs(ys∣xs)Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s)Qt(yt∣xt)=Qs(ys∣xs)，这可以通过将在标签source数据上训练的分类器fff，应用在未标签target数据上实现。为了获得更高精度的估计QtQ_tQt，我们提出了一种迭代的pseudo label refinement伪标签细化的策略来找到变换 TTT 和分类器fff。

3.2.1 feature transformation特征变换

我们选择PCA主成分分析（Principle Component Analysis）来进行数据的降维。

输入数据input data matrix：X=[x1,...,xn]∈Rm×n\bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n}X=[x1,...,xn]∈Rm×n，注意包含的是所有source和target的数据；
中心矩阵centering matrix of input: H=I−1n1\bold{H} = \bold{I} - \frac{1}{n}\bold{1}H=I−n11，也是针对source和target所有数据一起的和，其中n=ns+ntn= n_s+n_tn=ns+nt，I,1∈Rn×n\bold{I},\bold{1}\in\Bbb{R}^{n\times n}I,1∈Rn×n。
协方差矩阵covariance matrix：可以写成XHXT\bold{XHX^T}XHXT。推导见中心矩阵。

PCA的目标是寻找一个正交变换矩阵（orthogonal transformation matrix）A∈Rm×k\bold{A}\in\Bbb{R}^{m\times k}A∈Rm×k，让映射后的数据$\in\Bbb{R}^{k \times n} $方差最大，即：

max⁡ATA=Itr(ATXHXTA)\max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA})ATA=Imaxtr(ATXHXTA)

协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为0。

协方差：表示两个变量的线性相关的方向，不可以用于比较3个之间的相关性，因为随机变量的取值范围不同。

Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y]Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]

相关系数：表示两个变量的线性相关程度，越绝对值越接近于1线性相关性越强，为0表示线性无关，可用于比较。可以看成表转化后的协方差，剔除了两个变量变化程度的影响。

ρ=Cov(X,Y)Var[X]Var[Y]\rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}ρ=Var[X]Var[Y]Cov(X,Y)，其中Var表示方差

协方差矩阵对角线上的元素表示的是同一维度内的方差，其他位置是维度间的协方差，因为想要降维后各个维度之间尽量垂直（正交），或者说线性相关性低，即协方差小、接近0；而维度内的数据希望它们尽量分散，即协方差矩阵中对角线表示的各个维度内的方差要大。

特征值分解eigndecomposition

特征向量

$A\vec v=\lambda \vec v ，注意其中，注意其中，注意其中\lambda是标量，即长度变化，但方向不变，则称是标量，即长度变化，但方向不变，则称是标量，即长度变化，但方向不变，则称\vec v为矩阵为矩阵为矩阵A$的特征向量。

特征值

【论文阅读】JDA（joint distribution adaptation)/2013初稿相关推荐

上手实践ICCV2013的JDA（Joint Distribution Adaptation）方法
1.数据获取选择surf特征文件作为算法的输入.surf特征文件可以从网盘上下载.下载到的文件主要包含4个.mat文件:amazon_SURF_L10.mat,Caltech10_SURF_L10. ...
【迁移学习】JDA（Joint Distribution adaptation ）小结
JDA(Joint Distribution adaptation )一种联合分布自适应的方法. 问题描述: 迁移学习是一门利用源域知识来提升目标域知识的学科(这里说的比较笼统),JDA是一种即考虑两 ...
年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...
【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...
【论文阅读】Universal Domain Adaptation
Universal Domain Adaptation SUMMARY@2020/3/27 文章目录 Motivation Related Work Challenges / Aims /Contri ...
[论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...
论文阅读：Joint Discriminative and Generative Learning for Person Re-identification
pdf: Joint Discriminative and Generative Learning for Person Re-identification github: https://githu ...
[论文阅读]A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis
摘要基于方面的情感分析 (ABSA) 涉及三个基本子任务:方面术语提取.观点术语提取和方面级情感分类.早期的工作只专注于单独解决这些子任务之一.最近的一些工作集中在解决两个子任务的组合,例如,提取方 ...

【论文阅读】JDA（joint distribution adaptation)/2013初稿