【论文阅读】JDA(joint distribution adaptation)/2013初稿
JDA(joint distribution adaptation)/2013
文章目录
- **JDA(joint distribution adaptation)/2013**
- Abstract
- 1. Introduction
- motivation
- cross- domain problem
- recent works
- 分布差异的度量方法
- 本文的问题设置
- 本文的工作
- 实验
- 2. Related work
- 3. Joint distribution adaptation
- 3.1 问题定义
- 3.1.1符号定义
- 3.1.2 问题定义
- 3.2 proposed approach
- 3.2.1 feature transformation特征变换
Abstract
在domain adaptation应用在CV领域时,目前大多先验(prior)方法都没有同时减少域之间边缘分布和条件分布的difference。本文提出JDA,通过principled 降维操作,联合地(jointly)适应marginal distribution和conditional distribution,并且构建新的特征表达方法。实验证明JDA在4类cross-domain图像分类问题上效果优于最新的方法。
1. Introduction
motivation
cv领域,标签数据常常很稀疏sparse,所以希望通过related source domain的标签数据训练得到的分类器在target domain上复用。
cross- domain problem
source和target数据采样自不同的(边缘)概率分布,故主要的问题就是reduce the distribution difference between domains。
recent works
- 找到能降低分布差异、同时保留input数据的关键性质的shared feature representation
[15]Domain adaptation via transfer component analysis(TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue
- re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data
分布差异的度量方法
- 只基于marginal,或者只基于conditional分布
- 同时匹配marginal和conditional
已有部分工作:[26],[18],[23]
问题:需要target有部分labeled data
本文的问题设置
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]
P(XS)≠P(XT)P(X_S)\not=P(X_T)P(XS)=P(XT)
也就是图中不区分类别(红色和蓝色),两个图中的点的分布不一样(聚集、离散密集程度不同,分布方向也不同)P(YS∣XS)≠P(YT∣XT)P(Y_S|X_S)\not=P(Y_T|X_T)P(YS∣XS)=P(YT∣XT)
即给定一堆input数据,标签的分布,也就是正负样本的分布不同,图中来看,就是红色、蓝色标签样本的分布不同,分割平面(线)也不同。target域没有任何labeled数据
本文的工作
- 同时adapt边缘和条件分布
- 拓展nonparametric MMD(maximum mean discrepancy)来度量边缘和条件分布,并整合到PCA上来构建有效、鲁邦的特征表达。
实验
- 数据集(4个):
digit (USPS, MNIST)
face (PIE)
object (COIL20, Office+Caltech [20]) - improvement:+7.57%
2. Related work
根据survey[16],有两类transfer learning方法:
(1) instance reweighting:
给source domain的一些标签数据重新设置权重,然后在target domain中复用。(2) feature extraction:
找到减小source和target差异的好的特征表达,同时减小分类回归误差。本文方法是第二类,可以细分为以下两个子类:
① property preservation:
通过保留重要的数据特性(如统计特性、几何结构),在domain之间共享隐空间的factors。
② distribution adaptation:
最小化边缘分布,或者条件分布,或者同时最小化两个,的距离。未来实现条件分布的匹配,这些方法通常需要标记的target数据,或者多个source域。
3. Joint distribution adaptation
3.1 问题定义
3.1.1符号定义
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]
domain
域 D\mathcal{D}D 包含mmm维特征空间X\mathcal{X}X,和在其上分布的边缘概率分布P(x)P(\rm{x})P(x),即:
D={X,P(x)}\mathcal{D}=\{\mathcal{X},P(\mathbf{x})\}D={X,P(x)},其中x∈X\bold{x}\in{\mathcal{X}}x∈X
task
Given domain D\mathcal{D}D, a task T\mathcal{T}T is composed of a CCC-cardinality label set Y\mathcal{Y}Y,i.e., T={Y,f(x)}\mathcal{T}=\{\mathcal{Y},f(\bold{x})\}T={Y,f(x)}, where y∈Yy\in{\mathcal{Y}}y∈Y,and a classifierf(x)=Q(y∣x)f(\bold{x})=Q(y|\bold{x})f(x)=Q(y∣x)can be interpreted as the conditional probability distribution,即已知数据的分类器也可以看成是一种条件概率分布。
3.1.2 问题定义
problem 1(joint distribution adaptation)
Given labeled source domain Ds={(x1,y1),...,(xns,yns)}\mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\}Ds={(x1,y1),...,(xns,yns)},
unlabeled target domainDt={xns+1,...,xns+nt}\mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\}Dt={xns+1,...,xns+nt} under
the assumptions thatXs=Xt\mathcal{X}_s=\mathcal{X}_tXs=Xt,即数据特征空间是相同的,Ys=Yt\mathcal{Y}_s=\mathcal{Y}_tYs=Yt,即标签空间或者说标签是类别是相同的,
再就是迁移学习的数据分布条件,边缘分布Ps(xs)≠Pt(xt)P_s(\bold{x}_s)\not=P_t(\bold{x}_t)Ps(xs)=Pt(xt)不等,
条件概率分布Qs(ys∣xs))≠Qt(yt∣xt))Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t))Qs(ys∣xs))=Qt(yt∣xt))不等,
我们迁移学习的目标:是学习一种特征表达,使得①边缘分布Ps(xs)P_s(\bold{x}_s)Ps(xs) 和Pt(xt)P_t(\bold{x}_t)Pt(xt)的分布差异(distribution difference)② 条件概率分布Qs(ys∣xs))Q_s(y_s|\bold{x}_s))Qs(ys∣xs))和Qt(yt∣xt))Q_t(y_t|\bold{x}_t))Qt(yt∣xt))的分布差异最小化。
3.2 proposed approach
本文方法是,通过一个特征变换(adaptation transformation)矩阵TTT,使得变换后的特征x\bold{x}x,加上标签yyy 的联合期望,在两个域之间是match的,从而我们说这时两个域是相似的,任务也是相似的,从而可以进行迁移学习。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]
由于target域没有标签数据,所以Qt(yt∣xt)Q_t(y_t|\bold{x}_t)Qt(yt∣xt)不能直接估计。最好的近似是假设条件分布是相同的,即Qt(yt∣xt)=Qs(ys∣xs)Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s)Qt(yt∣xt)=Qs(ys∣xs),这可以通过将在标签source数据上训练的分类器fff,应用在未标签target数据上实现。为了获得更高精度的估计QtQ_tQt,我们提出了一种迭代的pseudo label refinement伪标签细化的策略来找到变换 TTT 和分类器fff。
3.2.1 feature transformation特征变换
我们选择PCA主成分分析(Principle Component Analysis)来进行数据的降维。
输入数据input data matrix:X=[x1,...,xn]∈Rm×n\bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n}X=[x1,...,xn]∈Rm×n,注意包含的是所有source和target的数据;
中心矩阵centering matrix of input: H=I−1n1\bold{H} = \bold{I} - \frac{1}{n}\bold{1}H=I−n11,也是针对source和target所有数据一起的和,其中n=ns+ntn= n_s+n_tn=ns+nt,I,1∈Rn×n\bold{I},\bold{1}\in\Bbb{R}^{n\times n}I,1∈Rn×n。
协方差矩阵covariance matrix:可以写成XHXT\bold{XHX^T}XHXT。推导见中心矩阵。
PCA的目标是寻找一个正交变换矩阵(orthogonal transformation matrix)A∈Rm×k\bold{A}\in\Bbb{R}^{m\times k}A∈Rm×k,让映射后的数据$\in\Bbb{R}^{k \times n} $方差最大,即:
maxATA=Itr(ATXHXTA)\max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA})ATA=Imaxtr(ATXHXTA)
协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关,协方差越大,完全线性无关,协方差为0。
协方差:表示两个变量的线性相关的方向,不可以用于比较3个之间的相关性,因为随机变量的取值范围不同。
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y]Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]
相关系数:表示两个变量的线性相关程度,越绝对值越接近于1线性相关性越强,为0表示线性无关,可用于比较。可以看成表转化后的协方差,剔除了两个变量变化程度的影响。
ρ=Cov(X,Y)Var[X]Var[Y]\rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}ρ=Var[X]Var[Y]Cov(X,Y),其中Var表示方差
协方差矩阵对角线上的元素表示的是同一维度内的方差,其他位置是维度间的协方差,因为想要降维后各个维度之间尽量垂直(正交),或者说线性相关性低,即协方差小、接近0;而维度内的数据希望它们尽量分散,即协方差矩阵中对角线表示的各个维度内的方差要大。
特征值分解eigndecomposition
特征向量
$A\vec v=\lambda \vec v ,注意其中,注意其中,注意其中\lambda是标量,即长度变化,但方向不变,则称是标量,即长度变化,但方向不变,则称是标量,即长度变化,但方向不变,则称\vec v为矩阵为矩阵为矩阵A$的特征向量。
特征值
【论文阅读】JDA(joint distribution adaptation)/2013初稿相关推荐
- 上手实践ICCV2013的JDA(Joint Distribution Adaptation)方法
1.数据获取 选择surf特征文件作为算法的输入.surf特征文件可以从网盘上下载.下载到的文件主要包含4个.mat文件:amazon_SURF_L10.mat,Caltech10_SURF_L10. ...
- 【迁移学习】JDA(Joint Distribution adaptation )小结
JDA(Joint Distribution adaptation )一种联合分布自适应的方法. 问题描述: 迁移学习是一门利用源域知识来提升目标域知识的学科(这里说的比较笼统),JDA是一种即考虑两 ...
- 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
- 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...
- 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应
会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...
- 【论文阅读】Universal Domain Adaptation
Universal Domain Adaptation SUMMARY@2020/3/27 文章目录 Motivation Related Work Challenges / Aims /Contri ...
- [论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...
- 论文阅读:Joint Discriminative and Generative Learning for Person Re-identification
pdf: Joint Discriminative and Generative Learning for Person Re-identification github: https://githu ...
- [论文阅读]A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis
摘要 基于方面的情感分析 (ABSA) 涉及三个基本子任务:方面术语提取.观点术语提取和方面级情感分类.早期的工作只专注于单独解决这些子任务之一.最近的一些工作集中在解决两个子任务的组合,例如,提取方 ...
最新文章
- android-sdk-windows版本号下载
- 深入剖析ISAServer 网页缓存及配置
- laravel cookie加密解密原理
- 9.6-OOP语言 对接口和抽象类的理解
- jquery ajax 删除数据,JQuery ajax 保存数据,删除数据
- easy_install 安装
- [css] rem是如何实现自适应布局的?
- django 1.8 官方文档翻译: 1-2-4 编写你的第一个Django应用,第4部分
- [C#]加密解密 MD5、AES
- 2021-2025年中国住宅安全行业市场供需与战略研究报告
- 相机模型与标定(六)--单应性求解
- jquery.form.js的重置表单增加hidden重置代码
- 深度学习中的几个概念
- 石溪分校 计算机研究生专业,纽约州立大学石溪分校计算机科学专业
- 雷尼绍Renishaw wdf 文件解析(Python源码)软件分享
- 神仙道玄奇套装材料大全
- 微信公众号数据2019_2019年4月房地产微信公众号排行榜:郑州楼市第一
- 07年12月30日------温哥华国际机场
- echart 折线从左到右动画效果_echarts多条折线图动态分层的实现方法
- php动态网站开发测评试题,智慧职教PHP动态网站开发单元测试答案