JDA(joint distribution adaptation)/2013

文章目录

  • **JDA(joint distribution adaptation)/2013**
    • Abstract
    • 1. Introduction
      • motivation
      • cross- domain problem
      • recent works
      • 分布差异的度量方法
      • 本文的问题设置
      • 本文的工作
      • 实验
    • 2. Related work
    • 3. Joint distribution adaptation
      • 3.1 问题定义
        • 3.1.1符号定义
        • 3.1.2 问题定义
      • 3.2 proposed approach
        • 3.2.1 feature transformation特征变换

Abstract

在domain adaptation应用在CV领域时,目前大多先验(prior)方法都没有同时减少域之间边缘分布和条件分布的difference。本文提出JDA,通过principled 降维操作,联合地(jointly)适应marginal distribution和conditional distribution,并且构建新的特征表达方法。实验证明JDA在4类cross-domain图像分类问题上效果优于最新的方法。

1. Introduction

motivation

cv领域,标签数据常常很稀疏sparse,所以希望通过related source domain的标签数据训练得到的分类器在target domain上复用。

cross- domain problem

source和target数据采样自不同的(边缘)概率分布,故主要的问题就是reduce the distribution difference between domains。

recent works

  • 找到能降低分布差异、同时保留input数据的关键性质的shared feature representation

[15]Domain adaptation via transfer component analysis(TCA)
[18]Domain adaptation of conditional probability models via feature subsetting
[21]Knowledge transfer with llow-quality data: A feature extraction issue

  • re-weight source data in order to minimize the distribution difference and then learn a classifier on the re-weighted source data

分布差异的度量方法

  • 只基于marginal,或者只基于conditional分布
  • 同时匹配marginal和conditional
    已有部分工作:[26],[18],[23]
    问题:需要target有部分labeled data

本文的问题设置

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BfvZYkcd-1572687283236)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B7.PNG)]

  • P(XS)≠P(XT)P(X_S)\not=P(X_T)P(XS​)​=P(XT​)
    也就是图中不区分类别(红色和蓝色),两个图中的点的分布不一样(聚集、离散密集程度不同,分布方向也不同)

  • P(YS∣XS)≠P(YT∣XT)P(Y_S|X_S)\not=P(Y_T|X_T)P(YS​∣XS​)​=P(YT​∣XT​)
    即给定一堆input数据,标签的分布,也就是正负样本的分布不同,图中来看,就是红色、蓝色标签样本的分布不同,分割平面(线)也不同。

  • target域没有任何labeled数据

本文的工作

  • 同时adapt边缘和条件分布
  • 拓展nonparametric MMD(maximum mean discrepancy)来度量边缘和条件分布,并整合到PCA上来构建有效、鲁邦的特征表达。

实验

  • 数据集(4个):
    digit (USPS, MNIST)
    face (PIE)
    object (COIL20, Office+Caltech [20])
  • improvement:+7.57%

2. Related work

根据survey[16],有两类transfer learning方法:

  • (1) instance reweighting:
    给source domain的一些标签数据重新设置权重,然后在target domain中复用。

  • (2) feature extraction:
    找到减小source和target差异的好的特征表达,同时减小分类回归误差。

    本文方法是第二类,可以细分为以下两个子类:

    • ① property preservation:

      通过保留重要的数据特性(如统计特性、几何结构),在domain之间共享隐空间的factors。

    • ② distribution adaptation:
      最小化边缘分布,或者条件分布,或者同时最小化两个,的距离。未来实现条件分布的匹配,这些方法通常需要标记的target数据,或者多个source域。

3. Joint distribution adaptation

3.1 问题定义

3.1.1符号定义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3kIMMA4-1572687283237)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C%E6%8D%95%E8%8E%B72.PNG)]

  • domain

    域 D\mathcal{D}D 包含mmm维特征空间X\mathcal{X}X,和在其上分布的边缘概率分布P(x)P(\rm{x})P(x),即:

    D={X,P(x)}\mathcal{D}=\{\mathcal{X},P(\mathbf{x})\}D={X,P(x)},其中x∈X\bold{x}\in{\mathcal{X}}x∈X

  • task

    Given domain D\mathcal{D}D, a task T\mathcal{T}T is composed of a CCC-cardinality label set Y\mathcal{Y}Y,i.e., T={Y,f(x)}\mathcal{T}=\{\mathcal{Y},f(\bold{x})\}T={Y,f(x)}, where y∈Yy\in{\mathcal{Y}}y∈Y,and a classifierf(x)=Q(y∣x)f(\bold{x})=Q(y|\bold{x})f(x)=Q(y∣x)can be interpreted as the conditional probability distribution,即已知数据的分类器也可以看成是一种条件概率分布。

3.1.2 问题定义

  • problem 1(joint distribution adaptation)

    Given labeled source domain Ds={(x1,y1),...,(xns,yns)}\mathcal{D}_s=\{(\bold{x}_1,y_1),...,(\bold{x}_{n_s},y_{n_s})\}Ds​={(x1​,y1​),...,(xns​​,yns​​)},

    unlabeled target domainDt={xns+1,...,xns+nt}\mathcal{D}_t=\{\bold{x}_{n_s+1},...,\bold{x}_{{n_s}+n_t}\}Dt​={xns​+1​,...,xns​+nt​​} under
    the assumptions thatXs=Xt\mathcal{X}_s=\mathcal{X}_tXs​=Xt​,即数据特征空间是相同的,

    Ys=Yt\mathcal{Y}_s=\mathcal{Y}_tYs​=Yt​,即标签空间或者说标签是类别是相同的,

    再就是迁移学习的数据分布条件,边缘分布Ps(xs)≠Pt(xt)P_s(\bold{x}_s)\not=P_t(\bold{x}_t)Ps​(xs​)​=Pt​(xt​)不等,

    条件概率分布Qs(ys∣xs))≠Qt(yt∣xt))Q_s(y_s|\bold{x}_s))\not=Q_t(y_t|\bold{x}_t))Qs​(ys​∣xs​))​=Qt​(yt​∣xt​))不等,

    我们迁移学习的目标:是学习一种特征表达,使得①边缘分布Ps(xs)P_s(\bold{x}_s)Ps​(xs​) 和Pt(xt)P_t(\bold{x}_t)Pt​(xt​)的分布差异(distribution difference)② 条件概率分布Qs(ys∣xs))Q_s(y_s|\bold{x}_s))Qs​(ys​∣xs​))和Qt(yt∣xt))Q_t(y_t|\bold{x}_t))Qt​(yt​∣xt​))的分布差异最小化。

3.2 proposed approach

本文方法是,通过一个特征变换(adaptation transformation)矩阵TTT,使得变换后的特征x\bold{x}x,加上标签yyy 的联合期望,在两个域之间是match的,从而我们说这时两个域是相似的,任务也是相似的,从而可以进行迁移学习。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6NrQXfI3-1572687283238)(C:%5CUsers%5Cjingge%5CPictures%5Cimage_save%5C3.PNG)]

由于target域没有标签数据,所以Qt(yt∣xt)Q_t(y_t|\bold{x}_t)Qt​(yt​∣xt​)不能直接估计。最好的近似是假设条件分布是相同的,即Qt(yt∣xt)=Qs(ys∣xs)Q_t(y_t|\bold{x}_t)=Q_s(y_s|\bold{x}_s)Qt​(yt​∣xt​)=Qs​(ys​∣xs​),这可以通过将在标签source数据上训练的分类器fff,应用在未标签target数据上实现。为了获得更高精度的估计QtQ_tQt​,我们提出了一种迭代的pseudo label refinement伪标签细化的策略来找到变换 TTT 和分类器fff。

3.2.1 feature transformation特征变换

我们选择PCA主成分分析(Principle Component Analysis)来进行数据的降维。

  • 输入数据input data matrix:X=[x1,...,xn]∈Rm×n\bold{X}=[\bold{x}_1,...,\bold{x}_n]\in\Bbb{R}^{m\times n}X=[x1​,...,xn​]∈Rm×n,注意包含的是所有source和target的数据;

  • 中心矩阵centering matrix of input: H=I−1n1\bold{H} = \bold{I} - \frac{1}{n}\bold{1}H=I−n1​1,也是针对source和target所有数据一起的和,其中n=ns+ntn= n_s+n_tn=ns​+nt​,I,1∈Rn×n\bold{I},\bold{1}\in\Bbb{R}^{n\times n}I,1∈Rn×n。

  • 协方差矩阵covariance matrix:可以写成XHXT\bold{XHX^T}XHXT。推导见中心矩阵。

PCA的目标是寻找一个正交变换矩阵(orthogonal transformation matrix)A∈Rm×k\bold{A}\in\Bbb{R}^{m\times k}A∈Rm×k,让映射后的数据$\in\Bbb{R}^{k \times n} $方差最大,即:

max⁡ATA=Itr(ATXHXTA)\max \limits_{\bold{A}^T\bold{A}=\bold{I}}\bold{tr}(\bold{A^TXHX^TA})ATA=Imax​tr(ATXHXTA)

协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关,协方差越大,完全线性无关,协方差为0。

  • 协方差:表示两个变量的线性相关的方向,不可以用于比较3个之间的相关性,因为随机变量的取值范围不同。

    Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]Cov(X,Y)\\=E[(X-E[X])(Y-E[Y])] \\=E[XY]-2E[X]E[Y]+E[X]E[Y] \\=E[XY]-E[X]E[Y]Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[X]E[Y]+E[X]E[Y]=E[XY]−E[X]E[Y]

  • 相关系数:表示两个变量的线性相关程度,越绝对值越接近于1线性相关性越强,为0表示线性无关,可用于比较。可以看成表转化后的协方差,剔除了两个变量变化程度的影响。

    ρ=Cov(X,Y)Var[X]Var[Y]\rho=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}ρ=Var[X]Var[Y]​Cov(X,Y)​,其中Var表示方差

协方差矩阵对角线上的元素表示的是同一维度内的方差,其他位置是维度间的协方差,因为想要降维后各个维度之间尽量垂直(正交),或者说线性相关性低,即协方差小、接近0;而维度内的数据希望它们尽量分散,即协方差矩阵中对角线表示的各个维度内的方差要大

特征值分解eigndecomposition

  • 特征向量

    $A\vec v=\lambda \vec v ,注意其中,注意其中,注意其中\lambda是标量,即长度变化,但方向不变,则称是标量,即长度变化,但方向不变,则称是标量,即长度变化,但方向不变,则称\vec v为矩阵为矩阵为矩阵A$的特征向量。

  • 特征值

【论文阅读】JDA(joint distribution adaptation)/2013初稿相关推荐

  1. 上手实践ICCV2013的JDA(Joint Distribution Adaptation)方法

    1.数据获取 选择surf特征文件作为算法的输入.surf特征文件可以从网盘上下载.下载到的文件主要包含4个.mat文件:amazon_SURF_L10.mat,Caltech10_SURF_L10. ...

  2. 【迁移学习】JDA(Joint Distribution adaptation )小结

    JDA(Joint Distribution adaptation )一种联合分布自适应的方法. 问题描述: 迁移学习是一门利用源域知识来提升目标域知识的学科(这里说的比较笼统),JDA是一种即考虑两 ...

  3. 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity

    论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...

  4. 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应

    会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...

  5. 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 无监督领域自适应

    会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址:http://proceedings.mlr.pres ...

  6. 【论文阅读】Universal Domain Adaptation

    Universal Domain Adaptation SUMMARY@2020/3/27 文章目录 Motivation Related Work Challenges / Aims /Contri ...

  7. [论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition

    Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...

  8. 论文阅读:Joint Discriminative and Generative Learning for Person Re-identification

    pdf: Joint Discriminative and Generative Learning for Person Re-identification github: https://githu ...

  9. [论文阅读]A Joint Training Dual-MRC Framework for Aspect Based Sentiment Analysis

    摘要 基于方面的情感分析 (ABSA) 涉及三个基本子任务:方面术语提取.观点术语提取和方面级情感分类.早期的工作只专注于单独解决这些子任务之一.最近的一些工作集中在解决两个子任务的组合,例如,提取方 ...

最新文章

  1. android-sdk-windows版本号下载
  2. 深入剖析ISAServer 网页缓存及配置
  3. laravel cookie加密解密原理
  4. 9.6-OOP语言 对接口和抽象类的理解
  5. jquery ajax 删除数据,JQuery ajax 保存数据,删除数据
  6. easy_install 安装
  7. [css] rem是如何实现自适应布局的?
  8. django 1.8 官方文档翻译: 1-2-4 编写你的第一个Django应用,第4部分
  9. [C#]加密解密 MD5、AES
  10. 2021-2025年中国住宅安全行业市场供需与战略研究报告
  11. 相机模型与标定(六)--单应性求解
  12. jquery.form.js的重置表单增加hidden重置代码
  13. 深度学习中的几个概念
  14. 石溪分校 计算机研究生专业,纽约州立大学石溪分校计算机科学专业
  15. 雷尼绍Renishaw wdf 文件解析(Python源码)软件分享
  16. 神仙道玄奇套装材料大全
  17. 微信公众号数据2019_2019年4月房地产微信公众号排行榜:郑州楼市第一
  18. 07年12月30日------温哥华国际机场
  19. echart 折线从左到右动画效果_echarts多条折线图动态分层的实现方法
  20. php动态网站开发测评试题,智慧职教PHP动态网站开发单元测试答案

热门文章

  1. 2018.10.27 bzoj3209: 花神的数论题(数位dp)
  2. position:fixed定位
  3. android ListView和GridView拖拽移位具体实现及拓展
  4. Zookeeper Tutorial 1 -- Overview
  5. Java笔记之对象代理实例
  6. map容器find用法
  7. 服务器内部错误_阿里云服务器被CC攻击怎么办
  8. 手机屏大字滚动_LG 滑动伸缩手机专利公布
  9. 让你见识一下什么叫最完整、最系统的前端学习路线
  10. A - 数据结构实验之栈与队列一:进制转换