t-SNE（续）

SNE

在介绍t-SNE之前，我们首先介绍一下SNE（Stochastic Neighbor Embedding）的原理。

假设我们有数据集X，它共有N个数据点。每一个数据点
$x_i$ 的维度为D，我们希望降低为d维。在一般用于可视化的条件下，d的取值为 2，即在平面上表示出所有数据。

SNE将数据点间的欧几里德距离转化为条件概率来表征相似性：

p j ∣ i = exp ( - ‖ x i - x j ‖ 2 / 2 σ 2 ) \sum k \neq i exp ( - ‖ x i - x k ‖ 2 / 2 σ 2 )

$p_{j\mid i}=\frac{\exp(-\|x_i-x_j\|^2/2\sigma^2)}{\sum_{k\neq i}\exp(-\|x_i-x_k\|^2/2\sigma^2)}$

如果以数据点在
$x_i$ 为中心的高斯分布所占的概率密度为标准选择近邻，那么
$p_{j\mid i}$ 就代表
$x_i$ 将选择
$x_j$ 作为它的近邻。对于相近的数据点，条件概率
$p_{j\mid i}$ 是相对较高的，然而对于分离的数据点，
$p_{j\mid i}$ 几乎是无穷小量（若高斯分布的方差
$\sigma_i$ 选择合理）。

现在引入矩阵Y，Y是N*2阶矩阵，即输入矩阵X的2维表征。基于矩阵Y，我们可以构建一个分布q，其形式与p类似。

对于高维数据点
$x_i$ 和
$x_j$ 在低维空间中的映射点
$y_i$ 和
$y_j$ ，计算一个相似的条件概率
$q_{j\mid i}$ 是可以实现的。我们将计算条件概率
$q_{i\mid j}$ 中用到的高斯分布的方差设置为1/2。因此我们可以对映射的低维数据点
$y_j$ 和
$y_i$ 之间的相似度进行建模：

q j ∣ i = exp ( - ‖ y i - y j ‖ 2 ) \sum k \neq i exp ( - ‖ y i - y k ‖ 2 )

$q_{j\mid i}=\frac{\exp(-\|y_i-y_j\|^2)}{\sum_{k\neq i}\exp(-\|y_i-y_k\|^2)}$

我们的总体目标是选择Y中的一个数据点，然后其令条件概率分布q近似于p。这一步可以通过最小化两个分布之间的KL散度而实现，这一过程可以定义为：

C = \sum i K L (P i ‖ Q i) = \sum i \sum j p j ∣ i log p j ∣ i q j ∣ i

$C = \sum_i KL(P_i \| Q_i) = \sum_i \sum_j p_{j \mid i} \log \frac{p_{j \mid i}}{q_{j \mid i}}$

这里的
$P_i$ 表示了给定点
$x_i$ 下，其他所有数据点的条件概率分布。需要注意的是KL散度具有不对称性，在低维映射中不同的距离对应的惩罚权重是不同的，具体来说：距离较远的两个点来表达距离较近的两个点会产生更大的cost，相反，用较近的两个点来表达较远的两个点产生的cost相对较小(注意：类似于回归容易受异常值影响，但效果相反)。即用较小的
$q_{j\mid i}=0.2$ 来建模较大的
$p_{j\mid i}=0.8$ ，
$cost=p\log(p/q)=1.11$ ,同样用较大的
$q_{j\mid i}=0.8$ 来建模较小的
$p_{j\mid i}=0.2$ ,
$cost=-0.277$ 。因此，SNE会倾向于保留数据中的局部特征。

如何确定
$\sigma$

下面介绍一下SNE的超参
$\sigma$ 的确定方法。

首先，不同的点具有不同的
$\sigma_i$ ，
$P_i$ 的熵(entropy)会随着
$\sigma_i$ 的增加而增加。SNE使用困惑度(perplexity)的概念，用二分搜索的方式来寻找一个最佳的
$\sigma$ 。其中困惑度指:

P e r p (P i) = 2 H (P i)

$Perp(P_i) = 2^{H(P_i)}$

这里的
${H(P_i)}$ 是
$P_i$ 的熵，即:

H (P i) = - \sum j p j ∣ i log 2 p j ∣ i

$H(P_i) = -\sum_j p_{j \mid i} \log_2 p_{j \mid i}$

困惑度可以解释为一个点附近的有效近邻点个数。SNE对困惑度的调整比较有鲁棒性，通常选择5-50之间。

在初始优化的阶段，每次迭代中可以引入一些高斯噪声，之后像模拟退火一样逐渐减小该噪声，可以用来避免陷入局部最优解。因此，SNE在选择高斯噪声，以及学习速率，什么时候开始衰减，动量选择等等超参数上，需要跑多次优化才可以。

Symmetric SNE

优化
$p_{i \mid j}$ 和
$q_{i \mid j}$ 的KL散度的一种替换思路是，使用联合概率分布来替换条件概率分布，即P是高维空间里各个点的联合概率分布，Q是低维空间里各个点的联合概率分布，目标函数为:

C = K L (P ∣ ∣ Q) = \sum i \sum j p i, j log p i j q i j

$C = KL(P \mid \mid Q) = \sum_i \sum_j p_{i,j} \log \frac{p_{ij}}{q_{ij}}$

如果我们假设对于任意i，有
$p_{ij} = p_{ji}, q_{ij} = q_{ji}$ ，则概率分布可以改写为:

p i j = exp ( - ∣ ∣ x i - x j ∣ ∣ 2 / 2 σ 2 ) \sum k \neq l exp ( - ∣ ∣ x k - x l ∣ ∣ 2 / 2 σ 2 ) q i j = exp ( - ∣ ∣ y i - y j ∣ ∣ 2 ) \sum k \neq l exp ( - ∣ ∣ y k - y l ∣ ∣ 2 )

$p_{ij} = \frac{\exp(- \mid \mid x_i - x_j \mid \mid ^2 / 2\sigma^2)}{\sum_{k \neq l} \exp(- \mid \mid x_k-x_l \mid \mid ^2 / 2\sigma^2)} \ \ \ \ q_{ij} = \frac{\exp(- \mid \mid y_i - y_j \mid \mid ^2)}{\sum_{k \neq l} \exp(- \mid \mid y_k-y_l \mid \mid ^2)}$

我们将这种SNE称之为symmetric SNE(对称SNE)。

t-SNE

SNE的主要问题在于存在Crowding问题：就是说各个簇聚集在一起，无法区分。比如有一种情况，高维度数据在降维到10维下，可以有很好的表达，但是降维到两维后无法得到可信映射，比如降维如10维中有11个点之间两两等距离的，在二维下就无法得到可信的映射结果(最多3个点)。

其中的一种减轻”拥挤问题”的方法：在高维空间下，在高维空间下我们使用高斯分布将距离转换为概率分布，在低维空间下，我们使用更加偏重长尾分布的方式来将距离转换为概率分布，使得高维度下中低等的距离在映射后能够有一个较大的距离。

我们对比一下高斯分布和t分布, t分布受异常值影响更小，拟合结果更为合理，较好的捕获了数据的整体特征。

使用了t分布之后的q变化，如下:

q i j = ( 1 + ∣ ∣ y i - y j ∣ ∣ 2 ) - 1 \sum k \neq l ( 1 + ∣ ∣ y i - y j ∣ ∣ 2 ) - 1

$q_{ij} = \frac{(1 + \mid \mid y_i -y_j \mid \mid ^2)^{-1}}{\sum_{k \neq l} (1 + \mid \mid y_i -y_j \mid \mid ^2)^{-1}}$

t-sne的有效性，也可以从上图中看到：横轴表示距离，纵轴表示相似度, 可以看到，对于较大相似度的点，t分布在低维空间中的距离需要稍小一点；而对于低相似度的点，t分布在低维空间中的距离需要更远。这恰好满足了我们的需求，即同一簇内的点(距离较近)聚合的更紧密，不同簇之间的点(距离较远)更加疏远。

总结一下，t-SNE的梯度更新有两大优势：

对于不相似的点，用一个较小的距离会产生较大的梯度来让这些点排斥开来。

这种排斥又不会无限大(梯度中分母)，避免不相似的点距离太远。

上图分别是使用t-SNE和Sammon mapping可视化MNIST数据集后的效果图。从中可以看出t-SNE图中，数据更成团状，可视化效果更好。

t-SNE的不足主要有四个:

主要用于可视化，很难用于其他目的。比如测试集合降维，因为他没有显式的预估部分，不能在测试集合直接降维；比如降维到10维，因为t分布偏重长尾，1个自由度的t分布很难保存好局部特征，可能需要设置成更高的自由度。

t-SNE倾向于保存局部特征，对于本征维数(intrinsic dimensionality)本身就很高的数据集，是不可能完整的映射到2-3维的空间

t-SNE没有唯一最优解，且没有预估部分。如果想要做预估，可以考虑降维之后，再构建一个回归方程之类的模型去做。但是要注意，t-sne中距离本身是没有意义，都是概率分布问题。

训练太慢。有很多基于树的算法在t-sne上做一些改进。

参考

https://www.zhihu.com/question/52022955

t-sne数据可视化算法的作用是啥？为了降维还是认识数据？

https://mp.weixin.qq.com/s/Rs9ri6Xs5R-yitrda8pJMg

详解可视化利器t-SNE算法：数无形时少直觉

https://mp.weixin.qq.com/s/_DXMlNZHVKm2jMnLGQFM_Q

还在用PCA降维？快学学大牛最爱的t-SNE算法吧

http://www.datakit.cn/blog/2017/02/05/t_sne_full.html

t-SNE完整笔记

https://yq.aliyun.com/articles/70733

比PCA降维更高级——（R/Python）t-SNE聚类算法实践指南

https://mp.weixin.qq.com/s/7Vy7l1YyBT7rMYW2i1AsuA

线性判别分析(LDA)原理详解

https://mp.weixin.qq.com/s/cnzQ7XepftDOZXslCf1MUA

你真的会用t-SNE么？有关t-SNE的小技巧

https://mp.weixin.qq.com/s/lbpe2NO1m8S38wpnp47BEg

通过可视化隐藏表示，更好地理解神经网络

Adaboost

Adaboost是Yoav Freund和Robert Schapire于1997年提出的算法。两人后来因为该算法被授予Gödel Prize（2003）。

Yoav Freund，UCSC博士，UCSD教授。

Robert Elias Schapire，MIT博士。先后供职于Princeton University、AT&T Labs和Microsoft Research。

Gödel Prize，由欧洲计算机学会（EATCS）与美国计算机学会基础理论专业组织（ACM SIGACT）于1993年共同设立，颁给理论计算机领域最杰出的学术论文。其名称取自Kurt Gödel。

Kurt Friedrich Gödel，1906～1978，奥地利逻辑学家，数学家，哲学家，后加入美国藉。维也纳大学博士（1930）。在逻辑学方面，他是继Aristotle、Gottlob Frege之后最伟大的逻辑学家。在数学方面，他以哥德尔不完备定理著称，和Bertrand Russell、 David Hilbert、Georg Cantor齐名。

Adaboost既可用于分类问题，也可用于回归问题。这里仅针对二分类问题进行讨论。

假设我们有数据集
$\{(x_1, y_1), \ldots, (x_N, y_N)\}$ ，其中
$y_i \in \{-1, 1\}$ ，还有一系列弱分类器
$\{k_1, \ldots, k_L\}$ 。

由于Boost算法是个串行算法，每次迭代就会加入一个弱分类器。这样m-1次迭代之后的分类器如下所示：

C (m - 1) (x i) = α 1 k 1 (x i) + \dots + α m - 1 k m - 1 (x i)

$C_{(m-1)}(x_i) = \alpha_1k_1(x_i) + \cdots + \alpha_{m-1}k_{m-1}(x_i)$

而m次迭代之后的分类器则为：

C m (x i) = C (m - 1) (x i) + α m k m (x i)

$C_{m}(x_i) = C_{(m-1)}(x_i) + \alpha_m k_m(x_i)$

如何选择新加入的弱分类器
$k_m$ 和对应的权重
$\alpha_m$ 呢？我们可以定义误差E如下所示：

E = \sum i = 1 N e - y i C m (x i)

$E = \sum_{i=1}^N e^{-y_i C_m(x_i)}$

令
$w_i^{(1)} = 1,w_i^{(m)} = e^{-y_i C_{m-1}(x_i)}$ ，则：

E = \sum i = 1 N w (m) i e - y i α m k m (x i)

$E = \sum_{i=1}^N w_i^{(m)}e^{-y_i\alpha_m k_m(x_i)}$

因为
$k_m$ 分类正确时，
$y_i k_m(x_i) = 1$ ，分类错误时，
$y_i k_m(x_i) = -1$ 。所以：

E = \sum y i = k m (x i) w (m) i e - α m + \sum y i \neq k m (x i) w (m) i e α m = \sum i = 1 N w (m) i e - α m + \sum y i \neq k m (x i) w (m) i (e α m - e - α m)

$E = \sum_{y_i = k_m(x_i)} w_i^{(m)}e^{-\alpha_m} + \sum_{y_i \neq k_m(x_i)} w_i^{(m)}e^{\alpha_m}\\= \sum_{i=1}^N w_i^{(m)}e^{-\alpha_m} + \sum_{y_i \neq k_m(x_i)} w_i^{(m)}(e^{\alpha_m}-e^{-\alpha_m})$

可以看出和
$k_m$ 相关的实际上只有上式的右半部分。显然，使得
$\sum_{y_i \neq k_m(x_i)} w_i^{(m)}$ 最小的
$k_m$ ，也会令E最小，这也就是我们选择加入的
$k_m$ 。

对E求导，得：

d E d α m = d ( \sum y i = k m ( x i ) w ( m ) i e - α m + \sum y i \neq k m ( x i ) w ( m ) i e α m ) d α m

$\frac{d E}{d \alpha_m} = \frac{d (\sum_{y_i = k_m(x_i)} w_i^{(m)}e^{-\alpha_m} + \sum_{y_i \neq k_m(x_i)} w_i^{(m)}e^{\alpha_m}) }{d \alpha_m}$

令导数为0，可得：

α m = 1 2 ln (\sum y i = k m ( x i ) w ( m ) i \sum y i \neq k m ( x i ) w ( m ) i)

$\alpha_m = \frac{1}{2}\ln\left(\frac{\sum_{y_i = k_m(x_i)} w_i^{(m)}}{\sum_{y_i \neq k_m(x_i)} w_i^{(m)}}\right)$

令
$\epsilon_m = \sum_{y_i \neq k_m(x_i)} w_i^{(m)} / \sum_{i=1}^N w_i^{(m)}$ ，则：

α m = 1 2 ln (1 - ϵ m ϵ m)

$\alpha_m = \frac{1}{2}\ln\left( \frac{1 - \epsilon_m}{\epsilon_m}\right)$

参考：

https://mp.weixin.qq.com/s/G06VDc6iTwmNGsH4IfSeJQ

Adaboost从原理到实现

https://mp.weixin.qq.com/s/PZ-1fkNvdJmv_8zLbvoW1g

Adaboost算法原理小结

https://mp.weixin.qq.com/s/KoOUgwXLOfJfOjWhbFX52Q

如果Boosting你懂，那Adaboost你懂么？

https://mp.weixin.qq.com/s/Joz2FpGgBY0tC8lpoFz8Mw

AdaBoost元算法如何提高分类性能——机器学习实战

https://mp.weixin.qq.com/s/MLEVUKse5usmKIWJF-yfOQ

通俗易懂讲解自适应提升算法AdaBoost

机器学习（三十二）——t-SNE, Adaboost相关推荐

Spark机器学习实战 (十二) - 推荐系统实战
0 相关源码将结合前述知识进行综合实战,以达到所学即所用.在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统. 1 ...
深度学习入门（三十二）卷积神经网络——BN批量归一化
深度学习入门(三十二)卷积神经网络--BN批量归一化前言批量归一化batch normalization 课件批量归一化批量归一化层批量归一化在做什么? 总结教材 1 训练深层网络 2 批 ...
axi dma 寄存器配置_FPGA Xilinx Zynq 系列（三十二）AXI 接口
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分.大侠可以关注FPGA技术江湖,在"闯荡江湖"."行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢. ...
ASP 三十二条精华代码
整理收藏: ASP 三十二条精华代码 1. οncοntextmenu="window.event.returnvalue=false" 将彻底屏蔽鼠标右键 <table b ...
tensorflow学习笔记(三十二):conv2d_transpose (解卷积)
tensorflow学习笔记(三十二):conv2d_transpose ("解卷积") deconv解卷积,实际是叫做conv_transpose, conv_transpose ...
OpenCV学习笔记（三十一）——让demo在他人电脑跑起来 OpenCV学习笔记（三十二）——制作静态库的demo，没有dll也能hold住 OpenCV学习笔记（三十三）——用haar特征训练自己
OpenCV学习笔记(三十一)--让demo在他人电脑跑起来这一节的内容感觉比较土鳖.这从来就是一个老生常谈的问题.学MFC的时候就知道这个事情了,那时候记得老师强调多次,如果写的demo想在人家那 ...
三十二、Java集合中的ArrayList
@Author:Runsen @Date:2020/6/3 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘课严重,专业排名 ...
python建站部署_SpringBoot入门建站全系列（三十二）接入xxl-job分布式任务调度平台...
SpringBoot入门建站全系列(三十二)接入xxl-job分布式任务调度平台一.概述 XXL-JOB是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速.学习简单.轻量级.易扩展.现已开放源 ...
Android项目实战（三十二）：圆角对话框Dialog
原文:Android项目实战(三十二):圆角对话框Dialog 前言: 项目中多处用到对话框,用系统对话框太难看,就自己写一个自定义对话框. 对话框包括:1.圆角 2.app图标 , 提示文本,关闭对 ...

机器学习（三十二）——t-SNE, Adaboost

t-SNE（续）

SNE

如何确定
$\sigma$

Symmetric SNE

t-SNE

参考

Adaboost

机器学习（三十二）——t-SNE, Adaboost相关推荐

最新文章

热门文章

机器学习（三十二）——t-SNE, Adaboost

t-SNE（续）

SNE

如何确定σσ <![CDATA[ \sigma ]]>

Symmetric SNE

t-SNE

参考

Adaboost

机器学习（三十二）——t-SNE, Adaboost相关推荐

最新文章

热门文章

如何确定
$\sigma$