降维是机器学习中很有意思的一部分,很多时候它是无监督的,能够更好地刻画数据,对模型效果提升也有帮助,同时在数据可视化中也有着举足轻重的作用。

一说到降维,大家第一反应总是PCA,基本上每一本讲机器学习的书都会提到PCA,而除此之外其实还有很多很有意思的降维算法,其中就包括isomap,以及isomap中用到的MDS。

ISOMAP是‘流形学习’中的一个经典算法,流形学习贡献了很多降维算法,其中一些与很多机器学习算法也有结合,但上学的时候还看了蛮多的机器学习的书,从来没听说过流形学习的概念,还是在最新的周志华版的《机器学习》里才看到,很有意思,记录分享一下。

流形学习

流形学习应该算是个大课题了,它的基本思想就是在高维空间中发现低维结构。比如这个图:
这些点都处于一个三维空间里,但我们人一看就知道它像一块卷起来的布,图中圈出来的两个点更合理的距离是A中蓝色实线标注的距离,而不是两个点之间的欧式距离(A中蓝色虚线)。

此时如果你要用PCA降维的话,它根本无法发现这样卷曲的结构(因为PCA是典型的线性降维,而图示的结构显然是非线性的),最后的降维结果就会一团乱麻,没法很好的反映点之间的关系。而流形学习在这样的场景就会有很好的效果。

我对流形学习本身也不太熟悉,还是直接说算法吧。

ISOMAP

在降维算法中,一种方式是提供点的坐标进行降维,如PCA;另一种方式是提供点之间的距离矩阵,ISOMAP中用到的MDS(Multidimensional Scaling)就是这样。
在计算距离的时候,最简单的方式自然是计算坐标之间的欧氏距离,但ISOMAP对此进行了改进,就像上面图示一样:

**1.**通过kNN(k-Nearest Neighbor)找到点的k个最近邻,将它们连接起来构造一张图。
**2.**通过计算同中各点之间的最短路径,作为点之间的距离dijd_{ij}dij​放入距离矩阵DDD
**3.**将DDD传给经典的MDS算法,得到降维后的结果。

ISOMAP本身的核心就在构造点之间的距离,初看时不由得为其拍案叫绝,类似的思想在很多降维算法中都能看到,比如能将超高维数据进行降维可视化的t-SNE。
ISOMAP效果,可以看到选取的最短路径比较好地还原了期望的蓝色实线,用这个数据进行降维会使流形得以保持:

ISOMAP算法步骤可谓清晰明了,所以本文主要着重讲它中间用到的MDS算法,也是很有意思的。

经典MDS(Multidimensional Scaling)

如上文所述,MDS接收的输入是一个距离矩阵DDD,我们把一些点画在坐标系里:

如果只告诉一个人这些点之间的距离(假设是欧氏距离),他会丢失那些信息呢?
**a.**我们对点做平移,点之间的距离是不变的。
**b.**我们对点做旋转、翻转,点之间的距离是不变的。

所以想要从DDD还原到原始数据XXX是不可能的,因为只给了距离信息之后本身就丢掉了很多东西,不过不必担心,即使这样我们也可以对数据进行降维。

我们不妨假设:XXX是一个n×qn \times qn×q的矩阵,n为样本数,q是原始的维度
计算一个很重要的矩阵BBB:
B=XXT(n×n)=(XM)(XM)T(M是一组正交基)=XMMTX=XXT\begin{aligned} B &= XX^T \space\space\space\space(n\times n) \\ &= (XM)(XM)^T \space\space\space\space(M是一组正交基)\\ &= XMM^TX \\ &= XX^T \end{aligned} B​=XXT    (n×n)=(XM)(XM)T    (M是一组正交基)=XMMTX=XXT​
可以看到我们通过MMM对XXX做正交变换并不会影响BBB的值,而正交变换刚好就是对数据做旋转、翻转操作的
所以如果我们想通过BBB反算出XXX,肯定是没法得到真正的XXX,而是它的任意一种正交变换后的结果。

B中每个元素的值为:
bij=∑k=1qxikxjk\begin{aligned} b_{ij} &= \sum_{k=1}^{q}x_{ik}x_{jk} \end{aligned} bij​​=k=1∑q​xik​xjk​​
计算距离矩阵DDD,其中每个元素值为:
dij2=(xi−xj)2=∑k=1q(xik−xjk)2=∑k=1qxik2+xjk2−2xikxjk=bii+bjj−2bij\begin{aligned} d_{ij}^2 &= (x_i-x_j)^2 \\ &= \sum_{k=1}^{q}(x_{ik}-x_{jk})^2\\ &= \sum_{k=1}^{q}x_{ik}^2+x_{jk}^2-2x_{ik}x_{jk}\\ &=b_{ii}+b_{jj}-2b_{ij} \end{aligned} dij2​​=(xi​−xj​)2=k=1∑q​(xik​−xjk​)2=k=1∑q​xik2​+xjk2​−2xik​xjk​=bii​+bjj​−2bij​​\tag{dij_square}\label{dij_square}
这时候我们有的只有DDD,如果能通过DDD计算出BBB,再由BBB计算出XXX,不就达到效果了吗。

所以思路是:从D->B->X
此时我们要对X加一些限制,前面说过我们平移所有点是不会对距离矩阵造成影响的,所以我们就把数据的中心点平移到原点,对X做如下限制(去中心化):
∑i=1nxik=0,forallk=1..q\begin{aligned} \sum_{i=1}^nx_{ik} = 0, for \space all \space k =1..q \end{aligned} i=1∑n​xik​=0,for all k=1..q​
所以有
∑j=1nbij=∑j=1n∑k=1qxikxjk=∑k=1qxik(∑j=1nxjk)=0\begin{aligned} \sum_{j=1}^nb_{ij} &= \sum_{j=1}^n\sum_{k=1}^{q}x_{ik}x_{jk}\\ &=\sum_{k=1}^{q}x_{ik}\left(\sum_{j=1}^nx_{jk}\right)\\ &=0 \end{aligned} j=1∑n​bij​​=j=1∑n​k=1∑q​xik​xjk​=k=1∑q​xik​(j=1∑n​xjk​)=0​
类似的
∑i=1nbij=∑i=1n∑k=1qxikxjk=∑k=1qxjk(∑i=1nxik)=0\begin{aligned} \sum_{i=1}^nb_{ij} &= \sum_{i=1}^n\sum_{k=1}^{q}x_{ik}x_{jk}\\ &=\sum_{k=1}^{q}x_{jk}\left(\sum_{i=1}^nx_{ik}\right)\\ &=0 \end{aligned} i=1∑n​bij​​=i=1∑n​k=1∑q​xik​xjk​=k=1∑q​xjk​(i=1∑n​xik​)=0​
可以看到即BBB的任意行(row)之和以及任意列(column)之和都为0了。

设T为BBB的trace,则有:
∑i=1ndij2=∑i=1nbii+bjj−2bij=T+nbjj+0\begin{aligned} \sum_{i=1}^nd_{ij}^2 &= \sum_{i=1}^n b_{ii}+b_{jj}-2b_{ij}\\ &= T + nb_{jj} + 0 \end{aligned} i=1∑n​dij2​​=i=1∑n​bii​+bjj​−2bij​=T+nbjj​+0​
∑j=1ndij2=∑j=1nbii+bjj−2bij=nbii+T+0\begin{aligned} \sum_{j=1}^nd_{ij}^2 &= \sum_{j=1}^n b_{ii}+b_{jj}-2b_{ij}\\ &= nb_{ii} + T + 0 \end{aligned} j=1∑n​dij2​​=j=1∑n​bii​+bjj​−2bij​=nbii​+T+0​
∑i=1n∑j=1ndij2=2nT\begin{aligned} \sum_{i=1}^n\sum_{j=1}^nd_{ij}^2 &= 2nT \end{aligned} i=1∑n​j=1∑n​dij2​​=2nT​
得到B:根据公式 \eqref{dij_square}我们有:
bij=−12(dij2−bii−bjj)\begin{aligned} b_{ij} &= -\frac12(d_{ij}^2-b_{ii}-b_{jj}) \end{aligned} bij​​=−21​(dij2​−bii​−bjj​)​
而(根据前面算∑i=1ndij2\sum_{i=1}^nd_{ij}^2∑i=1n​dij2​,∑j=1ndij2\sum_{j=1}^nd_{ij}^2∑j=1n​dij2​和∑i=1n∑j=1ndij2\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2∑i=1n​∑j=1n​dij2​的公式可以得到)
bii=−Tn+1n∑j=1ndij2bjj=−Tn+1n∑i=1ndij22Tn=1n2∑i=1n∑j=1ndij2\begin{aligned} b_{ii} &= -\frac{T}n+\frac1n\sum_{j=1}^nd_{ij}^2\\ b_{jj} &= -\frac{T}n+\frac1n\sum_{i=1}^nd_{ij}^2\\ \frac{2T}{n} &= \frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2 \end{aligned} bii​bjj​n2T​​=−nT​+n1​j=1∑n​dij2​=−nT​+n1​i=1∑n​dij2​=n21​i=1∑n​j=1∑n​dij2​​
所以
bij=−12(dij2−bii−bjj)=−12(dij2−1n∑j=1ndij2−1n∑i=1ndij2+2Tn)=−12(dij2−1n∑j=1ndij2−1n∑i=1ndij2+1n2∑i=1n∑j=1ndij2)=−12(dij2−di⋅2−d⋅j2+d⋅⋅2)\begin{aligned} b_{ij} &= -\frac12(d_{ij}^2-b_{ii}-b_{jj})\\ &= -\frac12(d_{ij}^2-\frac1n\sum_{j=1}^nd_{ij}^2-\frac1n\sum_{i=1}^nd_{ij}^2+\frac{2T}{n})\\ &= -\frac12(d_{ij}^2-\frac1n\sum_{j=1}^nd_{ij}^2-\frac1n\sum_{i=1}^nd_{ij}^2+\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2)\\ &= -\frac12(d_{ij}^2-d_{i\cdot}^2-d_{\cdot j}^2+d_{\cdot\cdot}^2) \end{aligned} bij​​=−21​(dij2​−bii​−bjj​)=−21​(dij2​−n1​j=1∑n​dij2​−n1​i=1∑n​dij2​+n2T​)=−21​(dij2​−n1​j=1∑n​dij2​−n1​i=1∑n​dij2​+n21​i=1∑n​j=1∑n​dij2​)=−21​(dij2​−di⋅2​−d⋅j2​+d⋅⋅2​)​
可以看到di⋅2d_{i\cdot}^2di⋅2​ 是D2D^2D2行均值;d⋅j2d_{\cdot j}^2d⋅j2​是列均值;d⋅⋅2d_{\cdot\cdot}^2d⋅⋅2​ 是矩阵的均值。

这样我们就可以通过矩阵DDD得到矩阵BBB了

因为B是对称的矩阵,所以可以通过特征分解得到:
B=VΛV−1=VΛVT\begin{aligned} B &= V\Lambda V^{-1}\\ &= V\Lambda V^T \end{aligned} B​=VΛV−1=VΛVT​
在最开始我们其实做了一个假设,即DDD是由一个n×qn \times qn×q的数据XXX生成的,如果事实是这样的,DDD会是一个对称实矩阵,此时得到的BBB刚好会有qqq个非0的特征值,也就是说BBB的秩等于qqq,如果我们想还原XXX,就选择前qqq个特征值和特征向量;如果想要达到降维的目的,就选择制定的ppp个(p&lt;qp&lt;qp<q)。

此时我们选择前ppp个特征值和特征向量,(这一步和PCA里面很类似):
B∗=V∗Λ∗V∗TV∗(n×p),Λ∗(p×p)\begin{aligned} B^* = V^*\Lambda ^* V^{*T} \\ V^*(n \times p), \Lambda^* (p \times p) \end{aligned} B∗=V∗Λ∗V∗TV∗(n×p),Λ∗(p×p)​
所以有(Λ\LambdaΛ是特征值组成的对角矩阵):
B∗=V∗Λ∗12∗Λ∗12V∗T=X∗X∗T\begin{aligned} B^* &amp;= V^*{\Lambda ^*}^{\frac12}*{\Lambda ^*}^{\frac12} V^{*T}\\ &amp;= X^*{X^*}^T \end{aligned} B∗​=V∗Λ∗21​∗Λ∗21​V∗T=X∗X∗T​
因此
X∗=V∗Λ∗12X^* = V^*{\Lambda ^*}^{\frac12} X∗=V∗Λ∗21​
如果选择p=qp=qp=q的话,此时得到的X∗X^*X∗就是原数据去中心化并做了某种正交变换后的值了。

MDS的例子

举个例子:拿美国一些大城市之间的距离作为矩阵传进去,简单写一写代码:

import numpy as np
import matplotlib.pyplot as pltdef mds(D,q):D = np.asarray(D)DSquare = D**2totalMean = np.mean(DSquare)columnMean = np.mean(DSquare, axis = 0)rowMean = np.mean(DSquare, axis = 1)B = np.zeros(DSquare.shape)for i in range(B.shape[0]):for j in range(B.shape[1]):B[i][j] = -0.5*(DSquare[i][j] - rowMean[i] - columnMean[j]+totalMean)eigVal,eigVec = np.linalg.eig(B)X = np.dot(eigVec[:,:q],np.sqrt(np.diag(eigVal[:q])))return XD = [[0,587,1212,701,1936,604,748,2139,2182,543],
[587,0,920,940,1745,1188,713,1858,1737,597],
[1212,920,0,879,831,1726,1631,949,1021,1494],
[701,940,879,0,1374,968,1420,1645,1891,1220],
[1936,1745,831,1374,0,2339,2451,347,959,2300],
[604,1188,1726,968,2339,0,1092,2594,2734,923],
[748,713,1631,1420,2451,1092,0,2571,2408,205],
[2139,1858,949,1645,347,2594,2571,0,678,2442],
[2182,1737,1021,1891,959,2734,2408,678,0,2329],
[543,597,1494,1220,2300,923,205,2442,2329,0]]label = ['Atlanta','Chicago','Denver','Houston','Los Angeles','Miami','New York','San Francisco','Seattle','Washington, DC']
X = mds(D,2)
plt.plot(X[:,0],X[:,1],'o')
for i in range(X.shape[0]):plt.text(X[i,0]+25,X[i,1]-15,label[i])
plt.show()

最后画出来的图中,各个城市的位置和真实世界中的相对位置都差不多:

注意,这个例子中其实也有‘流形’在里面,因为我们的地球其实是一个三维,而城市间距离刻画的是在球面上的距离,所以最后如果你去看求出来的特征值,并不像前面说的那样只有q个非0的值。

reference

  1. 一个nthu的课程,除了pdf还有视频,本文绝大多数关于MDS的内容都是从这里整理的:http://101.96.10.65/www.stat.nthu.edu.tw/~swcheng/Teaching/stat5191/lecture/06_MDS.pdf
  2. 一个MDS的例子,用于数据可视化,例子的数据来源于这里。http://www.benfrederickson.com/multidimensional-scaling/
  3. 周志华《机器学习》

维度打击,机器学习中的降维算法:ISOMAP MDS相关推荐

  1. 维度打击,机器学习中的降维算法 ISOMAP MDS

    降维是机器学习中很有意思的一部分,很多时候它是无监督的,能够更好地刻画数据,对模型效果提升也有帮助,同时在数据可视化中也有着举足轻重的作用. 一说到降维,大家第一反应总是PCA,基本上每一本讲机器学习 ...

  2. 机器学习 降维算法: isomap MDS

    最近在看论文的时候看到论文中使用isomap算法把3D的人脸project到一个2D的image上.提到降维,我的第一反应就是PCA,然而PCA是典型的线性降维,无法较好的对非线性结构降维.ISOMA ...

  3. 数据降维算法isomap mds

    动机: 考虑pca在瑞士卷数据上的应用,有以下几个缺点 1.pca降维需要的维数比流形的维数更高 2.pca不能够捕捉曲线的维度 不适用储存欧几里得距离,我们使用测地线距离,获得真实的非线性几何的真实 ...

  4. svd降维 python案例_菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD

    菜菜的机器学习sklearn实战-----sklearn中的降维算法PCA和SVD 概述 从什么叫维度说开来 简单讲,shape中返回了几个数字就是几维. 一张表最多就是一维 当一个数组中存在2张3行 ...

  5. 机器学习-Sklearn-04(降维算法PCA和SVD)

    机器学习-Sklearn-04(降维算法PCA和SVD) 学习04 1 概述 1.1 从什么叫"维度"说开来 对于数组和Series来说,维度就是功能shape返回的结果,shap ...

  6. 什么是维度诅咒?如何评估降维算法在当前任务数据集上的效果?

    什么是维度诅咒?如何评估降维算法在当前任务数据集上的效果? 什么是维度诅咒? 随着维数(或特征)个数的增加,任意两个样本或者实例之间的平均距离也会增加,换句话说,在高维空间中,实例往往位于空间的边缘. ...

  7. louvian算法 缺点 优化_机器学习中的优化算法(1)-优化算法重要性,SGD,Momentum(附Python示例)...

    本系列文章已转至 机器学习的优化器​zhuanlan.zhihu.com 优化算法在机器学习中扮演着至关重要的角色,了解常用的优化算法对于机器学习爱好者和从业者有着重要的意义. 这系列文章先讲述优化算 ...

  8. 炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)...

    炼数成金数据分析课程---16.机器学习中的分类算法(交叉内容,后面要重点看) 一.总结 一句话总结: 大纲+实例快速学习法 主要讲解常用分类算法(如Knn.决策树.贝叶斯分类器等)的原理及pytho ...

  9. 机器学习中树模型算法总结之 决策树(下)

    写在前面 首先回顾一下上一篇的相关内容,主要是理论的介绍了决策树的模型及几种常见的特征选择准则,具体可参见机器学习中树模型算法总结之 决策树(上).今天主要接着学习,包括决策树的生成(依赖于第一篇的三 ...

  10. 机器学习中【回归算法】详解

    关注微信公众号[Microstrong],我写过四年Android代码,了解前端.熟悉后台,现在研究方向是机器学习.深度学习!一起来学习,一起来进步,一起来交流吧! 本文同步更新在我的微信公众号里,地 ...

最新文章

  1. Beep()之我迷糊了……
  2. Editplus查找替换的正则表达式应用说明
  3. kubernetes1.9管中窥豹-CRD概念、使用场景及实例
  4. 【leecode】小练习(简单8题)
  5. 计算机操作题如何打分,Excel操作题也能自动评分
  6. Mysql Workbench使用教程
  7. 传奇世界凤凰登陆器格式说明
  8. 计算机电源模式怎么删,电脑的电源选项里只剩下了平衡模式怎么办?
  9. 中医药大学计算机考试题,浙江中医药大学2013年级研究生《计算机应用》期末考试复习题...
  10. Latex中将图例(图1:)改为(图1-1)
  11. 5G QoS控制原理专题详解-基础概念(3)
  12. linux wchan含义,有关linux平台的ps命令
  13. 量子计算(5)基础知识3:量子逻辑门(下)
  14. Python使用网易的SMTP发送邮件554问题的解决
  15. 开普敦大学快速相关攻击项目的简单使用
  16. CodeForces - 31D Chocolate【几何】【连通块】
  17. Windows远程连接3389端口开启/关闭方法
  18. 【AD】Altium Designer PCB文件的绘制(下篇:PCB布线和后续)
  19. Python+Vue计算机毕业设计北理珠青协志愿素拓系统eaa9n(源码+程序+LW+部署)
  20. 舞乙HiME 舞HiME

热门文章

  1. Python3,一行代码实现文件夹共享,看到结果我酸了~
  2. meta-inf java_jar包中的META-INF 文件夹是干嘛的?
  3. centos 关机命令_全了 Linux 常用命令大汇集
  4. Python网络爬虫:下载漫画的正确姿势
  5. ns手柄pc驱动_支持amiibo和体感!switch游戏手柄莱仕达天弓NS体验
  6. CCIE总结:路由器、交换机
  7. Cadence仿真笔记(二):传统noise仿真—共源极的噪声
  8. 怎样做一个软件项目经理? ----写给公司全部的开发者
  9. PDFium使用分享
  10. Qt 判断鼠标在某一控件上