降维系列之 MDS多维缩放与 ISOMAP 等度量映射

主要思路

MDS（Multi-dimensional Scaling）是一种经典的降维方法。本文主要参考这个PPT。
给定样本集X=[x1,⋯,xn]∈RD×nX=[x_1,\cdots,x_n]\in \mathbb{R}^{D\times n}X=[x1,⋯,xn]∈RD×n，其中nnn表示样本数量，DDD表示维度，每一列表示一个样本，以及一种满足如下条件的度量方式dabd_{ab}dab：

dab≥0d_{ab}\ge 0dab≥0
dab=0,ifa=bd_{ab}=0,\ if\ a=bdab=0, if a=b
dab=d(b,a)d_{ab}=d(b,a)dab=d(b,a)
dac≤dab+dbcd_{ac}\le d_{ab}+d_{bc}dac≤dab+dbc

一般假设ddd取欧氏距离。MDS希望寻找到降完维后的结果Y=[y1,⋯,yn]∈Rd×nY=[y_1,\cdots,y_n]\in \mathbb{R}^{d\times n}Y=[y1,⋯,yn]∈Rd×n尽可能满足：
dij=∥yi−yj∥2d_{ij}=\| y_i-y_j \|_2 dij=∥yi−yj∥2

而dijd_{ij}dij由xi,xjx_i,x_jxi,xj的欧氏距离定义。

经典MDS的解

假设现在已经找到了YYY使得其中恰好能满足：
dij=∥yi−yj∥2d_{ij}=\|y_i-y_j\|_2 dij=∥yi−yj∥2

然而对于任意c∈Rd×1c\in \mathbb{R}^{d\times 1}c∈Rd×1都有：
∥(yi+c)−(yj+c)∥2=dij=∥yi−yj∥2=dij\|(y_i+c)-(y_j+c) \|_2=d_{ij}=\|y_i-y_j\|_2=d_{ij} ∥(yi+c)−(yj+c)∥2=dij=∥yi−yj∥2=dij

也就是说只要有一组解满足条件，通过平移就一定能得到无限多组解满足条件，因此MDS加了一个限制来避免这种情况：
∑i=1nYij=0,forallj\sum_{i=1}^n Y_{ij}=0,for\ all\ j i=1∑nYij=0,for all j

即限制YYY的行之和为0，这就是要让求出的YYY是经过中心化的。

在求解时，MDS构造矩阵B=YTYB=Y^TYB=YTY，这样优化目标就变成了：
dij2=∥yi−yj∥22=yiTyi+yjTyj−2yiTyj=bii+bjj−2bijd_{ij}^2=\|y_i-y_j\|_2^2=y_i^Ty_i+y_j^Ty_j-2y_i^Ty_j=b_{ii}+b_{jj}-2b_{ij} dij2=∥yi−yj∥22=yiTyi+yjTyj−2yiTyj=bii+bjj−2bij

其中bijb_{ij}bij是BBB的第(i,j)(i,j)(i,j)个元素。现在希望把bijb_{ij}bij用dijd_{ij}dij表示出来。

有如下的等式关系是成立的：
∑i=1ndij2=∑i=1nyiTyi+nyjTyj−2(∑i=1nyiT)yj=tr(B)+nbjj∑j=1ndij2=∑i=1nyjTyj+nyiTyi−2yi(∑i=1nyj)=tr(B)+nbii∑i=1n∑j=1ndij2=∑i=1n∑j=1n(yiTyi+yjTyj−2yiTyj)=2ntr(B)\sum_{i=1}^n d_{ij}^2=\sum_{i=1}^ny_i^Ty_i+ny_j^Ty_j-2(\sum_{i=1}^ny_i^T)y_j=tr(B)+nb_{jj} \\ \sum_{j=1}^n d_{ij}^2 = \sum_{i=1}^ny_j^Ty_j+ny_i^Ty_i-2y_i(\sum_{i=1}^ny_j)=tr(B)+nb_{ii} \\ \sum_{i=1}^n\sum_{j=1}^nd_{ij}^2=\sum_{i=1}^n\sum_{j=1}^n(y_i^Ty_i+y_j^Ty_j-2y_i^Ty_j)=2ntr(B) i=1∑ndij2=i=1∑nyiTyi+nyjTyj−2(i=1∑nyiT)yj=tr(B)+nbjjj=1∑ndij2=i=1∑nyjTyj+nyiTyi−2yi(i=1∑nyj)=tr(B)+nbiii=1∑nj=1∑ndij2=i=1∑nj=1∑n(yiTyi+yjTyj−2yiTyj)=2ntr(B)

这主要是因为YYY是中心化的，因此各向量之和∑i=1nyiT,∑j=1nyjT\sum_{i=1}^n y_i^T,\sum_{j=1}^n y_j^T∑i=1nyiT,∑j=1nyjT为全0向量。进一步有：
tr(B)=12n∑i=1n∑j=1ndij2bii=1n∑j=1ndij2−12n2∑i=1n∑j=1ndij2bjj=1n∑i=1ndij2−12n2∑i=1n∑j=1ndij2tr(B)=\frac{1}{2n}\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2 \\ b_{ii} =\frac{1}{n} \sum_{j=1}^n d_{ij}^2 - \frac{1}{2n^2}\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2 \\ b_{jj} = \frac{1}{n} \sum_{i=1}^n d_{ij}^2-\frac{1}{2n^2}\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2 tr(B)=2n1i=1∑nj=1∑ndij2bii=n1j=1∑ndij2−2n21i=1∑nj=1∑ndij2bjj=n1i=1∑ndij2−2n21i=1∑nj=1∑ndij2

因此：
bij=−12(dij2−bii−bjj)=−12(dij2−1n∑j=1ndij2−1n∑i=1ndij2+1n2∑i=1n∑j=1ndij2)b_{ij}=-\frac{1}{2}(d_{ij}^2-b_{ii}-b_{jj})=-\frac{1}{2}(d_{ij}^2-\frac{1}{n} \sum_{j=1}^n d_{ij}^2 -\frac{1}{n} \sum_{i=1}^n d_{ij}^2+\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^nd_{ij}^2) bij=−21(dij2−bii−bjj)=−21(dij2−n1j=1∑ndij2−n1i=1∑ndij2+n21i=1∑nj=1∑ndij2)

这样就能求出BBB矩阵了。而B=YTYB=Y^TYB=YTY，对BBB做特征值分解得：
B=VΛVT=VΛ1/2Λ1/2VT=YTYB=VΛV^T=VΛ^{1/2}Λ^{1/2}V^T=Y^TY B=VΛVT=VΛ1/2Λ1/2VT=YTY

其中Λ=diag(λ1,⋯,λn)Λ=diag(\lambda_1,\cdots,\lambda_n)Λ=diag(λ1,⋯,λn)为特征值从大到小排列构成的对角矩阵，VVV是特征向量矩阵。因此可知：
Y=Λ1/2VTY=Λ^{1/2}V^T Y=Λ1/2VT

降维的时候，就选择前ddd大的特征值及其对应的特征向量构成ΛΛΛ和VVV即可。

MDS总结

BBB是n×nn\times nn×n的矩阵，特征分解B=VΛVTB=VΛV^TB=VΛVT，最多也就nnn个特征值，因此V×Rn×nV\times \mathbb{R}^{n\times n}V×Rn×n，也就是说做到这里的时候VVV就是nnn维的，是满足bij=dijb_{ij}=d_{ij}bij=dij的，是把DDD维的XXX变成了nnn维的BBB。
如果要寻求维度低于nnn的ddd维的YYY的话，“取前ddd大的特征值及其对应的特征向量”这种选法相当于在对BBB做PCA，因为对称矩阵BBB的特征分解和SVD分解是等价的，其奇异值是特征值的平方。
所以MDS真的有点奇怪，为什么要先求BBB再做PCA呢，难道原矩阵XXX不就是维持样本间距离的最好最原始的表达么，为什么不直接做PCA。

MDS的推导与其他降维方法不同，是直接推出来的，没有迭代或乘子法。

ISOMAP等度量映射

ISOMAP构建DDD的方法与MDS不同，后面的步骤都一样。它会先寻找每个样本的kkk近邻，样本与其近邻之间的距离用欧氏距离度量，与非近邻之间的距离为无穷大，然后用最短路径算法（Dijkstra或者Floyd）来构建DDD矩阵。然后再做MDS。这种度量方法叫做“测地线距离”，相比于MDS，可以更好的控制数据信息的流失，能够在低维空间中更加全面的将高维空间的数据表现出来。