降维系列之 LE 拉普拉斯特征映射

优化目标

接上篇PCA继续写降维。LE也是一种经典的降维方法和流形学习方法。给定样本集X∈RD×nX\in \mathbb{R}^{D\times n}X∈RD×n，DDD是样本原始维度，nnn是样本数量，每一列表示一个样本；求解目标是Y∈Rd×nY\in \mathbb{R}^{d\times n}Y∈Rd×n，ddd为目标维度，每一列表示一个样本。
与PCA不同的是，LE是一种非线性的方法，它是直接将YYY求出来，不需要计算投影矩阵。LE首先度量XXX中每两个样本之间的距离权重，组成一个权重矩阵WWW，其第i,j(i≠j)i,j(i\neq j)i,j(i=j)个元素WijW_{ij}Wij定义为：
Wij={exp(−∥xi−xj∥22t)if∥xi−xj∥22<ε0elseW_{ij}=\left\{ \begin{array}{ccl} exp(-\frac{\|x_i-x_j\|_2^2}{t}) & & {if\ \|x_i-x_j\|_2^2 < \varepsilon }\\ 0 & & {else} \end{array} \right. Wij={exp(−t∥xi−xj∥22)0if ∥xi−xj∥22<εelse

若i=ji=ji=j，WijW_{ij}Wij直接置000。其中xi,xjx_i,x_jxi,xj分别表示XXX的第i,ji,ji,j个样本，t,εt,\varepsilont,ε是可调节的参数。可以看出在这种定义中，如果两样本的距离（二范数度量）小于阈值ε\varepsilonε则赋予一连接权重，并且距离越远权重越小，距离越近权重越大。通过权重矩阵WWW，LE记录了XXX中任意两样本之间的连接关系。
LE希望降完维后各样本仍保持这种邻近关系，原本距离远的点仍然距离较远，原本距离近的点仍然距离较近，因此用已经计算出的WijW_{ij}Wij仍作为YYY中样本之间的连接权重，并最小化连接的加权和：
min⁡Y12∑i,j=1nWij∥yi−yj∥22\min_Y \frac{1}{2} \sum_{i,j=1}^n W_{ij}\|y_i-y_j\|_2^2 Ymin21i,j=1∑nWij∥yi−yj∥22

约束条件后面再谈。
显然yi,yjy_i,y_jyi,yj分别是样本xi,xjx_i,x_jxi,xj降完维后的结果，是YYY的第i,ji,ji,j列。这就是LE的优化目标。

Lagrangian乘子法求解

下面做推导：
12∑i,j=1nWij∥yi−yj∥22=12∑i,j=1nWij(yi−yj)T(yi−yj)=12∑i,j=1nWij(yiTyi+yjTyj−2yiTyj)=12∑i,j=1nWij(yiTyi+yjTyj)−∑i=1n∑j=1nWijyiTyj=∑i=1nDiiyiTyi−∑i=1nyiT∑j=1nWijyj=∑i=1nDiiyiTyi−∑i=1nyiT(YW)i=tr(YDYT)−tr(YWYT)=tr[Y(D−W)YT]=tr(YLYT)s.t.YDYT=I\frac{1}{2} \sum_{i,j=1}^n W_{ij}\|y_i-y_j\|_2^2 \\ =\frac{1}{2} \sum_{i,j=1}^n W_{ij}(y_i-y_j)^T(y_i-y_j) \\ =\frac{1}{2} \sum_{i,j=1}^n W_{ij}(y_i^Ty_i+y_j^Ty_j-2y_i^Ty_j) \\ =\frac{1}{2} \sum_{i,j=1}^n W_{ij}(y_i^Ty_i+y_j^Ty_j)-\sum_{i=1}^n \sum_{j=1}^n W_{ij}y_i^Ty_j \\ =\sum_{i=1}^nD_{ii}y_i^Ty_i-\sum_{i=1}^n y_i^T \sum_{j=1}^n W_{ij}y_j \\ =\sum_{i=1}^n D_{ii}y_i^Ty_i -\sum_{i=1}^n y_i^T(YW)_i \\ =tr(YDY^T)-tr(YWY^T) \\ =tr[Y(D-W)Y^T]=tr(YLY^T) \\ s.t.\ YDY^T=I 21i,j=1∑nWij∥yi−yj∥22=21i,j=1∑nWij(yi−yj)T(yi−yj)=21i,j=1∑nWij(yiTyi+yjTyj−2yiTyj)=21i,j=1∑nWij(yiTyi+yjTyj)−i=1∑nj=1∑nWijyiTyj=i=1∑nDiiyiTyi−i=1∑nyiTj=1∑nWijyj=i=1∑nDiiyiTyi−i=1∑nyiT(YW)i=tr(YDYT)−tr(YWYT)=tr[Y(D−W)YT]=tr(YLYT)s.t. YDYT=I

其中DDD是度矩阵，是一个对角矩阵，L=D−WL=D-WL=D−W是拉普拉斯矩阵，DiiD_{ii}Dii的值为：
Dii=∑j=1nWijD_{ii}=\sum_{j=1}^nW_{ij} Dii=j=1∑nWij

使用Lagrangian乘子法：
L(Y,λ)=tr(YLYT)+tr[λ(I−YDYT)]L(Y,\lambda)=tr(YLY^T)+ tr[\lambda(I-YDY^T)] L(Y,λ)=tr(YLYT)+tr[λ(I−YDYT)]

λ\lambdaλ是个对角矩阵。令偏导为0：
∂∂YL(Y,λ)=2YL−2λYD=0(LT=L,DT=D)LYT=DYTλ∂∂λL(Y,λ)=I−YDYT=0YDYT=I\frac{\partial}{\partial Y}L(Y,\lambda)=2YL-2\lambda YD=0\ (L^T=L,D^T=D)\\ LY^T=DY^T\lambda \\ \frac{\partial}{\partial \lambda}L(Y, \lambda)= I-YDY^T=0 \\ YDY^T=I \\ ∂Y∂L(Y,λ)=2YL−2λYD=0 (LT=L,DT=D)LYT=DYTλ∂λ∂L(Y,λ)=I−YDYT=0YDYT=I

从LYT=DYTλLY^T=DY^T\lambdaLYT=DYTλ可知，YTY^TYT的每一列，即YYY的每一行，都是LLL相对于DDD的广义特征向量（或称为D−1LD^{-1}LD−1L的特征向量），对应的λ\lambdaλ的对角元是对应的特征值。

将LYT=DYTλLY^T=DY^T\lambdaLYT=DYTλ代回原式：
tr(YLYT)=tr(YDYTλ=tr(λ))tr(YLY^T)=tr(YDY^T\lambda=tr(\lambda)) tr(YLYT)=tr(YDYTλ=tr(λ))

因此就能知道为了让tr(YLYT)tr(YLY^T)tr(YLYT)最小，等价于让tr(λ)tr(\lambda)tr(λ)最小，即要选择最小的ddd个特征值对应的特征向量组成YYY。

这里还有一个问题，由于L=D−WL=D-WL=D−W，而W,LW,LW,L都是对称矩阵，LiiL_{ii}Lii恰好就是WWW的第iii行元素（或第iii列元素）之和，因此LiiL_{ii}Lii就等于LLL第iii行其他元素之和。若有向量e=[1,⋯,1]T∈RDe=[1,\cdots,1]^T\in \mathbb{R}^{D}e=[1,⋯,1]T∈RD，则一定有：
Le=0⋅eLe=0\cdot e Le=0⋅e

这告诉我们000一定是D−1LD^{-1}LD−1L的一个特征值，对应的特征向量是eee，无论X,WX,WX,W是怎样的。这显然不是我们想要的，因此作为最终解，会选取D−1LD^{-1}LD−1L最小的ddd个非0特征值对应的特征向量组成YYY。

解法2

如果你和我曾经一样认为Lagrangian乘子法中直接设λ\lambdaλ为对角矩阵不符合Lagrangian乘子法的思想，这里再给另一种解法，这种解法类似于我在PCA这篇文章中给出的d>1d>1d>1时的解1.

从这里开始：
tr(YLYT)s.t.YDYT=Itr(YLY^T) \\ s.t.\ YDY^T=I tr(YLYT)s.t. YDYT=I

假设Y∈Rd×nY\in \mathbb{R}^{d\times n}Y∈Rd×n的第iii行为YiY^iYi，则上式可以另写为如下形式：
∑i=1dYiL(Yi)Ts.t.YiD(Yi)T=1,YiD(Yj)T=0\sum_{i=1}^d Y^iL(Y^i)^T \\ s.t.\ Y^iD(Y^i)^T=1,Y^iD(Y^j)^T=0 i=1∑dYiL(Yi)Ts.t. YiD(Yi)T=1,YiD(Yj)T=0

列Lagrangian乘子法：
L(Y,λ,ρ)=∑i=1dYiL(Yi)T+∑i=1dλi[1−YiD(Yi)T]−∑j≠idρjYiD(Yj)TL(Y,\lambda,\rho)=\sum_{i=1}^d Y^iL(Y^i)^T+\sum_{i=1}^d \lambda_i[1-Y^iD(Y^i)^T]-\sum_{j\neq i}^d \rho_j Y^iD(Y^j)^T L(Y,λ,ρ)=i=1∑dYiL(Yi)T+i=1∑dλi[1−YiD(Yi)T]−j=i∑dρjYiD(Yj)T

对YiY^iYi求导并令结果为000：
∂∂YiL(Y,λ,ρ)=2L(Yi)T−2λiD(Yi)T−ρjD(Yj)T=0\frac{\partial}{\partial Y^i}L(Y,\lambda,\rho)=2L(Y^i)^T-2\lambda_i D(Y^i)^T-\rho_jD(Y^j)^T=0 ∂Yi∂L(Y,λ,ρ)=2L(Yi)T−2λiD(Yi)T−ρjD(Yj)T=0

因为对λi,ρi\lambda_i,\rho_iλi,ρi求导的结果根本就是等式约束，所以这里不赘述。对上式左右同乘YiY^iYi：
2YiL(Yi)T=2YiλiD(Yi)T+ρjYiD(Yj)TYiL(Yi)T=YiλiD(Yi)TL(Yi)T=λiD(Yi)T2Y^iL(Y^i)^T=2Y^i\lambda_iD(Y^i)^T+\rho_jY^iD(Y^j)^T \\ Y^iL(Y^i)^T=Y^i\lambda_iD(Y^i)^T \\ L(Y^i)^T=\lambda_iD(Y^i)^T 2YiL(Yi)T=2YiλiD(Yi)T+ρjYiD(Yj)TYiL(Yi)T=YiλiD(Yi)TL(Yi)T=λiD(Yi)T

跟前面得到的结果完全一样。我这也算是证明了这两种解法等价呢，嘿嘿。这里面一个关键点在于，我们确信YiY^iYi不可能是全0向量，因为那样毫无意义。

总结

推导上比较难想到的一点还是∑i=1n∑j=1nWijyiTyj=tr(YWYT)\sum_{i=1}^n \sum_{j=1}^n W_{ij}y_i^Ty_j=tr(YWY^T)∑i=1n∑j=1nWijyiTyj=tr(YWYT)。这个推导告诉我们这样的式子是可以写成简洁形式的。