降维系列之 LLE 局部线性嵌入

基本思路

LLE（Local Linear Embedding）局部线性嵌入的思路也是局部保持与线性降维，是一种经典的降维与流形学习算法。给定 $X∈RD×nX\in \mathbb{R}^{D\times n}$ 表示原始的 $n$ 个样本，每列一个样本，欲求 $X$ 中这些样本降维后的结果 $Y∈Rd×n,d<DY\in \mathbb{R}^{d\times n},d<D$ .
为了记录原始样本分布的局部信息，LLE将 $X$ 中每个样本用其 $k$ 个近邻来表示（或称为“重建”），使其 $k$ 个近邻的加权和尽可能接近该样本，最小化重建误差，设第 $i$ 个样本 $x_i$ 的第 $j$ 个近邻 $x_{ij}$ 的重建权重为 $W_{ij}$ ，先计算这个 $W∈Rn×kW\in \mathbb{R}^{n\times k}$ 矩阵。
在降维的过程中，既然已经得到了 $W$ ，LLE希望降完维后的 $Y$ 中的各样本仍保持 $W$ 所描述的这种重建关系。
这就是LLE的思路，先记录样本及其近邻之间的关系，然后在降维时保持这种关系。

$W$ 矩阵求解

先来计算 $W$ 矩阵：
$min⁡W∑i=1n∥xi−∑j=1kWijxij∥22s.t.∑j=1kWij=1\min_W \sum_{i=1}^n\|x_i-\sum_{j=1}^kW_{ij}x_{ij} \|_2^2 \\ s.t.\ \sum_{j=1}^kW_{ij}=1$

$k$ 为近邻数量，是个可以调节的参数， $x_{ij}$ 是 $x_i$ 的第 $j$ 个近邻， $x_i,x_{ij}$ 都是列向量。这就是所谓的用来求 $W$ 的要最小化的“重建误差”。我们来求解。
$∑i=1n∥xi−∑j=1kWijxij∥22=∑i=1n∥∑j=1kWij(xi−xij)∥22=∑i=1n(Wix~iT)(x~iWiT)=∑i=1nWix~iTx~iWiTs.t.Wie=1Wi=[Wi1,Wi2,⋯,Wik]∈R1×kx~i=[xi−xi1,xi−xi2,⋯,xi−xik]∈RD×ke=[1,1,⋯,1]T∈Rk×1\sum_{i=1}^n\|x_i-\sum_{j=1}^kW_{ij}x_{ij} \|_2^2 \\ = \sum_{i=1}^n \|\sum_{j=1}^kW_{ij}(x_i-x_{ij}) \|_2^2 \\ = \sum_{i=1}^n (W_i \tilde{x}_i^T)(\tilde{x}_iW_i^T) \\ = \sum_{i=1}^n W_i \tilde{x}_i^T\tilde{x}_iW_i^T \\ s.t.\ W_ie=1 \\ W_i=[W_{i1},W_{i2},\cdots,W_{ik}]\in \mathbb{R}^{1\times k} \\ \tilde{x}_i=[x_i-x_{i1},x_i-x_{i2},\cdots,x_i-x_{ik}]\in \mathbb{R}^{D\times k} \\ e=[1,1,\cdots,1]^T\in \mathbb{R}^{k\times 1}$

变成这种形式后用Lagrangian乘子法求解：
$\lambda)=\sum_{i=1}^n W_i \tilde{x}_i^T\tilde{x}_iW_i^T + \lambda_i(1-W_ie)$

令偏导为 $0$ ：
$∂∂WiL(W,λ)=2Wix~iTx~i−λieT=0Wix~iTx~i=12λieTWi=12λieT(x~iTx~i)−1(1)\frac{\partial}{\partial W_i}L(W,\lambda)=2W_i\tilde{x}_i^T\tilde{x}_i-\lambda_ie^T=0 \\ W_i\tilde{x}_i^T\tilde{x}_i= \frac{1}{2} \lambda_ie^T\\ W_i= \frac{1}{2} \lambda_i e^T(\tilde{x}_i^T\tilde{x}_i)^{-1} \tag{1}$
$∂∂λiL(W,λi)=1−Wie=0Wie=112λieT(x~iTx~i)−1e=1(2)\frac{\partial}{\partial \lambda_i}L(W,\lambda_i)=1-W_ie=0 \\ W_ie=1 \\ \frac{1}{2} \lambda_i e^T(\tilde{x}_i^T\tilde{x}_i)^{-1}e=1 \tag{2}$

从公式 $(2)$ 可以解出 $λi\lambda_i$ ，代入公式 $(1)$ 可以解出 $W_i$ 。因为只能解出来一组结果，尽管是必要条件，但是也就这样了。
这样就得到了 $W$ 矩阵。

投影优化与求解

求出 $W$ 之后，如前所述，要在降维后的 $Y$ 中尽量保持 $W$ 所描述的重建关系，因此LLE列出了下优化目标：
$min⁡Y∑i=1n∥yi−∑j=1kWijyij∥22=∑i=1n∥YIi−Y∑j=1kWijI(i)j∥22=∑i=1n∥Y(Ii−W~iT)∥22=∑i=1n(IiT−W~i)YTY(Ii−W~iT)=tr(GTYTYG)s.t.YYT=I\min_Y \sum_{i=1}^n\| y_i-\sum_{j=1}^kW_{ij}y_{ij} \|_2^2 \\ =\sum_{i=1}^n\| YI_i- Y \sum_{j=1}^k W_{ij}I_{(i)j} \|_2^2 \\ = \sum_{i=1}^n \| Y(I_i- \tilde{W}_i^T) \|_2^2 \\ = \sum_{i=1}^n (I_i^T-\tilde{W}_i)Y^T Y(I_i-\tilde{W}_i^T) \\ =tr(G^TY^TYG) \\ s.t.\ YY^T=I$

$Ii∈Rn×1I_i\in \mathbb{R}^{n\times 1}$ 是一个列向量，其第 $i$ 个元素为1，其他均为0，起到一个筛选作用，从 $Y$ 中将 $y_i$ 筛选出来。 $W~iT∈Rn×1\tilde{W}_i^T\in \mathbb{R}^{n\times 1}$ 是一个列向量，其定义其实可以从公式里面看出来，第 $j$ 个样本如果是 $x_i$ 的 $k$ 近邻之一，则 $W~i\tilde{W}_i$ 第 $j$ 个元素为 $W_{ij}$ ，否则为0. 而 $G∈Rn×nG\in \mathbb{R}^{n\times n}$ 是一个矩阵，第 $i$ 列为 $(Ii−W~iT)(I_i-\tilde{W}_i^T)$ 。且有 $G=I−W~TG=I-\tilde W^T$ 。

然后列Lagrangian乘子法：
$L(Y,λ)=tr(GTYTYG)+tr[λ(I−YYT)]L(Y,\lambda)=tr(G^TY^TYG) +tr[\lambda(I-YY^T)]$

$λ\lambda$ 为对角矩阵。求偏导并令偏导为0：
$∂∂YL(Y,λ)=2YGGT−2λY=0GGTYT=YTλ(I−W~T)(I−W~T)TYT=YTλ\frac{\partial }{\partial Y}L(Y,\lambda)=2YGG^T-2\lambda Y=0 \\ GG^TY^T=Y^T\lambda \\ (I-\tilde W^T)(I-\tilde W^T)^TY^T=Y^T\lambda \\$
$∂∂λL(Y,λ)=I−YYT=0YYT=I\frac{\partial }{\partial \lambda}L(Y,\lambda)=I-YY^T=0 \\ YY^T=I$

意思是说 $Y^T$ 的每一列（Y的每一行）都应该是 $GG^T$ 的特征向量，对应的特征值在 $λ\lambda$ 的对角元上。这是必要条件。把 $GGTYT=YTλGG^TY^T=Y^T\lambda$ 代回去：
$tr(GTYTYG)=tr(YGGTYT)=tr(YYTλ)=tr(λ)tr(G^TY^TYG) =tr(YGG^TY^T)=tr(YY^T\lambda)=tr(\lambda)$

这告诉我们 $tr(G^TY^TYG)$ 的最小值等价于 $tr(λ)tr(\lambda)$ 的最小值，因此要选取最小的 $d$ 个特征值对应的特征向量组成 $Y$ 。

然而这里有一个问题，那就是 $GG^T$ 最小的特征值是0，对应的特征向量是个 $e=[1,1⋯,1]T∈Rn×1e=[1,1\cdots,1]^T\in \mathbb{R}^{n\times 1}$ 。证明一下：
$(I−W~T)(I−W~T)Te=(I−W~T)(I−W~e)=(I−W~T)⋅0=0⋅e(I-\tilde W^T)(I-\tilde W^T)^Te=(I-\tilde{W}^T)(I-\tilde{W}e)=(I-\tilde W^T)\cdot 0=0\cdot e$

主要原因是 $W~∈n×n\tilde W\in \mathbb{n\times n}$ 的每一行之和都为0。本来就是从重建矩阵 $W∈Rn×kW\in \mathbb{R}^{n\times k}$ 来的嘛，只不过扩展了一下，扩展的还都填了0.
这个证明告诉我们无论 $X$ 怎样变化， $GG^T$ 都有一个特征向量全为1，对应的特征值为0. 这显然不是我们想要的，因此一般取非0的前 $d$ 小的特征值对应的特征向量组成 $Y$ 。

总结

这个推导告诉我们，经典形式 $tr(W^TAA^TW)$ 有多么重要以及千变万化。
还告诉我们，构造向量和矩阵以形成熟悉容易解的形式非常重要。
另有一点， $GG^T$ 的结果是 $n×nn\times n$ 的矩阵，最多有 $n$ 个特征值，其中还有一个是0，也就是说 $d > n - 1$ 的时候LLE就不能用了。