文章目录

1 前言
2 PCA的原理
- 2.1 什么是投影
- 2.2 投影后的方差
- 2.3 转化为求特征值的问题
- 2.4 符号的表示
3 KPCA的原理
4 PCA和KPCA在Python中的使用
- 4.1 PCA的使用
- 4.2 KPCA的使用
5 参考文献

1 前言

主成分分析是在做特征筛选时的重要手段，这个方法在大部分的书中都只是介绍了步骤方法，并没有从头到尾把这个事情给说清楚。本文的目的是把PCA和KPCA给说清楚。主要参考了YouTube上李政轩的Principal Component Analysis and Kernel Principal Component Analysis这个视频（强烈推荐看一下）。

2 PCA的原理

2.1 什么是投影

主成分分析所做的工作就是将数据集从高维投影到低维，从而用极少的几个特征来涵盖大部分的数据集信息。
所谓的投影，就是下图所示的这样。

图1：向量投影图

xjx_jxj投影到vvv上的向量为

xj′=(∣∣xj∣∣cosθ)v∣∣v∣∣x_j'=(||x_j||cos\theta)\dfrac{v}{||v||}xj′=(∣∣xj∣∣cosθ)∣∣v∣∣v

其中，θ\thetaθ为xjx_jxj与vvv的夹角。
由于向量之间的内积为

<xj,v>=∣∣xj∣∣⋅∣∣v∣∣⋅cosθ<x_j, v>=||x_j|| \cdot ||v|| \cdot cos\theta<xj,v>=∣∣xj∣∣⋅∣∣v∣∣⋅cosθ

故有

xj′=<xj,v>∣∣v∣∣2vx_j' = \dfrac{<x_j,v>}{||v||^2}vxj′=∣∣v∣∣2<xj,v>v

如果我们把vvv设置成单位向量的话（即∣∣v∣∣=1||v||=1∣∣v∣∣=1）就有

xj′=<xj,v>vx_j' = <x_j,v>vxj′=<xj,v>v

也就是说我们只要求出<xj,v><x_j,v><xj,v>就可以知道xjx_jxj投影到vvv上的大小了。
又由于在坐标当中，内积可以表示为

<xj,v>=xjT⋅v=vT⋅xj<x_j, v>=x_j^T \cdot v=v^T \cdot x_j<xj,v>=xjT⋅v=vT⋅xj

故可以用vT⋅xjv^T \cdot x_jvT⋅xj来表示投影后的数值大小。

2.2 投影后的方差

主成分分析认为，沿某特征分布的数据的方差越大，则该特征所包含的信息越多，也就是所谓的主成分。
我们已经知道了可以用vT⋅xjv^T \cdot x_jvT⋅xj来表示投影后的数值大小，那么我们现在就可以算出投影后的方差大小了。注意我们么已经把数据标准化过了，所以vT⋅xv^T \cdot xvT⋅x的均值为vT⋅0=0v^T \cdot 0=0vT⋅0=0。

σ2=1N−1∑i=1N(vTxi−0)2=1N−1∑i=1N(vTxi)(vTxi)\sigma^2 = \dfrac{1}{N - 1}\sum_{i=1}^{N}(v^Tx_i-0)^2=\dfrac{1}{N - 1}\sum_{i=1}^{N }(v^Tx_i)(v^Tx_i)σ2=N−11i=1∑N(vTxi−0)2=N−11i=1∑N(vTxi)(vTxi)

注意到vTxiv^Tx_ivTxi是一个数值，不是向量，故有vTxi=(vTxi)Tv^Tx_i=(v^Tx_i)^TvTxi=(vTxi)T于是

σ2=1N−1∑i=1NvTxixiTv=vT(1N−1∑i=1NxixiT)v=vTCv\sigma^2=\dfrac{1}{N - 1}\sum_{i=1}^{N}v^Tx_ix_i^Tv=v^T(\dfrac{1}{N- 1}\sum_{i=1}^{N}x_ix_i^T)v=v^TCvσ2=N−11i=1∑NvTxixiTv=vT(N−11i=1∑NxixiT)v=vTCv

其中，C=1N−1∑i=1NxixiTC=\dfrac{1}{N - 1}\sum_{i=1}^{N}x_ix_i^TC=N−11∑i=1NxixiT是一个m×mm \times mm×m的矩阵，mmm为特征的个数。
好了，如果我们要找到最大的方差，也就是要找到一个向量vvv使得方差最大。

2.3 转化为求特征值的问题

我们可以将求最大方差的问题写成

maxvTCvs.t.∣∣v∣∣=1max \quad v^TCv \\ s.t. \quad ||v||=1maxvTCvs.t.∣∣v∣∣=1

又由于∣∣v∣∣=vTv||v||=v^Tv∣∣v∣∣=vTv ，故上式即

maxvTCvs.t.vTv=1max \quad v^TCv \\ s.t. \quad v^Tv=1maxvTCvs.t.vTv=1

利用拉格朗日乘子法可以将上述问题转化为

f(v,λ)=vTCv−λ(vTv−1)f(v,\lambda)=v^TCv-\lambda (v^Tv-1)f(v,λ)=vTCv−λ(vTv−1)

其中，f(v,λ)f(v, \lambda)f(v,λ)的平稳点，和我们所要求的最大方差问题是等价的，即求下述方程式的解

{∂f∂v=2Cv−2λv=0∂f∂λ=vTv−1=0\begin{cases}\dfrac{\partial f}{\partial v}=2Cv-2\lambda v=0 \\ \dfrac{\partial f}{\partial \lambda}=v^Tv-1=0 \end{cases}⎩⎪⎨⎪⎧∂v∂f=2Cv−2λv=0∂λ∂f=vTv−1=0

上述方程组等价于

{Cv=λv∣∣v∣∣=1\begin{cases}Cv=\lambda v \\ ||v|| =1\end{cases}{Cv=λv∣∣v∣∣=1

看到了没，Cv=λvCv=\lambda vCv=λv不就是求特征值和特征向量的方程吗！更神奇的地方在下面，我们再回到最初求最大方差的问题

vTCv=vTλv=λvTv=λv^TCv=v^T\lambda v=\lambda v^Tv=\lambdavTCv=vTλv=λvTv=λ

是不是很神奇！要求的方差就是我们这里的特征值！所以我们只需要把Cv=λvCv=\lambda vCv=λv的特征值求出来，然后按大小排个序就，选出最大的几个特征值，并求出对应的特征向量，最后用这几个特征向量来完成数据集在其上的投影vTxv^TxvTx，这样就完成了特征的筛选！

2.4 符号的表示

值得注意的是，CCC是一个m×mm \times mm×m的矩阵

C=1N−1∑i=1NxixiT=1N−1[x1,x2,...,xN][x1Tx2T...xNT]C=\dfrac{1}{N - 1}\sum_{i=1}^{N}x_ix_i^T=\dfrac{1}{N - 1}[x_1,x_2,...,x_N] \begin{bmatrix}x_1^T \\ x_2^T \\... \\ x_N^T \end{bmatrix}C=N−11i=1∑NxixiT=N−11[x1,x2,...,xN]⎣⎢⎢⎡x1Tx2T...xNT⎦⎥⎥⎤

其中，每个xix_ixi为一个列向量

xi=[xi(1)xi(2)...xi(m)]x_i=\begin{bmatrix}x_i^{(1)} \\ x_i^{(2)} \\... \\x_i^{(m)} \end{bmatrix}xi=⎣⎢⎢⎢⎡xi(1)xi(2)...xi(m)⎦⎥⎥⎥⎤

其中，mmm为特征的个数。
为了方便表示，我们作出如下定义

XT=[x1,x2,...,xN]X^T=[x_1,x_2,...,x_N]XT=[x1,x2,...,xN]

于是，CCC可以表示为

C=1N−1XTXC=\dfrac{1}{N - 1}X^TXC=N−11XTX

3 KPCA的原理

基于核函数的主成分分析和主成分分析的步骤是一样的，只不过用核函数替代了原来的数据。这里对什么是核函数不作说明，请参考其它文章。
对于线性不可分的数据集，我们可以将其映射到高维上，再进行划分。

C=1N−1∑i=1Nϕ(xi)ϕ(xi)T=1N[ϕ(x1),...,ϕ(xN)][ϕ(x1)T...ϕ(xN)T]C=\dfrac{1}{N - 1}\sum_{i=1}^{N}\phi (x_i)\phi(x_i)^T=\dfrac{1}{N}[\phi(x_1),...,\phi(x_N)]\begin{bmatrix}\phi(x_1)^T \\ ... \\ \phi(x_N)^T \end{bmatrix}C=N−11i=1∑Nϕ(xi)ϕ(xi)T=N1[ϕ(x1),...,ϕ(xN)]⎣⎡ϕ(x1)T...ϕ(xN)T⎦⎤

我们令

XT=[ϕ(x1),...,ϕ(xN)]X^T=[\phi(x_1),...,\phi(x_N)]XT=[ϕ(x1),...,ϕ(xN)]

那么

C=1N−1XTXC=\dfrac{1}{N - 1}X^TXC=N−11XTX

在这里，ϕ(x)\phi(x)ϕ(x)我们是不知道的，所以上式是没法算的。就算知道了，计算成本也太大了。故引入核函数，我们知道核函数有

K=XXT=[ϕ(x1)T...ϕ(xN)T][ϕ(x1),⋯,ϕ(xN)]=[κ(x1,x1)...κ(x1,xN)⋮⋱⋮κ(xN,x1)⋯κ(xN,xN)]K=XX^T=\begin{bmatrix} \phi(x_1)^T \\...\\ \phi(x_N)^T \end{bmatrix} [ \phi(x_1) , \cdots ,\phi(x_N)]=\begin{bmatrix} \kappa(x_1,x_1) & ... & \kappa(x_1,x_N) \\ \vdots & \ddots & \vdots \\ \kappa(x_N, x_1) & \cdots & \kappa(x_N,x_N) \end{bmatrix}K=XXT=⎣⎡ϕ(x1)T...ϕ(xN)T⎦⎤[ϕ(x1),⋯,ϕ(xN)]=⎣⎢⎡κ(x1,x1)⋮κ(xN,x1)...⋱⋯κ(x1,xN)⋮κ(xN,xN)⎦⎥⎤

上述的KKK我们根据核函数的性质是可以算出来的，现在来看看KKK和CCC之间有没有关系。
如果要求KKK的特征值和特征向量的话，我们有下式

(XXT)u=λu(XX^T)u=\lambda u(XXT)u=λu

其中，uuu为矩阵KKK的特征向量，λ\lambdaλ为矩阵KKK的特征值。
我们对左右两边同时左乘一个XTX^TXT有

XT(XXT)u=λXTuX^T(XX^T)u=\lambda X^TuXT(XXT)u=λXTu

即

(XTX)(XTu)=λ(XTu)(X^TX)(X^Tu)=\lambda (X^Tu)(XTX)(XTu)=λ(XTu)

又由于(N−1)⋅C=XTX(N - 1) \cdot C=X^TX(N−1)⋅C=XTX，所以我们发现矩阵KKK和CCC的特征值是相同的，都为λ\lambdaλ，CCC的特征向量为XTuX^TuXTu。
由于我们希望特征向量是单位向量，所以我们对其做一下单位化

v=1∣∣XTu∣∣XTu=1uTXXTuXTu=1uTKuXTu=1uTλuXTu=1λXTuv=\dfrac{1}{||X^Tu||}X^Tu=\dfrac{1}{\sqrt{u^TXX^Tu}}X^Tu=\dfrac{1}{\sqrt{u^TKu}}X^Tu=\dfrac{1}{\sqrt{u^T\lambda u}}X^Tu=\dfrac{1}{\sqrt{\lambda}}X^Tuv=∣∣XTu∣∣1XTu=uTXXTu1XTu=uTKu1XTu=uTλu1XTu=λ1XTu

在上式中，λ\lambdaλ和uuu可以通过矩阵KKK求得，但是XTX^TXT仍旧是不可知的。那么CCC的特征向量还是算不出来，难道费了这么大的劲，我们白算了？不急，我们接着往下看。虽然求不出vvv，但是vvv并不是我们的最终目标，我们只要知道xxx在vvv上的投影就可以了

vTϕ(xj)=(1λXTu)Tϕ(xj)=1λuTXϕ(xj)=1λuT[ϕ(x1)T⋮ϕ(xN)T]ϕ(xj)=1λuT[κ(x1,xj)⋮κ(xN,xj)]v^T\phi(x_j)=(\dfrac{1}{\sqrt{\lambda}}X^Tu)^T\phi(x_j)=\dfrac{1}{\sqrt{\lambda}}u^TX\phi(x_j)=\dfrac{1}{\sqrt{\lambda}}u^T\begin{bmatrix} \phi(x_1)^T \\ \vdots \\ \phi(x_N)^T \end{bmatrix} \phi(x_j)=\dfrac{1}{\sqrt{\lambda}}u^T\begin{bmatrix} \kappa(x_1, x_j) \\ \vdots \\ \kappa(x_N, x_j) \end{bmatrix}vTϕ(xj)=(λ1XTu)Tϕ(xj)=λ1uTXϕ(xj)=λ1uT⎣⎢⎡ϕ(x1)T⋮ϕ(xN)T⎦⎥⎤ϕ(xj)=λ1uT⎣⎢⎡κ(x1,xj)⋮κ(xN,xj)⎦⎥⎤

上式中所有的量都是可以求得的，也就说我们在没有求出特征向量的情况下，直接算出了样本在特征向量上的投影！
这样一来问题就解决了！是不是很神奇！

4 PCA和KPCA在Python中的使用

在python的sklearn包中，已经对PCA和KPCA进行了实现，我们只需要调用函数即可，非常方便。

4.1 PCA的使用

我们用的数据集是UCI上关于葡萄酒的数据集，得到数据集后对其进行预处理，使得其均值为0。

import pandas as pd
from sklearn.preprocessing import StandardScalerdf = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None)
x, y = df.iloc[:, 1:].values, df.iloc[:, 0].values
sc = StandardScaler()
x = sc.fit_transform(x)

这个时候得到的xxx是一个178×13178 \times 13178×13规模的数据集，也就是说有131313个特征，每个特征下有178178178个数据。
我们用主成分分析法将131313个特征通过线性组合得到一个222个特征的数据集。

from sklearn.decomposition import PCApca = PCA(n_components=2)
x_pca = pca.fit_transform(x)

然后我们来看下效果

import matplotlib.pyplot as pltplt.scatter(x_pca[y==1, 0], x_pca[y==1, 1], color='red', marker='^', alpha=0.5)
plt.scatter(x_pca[y==2, 0], x_pca[y==2, 1], color='blue', marker='o', alpha=0.5)
plt.scatter(x_pca[y==3, 0], x_pca[y==3, 1], color='lightgreen', marker='s', alpha=0.5)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

可以得到

图2：葡萄酒数据主成分分析后效果

很显然，此时已经可以看成是线性可分的数据集了，效果不错。

4.2 KPCA的使用

PCA的使用是有局限性的，如果遇到了，一个像下面这样的线性不可分的数据集，就比较麻烦了。

from sklearn.datasets import make_moonsx2, y2 = make_moons(n_samples=100, random_state=123)plt.scatter(x2_std[y2==0, 0], x2_std[y2==0, 1], color='red', marker='^', alpha=0.5)
plt.scatter(x2_std[y2==1, 0], x2_std[y2==1, 1], color='blue', marker='o', alpha=0.5)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

图3：非线性不可分的数据集

不相信的话我们可以用PCA先试下看

x2_std = sc.fit_transform(x2)
x_spca = pca.fit_transform(x2_std)fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(14,6))
ax[0].scatter(x_spca[y2==0, 0], x_spca[y2==0, 1], color='red', marker='^', alpha=0.5)
ax[0].scatter(x_spca[y2==1, 0], x_spca[y2==1, 1], color='blue', marker='o', alpha=0.5)
ax[1].scatter(x_spca[y2==0, 0], np.zeros((50,1))+0.02, color='red', marker='^', alpha=0.5)
ax[1].scatter(x_spca[y2==1, 0], np.zeros((50,1))+0.02, color='blue', marker='o', alpha=0.5)
ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1, 1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')
plt.show()

图4：PCA在非线性可分数据集的效果

从图中可以看出，经过主成分分析之后，数据仍旧是线性不可分的。接下来，我们用基于核函数的主成分分析来试下看。

from sklearn.decomposition import KernelPCAkpca = KernelPCA(n_components=2, kernel='rbf', gamma=15)
x_kpca = kpca.fit_transform(x2_std)fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(14,6))
ax[0].scatter(x_kpca[y2==0, 0], x_kpca[y2==0, 1], color='red', marker='^', alpha=0.5)
ax[0].scatter(x_kpca[y2==1, 0], x_kpca[y2==1, 1], color='blue', marker='o', alpha=0.5)
ax[1].scatter(x_kpca[y2==0, 0], np.zeros((50,1))+0.02, color='red', marker='^', alpha=0.5)
ax[1].scatter(x_kpca[y2==1, 0], np.zeros((50,1))+0.02, color='blue', marker='o', alpha=0.5)
ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1, 1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')
plt.show()

图5：KPCA在非线性可分数据集的效果

由图可知，只需要把数据集投影到经变换后的特征PC1PC1PC1上就可以实现线性划分了，这个时候只需要一个特征PC1PC1PC1就够了。

5 参考文献

[1] https://www.youtube.com/watch?v=G2NRnh7W4NQ&t=1s
[2] Raschka S. Python Machine Learning[M]. Packt Publishing, 2015.

主成分分析（PCA）和基于核函数的主成分分析（KPCA）入门相关推荐

matlab主成分分析散点图_基于matlab的主成分分析与因子分析
基于matlab的主成分分析与因子分析文件"实验七.xls" sheet1列出了三个美国制造商所生产的早餐方便粥的数据,这三家厂商是:通用牛奶,克罗格和夸克.将早餐方便粥的品牌按照 ...
主成分分析|PCA算法大全
主成分分析|PCA算法大全文章目录主成分分析|PCA算法大全 1. PCA原理 1.1 最大方差理论 1.2 最小平方误差理论 1.3 高维数据下的特征值分解 2. CCIPCA增量主元分析算法[ ...
基于主成分分析PCA的人脸识别
经过本人复现分析,该篇博客代码不全且存在部分错误,思路仅供参考,望周知. 目录主成分分析PCA 基于PCA的人脸识别算法 matlab代码主成分分析PCA 主成分分析(Principal Comp ...
基于主成分分析(PCA)的人脸识别
基于主成分分析(PCA)的人脸识别 (完整Matlab代码) (有GUI界面) 本设计会将彩色图片直接转化为黑白图像,自带数据库,图片重建效果好很多自己的图片可能会差一些,效果如下图所示: ID:6 ...
【ML】主成分分析 PCA（Principal Component Analysis）原理 + 实践（基于sklearn）
[ML]主成分分析 PCA(Principal Component Analysis)原理 + 实践 (基于sklearn) 原理简介实践数据集数据处理使用KNN模型进行分类预测(为了和PCA ...
基于SPSS的主成分分析（PCA）
主成分分析(Principal Component Analysis,PCA)是一种统计方法.PCA以降维方式,在损失很少信息的前提下通过正交变换将一组可能存在相关性的变量(多个指标)转换为一组线性不 ...
基于特征向量的主成分分析(PCA)原理解释
引子首先看一下如何对一维向量的进行分解,我们知道,一个 nnn 维向量 aaa 可以由 nnn 个正交向量线性 vi,i=1,2,...,nv_i,i=1,2,...,nvi,i=1,2,..., ...
用通俗易懂的方式讲解：主成分分析(PCA)算法及案例（Python 代码）
文章目录知识汇总加入方式一.引入问题二.数据降维三.PCA基本数学原理 3.1 内积与投影 3.2 基 3.3 基变换的矩阵表示 3.4 协方差矩阵及优化目标 3.5 方差 3.6 协方差 ...
机器学习与高维信息检索 - Note 7 - 核主成分分析（Kernel Principal Component Analysis，K-PCA）
Note 7 - 核主成分分析(Kernel Principal Component Analysis) 核主成分分析 Note 7 - 核主成分分析(Kernel Principal Compone ...

主成分分析（PCA）和基于核函数的主成分分析（KPCA）入门