特别声明:本文非本人所写,转载而已,在此非常感谢复旦大学 计算机技术硕士 阿泽学长的辛苦付出,以下是原作者:

【机器学习】降维——PCA(非常详细) - 阿泽的文章 - 知乎https://zhuanlan.zhihu.com/p/77151308

PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。

PCA 的数学推导可以从最大可分型和最近重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小,这里我将从最大可分性的角度进行证明。

1. 向量表示与基变换

我们先来介绍些线性代数的基本知识。

1.1 内积

两个向量的 A 和 B 内积我们知道形式是这样的:

内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来分析,为了简单起见,我们假设 A 和 B 均为二维向量,则:

其几何表示见下图:

我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。

如果假设 B 的模为 1,即让 |B|=1 ,那么就变成了:

A⋅B=|A|cos(a)

也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的标量大小。

这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。

1.2 基

在我们常说的坐标系种,向量 (3,2) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为标准。向量 (3,2) 实际是说在 x 轴投影为 3 而 y 轴的投影为 2。注意投影是一个标量,所以可以为负。

所以,对于向量 (3, 2) 来说,如果我们想求它在 (1,0),(0,1) 这组基下的坐标的话,分别内积即可。当然,内积完了还是 (3, 2)。

所以,我们大致可以得到一个结论,我们要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。为了方便求坐标,我们希望这组基向量模长为 1。因为向量的内积运算,当模长为 1 时,内积可以直接表示投影。然后还需要这组基是线性无关的,我们一般用正交基,非正交的基也是可以的,不过正交基有较好的性质。

2. 最大可分性

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,如果基的数量少于向量本身的维数,则可以达到降维的效果。

但是我们还没回答一个最关键的问题:如何选择基才是最优的。或者说,如果我们有一组 N 维向量,现在要将其降到 K 维(K 小于 N),那么我们应该如何选择 K 个基才能最大程度保留原有的信息?

一种直观的看法是:希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。当然这个也可以从熵的角度进行理解,熵越大所含信息越多。

2.1 方差

我们知道数值的分散程度,可以用数学上的方差来表述。一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即:

为了方便处理,我们将每个变量的均值都化为 0 ,因此方差可以直接用每个元素的平方和除以元素个数表示:

于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

2.2 协方差

在一维空间中我们可以用方差来表示数据的分散程度。而对于高维数据,我们用协方差进行约束,协方差可以表示两个变量的相关性。为了让两个变量尽可能表示更多的原始信息,我们希望它们之间不存在线性相关性,因为相关性意味着两个变量不是完全独立,必然存在重复表示的信息。

协方差公式为:

由于均值为 0,所以我们的协方差公式可以表示为:

当样本数较大时,不必在意其是 m 还是 m-1,为了方便计算,我们分母取 m。

当协方差为 0 时,表示两个变量完全独立。为了让协方差为 0,我们选择第二个基时只能在与第一个基正交的方向上进行选择,因此最终选择的两个方向一定是正交的。

2020 年 12 月 15 日补充:协方差为 0 时,两个变量只是线性不相关。完全独立是有问题的,才疏学浅,还望见谅。)

至此,我们得到了降维问题的优化目标:将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

2.3 协方差矩阵

针对我们给出的优化目标,接下来我们将从数学的角度来给出优化目标。

我们看到,最终要达到的目的与变量内方差及变量间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们有:

假设我们只有 a 和 b 两个变量,那么我们将它们按行组成矩阵 X:

然后:

我们可以看到这个矩阵对角线上的分别是两个变量的方差,而其它元素是 a 和 b 的协方差。两者被统一到了一个矩阵里。

我们很容易被推广到一般情况:

2.4 矩阵对角化

根据我们的优化条件,我们需要将除对角线外的其它元素化为 0,并且在对角线上将元素按大小从上到下排列(变量方差尽可能大),这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系。

设原始数据矩阵 X 对应的协方差矩阵为 C,而 P 是一组基按行组成的矩阵,设 Y=PX,则 Y 为 X 对 P 做基变换后的数据。设 Y 的协方差矩阵为 D,我们推导一下 D 与 C 的关系:

这样我们就看清楚了,我们要找的 P 是能让原始协方差矩阵对角化的 P。换句话说,优化目标变成了寻找一个矩阵 P,满足 PCPT 是一个对角矩阵,并且对角元素按从大到小依次排列,那么 P 的前 K 行就是要寻找的基,用 P 的前 K 行组成的矩阵乘以 X 就使得 X 从 N 维降到了 K 维并满足上述优化条件

至此,我们离 PCA 还有仅一步之遥,我们还需要完成对角化。

由上文知道,协方差矩阵 C 是一个是对称矩阵,在线性代数中实对称矩阵有一系列非常好的性质:

  1. 实对称矩阵不同特征值对应的特征向量必然正交。
  2. 设特征向量 λ 重数为 r,则必然存在 r 个线性无关的特征向量对应于 λ ,因此可以将这 r 个特征向量单位正交化。

由上面两条可知,一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量,设这 n 个特征向量为 e1,e2,⋯,en ,我们将其按列组成矩阵: E=(e1,e2,⋯,en) 。

则对协方差矩阵 C 有如下结论:

其中 Λ 为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。

到这里,我们发现我们已经找到了需要的矩阵 P:  。

P 是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是 C 的一个特征向量。如果设 P 按照 Λ 中特征值的从大到小,将特征向量从上到下排列,则用 P 的前 K 行组成的矩阵乘以原始数据矩阵 X,就得到了我们需要的降维后的数据矩阵 Y。

2.5 补充

(1) 拉格朗日乘子法

在叙述求协方差矩阵对角化时,我们给出希望变化后的变量有:变量间协方差为 0 且变量内方差尽可能大。然后我们通过实对称矩阵的性质给予了推导,此外我们还可以把它转换为最优化问题利用拉格朗日乘子法来给予推导。

4. 性质

  1. 缓解维度灾难:PCA 算法通过舍去一部分信息之后能使得样本的采样密度增大(因为维数降低了),这是缓解维度灾难的重要手段;
  2. 降噪:当数据受到噪声影响时,最小特征值对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到降噪的效果;
  3. 过拟合:PCA 保留了主要信息,但这个主要信息只是针对训练集的,而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是重要信息,只是在训练集上没有很大的表现,所以 PCA 也可能加剧了过拟合;
  4. 特征独立:PCA 不仅将数据压缩到低维,它也使得降维之后的数据各特征相互独立;

5. 细节

5.1 零均值化

当对训练集进行 PCA 降维时,也需要对验证集、测试集执行同样的降维。而对验证集、测试集执行零均值化操作时,均值必须从训练集计算而来,不能使用验证集或者测试集的中心向量。

其原因也很简单,因为我们的训练集时可观测到的数据,测试集不可观测所以不会知道其均值,而验证集再大部分情况下是在处理完数据后再从训练集中分离出来,一般不会单独处理。如果真的是单独处理了,不能独自求均值的原因是和测试集一样。

另外我们也需要保证一致性,我们拿训练集训练出来的模型用来预测测试集的前提假设就是两者是独立同分布的,如果不能保证一致性的话,会出现 Variance Shift 的问题。

5.2 与 SVD 的对比

这是两个不同的数学定义。我们先给结论:特征值和特征向量是针对方阵才有的,而对任意形状的矩阵都可以做奇异值分解

6. 参考

  1. 《机器学习》周志华
  2. PCA 的数学原理
  3. Singular Value Decomposition (SVD) tutorial
  4. 机器学习中的数学(4)——线性判别分析(LDA), 主成分分析(PCA)
  5. 从SVD到PCA——奇妙的数学游戏

PCA(非常详细)【机器学习】相关推荐

  1. python pca降维_机器学习的降维打击

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | SAMshare(id:SAMshare) 作者 | samshare "本次主要 ...

  2. python pca降维_机器学习之sklearn中的降维算法

    1. PCA与SVD sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块.在过去的十年中,如果要讨论算法进步的先锋,矩阵分解可以说是独树一帜.矩阵分解可 ...

  3. python pca降维_MLK | 机器学习的降维quot;打击quot;

    "MLK,即Machine Learning Knowledge,本专栏在于对机器学习的重点知识做一次梳理,便于日后温习,内容主要来自于<百面机器学习>一书,结合自己的经验与思考 ...

  4. pca百分比取多少比较好_主成分分析(PCA)的详细解释

    原作者:Zakaria Jaadi 翻译:钟胜杰 这篇文章的目的是提供主成分分析的完整同时比较简化的解释,特别是逐步回答它是如何工作的,这样每个人都可以理解它并利用它,而不必具有很高的数学水平. PC ...

  5. PCA主成分分析【机器学习】

    参考视频: 吴恩达机器学习 14-3 PCA全称Principal Component Analysis,是数据挖掘中常用的一种降维算法,也用于无监督学习中. 所谓降维,就是把具有相关性的维度合并,用 ...

  6. 主成分分析碎石图_Plotting PCA (主成分分析详细完美补充!!!!)

    点击标题下「蓝色微信名」可快速关注 注:PCA的其他文章直达连接如下,方便又快捷... 主成分分析(PCA)系列 现在为上述知识点进行相关的补充工作,不足之处 望各位同行批评指正........... ...

  7. 【白话机器学习】算法理论+实战之PCA降维

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑回归,线性回归,决策树,朴素贝叶斯,K近邻,支 ...

  8. 白话机器学习算法理论+实战之PCA降维

    1. 写在前面 如果想从事数据挖掘或者机器学习的工作,掌握常用的机器学习算法是非常有必要的,比如我之前写过的一篇十大机器学习算法的小总结,在这简单的先捋一捋, 常见的机器学习算法: 监督学习算法:逻辑 ...

  9. 【机器学习】十大算法之一 “PCA”

    作者主页:爱笑的男孩.的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩.擅长深度学习,活动,python,等方面的知识,爱笑的男孩.关注算法,python,计算机视觉,图像处理,深 ...

  10. 【机器学习自学笔记7】主成分分析(PCA)

    PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量. 维数灾难 维数灾难(Curse of Dimensi ...

最新文章

  1. 卷首寄语:我们的今天,明天--致所有战斗在一线的同行们
  2. C#操作NPOI插件的HSSFWorkBook,常见的那些坑
  3. 动态改变select 宽度
  4. elasticsearch 集群no known master node
  5. 顺序查找法,用函数实现。
  6. Oracle ASM 翻译系列第十一弹:高级知识 Offline or drop?
  7. /usr/bin/python^M: 解释器错误: 没有那个文件或目录
  8. 理解线程/多线程处理数组(MultiThreaded dealing with arrays)
  9. Java、python实现啊哈算法 —— chapter3 枚举 炸弹人
  10. php gmssl,gmssl
  11. plsql导出表结构到excel_PLSQL怎样导出oracle表结构
  12. (附源码)springboot超市仓库管理系统 毕业设计164555
  13. 「HEOI 2014」南园满地堆轻絮
  14. 【Ubuntu】Ubuntu20.04安装GPU显卡驱动
  15. 使用UNIAPP开发APP教程-01框架搭建
  16. .net core 中的[FromBody]和[FromFrom]的区别
  17. 数据结构学习笔记(第四章:串)
  18. 2022-2027年中国共享自行车行业发展监测及投资战略研究报告
  19. 我的苦逼app盈利之路!
  20. 『Others』一键关闭所有应用程序

热门文章

  1. Advances in Financial Machine Learning 导言 (附pdf下载链接)
  2. InternalError: Failed to create session.錯誤及解決方式
  3. 12V铅酸电池充放电保护板
  4. java及vue实现获取电脑打印机及打印功能
  5. 2022第四届长安杯wp
  6. 谈谈对python中的日期、时间、时区的理解(1)
  7. 第七章 - 直方图与匹配 - 直方图的计算与显示(cvCalcHist)
  8. SpringBoot整合Shiro详细用法
  9. Web前端开发必备网站
  10. uva10635Prince and Princess(LIS)