在一组多变量的数据中,很多变量常常是一起变动的。一个原因是很多变量是同一个驱动影响的的结果。在很多系统中,只有少数几个这样的驱动,但是多余的仪器使我们测量了很多的系统变量。当这种情况发生的时候,你需要处理的就是冗余的信息。而你可以通过用一个简单的新变量代替这组变量来简化此问题。

概念

主成分分析是一个定量的严格的可以起到简化作用的方法。它产生一组叫做主成分的新变量,每一个主成分是原始变量的线性组合。所有主成分是相互正交的,从而不存在冗余的信息。所有主成分形成了原始数据空间的一组正交基。

第一主成分是数据空间的一个轴。当你把各观察值投影到这个轴时,结果会形成一个新变量,这个变量的方差是所有可选的轴中最大的。第二主成分是空间的另一个轴,它垂直于第一个轴。投影数据到这个轴上将得到另一组变量,此变量的方差是所有可选的轴中最大的。

最后得到的所有主成分个数是与原始变量相同的,但是通常前几个主成分方差的和占到了原始数据总方差的80%以上。通过绘制这组新变量,研究者常常会更深入的了解产生原始数据的驱动力。

术语

方差(Variance)是度量一组数据分散的程度。方差是各个样本与样本均值的差的平方和的均值:

协方差(Covariance)是度量两个变量的变动的同步程度,也就是度量两个变量线性相关性程度。如果两个变量的协方差为0,则统计学上认为二者线性无关。注意两个无关的变量并非完全独立,只是没有线性相关性而已。计算公式如下:

如果协方差不为0,如果大于0表示正相关,小于0表示负相关。当协方差大于0时,一个变量增大是另一个变量也会增大。当协方差小于0时,一个变量增大是另一个变量会减小。

协方差矩阵(Covariance matrix)由数据集中两两变量的协方差组成。矩阵的第 (i,j) 个元素是数据集中第i和第j个元素的协方差。

特征向量(eigenvector)是一个矩阵的满足如下公式的非零向量:

其中,v是特征向量,A是方阵,λ是特征值。经过A变换之后,特征向量的方向保持不变,只是其大小发生了特征值倍数的变化。也就是说,一个特征向量左乘一个矩阵之后等于等比例放缩(scaling)特征向量。德语单词eigen的意思是属于...或...专有( belonging to or peculiar to);矩阵的特征向量是属于并描述数据集结构的向量。

特征向量和特征值只能由方阵得出,且并非所有方阵都有特征向量和特征值。如果一个矩阵有特征向量和特征值,那么它的每个维度都有一对特征向量和特征值。

矩阵的主成分是其协方差矩阵的特征向量,按照对应的特征值大小排序。最大的特征值就是第一主成分,第二大的特征值就是第二主成分,以此类推。把数据映射到主成分上,第一主成分是最大特征值对应的特征向量,因此我们要建一个转换矩阵,它的每一列都是主成分的特征向量。如果我们要把5维数据降成3维,那么我们就要用一个3维矩阵做转换矩阵,用特征向量中的前三个主成分作为转换矩阵。若把我们的2维数据映射成1维,那么我们就要用一个1维矩阵做转换矩阵,用特征向量中的第一主成分作为转换矩阵。最后,我们用数据矩阵右乘转换矩阵。

总结步骤

(1)计算数据协方差矩阵,并获得协方差矩阵的特征值。

(2)将对应的特征值按照大小排序,最大的特征值是第一主成分,第二大的特征值是第二主成分,以此类推。

(3)求取特征向量,将特征向量转化为单位特征向量,并将主成分对应的特征向量作为转换矩阵,用数据矩阵右乘转换矩阵,实现主成分映射。最终数据维度映射为与主成分数量相同。

主成分分析法(PCA)基础概念整理+步骤总结相关推荐

  1. 层次分析法(AHP)基础概念整理+步骤总结

    层次分析法是用来根据多种准则,或是说因素从候选方案中选出最优的一种数学方法 递阶层次的建立与特点 一般分为三层,最上面为目标层,最下面为方案层,中间是准则层或指标层. 最顶层是我们的目标,比如说选le ...

  2. 数据降维之主成分分析法PCA

    主成分分析法PCA 参考链接:https://www.bilibili.com/video/BV1E5411E71z 主成分分析(Principal Component Analysis,PCA), ...

  3. sklearn 主成分分析法 PCA和IPCA

    主成分分析法 (PCA) 是一种常用的数据分析手段.对于一组不同维度 之间可能存在线性相关关系的数据,PCA 能够把这组数据通过正交变换变 成各个维度之间线性无关的数据.经过 PCA 处理的数据中的各 ...

  4. pca 矩阵 迹_主成分分析法(PCA)推导

    主成分分析法(principal component analysis, PCA)是最常用的无监督高维数据降维方法之一,它旨在降维的过程中保留原数据中最重要的几个分量,从而达到最大化原数据方差的作用. ...

  5. 主成分分析法PCA(一):算法原理

    一:算法概述: 主成分分析法,principle component analysis,PCA.也称主分量分析,是一种大样本,多变量数据间内在关系的一种方法.这种方法利用降维的思想,通过向量变换的方法 ...

  6. 常用色彩模式及基础概念整理

    这篇将UI设计时的颜色模式,混合页面开发时的颜色设置,混在一起,整理了一下常用到的几种模式及其基础概念,其中标有 图标的,为 CSS 中可以直接使用的颜色模式.  RGB 光色模式 由 红(R | R ...

  7. 主成分分析法(PCA)及其python实现

    主成分分析法(Principal Component Analysis,PCA)是一种用于把高维数据降成低维,使分析变得更加简便的分析方法.比如我们的一个样本可以由nnn维随机变量(X1,X2,... ...

  8. 原python基础概念整理_Python从头学之基础概念整理

    学程序真的是一个无法间断的过程,只要你懈怠,种种原因都是你的理由.然而造成的后果就是到目前位置,一个心目中的项目都没有完美的做出来: 归根结底,其实就是基础没有打好,因为每一个复杂的功能都是由很多简单 ...

  9. 一文看懂Java虚拟机——JVM基础概念整理

    1 基础概念 2 垃圾回收 3 虚拟机调优

最新文章

  1. Node:非IO的异步API
  2. Java中合成与继承的选择
  3. Leetcode 152. 乘积最大子序列 解题思路及C++实现
  4. 使用Python 转化成 PB 格式数据的方法
  5. Egret 生成 自带EUI 的微信小游戏 踩坑!
  6. P3573-[POI2014]RAJ-Rally【拓扑排序,二分+树状数组】
  7. 逻辑回归python正则化 选择参数_吴恩达机器学习笔记(三)——正则化(Regularization)...
  8. python补充urllib教程,Python爬虫之urllib基础用法教程
  9. 数据结构与算法-复杂的问题简单化
  10. JAVA中判断一个字符串是否包含另一个字符串
  11. UVA 10340 - All in All
  12. 自己写的一个简单的php快速开发框架(JPrass)
  13. css 魔方,css 3d旋转魔方
  14. IDEA 社区版下载与安装
  15. pyhton前景之个人愚见
  16. Celery+django+redis异步执行任务
  17. s17王者服务器维护几点,王者荣耀S17赛季更新维护几点开始?王者荣耀四周年更新多久...
  18. 读书笔记-数据库系统概念-chapter3SQL
  19. Django+redis+celery实现异步任务
  20. 多系统如何共享蓝牙设备?

热门文章

  1. Lua,让人惊叹的艺术!
  2. 大话设计模式之爱你一万年:第十五章 行为模式:状态模式:为烧烤造个电梯:2.状态模式之电梯系统
  3. 【Linux】Slurm作业调度系统使用
  4. 这些PCB专业术语,可以让学妹对你刮目相看
  5. ubuntu install net driver
  6. 2019c语言考试评分标准,2019普通话考试评分标准
  7. java 4kd_完爆OLED!索尼4K旗舰电视Z9D画质逆天
  8. css布局之垂直居中
  9. 【秋招机试真题】华为机试0908-梅花桩
  10. 微服务狂热_编程狂热者