矩阵——MATRIX,很容易让人们想到那部著名的科幻电影——《骇客帝国》。事实上,我们又何尝不是真的生活在MATRIX中。机器学习处理的大多数数据,都是以“矩阵”形式存储的。矩阵是向量的组合,而一个向量代表一组数据,数据又是多维度的。比如每个人的都具有身高、体重、长相、性情等多个维度的信息数据,而这些多维度信息数据就构成了一个人的信息向量。多个人的信息组合在一起,构成了一个信息矩阵。我们也把它称为样本。然而事实中我们遇到的信息维度往往是非常庞大的,所以就需要摒弃次要信息,保留主要信息。那么我们如何根据现有样本数据,决定该保留身高、体重、长相、性情中的哪些特征信息呢?其中身高和体重是关联比较大的,而长相、性情两方面特征与其他特征几乎无关联。从直觉上来讲,数据之间关联的程度越大,越容易“牵一发而动全身”,这种统一的“联动”能够,从另一个角度,用较少的信息说明较重要的问题。所谓降维,就是把这些“联动”的高维信息尽量压缩在一个低维信息内,我们叫它“主成分”。而协方差矩阵,代表了多维信息之间相互关联程度。我们从信息之间的关联程度出发,压缩关联程度高的信息并尽量保持原特征(去关联),摒弃不相关的信息(去冗余)。

举个极端的例子,我们制作出这样一组数据:身高和体重存在简单的线性关系(正比关系),而相貌不受身高、体重的任何影响。如下图所示

那么现在,我们计算取得上述信息矩阵A的其协方差矩阵C,如下图所示

不出意料,体重和相貌、身高和相貌之间的协方差值为0。再根据这个这个协方差矩阵C分解特征值,得出以下两个矩阵,一个为包含特征值的对角矩阵D,一个为特征值对应的特征向量所形成的矩阵X

协方差矩阵的特征值所构成的对角矩阵D:

所对应的特征向量所组成的特征矩阵X:

从上面两张图可以看出,特征值从大到小的顺序为:

77.8542895 >> 0.12487716 >> 0

显然协方差矩阵C为对称矩阵,所以根据线性代数的相关知识,矩阵C及其特征矩阵X以及特征值对角矩阵D之间,有如下关系:

我们看出特征值类似于一种“能量”,能量越大的特征值,对矩阵的“贡献”相对越大。特征值为0或几乎为0的那部分乘积项,可以被忽略掉。

在此我们只保留最大的特征值所对应的特征向量Y,这个向量Y作为压缩数据的方向

通过向量Y,用以下方式将原来的3维数据压缩为1维数据

P就是我们压缩后的信息,它映射一个唯一的主成分P1

下图显示了压缩前后样本数据和主成分的变化关系

l h代表身高数据

l w代表体重数据

l a代表长相数据

p1就是压缩后的主成分上的投影数据

从图中可以看出:

1. 压缩的后主成分p1和几乎保留了身高h的变化规律,

2. 体重w与h为正比关系。故此,w,h贡献给了主成分p1,

3. 长相a作为冗余数据被过滤掉。

那么为什么我们选择协方差矩阵最大特征值所对应的特征向量,就刚好能够使我们抽取原信息矩阵中的主成分呢?下一篇我们将阐述PCA降维的原理和依据。

pca主成分分析_PCA主成分分析(中)相关推荐

  1. r语言主成分分析_PCA主成分分析

    PCA主成分分析 最近遇到了主成分分析法这个东西,一开始我觉得简直天才啊,这个想法虽然从经济意义上来解释有点奇怪,毕竟是数学方法计算出来的解释因子,但鉴于没人知道现实世界究竟被多少因素影响,这种方法可 ...

  2. pca降维后的特征跟原来的特征有什么关系?_PCA 主成分分析方法

    一.为什么要进行数据降维 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据映射到低维度的空间中.之所以要进行数据降维,是因为在原始的高维数据中,存在很多冗余以及噪声信息,通过数据降 ...

  3. PCA降维(主成分分析法)

    PCA降维(主成分分析法) PCA的基本思想 PCA数学推导(最大方差法) 第一步,数据去中心化 第二步,找到新最标轴 第三步,选择你需要数据的百分之几的成分 PCA算法的优劣 问题 使用PCA到底需 ...

  4. 主成分分析在SPSS中的操作应用

    主成分分析在SPSS中的操作应用 主成分分析在SPSS中的操作应用 主成分分析原理 主成分分析法简介 主成分分析数学模型 对沿海 10 个省市经济综合指标进行主成分分析 生成图表 方法一 方法二 方法 ...

  5. pca各个向量之间的相关度_PCA主成分分析

    降维就是一种对高维度特征数据预处理方法.降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的.降维的算法有很多,比如奇异值分解(SVD).主成分分析(PC ...

  6. pca 主成分分析_超越普通PCA:非线性主成分分析

    pca 主成分分析 TL;DR: PCA cannot handle categorical variables because it makes linear assumptions about t ...

  7. python pca主成分_超越“经典” PCA:功能主成分分析(FPCA)应用于使用Python的时间序列...

    python pca主成分 FPCA is traditionally implemented with R but the "FDASRSF" package from J. D ...

  8. 旋转成分矩阵结果分析_PCA(主成分分析) 和 SVD (奇异值分解)

    PCA 和 SVD 协方差矩阵 在上一篇 最小二乘法 的末尾提到了协方差矩阵以及用它来拟合,这里先再次回顾. 我们来观察一下: 假设有一堆点 ,如果我们想要看这堆点的分散程度,一个办法是我们找出过质心 ...

  9. 基于GDAL实现的PCA变换(主成分分析)

    主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.又称主分量分析.在实际课题中,为了全面分析问题,往 ...

  10. JAVA实现PCA主成分分析_主成分分析PCA(principal component analysis)原理

    PCA在很多方面均有应用,但是之前没有仔细探究过,最近看了一些博客和论文,做一下总结. 主成分分析(Principal Component Analysis,PCA), 是一种统计方法.通过正交变换将 ...

最新文章

  1. 三星note5 android版本区别吗,三星Note5哪种颜色好看?三星Note5四种颜色区别对比图解...
  2. 清华大学和MIT研究人员使用DeepMind的AlphaFold方法来增强COVID-19抗体
  3. HTML cellpadding与cellspacing属性
  4. ubuntu常见错误--could not get lock /var/lib/dpkg/lock -open
  5. mysql索引 聚集索引_Mysql 索引实现原理. 聚集索引, 非聚集索引
  6. spark读取文件源码分析-2
  7. No toolchains found in the NDK toolchains folder for ABI with prefix: aarch64-linux-android
  8. springcloud 之 EurekaServer 服务注册集群
  9. jsp页面javascript没反应
  10. vmware挂载共享目录
  11. Web渗透测试实战——(2.1)Metasploit 6.0初步
  12. Mysql数据库恢复到指定时间点
  13. 漫画 | 前端发展史的江湖恩怨情仇~
  14. 从零搭建SSM框架及所遇到问题
  15. 2022年都在说软件测试饱和了,是真的吗?
  16. Vue报错:[WDS] Errors while compiling. Reload prevented
  17. 上层协议TCP/UDP
  18. c语言指数部分尾数部分,C语言中 float double在内存中的存储
  19. 考研线性代数(矩阵)
  20. Codeforces Round #750 (Div. 2)E. Pchelyonok and Segments (数学+DP)

热门文章

  1. vue-cli 2.x 项目优化之:引入本地静态库文件
  2. 开源 java CMS - FreeCMS2.7 单位管理
  3. 摩拜单车微信小程序开发技术总结
  4. 《舰在亚丁湾》 “海军特战队”央视电视剧起航
  5. 强化学习ppt_东台中等专业学校北大青鸟班PPT演讲大赛颁奖典礼顺利举行
  6. JWT实现加密用户信息及信息验证
  7. manage key mysql_mysql相关操作
  8. 火狐浏览器 附件组件 Xpath 安装
  9. YYF的一些简单配置 2016-10-13
  10. MAC编译OpenJDK8(含202-242)的Xcode版本问题