PCA主成分分析

最近遇到了主成分分析法这个东西,一开始我觉得简直天才啊,这个想法虽然从经济意义上来解释有点奇怪,毕竟是数学方法计算出来的解释因子,但鉴于没人知道现实世界究竟被多少因素影响,这种方法可以将最主要的成分提取出来,供人使用。这对于没有足够的经验自己总结影响因子的人来说,确实是一个很好的主意。

但在应用中我遇到了许多小问题,又因为我糟糕的记忆力,我决定写下来问题的解决过程,下一次还能回忆起来。QAQ

0.写在最前面

主成分分析法,可以将随机向量变为少数几个主成分,换句话说,本来有几种向量,最后就有几种成分,然后从中选出解释力最强的几种“主成分”。但是原始向量的协方差矩阵可能不是一个对角矩阵,即原始向量之间相关,转换后的主成分之间,不相关,同时主成分可以反映原始向量的大部分信息。

1.数据标准化

标准化,意味着将原始数据减去对应变量的均值,再除以其方差。

这个问题的来源是在主成分分析中,有两种选择,按照相关系数矩阵分解还是按照协方差矩阵分解。

我的困惑在于,这两者有什么区别,和书标准化又有什么关系。

查询资料得知:经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。这里所说的标准化指正态化,即将原始数据处理成均值为0。

简单来说,原始样本相关矩阵=标准化后协方差矩阵。

2.按照协方差矩阵分解还是按照相关矩阵分解

虽然现在知道了:

原始样本相关矩阵=标准化后协方差矩阵

但我还是不确定,这是否意味着:

原始样本按照相关矩阵分解=标准化后样本按照协方差矩阵分解

但我这个人确实不太擅长从数学的角度进行理论分析。

所以我直接在程序里验证了,对比了两组结果。原始数据为data,R语言

第一组:

A <- princomp(data, cor = TRUE)

summary(A)

第二组:

b <- scale(data)

B <- princomp(b, cor = FALSE)

summary(B)

我得到的两组结果完全相同。显然,这证明了:

原始样本按照相关矩阵分解=标准化后样本按照协方差矩阵分解

这基本解决了我运算上的一些困惑。

3.关于意义

运算上的困惑解决了,我对主成分的一些含义还不清楚,主要有以下几个问题:

a. 第一主成分和第二主成分的区别是否在与第一主成分的解释力更强,或者说他们俩的第一第二究竟是什么意思。特征向量又有什么意义?

第一主成分和第二主成分的“第一”、“第二”意味着特征值的第一大和第二大。第一主成分,意味着对标准化后的数据找到一个线性组合,令主成分的方差最大。第二主成分与第一主成分无关,第二主成分的方差第二大。

特征值越大,代表了对原始信息解释的越多。

第一主成分的方差理论上等于第一大特征值,第二主成分的方差理论上等于第二大特征值。特征向量就是在原始数据上的系数。

系数的正负值,绝对值大的代表了盖主成分主要综合的变量信息,当有几个变量系数绝对值大小相当的时候,应当认为这一主成分是这几个变量的作用综合,至于意义需要结合具体的问题解决。

b. 原始数据中,某种向量与其他向量的相关性较低,和这种向量与主成分之间的关系有什么联系?

变量之间相关性高,意味着数据中的信息是有重叠的,因此,用主成分分析得到不重叠的信息。如果本身不相关,就没有重叠的信息,pca的效果就不明显。(这一点我仍旧存疑)

r语言主成分分析_PCA主成分分析相关推荐

  1. R语言手动计算主成分分析(PCA)及其在R函数的实现

    R语言手动计算主成分分析(PCA)及其在R函数的实现 了解PCA的原理,但总是无法用R语言实现,这次算是有个教程. 转自:http://blog.163.com/xiaoji0106@126/blog ...

  2. R语言如何实现主成分分析(PCA),最全详细教材

    R语言也有"一步到位"的函数,如prcomp()和princomp(),基本上都是输入数据直接出结果.为了理解PCA的原理,我们利用自编函数的方法进行学习. 主成分分析详解 主成分 ...

  3. 【R语言实验】主成分分析

    实验目的:了解主成分分析的分析过程,掌握R语言实现主成分分析的方法,并对数据处理结果进行分析. 实验要求:课本中习题6.7 . 实验素材:在我的资源中 实验代码: 读取实验数据 > d6.7&l ...

  4. 主成分分析(PCA)原理及R语言实现

    在生物信息分析中,PCA.t-SNE和diffusionMap其实是一类东西. StatQuest: Principal Component Analysis (PCA) clearly explai ...

  5. 主成分分析,充分图,聚类,主成分回归——数据分析与R语言 Lecture 11

    主成分分析,充分图,聚类,主成分回归--数据分析与R语言 Lecture 11 主成分分析 例子:求相关矩阵特征值 例子:求主成分载荷 例子:画碎石图确定主成分 例子:主成分得分-相当于predict ...

  6. 应用统计学与R语言实现学习笔记(十二)——主成分分析

    Chapter 12 Priciple Component Analysis 本篇是第十二章,内容是主成分分析. Chapter 12 Priciple Component Analysis 主成分分 ...

  7. 可用于 主成分分析、R型因子分析、简单相应分析 的R语言函数总结

    一.主成分分析 主成分分析是多元统计分析的一种常用的降维方法,它以尽量少的信息损失,最大程度将变量个数减少,且彼此间互不相关.提取出来的新变量成为主成分,主成分是原始变量的线性组合. 1.1 KMO检 ...

  8. 数据分析-R语言资料整理

    独家分享--48页PPT解密数据可视化! Excel图表快捷操作小技巧 基于随机森林的分类与回归 R语言制作网页 ggplot2:可视化设计师的神器,了解一下 [译]R包介绍:Online Rando ...

  9. R语言中文社区2018年终文章整理(作者篇)

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...

最新文章

  1. C# 中的Async 和 Await 的用法详解
  2. cahrt框架 ios_iOS Charts框架集成及使用
  3. java为什么被开发者_为什么开发者对Java 9如此的兴奋
  4. winform中键盘和鼠标事件的捕捉和重写(转)
  5. 【收藏】这个时候才是最好的自学时间!深度学习-机器学习-GNN-NLP等AI课程超级大列表汇总,拿走不谢...
  6. 【杂谈】需要mark的一些东西
  7. 电影院售票系统mysql表格_电影院售票数据库系统设计.doc
  8. python 绘制中国地图并利用经纬度标注散点
  9. 利用Python实现黑客帝国代码雨,打造属于自己的黑客帝国
  10. Matlab:拉盖尔高斯光束的干涉
  11. 阴阳师魂十挂机实现(后台句柄截屏+鼠标点击)
  12. ArcBlock世界第一区块链基石生态系统
  13. ArcGIS中的坐标系
  14. 2018-10-29 直播课笔记
  15. 区块链如何支持元宇宙经济?
  16. DXC Technology声明
  17. python 日历壁纸_winform壁纸工具:为图片添加当月的日历并设为壁纸 .
  18. 成都-都江堰,青城山旅游攻略
  19. 计算机版本歌曲,酷我音乐2017旧版大全
  20. CE认证,CE-LVD标准办理流程,亚马逊欧洲站

热门文章

  1. asp.net core 错误定位 vs2017 远程调试部署在centos上的asp.net core程序
  2. .NET Core WebApi中实现多态数据绑定
  3. CoreCLR源码探索(八) JIT的工作原理(详解篇)
  4. 编程语言的发展趋势及未来方向(7):总结
  5. Aaron Stannard谈Akka.NET 1.1
  6. 统计百度网盘文件个数 V3
  7. 【专升本计算机】2021年甘肃省专升本计算机全真模拟试题(二)
  8. C#委托、事件学习之(一)——委托事件描述
  9. C#实现树的双亲表示法
  10. linux之lsof和netstat判断端口(port)被哪些应用占用