r语言主成分分析_PCA主成分分析
PCA主成分分析
最近遇到了主成分分析法这个东西,一开始我觉得简直天才啊,这个想法虽然从经济意义上来解释有点奇怪,毕竟是数学方法计算出来的解释因子,但鉴于没人知道现实世界究竟被多少因素影响,这种方法可以将最主要的成分提取出来,供人使用。这对于没有足够的经验自己总结影响因子的人来说,确实是一个很好的主意。
但在应用中我遇到了许多小问题,又因为我糟糕的记忆力,我决定写下来问题的解决过程,下一次还能回忆起来。QAQ
0.写在最前面
主成分分析法,可以将随机向量变为少数几个主成分,换句话说,本来有几种向量,最后就有几种成分,然后从中选出解释力最强的几种“主成分”。但是原始向量的协方差矩阵可能不是一个对角矩阵,即原始向量之间相关,转换后的主成分之间,不相关,同时主成分可以反映原始向量的大部分信息。
1.数据标准化
标准化,意味着将原始数据减去对应变量的均值,再除以其方差。
这个问题的来源是在主成分分析中,有两种选择,按照相关系数矩阵分解还是按照协方差矩阵分解。
我的困惑在于,这两者有什么区别,和书标准化又有什么关系。
查询资料得知:经标准化的样本数据的协方差矩阵就是原始样本数据的相关矩阵。这里所说的标准化指正态化,即将原始数据处理成均值为0。
简单来说,原始样本相关矩阵=标准化后协方差矩阵。
2.按照协方差矩阵分解还是按照相关矩阵分解
虽然现在知道了:
原始样本相关矩阵=标准化后协方差矩阵
但我还是不确定,这是否意味着:
原始样本按照相关矩阵分解=标准化后样本按照协方差矩阵分解
但我这个人确实不太擅长从数学的角度进行理论分析。
所以我直接在程序里验证了,对比了两组结果。原始数据为data,R语言
第一组:
A <- princomp(data, cor = TRUE)
summary(A)
第二组:
b <- scale(data)
B <- princomp(b, cor = FALSE)
summary(B)
我得到的两组结果完全相同。显然,这证明了:
原始样本按照相关矩阵分解=标准化后样本按照协方差矩阵分解
这基本解决了我运算上的一些困惑。
3.关于意义
运算上的困惑解决了,我对主成分的一些含义还不清楚,主要有以下几个问题:
a. 第一主成分和第二主成分的区别是否在与第一主成分的解释力更强,或者说他们俩的第一第二究竟是什么意思。特征向量又有什么意义?
第一主成分和第二主成分的“第一”、“第二”意味着特征值的第一大和第二大。第一主成分,意味着对标准化后的数据找到一个线性组合,令主成分的方差最大。第二主成分与第一主成分无关,第二主成分的方差第二大。
特征值越大,代表了对原始信息解释的越多。
第一主成分的方差理论上等于第一大特征值,第二主成分的方差理论上等于第二大特征值。特征向量就是在原始数据上的系数。
系数的正负值,绝对值大的代表了盖主成分主要综合的变量信息,当有几个变量系数绝对值大小相当的时候,应当认为这一主成分是这几个变量的作用综合,至于意义需要结合具体的问题解决。
b. 原始数据中,某种向量与其他向量的相关性较低,和这种向量与主成分之间的关系有什么联系?
变量之间相关性高,意味着数据中的信息是有重叠的,因此,用主成分分析得到不重叠的信息。如果本身不相关,就没有重叠的信息,pca的效果就不明显。(这一点我仍旧存疑)
r语言主成分分析_PCA主成分分析相关推荐
- R语言手动计算主成分分析(PCA)及其在R函数的实现
R语言手动计算主成分分析(PCA)及其在R函数的实现 了解PCA的原理,但总是无法用R语言实现,这次算是有个教程. 转自:http://blog.163.com/xiaoji0106@126/blog ...
- R语言如何实现主成分分析(PCA),最全详细教材
R语言也有"一步到位"的函数,如prcomp()和princomp(),基本上都是输入数据直接出结果.为了理解PCA的原理,我们利用自编函数的方法进行学习. 主成分分析详解 主成分 ...
- 【R语言实验】主成分分析
实验目的:了解主成分分析的分析过程,掌握R语言实现主成分分析的方法,并对数据处理结果进行分析. 实验要求:课本中习题6.7 . 实验素材:在我的资源中 实验代码: 读取实验数据 > d6.7&l ...
- 主成分分析(PCA)原理及R语言实现
在生物信息分析中,PCA.t-SNE和diffusionMap其实是一类东西. StatQuest: Principal Component Analysis (PCA) clearly explai ...
- 主成分分析,充分图,聚类,主成分回归——数据分析与R语言 Lecture 11
主成分分析,充分图,聚类,主成分回归--数据分析与R语言 Lecture 11 主成分分析 例子:求相关矩阵特征值 例子:求主成分载荷 例子:画碎石图确定主成分 例子:主成分得分-相当于predict ...
- 应用统计学与R语言实现学习笔记(十二)——主成分分析
Chapter 12 Priciple Component Analysis 本篇是第十二章,内容是主成分分析. Chapter 12 Priciple Component Analysis 主成分分 ...
- 可用于 主成分分析、R型因子分析、简单相应分析 的R语言函数总结
一.主成分分析 主成分分析是多元统计分析的一种常用的降维方法,它以尽量少的信息损失,最大程度将变量个数减少,且彼此间互不相关.提取出来的新变量成为主成分,主成分是原始变量的线性组合. 1.1 KMO检 ...
- 数据分析-R语言资料整理
独家分享--48页PPT解密数据可视化! Excel图表快捷操作小技巧 基于随机森林的分类与回归 R语言制作网页 ggplot2:可视化设计师的神器,了解一下 [译]R包介绍:Online Rando ...
- R语言中文社区2018年终文章整理(作者篇)
欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...
最新文章
- C# 中的Async 和 Await 的用法详解
- cahrt框架 ios_iOS Charts框架集成及使用
- java为什么被开发者_为什么开发者对Java 9如此的兴奋
- winform中键盘和鼠标事件的捕捉和重写(转)
- 【收藏】这个时候才是最好的自学时间!深度学习-机器学习-GNN-NLP等AI课程超级大列表汇总,拿走不谢...
- 【杂谈】需要mark的一些东西
- 电影院售票系统mysql表格_电影院售票数据库系统设计.doc
- python 绘制中国地图并利用经纬度标注散点
- 利用Python实现黑客帝国代码雨,打造属于自己的黑客帝国
- Matlab:拉盖尔高斯光束的干涉
- 阴阳师魂十挂机实现(后台句柄截屏+鼠标点击)
- ArcBlock世界第一区块链基石生态系统
- ArcGIS中的坐标系
- 2018-10-29 直播课笔记
- 区块链如何支持元宇宙经济?
- DXC Technology声明
- python 日历壁纸_winform壁纸工具:为图片添加当月的日历并设为壁纸 .
- 成都-都江堰,青城山旅游攻略
- 计算机版本歌曲,酷我音乐2017旧版大全
- CE认证,CE-LVD标准办理流程,亚马逊欧洲站
热门文章
- asp.net core 错误定位 vs2017 远程调试部署在centos上的asp.net core程序
- .NET Core WebApi中实现多态数据绑定
- CoreCLR源码探索(八) JIT的工作原理(详解篇)
- 编程语言的发展趋势及未来方向(7):总结
- Aaron Stannard谈Akka.NET 1.1
- 统计百度网盘文件个数 V3
- 【专升本计算机】2021年甘肃省专升本计算机全真模拟试题(二)
- C#委托、事件学习之(一)——委托事件描述
- C#实现树的双亲表示法
- linux之lsof和netstat判断端口(port)被哪些应用占用