主成分分析

1、背景

  在许多领域的研究中,往往需要对反映事物的多个变量进行大量观测,收集大量数据以便进行分析寻找规律。由于各变量间存在一定相关性,因此可以用较少的指标来综合各变量中的各类信息。主成分分析(PCA)就属于这类降维方法。

2、问题描述

  下表1是某些学生的成绩统计:

  假设这些科目成绩不相关,显然,数学、物理、化学这三门课的成绩构成了这组数据的主成分(数学作为第一主成分,因为数学成绩拉的最开)。

  下面再看一组学生的成绩统计,见表2:

  我们无法从表2中直接看出这组数据的主成分,因为数据太多太乱了。如果把这些数据在相应的空间中表示出来,也许你就能换一个观察角度找出主成分。如下图1所示:

3、PCA主成分分析

(1)思想

  将n维特征映射到k维上(k<n),这k维是全新的正交特征,称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

(2)思考

  假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,那么这组数据的表示只用x’和y’两个维度表示即可。三点一定共面,也就是说三维空间中任意三点中心化后都是线性相关的,一般来讲n维空间中的n个点一定能在一个n-1维子空间中分析

  上一段文字中,认为把数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0。现在,假设这些数据在z’轴有一个很小的抖动,那么我们仍然用上述的二维表示这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,对于我们的分析已经足够了,z’轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,噪声的引入,导致了数据不完全相关,但是,这些数据在z’轴上的分布与原点构成的夹角非常小,也就是说在z’轴上有很大的相关性,综合这些考虑,就可以认为数据在x’,y’ 轴上的投影构成了数据的主成分!

4、进一步知识

  关于PCA的实例、推导请参考原文链接:

【参考链接】 http://blog.csdn.net/zhongkelee/article/details/44064401

PCA主成分分析基本介绍相关推荐

  1. PCA主成分分析实战和可视化 | 附R代码和测试数据

    一文看懂PCA主成分分析中介绍了PCA分析的原理和分析的意义(基本简介如下,更多见博客),今天就用数据来实际操练一下.(注意:用了这么多年的PCA可视化竟然是错的!!!) 在公众号后台回复**&quo ...

  2. PCA主成分分析 特征降维 opencv实现

    最近对PCA主成分分析做了一定的了解,对PCA基础和简单的代码做了小小的总结 有很多博客都做了详细的介绍,这里也参考了这些大神的成果: http://blog.sina.com.cn/s/blog_7 ...

  3. pca 主成分分析_超越普通PCA:非线性主成分分析

    pca 主成分分析 TL;DR: PCA cannot handle categorical variables because it makes linear assumptions about t ...

  4. pca主成分分析_降维:主成分分析(PCA)

    用于降维的PCA算法的设计原理及其从头开始在Python中的实现 介绍 借助高性能CPU和GPU的可用性,几乎可以使用机器学习和深度学习模型解决所有回归,分类,聚类和其他相关问题.但是,在开发此类模型 ...

  5. PCA主成分分析教程(origin分析绘制,无须R语言)

    PCA主成分分析教程(origin分析&绘制,无须R语言) 相关性分析,相关的介绍内容大家自行搜索资料即可,这里不给大家过多阐述. 案例解读 PCA作为常见的一种聚类分析方法,在很多SCI论文 ...

  6. 谱定理、瑞利熵、PCA(主成分分析)、clustering algorihtm

    目录 一.谱定理(Spectral theorem) 二.瑞利熵(Rayleigh Quotients) 三.什么是PCA? 一.谱定理(Spectral theorem) 参考资料: 知乎文章:ht ...

  7. 关于PCA主成分分析与KL变换

    最近看了PCA主成分分析,其中KL变化是其中的一种方法 具体的原理我转载了以下文章 http://blog.csdn.net/kingskyleader/article/details/7734710 ...

  8. PCA主成分分析(PCA降维)

    PCA主成分分析 PCA任务介绍 公式推导 算法实现 降维是对数据高维度特征的一种预处理方法. 降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的.在实 ...

  9. 讲讲PCA主成分分析

    在机器学习的领域中,我们对原始数据进行特征提取,经常会得到高维度的特征向量.在这些多特征的高维空间中,会包含一些冗余和噪声.所以我们希望通过降维的方式来寻找数据内部的特性,提升特征表达能力,降低模型的 ...

最新文章

  1. 阿里将AI引入时尚界,消费者会对程序员的审美买账吗?
  2. 软件测试随手记(转)
  3. MySQL 5.7基于GTID及多线程主从复制
  4. 工作324:uni-时间过滤器封装
  5. Http协议--Get和Post区别
  6. struts2 ajax上传文件 file空_WordPress插件漏洞分析:WPDiscuz任意文件上传漏洞
  7. LeetCode之罗马数字转整数
  8. 海康威视4G球机对接萤石云平台实现实时预览、云台控制 ----- java完整demo
  9. 计算机基础知识试题和答案
  10. mac/macbook teamviewer 使用 trackpad 触控板双指滑动出问题/出bug/无法控制/无法滚动/速度过快
  11. 专访 Livid:程序员值得花时间一看!
  12. 带有en的单词有哪些_英语前缀大全en:开头是EN的单词有哪些
  13. NLP - sentencepiece
  14. 石油和天然气行业的大数据分析:新兴趋势Big Data analytics in oil and gas industry: An emerging trend
  15. python依照概率抽样_统计概率思维之总体与抽样
  16. 湖北二本大学计算机排名,2017年二本大学排名及分数线(湖北省)
  17. Linux 使用Nginx 拦截屏蔽异常访问IP并加入黑名单
  18. 1024程序员节获奖名单放榜啦,云端技术奥秘大使就是你!
  19. GBase 8c发布(一)
  20. C小程PTA错题集1

热门文章

  1. 数学建模学习笔记(三):数值计算方法
  2. c语言自学教材 轮子,七月新增开源项目:你学习的速度跟得上前端造轮子的速度吗?...
  3. 常见思科光模块型号大全
  4. Set和String互转
  5. 联想软件劫持浏览器首页
  6. 把游戏里面的 UI 做成前端组件库会怎么样?
  7. 达梦8数据库dm8集群部署之DW集群Linux(主备自切)
  8. android导航栏自动弹出,解决android 显示内容被底部导航栏遮挡的问题
  9. 什么你还不知道招聘信息,小唐来教你——最新2021爬取拉勾网招聘信息(一)
  10. Android LCD驱动