Principal Component Analysis 主成分分析 【学习笔记】
Principal Component Analysis 主成分分析笔记
文章目录
- Principal Component Analysis 主成分分析笔记
- PCA是什么?
- 数据的线性变换
- 拉伸操作:
- 旋转操作:
- 白数据的处理:
- 拉伸,旋转有什么作用呢?
- 如何求R?
- 什么是协方差?
- 协方差矩阵是什么?
- 协方差的特征值:
- 总结:
- PCA怎么求解:
- PCA和置信椭圆有什么关系?
- PCA缺点:
PCA是什么?
假设要保存二维的信息,由于降维考虑,期望只存储一个维度的信息(为了减少存储的信息量)
PCA是找到一个新的坐标系去存储一维信息。这个坐标系的原点落在数据的中心,坐标系的方向是往数据分布的方向走,这样子就降维了。
原始数据分布在新坐标系X轴上,Y轴为0
蓝色的点是原始的数据 ,红色的点是蓝色的点投影到轴上的。这样通过某一些角度,只保留一维信息就能存储二维的信息量了(存在信息损失,但此时目的是为了降维信息的情况下令信息损失度最小)
PCA的目的:找一个坐标系,使得数据在保留一个维度的情况下,信息损失最小
在上图就是很好的显示了,因为坐标点投影得比较分散,易于显示。
若发现投影后数据集中在一个点红色的斑点的话,说明没有保存多少信息,因为信息重合混淆了,数据不能很好地在新坐标系下区分开。
那怎么样才算好的坐标系呢?
具体步骤:
若没有去中心化直接找坐标系,不利于发现一个方向,去拟合这些数据。
数据的线性变换
拉伸操作:
比如这里,D是一个数据集,S表示拉伸的矩阵(为了实现数据拉伸的)。
S左乘D之后,D上的每一个数据点都被拉伸。
旋转操作:
R就是个旋转矩阵,R左乘D后,让D旋转了某个角度。
白数据的处理:
白数据:x,y都是服从标准正态分布(均值为0,方差为1),而且x,y不相关。
拉伸,旋转有什么作用呢?
拉伸:是方差最大的方向
旋转:决定了方差最大的方向的角度是多大
旋转找角度,拉伸找最大
D’乘逆矩阵,转化成原来的矩阵D
如何求R?
协方差的特征向量就是R
X,Y并非相互独立,存在一定的正相关关系,引入协方差
什么是协方差?
X增大,Y也增大,数据分布如下图所示。协方差大于0
(自己和自己的协方差就是方差)
协方差矩阵是什么?
协方差矩阵:对角线上是各个轴自己的方差
若x,y是不相关的话,那么cov(x,y)就是0
下图,
左图就是x,y不相关
中图就是x,y正相关(协方差 > 0)
右图就是x,y负相关(协方差 < 0)
为什么是n-1?(因为保证统计量的无偏性,保守估计比真实值偏大)
用白数据加上拉伸和旋转后,就得到D’
开始公示推导:(D’符合一般正态分布,可以标准化后与D一样的特性)
特征向量求解
λ :特征值
v :特征向量
特征值1和特征值2 组成 L矩阵
特征向量1 和特征向量2 组成R矩阵
协方差的特征值:
总结:
PCA怎么求解:
三维降到二维:三维转二维就是找个二维平面然后投影(让数据间方差最大的)
三维转二维就是找个二维平面然后投影,(让数据间方差最大的)
PCA和置信椭圆有什么关系?
置信椭圆:置信椭圆基本上是对置信区域的描述方式,其长轴和短轴分别为置信区域的参数,置信椭圆的长短半轴,分别表示二维位置坐标分量的标准差(如经度的σλ和纬度的σφ)。
从白数据里面画了一个圆,(刚好有0.95的数据在圆内)拉伸旋转后成了一个圆,有0.95的数据点在椭圆里,就是95%置信椭圆
查表得到s = 4.605 ->90%置信椭圆
PCA缺点:
离群点对PCA的结果造成影响较大
课程链接
【用最直观的方式告诉你:什么是主成分分析PCA】 https://www.bilibili.com/video/BV1E5411E71z?share_source=copy_web&vd_source=e6d8f0881a34c7aaf5e3fa344cc9a51a
老师讲的嘎嘎好,通俗易懂,爱了!记得给三连。
Principal Component Analysis 主成分分析 【学习笔记】相关推荐
- pca主成分分析结果解释_SKLEARN中的PCA(Principal Component Analysis)主成分分析法
PCA(Principal Component Analysis)主成分分析法是机器学习中非常重要的方法,主要作用有降维和可视化.PCA的过程除了背后深刻的数学意义外,也有深刻的思路和方法. 1. 准 ...
- 【碎片知识(9)】PCA (Principal Component Analysis) [主成分分析]
离开很久啦,从Ph.D.套磁开始到全部settle down花费了太久的时间,在上周也终于把研究方向定下来了,终于手头的事告一段落了.未来是跨度三到四年的research生涯,无数师兄师姐告诫我,读博 ...
- PCA(Principal Component Analysis 主成分分析)原理及MATLAB实现
关于PCA的原理参见: PCA原理 PCA:一种通过特征的线性组合来实现降维的方法,目的就是在尽可能好的代表原始数据的前提下,通过线性变换将样本数据投影到地位空间中. 如图示意,二维样本分别投影到e1 ...
- 机器学习与高维信息检索 - Note 4 - 主成分分析及其现代解释(Principal Component Analysis, PCA)及相关实例
主成分分析及其现代解释 4. 主成分分析及其现代解释 Principal Component Analysis and Its Modern Interpretations 4.1 几何学解释 The ...
- 笔记:Online robust principal component analysis via truncated nuclear norm regularization
Hong, B., Wei, L., Hu, Y., Cai, D., & He, X. (2016). Online robust principal component analysis ...
- 笔记:Inductive Robust Principal Component Analysis
Bao, B.K., et al., Inductive robust principal component analysis. IEEE Transactions on Image Process ...
- 【机器学习sklearn】主成分分析PCA(Principal Component Analysis)
主成分分析方法PCA 前言 一.PCA是什么? 二.代码实践 使用MNIST数据集实现sklearn库里的主成分分析方法 不同主成分个数对应的可解释方差分析(Explained Variance) 总 ...
- 机器学习与高维信息检索 - Note 7 - 核主成分分析(Kernel Principal Component Analysis,K-PCA)
Note 7 - 核主成分分析(Kernel Principal Component Analysis) 核主成分分析 Note 7 - 核主成分分析(Kernel Principal Compone ...
- PCA(principal component analysis)主成分分析降维和KPCA(kernel principal component analysis)核
PCA(principal component analysis)主成分分析降维和KPCA(kernel principal component analysis)核主成分分析降维方法详解及实战 PC ...
最新文章
- 初学者可能不知道的vue技巧
- 数据库不推荐使用外键的9个理由
- 银行不断爆雷,金融业苦日子刚刚开始
- .net hbase client--终于浮出水面的轮子
- Java 8将默认使用传输级别安全性(TLS)1.2
- 努比亚手机浏览器 安全证书失效_浏览器提示“该站点安全证书的吊销信息不可用”的解决方法-...
- copyToLocalFile报出空异常
- 2017.9.13 序列维护 思考记录
- 在群晖synoboot.img引导文件中加入网卡驱动_群晖DS1819+使用记录
- atitit 项目注册功能算法attilax总结.docx
- 列举html5格式,前端HTML5基本格式【前端技术文章】
- 计算机安全群,大开眼界||斯坦福大学信息安全课程群
- 【接箱子2.0】新手划过,dalao勿喷
- MySQL 一键安装脚本
- 学NLP的人跑去CVPR投稿!中了顶会一作,还是一位本科生...
- 《上古天真论》第七讲文字版
- 《画解数据结构》「基数排序」算法教程
- 多线程的40个面试题总结(上)
- css设置内外边框距离
- Axure中动态面板和母版有什么区别
热门文章
- Eclipse Memory Analyzer,内存泄漏插件,安装使用
- 14.1.2. EXPLAIN ANALYZE
- qq浏览器网站禁止访问怎么办 qq浏览器网站禁止访问如何解决
- ios微信组件跳转_iOSAPP跳转微信小程序
- 仅需三步学会使用低代码ThingJS与森数据DIX数据对接
- 腾讯、阿里校招面试真题-常见经典题
- 语音交互开源平台对比
- MySQLsqlyog详细内容
- 局域网搭建IOS应用在线安装环境
- 网络安全“攻防战”:“魔”“道”大盘点