笔记的主要内容是 PCA(主成分分析) 原理和基本知识,相关数学原理和核心概念。

什么是PCA分析?

主成分分析(PCA, principal component analysis)是一种数学降维方法,利用正交变换把一系列可能线性相关的变量转换为一组线性不相关的新变量也称为主成分PC,用新变量在更小的维度下展示数据的特征。下图展示了经过标准化之后数据的展示差异:


有几个问题值得思考,如果数据很复杂而且具有很多个变量,应该如何选择合适的主成分?PCA分析的优势有哪些?PCA的应用场景?

选择主成分

PCA的核心是选择新的坐标系(主成分),坐标轴垂直(也就是正交,线性无关),方差足够大(为了使数据在坐标轴的投射点尽可能的广,显示出更多数据特征)

假设有很多个不同的数据,它们在坐标系散乱分布,先确定它们中最中心的点,经过该点的一条直线和所有点平方距离最小时,即可确定主成分PC1,如下图所示过程,紫线位置。 由于第二主成分PC2与PC1正交(即垂直),所以根据这两条线为坐标轴,把所有的点分别投影到新的坐标轴,这样就完成了从二维到一维的转换。


投影的方式比较多,目的是尽可能的保留数据的特征,使第一主成分具有最大的方差(var)同时利用正交非线性相关性完成去冗余。


PCA分析优势

  • 简化数据

数据量非常大时,比如有800份小麦重测序数据,几万个不同的基因表达量有差异,导致分析过程变的很麻烦,通过PCA分析可以确定其中最主要的变化因子,简化运算过程。


  • 去除误差数值

PCA分析对数据降维处理时,过滤掉由于误差引起的变化,增大数据的可信度。


  • 数据可视化

在展示多个基因表达数据时,利用PCA选择表达差异最显著的两个基因作为主成分,然后得出各个基因表达量的关系。

PCA分析应用场景

科研中经常会应用PCA分析方法,在阅读一些文献时,笔者发现PCA图频繁出现在paper中,比如研究肠道微生物的菌群构成、某种细胞的基因表达情况等。


这些场景下都具有很多变量,PCA分析通几个主成分来揭示多个变量之间的关系,且主成分间互不相关。将高维数据降低至二维或三维,同时保持各方差贡献最大的特征,降低数据复杂度。


PCA的数学原理

假如有一份原始数据包含多个变量,先将每个变量的方差和协方差计算出来,得到数据的协方差矩阵

  • 方差
    var,单个变量的变异度。表示数据的离散程度
  • 协方差
    cov,两个变量的相关度,若为0表示没有相关性,如果为正,表示一组数据增加时另一组数据也随之增加

为了统一衡量的尺度,需要对协方差矩阵进行标准化处理(scale),通俗的说就是让数据的平均值为0并且方差为1,这样所有数据的评价标准和尺度都一样。

原始变量的协方差矩阵包含以下两部分信息:

  • 原始变量自身的方差(协方差矩阵的主对角线位置)
  • 原始变量之间的相关程度(非主对角线位置)

PCA分析就是产生一组新的变量,使得新变量的协方差矩阵为对角阵。

特征值法分解协方差矩阵


参考资料:

https://blog.csdn.net/weixin_60737527/article/details/125144416https://blog.csdn.net/Monica_428/article/details/117667137https://zhuanlan.zhihu.com/p/37777074https://www.aisoutu.com/a/1510739https://blog.csdn.net/weixin_39747087/article/details/112455438http://www.ehbio.com/Bioinfo_R_course/Rplots.html#pcaintroduchttps://blog.csdn.net/weixin_39837727/article/details/110160387http://blog.genesino.com/2016/10/PCA/

˙

本文由 mdnice 多平台发布

PCA主成分分析原理与基础知识相关推荐

  1. 数字信号处理(FIR滤波器的设计与原理及基础知识)

    FIR滤波器的设计与原理及基础知识 有限长单位脉冲响应(FIR)滤波器的设计方法 线性相位FIR滤波器的特点: 幅度特性: 窗函数设计法 窗口函数对理想特性的影响: 梳状滤波器 有限长单位脉冲响应(F ...

  2. python sklearn.decomposition.PCA 主成分分析, 原理详解

    引用文章1: 主成分分析(PCA)原理详解 https://blog.csdn.net/program_developer/article/details/80632779 引用文章2: 彻底理解样本 ...

  3. 计算机原理寄存器基础知识,微机原理——基础知识及计算机基本组成

    微机原理基础 期末复习要求 理解Bit byte word doubleword 等基本概念 计算机常用的数制和编码 十进制.二进制.十六进制的运算和转换 常用的ASCII码:数字.大小写英文字母的A ...

  4. 跳帧的计算机原理,光电鼠标基础知识浅解(22页)-原创力文档

    光电鼠标基础知识浅解(1) 内容概要 关键词:光电 鼠标 导言:介绍光电鼠标工作的基本原理及构成部件,作一般性知识了解 光电鼠标的工作原理与参数 光电鼠标的内部构成 光电鼠标的外部设计 讨论 与传统的 ...

  5. 编译原理——编译基础知识

    编译基础知识 语言是什么 1.1,高级语言 语言就是一个记号系统 通过语法来组成语义 1.2,语法规则 如何语言程序可以看成一定字符集 语法使得这串字符串形成一个形式上正确的程序 1.3,词法规则 规 ...

  6. PCA(主成分分析)原理详解

    PCA概念 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法.PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称 ...

  7. PCA主成分分析原理及分析实践详细介绍

    自己的博客在Github上,访问不多.这篇文章竟然被别人发了出来,还是贴到CSDN上,更方便检索吧. 原文:<http://blog.genesino.com/2016/10/PCA/> ...

  8. PCA主成分分析原理的三种角度的理解

    主成分分析算是降维算法中的一个经典算法了.网上也有很多博客介绍了这个算法.这篇文章从三个不同的角度,对PCA方法做了详细的分析,不同的角度进行推导最后得到的也都是同一个结果,推导过程需要些数学基础,但 ...

  9. 计算机原理---网络基础知识

    路由器 路由器(Router)是连接因特网中各局域网.广域网的设备,是互联网的主要结点设备.它会根据信道的情况自动选择和设定路由,以最佳路径,按前后顺序发送信号.路由器通过路由决定数据的转发.转发策略 ...

最新文章

  1. spark连接Oracle数据库,Spark通过jdbc采用分区的方式从oracle读数据
  2. zoj-3471 Most powful
  3. 加快vs2010的启动速度
  4. GDCM:gdcm::TagToType的测试程序
  5. P2587 [ZJOI2008]泡泡堂 神仙贪心
  6. Springmvc中提交from之后不跳转不进控制器
  7. 【转】SharePoint 2013中修改windows 活动目录(AD)域用户密码的WebPart(免费下载)
  8. cocoscreator editbox 只允许数字_用Cocos做一个数字调节框
  9. C++11 POD 类型
  10. appium学习【三】:截图时,图片命令中包含当前的函数名,以区分错误是在哪个函数报的...
  11. 网易游戏开发工程师笔试题
  12. shell脚本编写笔记
  13. requests-BeautifulSoup爬取美女贴吧图片
  14. 2.Smali的基础语法
  15. 如何在 IDE 中将程序打成 jar 包 Library handing 三种方式讲解 如何编写 MANIFEST.MF
  16. LOJ#2155. 「POI2011 R1」同谋者 Conspiracy
  17. 六大云计算厂商南山论剑,收下这封英雄帖!
  18. Android 使用ADB命令向上滑动解锁
  19. python和opencv图像分割otsu关键代码
  20. 【区块链论文阅读】计算机网络顶会INFOCOM(二)

热门文章

  1. 城市交通解决方案,智慧交通体解决方案,解决交通拥堵解决方案
  2. 传智播客上海校区“大神季”腾讯课堂各学科公开课直播地址!
  3. 网页登录邮箱如何恢复误删邮件?
  4. 英语文章关于计算机的,关于计算机的雅思英语作文范文
  5. 解决通过调用后台接口实现Excel导出功能,后台返回数据乱码的问题
  6. 梦三国大区服务器位置,《梦三国2》军团大盘点 指点江山论各大区军团分布哪家强?...
  7. Pytorch和Tensorflow在10000*1000数据规模线性回归算法中的运算速度对比
  8. 【深度学习】AI芯片:上游产业率先爆发
  9. 在notepad++打开文件夹目录全局替换
  10. 如何用行列式求解椭圆的面积