上周五彩斑斓的气泡图

有让你眼花缭乱吗?

本周,化繁为简的PCA图

你值得拥有!

 数据分析| 科研制图﹒PCA 图

关键词:主成分分析、降维

1665 年的鼠疫

牛顿停课在家提出了万有引力 ;
1830 年的霍乱,普希金居家深造

写出了 300 多首抒情诗和几部小说 ;

2020 年的新冠,若谷也没闲着

嘿嘿嘿,是不是很好奇我在干嘛?

就不告诉你

好想快点开学啊啊啊啊啊啊 | 图源新医谷

若谷的假期,早被谷老安排上了!那就是研究文献中的各种图!最让我走火入魔的便是— PCA 图

最传统的PCA图 | 图源新医谷

初识 PCA

关于 PCA,你第一眼想到的是什么? 
是解剖里面的

Posterior Cerebral Artery(大脑后动脉)?

还是高大上的

Patient Controlled Analgesia(病人自控镇痛)?

都不是,今天若谷给大家讲的是

Principal Component Analysis

主成分分析

是不是听起来就一脸懵,下面就让我们来看看PCA是何方神圣!

01

降维

主成分分析的字面意思就是用主成分来分析数据呗!阔是,什么是主成分?这就不得不聊一个关于“降维”的故事了。

从前有座山,山上有座庙,庙里有个……

呸呸呸,拿错剧本了

应该是“学医要考研,考研要复试,复试要…要…要…复试不仅让考生心痛更让导师眼花缭乱。”这不,A导就纠结着到底选5个复试学生里的哪一个来当自己的关门弟子?

A导最终决定用数据说话!设置了“绩点,考研分数,科研能力,笔试成绩,面试表现,英语水平,奖学金,学科竞赛,部门任职”9个指标(相当于从9个维度去评价这5位考生)。

想读个书不容易 | 图源新医谷

9个指标=9个变量=9个维度

那用图表示得来个九维空间?

我的三维大脑是搞不定的 | 图源新医谷

看来9维是不行了,那怎么把维度降低,用简单的方法表示复杂的数据分析?

当然是用降维了!降维是通过减少数据中的指标(或变量)以化简数据的过程。这里的减少指标,并不是随意加减,而是用复杂的数理知识,得到几个“综合指标”来代表整个数据。

PS:降维的原理涉及复杂数理知识且大多由计算机完成,感兴趣的小伙伴可在留言区评论“PCA降维原理”了解更多!

那么问题来了!这个“综合指标”是什么?为什么它们就可以代表整个数据?

图源新医谷

02

Why

主成分?

综合指标=主成分

你没有看错,这个综合指标就是我们今天的重点:主成分它不是原来的指标中的任何一个,而是由所有原有指标数据线性组合而来。

比如A导的故事中的主成分就可这样表示:

PCA主成分 | 图源新医谷

认识了“主成分”以后,PCA的概念就很容易理解了!

PCA——就是以“降维”为核心,把多指标的数据用少数几个综合指标(主成分)替代,还原数据最本质特征的数据处理方式。

可是,主成分为什么拽到可以代替所有数据?(上一次的小提琴图不还为了保留每个数据而爬山跨海?)

认真看看可以发现部分指标其实是相互关联的!(比如奖学金也可以反映绩点情况),这就会造成数据冗余。而降维就可以帮助我们去除这些指标中重叠、多余的信息,把数据最本质和关键的信息提取出来。

A导终于可以一眼就区分这5位考生的水平并“理智”地做出选择了!

决定还有没有书读的图 | 图源新医谷

A导可是只有5位考生,9个指标而已!在我们医学中!那可是上千的样本量,上万的基因数据......

再次吐血 | 图源新医谷

在医学领域中,我们可以用PCA图来进行疾病危险因素分析,肠道菌群聚类分析,推断肿瘤亚群之间的进化关系......还用它来观察样本的分组、趋势、剔除异常数据

所以PCA图在文献中出现率还是蛮高的!!!不过遇到它我们怎么看?

深入了解PCA

壮士!先收下这份“PCA识图秘籍”

识图秘籍

样本点连线距离长 =样本之间差异性大

样本点连线距离短 =样本之间差异性小

通过主成分分析方法(PCA)分析9种食物的蛋白质消耗量(变量)与25个欧洲国家(样本)之间的关系 | 图源新医谷

由图可得,大部分欧洲国家蛋白摄入习惯是:吃鸡蛋、红肉(猪牛羊等畜肉)、白肉(禽、鱼肉及水产品),喝牛奶。

迷茫的打出三个问号 | 图源新医谷

详细的解析来了!

1、各样本点连线的距离:体现各国家蛋白摄入习惯的相似性。

2、主成分与原变量之间的关系:箭头对应的原始变量在投影到水平和垂直方向上后的值,可以分别体现该变量与PC1和PC2的相关性(正负相关性及其大小)(例如,Eggs对PC1具有较大的贡献,而Nuts则与PC1之间呈较大的负相关性)。

3、样本点和箭头之间的距离:反映样本与原始变量的关系。(对于图中用蓝色粗箭头所指的样本点而言,该国的蛋白质来源主要为Fruits and Vegetables)。

图源新医谷

怎么样?有没有一种豁然开朗的感觉?

什么?还是懵?

没关系,继续看例子

滑动查看更多例子 | 图源新医谷

不过这还没完哦!

大家都是有追求医学生,要有追求~

我们不仅要会读,还要会画!

PCA图怎么画

接下来若谷就用上面读图用到的“25个国家消耗的蛋白质的9种食物来源”的例子所对应的数据来教大家用Origin2020绘制PCA图~(该数据集来自Origin2020示例文件)

滑动打开新世界的大门

大家都学会了吗?

眼睛会了可不算哦~
答应若谷,一定要亲自动手去试试
相信你一定会画得比若谷的漂亮~

小试牛刀

耐不住性子想要自己亲自试试了吧?那若谷就来考考大家,从下面这幅图你能看出什么呢?

仔细看图中颜色,若谷快要变成色盲了

点击空白处查看答案

图一将牦牛与中国土著品种牛区分开。

图二根据地理背景来区分中国本土牛的品种,图中西北部的牛主要位于虚线以下,南方的牛位于虚线以上,而中部混合型牛位于虚线附近。

点击 关键词 查看更多

科研资源丨您有一份科研资源清单,请签收!

科研识图丨读文献先读懂图——生存分析曲线图

科研识图丨读文献先读图——文献中最热的热图怎么看

科研制图 | 读文献先读图——火山图

科研制图 | 读文献先读图——小提琴图

科研制图 | 读文献先读图——气泡图

JUN

28

本次读图大赛到此结束,下一期讲什么(⊙o⊙)?

很懂行的谷友,投稿福利安排上 | 图源新医谷

作者:X-Land启思科研组

配图:X-Land漫说医学组

排版:读懂了PCA的若谷

参考文献

[1]Yaran Zhang,Population  Structure  and  Selection  Signatures Underlying High-Altitude Adaptation Inferred From Genome Wide  Copy Number Variations in Chinese Indigenous Cattle,Frontiers in Genetics,2020

[2]叶卫平.Origin9.1【M】.北京:机械工业出版社,2015:345-349

[3]Nagel T,Klaus F et al.  Fast and facile analysis of glycosylation and phosphorylation of fibrinogen from human plasma—correlation with liver cancer and liver cirrhosis 【J】.  Analytical and Bioanalytical Chemistry,2018.

[4]Wanxin Liu et al.Study of the Relationship between Microbiome and Colorectal Cancer Susceptibility Using 16S rRNA Sequencing[J]BioMed Research International,2019.

本文分享自微信公众号 - 生信科技爱好者(bioitee)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

读文献先读图——主成分分析 PCA 图相关推荐

  1. ggplot作图(条形图 误差线点图 折线图 箱线图 密度图 岭图 小提琴图 云雨图 直方图 PCA图 PcoA图 NDMS图 和弦图 维恩图 时间序列图 系统发育树 饼图 生物区系图 地图 )

    文章目录 基本原理 Plot = data + mapping +geometry + (Statistics, Scale, Coordinate) + Details 基础代码 常用图 条形图 点 ...

  2. ggbiplot | 带箭头的主成分分析(PCA)图绘制

    ggbiplot 本期素材来源还是上期NC中的图,因为图比较一般,就不放在CNS绘图系列了,简单介绍一下ggbiplot 的用法即可. PCA ❝ 「Title:」Molecular determin ...

  3. 代码(2):聚类图以及PCA图

    写在前面 帮忙处理数据时,拿到数据第一件事就是看下所谓之前的分组是不是合理的有效,如果不合理有效又应该如何呢?这是一个非常重要的问题. 聚类图 d <- dist(t(logCPM), meth ...

  4. 「像读文献一样读代码」第一期:如何解析GTF文件进行统计分析?

    测试数据下载 wget -c ftp://ftp.ensembl.org/pub/release-87/gtf/homo_sapiens/Homo_sapiens.GRCh38.87.chr.gtf. ...

  5. 223.主成分分析PCA

    主成分分析 PCA 本节作者:刘华,中国科学技术大学 版本1.0.3,更新日期:2020年6月18日 什么是PCA(Principal Component Analysis) 相关背景 在许多领域的研 ...

  6. 送书 | 主成分分析PCA

    主成分分析 PCA 本节作者:刘华,中国科学技术大学 版本1.0.3,更新日期:2020年6月18日 什么是PCA(Principal Component Analysis) 相关背景 在许多领域的研 ...

  7. 【读文献笔记】图神经网络加速结构综述

    [读文献笔记]图神经网络加速结构综述 前言 一.图神经网络来源 1.图神经网络用途 2.图神经网络特点 3.图神经网络主要阶段 4.图神经网络加速面临的挑战 5.本笔记内容包含内容 二.图与图神经网络 ...

  8. 读tomcat源码,随笔类图

    by yan 20170425 读tomcat源码,随笔类图:

  9. 主成分分析——PCA降维Python实现及碎石图

    引言 降维的思想: 多元统计分析处理的是多变量问题.由于变量较多,增加了分析问题的复杂性.但在实际问题中,变量过多会存在一定的相关性,因此,多变量中可能会存在信息的重叠.在我们进行数据处理的时候为了提 ...

最新文章

  1. HTTP 请求包/回复包格式数据分析
  2. C#程序 权限不够的解决方案
  3. mongoose Warning:Server Discovery and Monitoring engine is deprecated
  4. 达摩院 2020 预测:工业互联网超融合来袭!
  5. iOS开发内存管理总结
  6. python第一单元测试,知到Python语言应用第一单元章节测试答案
  7. “依赖混淆”供应链攻击现身 微软苹果特斯拉优步等超35家企业内网失陷
  8. python机器学习库xgboost使用调参
  9. linux使用grep查找文件内容,linux如何使用grep命令查找文件内容
  10. QA智能问答(QQ匹配)
  11. 切切实实解决实际问题,方正璞华劳动人事法律自助咨询服务平台在实践中走在前列
  12. html获取 条码枪,获取扫描枪条码
  13. 朋友圈水果店简短销售文案,水果店朋友圈宣传文案
  14. 路缘石滑模机在作业中实现施工水平突破的特点
  15. 做为一名大数据新手,应该通过这篇文章了解大数据
  16. 年近30,朋友聚会都聊什么?
  17. Unity3D中开发2D游戏——动画的制作
  18. color together中颜色扉页问题
  19. 我没捏出来的脸,淘宝帮我做到了
  20. 钉钉群机器人关键词自动回复_企业微信机器人可以这样用

热门文章

  1. (一)深入浅出图解Git,入门到精通(保姆级教程)
  2. 干货 | 45张图庖丁解牛18种Queue,你知道几种?
  3. “坑爹”排行榜:Java语言最违反常识的功能点TOP 10
  4. 2019年我只想明白了这5点
  5. Java问题排查工具清单!
  6. 当你 ping 的时候,你知道背后发生了什么吗?
  7. 如何使用Leangoo管理Sprint Backlog
  8. 在leangoo里怎么插入泳道,上下移动泳道和删除泳道?
  9. 知乎点赞工具使用教程
  10. 排序算法---插入排序(java版)