其实不论是PCoA还是PCA图均是用散点图来展示结果PCoA和PCA的结果,PCoA和PCA准确来讲是数据降维分析方法。

什么是PCA和PCoA

主成分分析(Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向(如图)。PCA对原始数据的正则化或预处理敏感(相对缩放)。PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。

PCA示意图

主坐标分析(Principal Coordinates Analysis,PCoA),即经典多维标度(Classical multidimensional scaling),用于研究数据间的相似性。PCoA与PCA都是降低数据维度的方法,**但是差异在在于PCA是基于原始矩阵,而PCoA是基于通过原始矩阵计算出的距离矩阵。**因此,PCA是尽力保留数据中的变异让点的位置不改动,而PCoA是尽力保证原本的距离关系不发生改变,也就是使得原始数据间点的距离与投影中即结果中各点之间的距离尽可能相关(如图)。

PCoA示意图

如何进行PCA和PCoA分析

R中有很多包都提供了PCA和PCoA,比如常用的ade4包。本文将基于该包进行PCA和PCoA的分析,数据是自带的deug,该数据提供了104个学生9门课程的成绩(见截图)和综合评定。综合评定有以下几个等级:A+,A,B,B-,C-,D。让我们通过PCA和PCoA来看一看这样的综合评定是否合理,是否确实依据这9门课把这104个学生合理分配到不同组(每个等级一个组)。

deug的9门课

(1)PCA分析及作图

前文已经介绍了PCA是基于原始数据,所以直接进行PCA分析即可。由于前面已经介绍过散点图的绘制方法,这里不再细讲,PCA分析完毕后我们直接作图展示结果。

library(ade4)

library(ggplot2)

library(RColorBrewer)

data(deug)

#PCA分析

pca

#坐标轴解释量(前两轴)

pca_eig

#提取样本点坐标(前两轴)

sample_site

sample_site$names

names(sample_site)[1:2]

#以最终成绩作为分组

sample_site$level

library(ggplot2)

pca_plot

theme_classic()+#去掉背景框

geom_vline(xintercept = 0, color = 'gray', size = 0.4) +

geom_hline(yintercept = 0, color = 'gray', size = 0.4) +

geom_point(size = 1.5)+ #可在这里修改点的透明度、大小

scale_color_manual(values = brewer.pal(6,"Set2")) + #可在这里修改点的颜色

theme(panel.grid = element_line(color = 'gray', linetype = 2, size = 0.1),

panel.background = element_rect(color = 'black', fill = 'transparent'),

legend.title=element_blank()

)+

labs(x = paste('PCA1: ', round(100 * pca_eig[1], 2), '%'), y = paste('PCA2: ', round(100 * pca_eig[2], 2), '%'))

pca_plot

整体看起来还不错,就是B-和C-的学生似乎难以区分。

(2)PCoA分析及作图

library(ade4)

library(ggplot2)

library(RColorBrewer)

library(vegan)#用于计算距离

data(deug)

tab

tab.dist

pcoa

#坐标轴解释量(前两轴)

pcoa_eig

#提取样本点坐标(前两轴)

sample_site

sample_site$names

names(sample_site)[1:2]

#以最终成绩作为分组

sample_site$level

library(ggplot2)

pcoa_plot

theme_classic()+#去掉背景框

geom_vline(xintercept = 0, color = 'gray', size = 0.4) +

geom_hline(yintercept = 0, color = 'gray', size = 0.4) +

geom_point(size = 1.5)+ #可在这里修改点的透明度、大小

scale_color_manual(values = brewer.pal(6,"Set2")) + #可在这里修改点的颜色

theme(panel.grid = element_line(color = 'gray', linetype = 2, size = 0.1),

panel.background = element_rect(color = 'black', fill = 'transparent'),

legend.title=element_blank()

)+

labs(x = paste('PCoA1: ', round(100 * pcoa_eig[1], 2), '%'), y = paste('PCoA2: ', round(100 * pcoa_eig[2], 2), '%'))

pcoa_plot

有时候PCA和PCoA的结果差不多,有时候某种方法能够把样本有效分开而另一种可能效果不佳,这些都要看样本数据的特性。

因为没有现成可供分享的微生物组数据,所以用了这个成绩的数据集。通常来说在微生物组的研究中,我们会根据物种丰度的文件对数据进行PCA或者PCoA分析,也是我们所说的beta-diveristy分析,根据PCA或者PCoA的结果看疾病组和对照组能否分开,以了解微生物组的总体变化情况。

r语言绘制精美pcoa图_「R」数据可视化5:PCA和PCoA图相关推荐

  1. r语言绘制精美pcoa图_R语言绘制交互式热图

    热图 通过热图可以简单地聚合大量数据,并使用一种渐进的色带来优雅地表现,最终效果一般优于离散点的直接显示,可以很直观地展现空间数据的疏密程度或频率高低.但也由于很直观,热图在数据表现的准确性并不能保证 ...

  2. r语言绘制精美pcoa图_如何绘制精美的PCoA图形?

    原标题:如何绘制精美的PCoA图形? 今天我们来分享干货--PCoA图形的代码.继PCA.火山图.热图等代码后,基迪奥的程序猿又整理出PCoA代码.具体往期我们分享过的代码贴,可以在文末查看哦. 什么 ...

  3. r语言绘制精美pcoa图_R数据可视化4: PCA和PCoA图

    其实不论是PCoA还是PCA图均是用散点图来展示结果PCoA和PCA的结果,PCoA和PCA准确来讲是数据降维分析方法. 顺便值此佳节,祝福各位和"科研"都能够拥有幸福时光和美好结 ...

  4. r语言 rgl 强制过程中_一个R语言中操纵矢量空间数据的标准化工具—sf

    ​注: 本文是R语言sf包的核心开发者和维护者--来自德国明斯特大学的地理信息学教授:Edzer Pebesma 的一篇关于sf包的简介,发表于2018年7月的R语言期刊,主要讲述了sf的定位.功能. ...

  5. r语言查找是否存在空值_关于R包安装你知道多少?

    在R语言的学习过程中离不了各种R包的安装与使用,要使用某个R包首先得学会如何安装该R包.对于R包的安装你知道的有多少?你知道如何指定安装路径吗?为何你每次重新打开R绘画都需要重新安装R包?今天小编带你 ...

  6. r语言kendall协和系数_使用R语言函数cor.test()做相关性计算和检验

    假设我们现在有两组数据,如下所示 x y 55.24 1.2 59.03 1.19 47.27 1.38 52.94 0.94 55 1.81 54 1.75 55.69 1.42 48.85 3.0 ...

  7. R语言对数线性模型loglm函数_使用R语言进行混合线性模型(mixed linear model) 分析代码及详解...

    1.混合线性模型简介 混合线性模型,又名多层线性模型(Hierarchical linear model).它比较适合处理嵌套设计(nested)的实验和调查研究数据.此外,它还特别适合处理带有被试内 ...

  8. r语言t检验输出检验统计量_[转载]R语言:常用统计检验

    R语言:常用统计检验方法 写在前面 R已经成为当前国际学术界最流行的统计和绘图软件之一,该语言较为简单易学,统计分析功能强大,且具有很强的绘图功能,能够绘制学术出版要求的多种图表.R语言在生物信息学, ...

  9. ps修改dds贴图_「干货」喜爱3D游戏动漫建模的你,必备的次世代游戏贴图技巧...

    一.使你的图片可重复贴图 这是什么意思呢?大部分的回答是:如果图片重复贴图时两个图片间没有接缝.听起来是对的.但可重复贴图同时也意味着你不需要在你的纹理中出现任何引人注意的污点.在早期的三维游戏中这不 ...

最新文章

  1. [CQOI2011]动态逆序对
  2. [转贴] C++内存管理检测工具 Valgrind
  3. [CSS]复选框单选框与文字对齐问题的研究与解决.
  4. unittest中的测试固件
  5. java 登录数据前端加密+后台验证RSA
  6. 测试驱动开发 测试前移_我如何以及为什么认为测试驱动开发值得我花时间
  7. SpringMVC注解@RequestParam全面解析____ 注解@RequestParam如何使用加与不加的区别
  8. 计算机电子的危害,电子垃圾焚烧炉的危害有多大,你了解过吗?
  9. MySql插入数据时错误Duplicate entry '131' for key 'PRIMARY'
  10. spring、spring-boot配置文件属性内容加解密
  11. ASP.NET 2.0的编译行为
  12. 在GlassFish应用服务器上创建并运行你的第一个Restful Web Service【翻译】
  13. bzoj1096 [ZJOI2007]仓库建设(斜率)
  14. Eprime与EEG的接口
  15. 视频教程-webpack基础和完整项目脚手架搭建教程-JavaScript
  16. linux 连接打印机
  17. 强制修改服务器时间,修改服务器时间脚本
  18. poi-tl导出word;自定义列表序号和表格宽度,表格合并,自定义标题,更新目录
  19. 工具党如何干掉某讯手游的反修改器功能
  20. [论文阅读](图像/视频质量评价系列)

热门文章

  1. 全国各地dns服务器列表
  2. 64G的EXFAT格式的U盘如何格式化为FAT32
  3. 高德地图海量点 API 初探
  4. 利用出生年月日求年龄
  5. 计算机导论课后总结4
  6. 玩转Luat——导读
  7. 计算机技术在建模中的作用,谈计算机在数学建模中的作用
  8. 联想e480怎么一键恢复_Lenovo笔记本电脑如何使用一键恢复
  9. 从来不是别人的不幸和痛苦
  10. 【思前享后】区块链架构与特点