关于相关性,表示数据之间的相互依赖关系。但需要注意,数据具有相关性不一定意味着具有因果关系

相关性在组学数据挖掘中应用非常广,如样本的重复检验、基因的共表达分析、微生物群落的共发生网络分析等。


相关性分析其实较为简单,用R语言自带的cor()函数非常容易计算得到两两变量间的相关系数。下面我们就来看下如何用R语言实现相关性计算并绘制带有显著性星标的相关性热图。

1.相关系数计算

以R自带的数据集mtcars为例,直接计算矩阵或数据框对应列之间的相关性系数。

#查看范例数据的前6行;
head(mtcars)

#计算mtcars数据框的相关性系数;
cor<- cor(mtcars)
class(cor)
#查看得到相关性系数矩阵的前5行,前5列;
cor[1:5,1:5]

2.绘图样式

#安装R包;
install.packages("corrplot")#载入相关R包;
library(corrplot)
#默认的绘制方法是 "circle",图形的样式还可以是"square"、"ellipse"、"pie"和"color"等,其中method = "number"时,只显示相关性系数;
corrplot(cor, method = "square")

#可绘制lower、lower、full三种布局方式的热图,当然也可以混合显示;
corrplot.mixed(cor, lower = "square", upper = "circle", tl.col = "black")

3.聚类顺序调整

#常见的排序方式有 "AOE", "FPC", "hclust", "alphabet";
#"AOE" 是指按特征向量的角度排序(angular order of the eigenvectors);
#"FPC" 是按照 first principal component 的顺序排序;
#"hclust"是按照分层聚类的结果排序;
#"alphabet"按照名称字母顺序排序。
corrplot(cor, order = "hclust")

#如果是选"hclust",还可以根据聚类结果添加矩形框;
corrplot(cor, order = "hclust", addrect = 2)

4.调整颜色

#自定义渐变颜色;col2 <- colorRampPalette(c("#77C034","white" ,"#C388FE"),alpha = TRUE)#使用这些渐变颜色;
#addgrid.col调整网格颜色;
#outoutline指定图形描边;
corrplot(cor, order = "hclust", addgrid.col = "grey70",type = "upper",
outline = "orange",col = col2(100),method = "square",diag = F)

#Tips:这里的col2的对象类型是函数!
col2(100)
class(col2)
#自定义文本标签颜色:
#tl.* 系列参数用于调整文本标签;
#tl.col (text label color) 调整文字标签颜色;
#tl.srt (text label string rotation) 调标签角度(横轴方向);
#tl.cex调字体大小;
#使用r自带颜色集cm.colors的效果如下;
corrplot(cor, order = "hclust",col = cm.colors(100),method = "square",
tl.col="black",tl.cex = 0.8)

5.图例调整

# cl.* 系列参数用于调整图例;
#cl.ratio 调整颜色条的宽度;
#cl.align调整颜色条刻度标签的对齐方式;
#cl.length指定颜色条标签个数;
corrplot(cor, order = "hclust",col = col2(100),method = "circle",
cl.length=5,addgrid.col = NA,outline = "grey60",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)

#绘制上三角热图;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
cl.length=5, type = "upper",diag = F,
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2)

#去掉图例和标签;
corrplot(cor, order = "hclust",col = col2(100),method = "square",
tl.col="black",tl.cex = 0.8,cl.pos = "n",tl.pos = "n")

6.显示数值

#添加显著性标记:
#使用cor.mtest做显著性检验;
res1 <- cor.mtest(mtcars, conf.level = .95)
res2 <- cor.mtest(mtcars, conf.level = .99)#提取p值矩阵;
p.mat = res1$p
p.mat[1:5,1:5]

#指定显著性水平,不显著的为空白;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = .05,insig = "blank",addgrid.col="white")

#显示P值;
corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = -1,pch.cex=1,
insig = "p-value", pch.col = "white")#显示相关系数;
#par(lty=2)可指定线的粗细,遗憾的是会作用到图例的线条;corrplot(cor, order = "hclust",col = col2(100),method = "color",
cl.length=5,addgrid.col="white",cl.pos = "r",
addCoef.col="black",number.cex=0.6,number.digits=1,number.font=1,
tl.col="black",tl.cex = 0.8,cl.ratio = 0.2)

#缺失值的展示,默认是用“?”,也可以自定义;
#corrplot(cor, na.label = "NA")

7.添加显著性星标标记

#insig为"p-value",不显著的格子显示p值;
#insig为"label_sig",可用于显示不同显著水平的星标;
#insig为"pch" (default),不显著的格子显示pch值对应图形;corrplot(cor, order = "hclust",col = col2(100),method = "color",
tl.col="black",tl.cex = 0.8,cl.pos = "r",cl.ratio = 0.2,
p.mat = res1$p, sig.level = c(.001, .01, .05),outline="white",
insig = "label_sig",pch.cex = 1.2, pch.col = "white")

8.推荐另一个R包ggcor

上文的corrplot包是基于R基础绘图函数创建的,那么又没有基于ggplot2的呢?有,比如相对应的ggcorrplot包,不过我这里推荐另一个R包:ggcor 。

#安装方法:
# install.packages("devtools")
devtools::install_github("houyunhuang/ggcor")
#载入R包;
library(ggcor)
library(ggplot2)
#直接快速绘制整个相关性热图;
quickcor(mtcars, cluster = TRUE,cor.test = TRUE) +
geom_colour() +
geom_mark(size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 1)

#直接绘制上三角热图;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_colour(data = get_data(type = "upper")) +
geom_mark(data = get_data( type = "upper"),size=3,color="white",fontface=1)+
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)

#直接绘制上三角“方块”热图;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_square(data = get_data(type = "upper")) +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(size = 0.6)

#直接绘制上三角“气泡”热图;
quickcor(mtcars, cluster = TRUE,type = "upper",cor.test = TRUE) +
geom_circle2(data = get_data(type = "upper"),colour="white") +
scale_fill_gradientn(colours = c("#77C034","white" ,"#C388FE"))+
geom_panel_grid(colour = "white",size = 0.6)

拓展阅读

方差(Variance):每个样本值与全体样本值的平均数之差的平方值的平均数,用于衡量一个变量的数据和期望值离散程度,公式如下,其中,σ2 即D(X)、Var(V),为总体方差,X为变量,μ为总体均值,N为总体个数。

协方差(Covariance):用于衡量两个变量的总体误差。而方差可看作是协方差的一种特例,即当两个变量是相同的时候。公式如下:

可以看出,若X,Y正相关(变换趋势相同),则协方差值为正;变化趋势相反则协方差值为负。

相关系数(Pearson):相关系数是研究变量之间线性相关程度的指标,而相关关系是一种非确定性的关系,数据具有相关性不能推出有因果关系。相关系数的计算公式如下:

其中,公式的分子为X,Y两个变量的协方差,Var(X)和Var(Y)分别是这两个变量的方差。当X,Y的相关程度最高时,即X,Y趋近相同时,很容易发现分子和分母相同,即r=1。

好啦,本次就分享到这里啦,不知对你有没有启发呢?

python 相关性检验怎么计算p值_生信工具 | 相关性热图还能玩出什么花样?相关推荐

  1. python 相关性检验怎么计算p值_相关性分析之Predictive Power Score(PPS)

    常用相关性分析方法 在分析特征间相关性时,常使用的方法是 pandas.DataFrame.corr : DataFrame.corr(self, method='pearson', min_peri ...

  2. python 相关性检验怎么计算p值_机器学习:数据的准备和探索——数据假设检验...

    图 | 源网络文 | 5号程序员 数据假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法. 那我们啥时候会用到假设检验呢? 大多数情况下,我们无法分辨事物的真伪或者某种说法是否正确,这时就 ...

  3. python 相关性检验怎么计算p值_不会Python进行时间序列预测?不要紧,大神来教你...

    作者:Leandro Rabelo译者:李洁整理:Lemonbit本文内容较长,较为详细的阐述了进行时间序列预测的步骤,有些内容可能暂时用不到或者看不懂,但不要紧,知道有这么一个概念,后续碰到的时候, ...

  4. python 相关性检验怎么计算p值_收藏 | 大神教你用Python预测未来:一文看懂时间序列...

    (由Python大本营付费下载自视觉中国) 作者 |  Leandro Rabelo 译者 | 李洁 整理 | Lemonbit 出品 | Python数据之道 本文内容较长,较为详细的阐述了进行时间 ...

  5. python利用以下公式求π的值_使用Python计算 π 值

    π是一个无数人追随的真正的神奇数字.我不是很清楚一个永远重复的无理数的迷人之处.在我看来,我乐于计算π,也就是计算π的值.因为π是一个无理数,它 是无限的.这就意味着任何对π的计算都仅仅是个近似值.如 ...

  6. python字典修改键所对应值_详解如何修改python中字典的键和值

    我们知道python中字典是无序的,它们都是通过hash去对应的.一般的如果我们需要修改字典的值,只需要直接覆盖即可,而修改字典的键,则需要使用字典自带的pop函数,示例如下: t = {} t['a ...

  7. origin做相关性分析图_如何用Origin绘制热图?

    常见的绘制热图的方法有很多,如可用R包,OmicSare tools的热图工具,Heml等绘制.那么常规的科研作图软件 Origin 能不能绘制热图呢?今天就用Origin尝试下绘制热图. 数据准备 ...

  8. 在idea做项目时 在进行模糊查询的时候页面为什么拿不到值_深入浅出Performance工具解决Web页面性能问题

    前言 Performance 一个在前端开发领域中,无法被忽视的存在,如果我们的开发是一个满足需求就可以的产品,那么可能就用不到它:但是如果我们想对我们的这个产品,做一个极致的优化,那么 Perfor ...

  9. vscode如何运行python文件_vscode怎么运行.py文件_编程开发工具

    vscode背景图怎么换_编程开发工具 vscode中更换背景图的方法:安装background插件,然后进入User Settings用户设置,在搜索框中搜索background进入配置文件,在ba ...

最新文章

  1. 工信部通告:任何组织和机构不得继续实施“计算机信息系统集成企业资质认定”...
  2. Activiti工作流从入门到入土:完整Hello World大比拼(Activiti工作流 API结合实例讲解)
  3. BZOJ 1565 Luogu P2805 [NOI2009]植物大战僵尸 (Tarjan判环、最小割)
  4. CoreCLR源码探索(六) NullReferenceException是如何发生的
  5. office高级应用与python综合案例教程_使用Python操作Office——EXCEL
  6. php类型之class类,对象,构造函数的理解
  7. 支票数字大写转换器_信用卡支票数字生成器Java程序
  8. 小学计算机机器人大赛,2019年花都区中小学电脑机器人竞赛活动
  9. 计算机如何启动论文,论文在电脑上开始怎么写_初学者怎么在电脑上写论文_在电脑上写稿子的全部步骤...
  10. 微信公众号商城前景分析
  11. 101. Domino 10 就要来了
  12. Web Workers简要概述
  13. FPGA串口接收与发送详解( part 3 )
  14. VFP下打印机的设置编程
  15. C# WebAPI 上传文件和图片
  16. MyBatis 报错 Could not initialize class
  17. 中级微观经济学:Chap 12 不确定性
  18. ps2023宿主滤镜磨皮插件Portraiture安装教程
  19. 接口 抽象类 C++
  20. 如何快速打胖包和瘦包

热门文章

  1. 怎么结束linux里的redis进程,linux 怎么结束redis的monitor命令
  2. libcudart.so.8.0 cannot open shared object file: No such file or directory
  3. 大数据学习笔记10:MR案例——词频统计
  4. 《天天数学》连载05:一月五日
  5. 普通变量与寄存器变量速度对比
  6. java随机姓名_Java随机产生中文昵称
  7. python自己写包_封装属于自己的Python包
  8. 【英语学习】【WOTD】apposite 释义/词源/示例
  9. Intel 64/x86_64/IA-32/x86处理器指令集 - CPUID (1) - 概述
  10. Linux| |对于UDP的学习