(生物信息学)R语言与统计学入门(六)—— Pearson和Spearman相关性分析
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。
相关性分析主要包括pearson和spearman相关分析。
比如比较两个基因之间的相关性,从而确定他们之间是否具有共表达关系。
之前分享的关于GEPIA网站的两个基因相似性分析就是相关性分析:
分享分析TCGA的数据库——GEPIA(一)_Lijingxian教你学生信的博客-CSDN博客_tcga数据库GEPIA——国产TCGA可视化网站https://lijingxian19961016.blog.csdn.net/article/details/123839795?spm=1001.2014.3001.5502
那么下面我们看看代码如何实现。
首先,我们准备一个数据:
来自TCGA数据库的某两个基因A和B,下面运行代码:
setwd("D:\\")
dir()
data <- read.csv("PCC.csv",header = T,sep = ",")
head(data)
下面用几种方法来计算相关性:
a <- cor(data$GeneA,data$GeneB)
a> a
[1] 0.376044
单纯用cor函数计算出来只有相关性,没有P值。
下面使用cor.test函数:
a <- cor.test(data$GeneA,data$GeneB,method = "pearson")
a> aPearson's product-moment correlationdata: data$GeneA and data$GeneB
t = 8.1672, df = 405, p-value = 4.057e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:0.2894192 0.4565593
sample estimates:cor
0.376044
可以看到P值4.057e-15,是有意义的,相关性0.37。这里用的是pearson相关系数法。
这只能说算是一个中度相关。
一般做生信,相关性的阈值是自己定义的,可以是0.6,可以是0.3,但是一篇文章就必须统一,要么0.6,要么0.3,当然也可以0.5, 0.4。
下面是spearman法:
a <- cor.test(data$GeneA,data$GeneB,method = "spearman")
a> aSpearman's rank correlation rhodata: data$GeneA and data$GeneB
S = 3361806, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:rho
0.7008126
可以看到两种方法相关性差别还是很大的,关于具体怎么选择这两种方法,我们下次再讲。
下面我们可以用一个散点图来展示一下相关性:
plot(data$GeneA,data$GeneB)
但是这个图比较丑,放在文章里面不好看,下一期我们介绍一下做一张好看的散点图。
(生物信息学)R语言与统计学入门(六)—— Pearson和Spearman相关性分析相关推荐
- (生物信息学)R语言与统计学入门(七)—— 一元线性回归分析
我们之前讲过相关性分析,生物信息学常见的相关性分析是pearson相关和spearman相关. (生物信息学)R语言与统计学入门(六)-- Pearson和Spearman相关性分析_Lijingxi ...
- (生物信息学)R语言与统计学入门(二)——单因素方差分析
上次说到t检验,是检验两组数据的均数差异,链接如下: (生物信息学)R语言与统计学入门(一)--t 检验_李京弦的博客-CSDN博客 这次我们来介绍一下单因素方差分析. 单因素方差分析: 方差分析(A ...
- (生物信息学)R语言与统计学入门(五)—— Wilcoxon秩和检验法和Mann-Whitney U检验
上回说到t检验:(生物信息学)R语言与统计学入门(一)--t 检验_Lijingxian教你学生信的博客-CSDN博客t检验,亦称student t检验(Student's t test),比较两个平 ...
- R语言统计入门第六章——回归与相关性
回归与相关性 6.1简单线性回归 library(ISwR) attach(thuesen) The following objects are masked from thuesen (pos = ...
- R语言七天入门教程六:文件相关操作
R语言七天入门教程六:文件相关操作 一.文件的读写 R 语言作为统计学编程语言,常常需要处理大量数据,而这些数据通常会从文件中进行读取,因此文件读写在R语言中是非常重要的操作.在R语言中,用到最多的文 ...
- R语言基础知识入门学习(一)
目录 系列文章目录 一.软件下载 二.基本知识 1. 对象 2. 向量 3. 向量化 4. 因子 总结 系列文章目录 R语言基础知识入门学习(一) 一.软件下载 我们可以通过这个网址对R语言软件进行下 ...
- R语言学习笔记——入门篇:第一章-R语言介绍
R语言 R语言学习笔记--入门篇:第一章-R语言介绍 文章目录 R语言 一.R语言简介 1.1.R语言的应用方向 1.2.R语言的特点 二.R软件的安装 2.1.Windows/Mac 2.2.Lin ...
- R语言七天入门教程二:认识变量与运算符
R语言七天入门教程二:认识变量与运算符 一.什么是变量 1.变量 顾名思义,我们可以将变量理解为"可以改变的量",是计算机语言中能储存计算结果或能表示值的抽象概念.这里的值可以是数 ...
- R语言基础之第六部分 分类(史上最全含ddply、aggregate、split、by)
R语言基础之第六部分 分类(史上最全含ddply.aggregate.split.by) 数据: 某市2014年-2018年空气质量指数日数据,需要按年分类计算每年 warm值为1和 0的均值. 数据 ...
- R语言七天入门教程一:配置运行环境
R语言七天入门教程一:配置运行环境 一.R语言介绍 1.R语言是什么? 参考:R语言教程-R语言介绍 R 语言是为数学研究工作者设计的一种数学编程语言,主要用于统计分析.绘图.数据挖掘.R语言有丰富的 ...
最新文章
- Angular Http
- java ado连接mysql_【转】Java JDBC对应C# ADO连接数据库之区别
- python file operations
- 部署Smokeping
- 27. JavaScript Cookies
- stap监控cpu脚本小结
- 为什么我要建立自己的公众号?
- SQL AND OR 运算符的用法
- 【hadoop生态之ZooKeeper】第三章ZooKeeper内部管理【笔记+代码】
- Layui树形表格组件的实现
- 三菱Q系列PLC(内置以太网)与IFIX驱动IGS通讯测试 - TCPIP或UDP
- linux mod jk.so,linux - mod_jk无法连接Apache和tomcat - SO中文参考 - www.soinside.com
- 通俗理解OvO与OvR
- STL系列之四 heap 堆
- Mysql 忘记root密码的完美解决方法
- Android 控件view的可见,不可见,隐藏的设置和区别
- jQuery——JavaScript 库
- 从华为进军安防解读未来安防行业发展趋势
- QTabWidget的样式
- 象棋30种绝杀秘籍大全,GIF图解灵活运用可百战百胜,绝无敌手
热门文章
- 开源多云技术平台——Choerodon猪齿鱼发布0.23版本
- python 1加到100的三种方法
- mac抹掉磁盘重装系统未能与服务器取得联系_干活!苹果电脑安装mac系统详细教程...
- python+mitmdump实战(3/3)(附源码)
- Delphi 安卓11 中文语音合成(中文朗读)注意内容
- html5s做表单,5S推行手册表单.doc
- 前端实习日记(6月前两周)
- 内存数据库FastDB和SQLite性能测评
- html背景颜色渐变代码
- 计算机及格率用什么函数,excel计算及格率函数的使用教程