首先,做这个相关性分析,在这里需要安装几个R包。
https://blog.csdn.net/leianuo123/article/details/102613945

https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650733008&idx=1&sn=b66e3fd527f99ddf19dcf6c2501e5be3&chksm=f029aa79c75e236f8951b87e17a51dc6a7dfeb555b983d8dc6d5a8c756b3eacc21829f19dc86&cur_album_id=1336402123646631937&scene=190#rd

使用场景
1.已经确定研究的基因,但是想探索他潜在的功能,可以通过跟这个基因表达最相关的基因来反推他的功能,这种方法在英语中称为guilt of association,协同犯罪。

2.我们的注释方法依赖于TCGA大样本,既然他可以注释基因,那么任何跟肿瘤相关的基因都可以被注释,包括长链非编码RNA

BiocManager::install(c("tidyr","dplyr","ggstatsplot"))
##加载的数据,就是我们常见的TCGA的表达矩阵,只是需要先将其进行转置。
##我们在此用得是自己的一个Test的数据。其格式如下:
————————————————

注意,在此处,基因名一定要作为列名,因为后面需用ggstatsplot进行散点图绘制的时候,其需要用到列名中的基因名字。

该数据,列名就是基因名,行名就是样本名。为了缩短数据处理时间,我们在此只取前500列作为后续的实验分析。

自己构建数据 artificial data


#单基因相关性分析#随机函数
??runif
as.matrix()runif(5*500,min = 0.1,max = 10.5)test3=matrix(runif(5*500,min = 0.1,max = 10.5),byrow = TRUE,nrow=5,ncol = 500,dimnames = list(c(paste0("sample",seq(1,5,1))),c(paste0("gene",seq(1,500,1)))))
head(test3)[1:3,1:4]y <- as.numeric(test3[,"gene1"])        ## 本次操作中,选取A1BG基因作为需要分析的单基因,批量求取它与该表达矩阵中其他基因的相关性
head(y)
colnames <- colnames(test3)
cor_data_df <- data.frame(colnames)    ##构建这些基因的数据框##利用 for循环来求A1BG与其他基因之间的相关性
library(tidyr)
library(dplyr)for (i in 1:length(colnames))
{test <- cor.test(as.numeric(test3[,i]),y,type="spearman")cor_data_df[i,2] <- test$estimatecor_data_df[i,3] <- test$p.value
}names(cor_data_df) <- c("Symbol","correlation","pvalue")
head(cor_data_df)##提取p值小于0.05的数据
cor_data_sig <- cor_data_df %>% filter(pvalue < 0.05) %>% arrange(desc(abs(correlation)))%>% dplyr::slice(1:500)head(cor_data_sig)#BiocManager::install('ggside')
library(ggstatsplot)
##利用该包进行绘制相关性的散点图和条形图
ggscatterstats(data =as.data.frame(test3), y = gene1, x = gene2,centrality.para = "mean",                              margins = "both",                                         xfill = "#CC79A7", yfill = "#009E73", marginal.type = "histogram",title = "Relationship between A1BG and SH2D3C")

library(clusterProfiler)
#获得基因列表,说明由于我的测试数据质量不是特别好,因此取到的p<0.05的基因只有24条,在此,难以用于GO分析,所以我拿我的全部的基因来做GO分析
library(stringr)
gene <- str_trim(cor_data_sig$symbol,'both')##这是取出的相关性结果好的情况下gene <- str_trim(Symbol,'both') ##这里Symbol是所有的基因名
#基因名称转换,返回的是数据框
gene = bitr(gene, fromType="SYMBOL", toType="ENTREZID", OrgDb="org.Hs.eg.db")
go <- enrichGO(gene = gene$ENTREZID, OrgDb = "org.Hs.eg.db", ont="all")##将BP,CC,MF 三个GO类别按照ONTLOGY进行分类,将三个组分绘制在一张图上。
barplot(go, split="ONTOLOGY")+ facet_grid(ONTOLOGY~., scale="free")##条形图
dotplot(go, split="ONTOLOGY")+ facet_grid(ONTOLOGY~., scale="free")##气泡图
View(go)

单基因批量相关性分析 TCGA基因相关性分析 单基因批量相关性分析的妙用相关推荐

  1. linux提取基因名称和序列,一种批量提取基因组基因信息并翻译比对分析序列的方法与流程...

    技术特征: 1.一种批量提取基因组基因信息并翻译比对分析序列的方法,其特征在于,将某一物种的转录本id或者基因id,依据供试基因组cds文件.蛋白质文件.gff文件和染色体fasta文件信息,通过6个 ...

  2. 易基因:DNA甲基化和转录组分析揭示野生草莓干旱胁迫分子调控机制|植物抗逆

    大家好,这里专注表观组学十余年,领跑多组学科研服务的易基因. 干旱胁迫是对农业生产产生不利影响的关键环境因素.为此,植物发展出各种响应机制(干旱逃逸.避免.耐受和回复),以通过进化增强抗旱性,这些适应 ...

  3. 分享分析TCGA的数据库——GEPIA(二)

    书接上回:​​​​​​分享分析TCGA的数据库--GEPIA(一)_李京弦的博客-CSDN博客GEPIA--国产TCGA可视化网站https://blog.csdn.net/weixin_465000 ...

  4. 易基因:多组学关联分析及组学分子实验验证方法(表观组+转录组+微生物组)|干货系列

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 生物过程具有复杂性和整体性,单组学数据难以系统全面解析复杂生理过程的分子调控机制.而多组学(Multi-omics)联合分析可同时实现从 ...

  5. TCGAbiolinks包分析TCGA数据

    TCGAbiolinks包不仅可以下载GDC数据,还能分析数据 (differential expression analysis, identifying differentially methyl ...

  6. maftools|TCGA肿瘤突变数据的汇总,分析和可视化

    之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫"瀑布图",以及一些细节的 ...

  7. 通过pytorch建立神经网络模型 分析遗传基因数据

    DNA双螺旋(已对齐)合并神经网络(黄色) 我最近进行了有关基因序列的研究工作.我想到的主要问题是:"哪一种最简单的神经网络能与遗传数据最匹配".经过大量文献回顾,我发现与该主题相 ...

  8. 肿瘤/非肿瘤/单基因/单细胞/非编码:史上最全生信分析攻略!!!

    解读生信之美,探讨每篇文献背后的逻辑 非肿瘤专栏:条条大路通罗马 1.4+非肿瘤生信分析+铁死亡/焦亡/自噬/代谢/免疫的万能钥匙 短评:适合一些热门机制如铁死亡/焦亡/自噬等在非肿瘤疾病中的研究 2 ...

  9. Oracle10表数据编辑器,Oracle ORACLE 快速批量导入文本数据到数据库(sqlldr工具)方法与分析 (Windows CMD 方式)...

    Oracle ORACLE 快速批量导入文本数据到数据库(sqlldr工具)方法与分析 (Windows CMD 方式) 在实际生产环境中,常会碰到将一些如通过通讯接口传过来的数据(文本文件 txt) ...

最新文章

  1. Android系统中Parcelable和Serializable的区别
  2. 国际化困境(第一篇)
  3. bos 获取数据库连接_java解析数据接口获取json对象
  4. 乐视手机权限开启方法
  5. requests源码分析
  6. uva oj 567 - Risk(Floyd算法)
  7. python3的pyqt5 qtablewidget按数据大小排列_InnoDB为什么要选择B+树来存储数据?
  8. CentOS网络配置与重启方法
  9. Java基本语法-----java标识符
  10. 小数据作为解题关键:
  11. 爬虫技术python代码_2017.07.21 Python网络爬虫之Python代码格式
  12. windows server 2008 各版本下载
  13. DB2数据库的备份还原详解
  14. 传智播客 java视频_java传智播客视频
  15. jquery设为首页,加入收藏代码
  16. java分层ppt_java程序设计第10章图形用户界面.ppt
  17. arm linux开发板tar移植
  18. 《2020-2021中国开发者调查报告》发布了!
  19. OKR-Periods of Words
  20. 长沙南站启动脸部识别验证验票;奔驰和美国无人机物流公司公司合作用无人机配送商品...

热门文章

  1. IT运维——系统监控软件简介
  2. 新零售新趋势?丨工信部:我国5G研发推动全球统一标准
  3. 2018年苏南五市单招计算机,2018年苏南五市单招二模卷--英语
  4. 重庆车检院联合联通、华为共建“5G-V2X自动驾驶创新平台”
  5. JAVA正则 find
  6. ArcGIS API For JS之空间查询和属性查询
  7. 神州笔记本战神风扇声音大怎么解决
  8. QTPDF转图片:MuPDF库
  9. EPC电子标签的一些基本知识
  10. 基于C#.NET的高端智能化网络爬虫(二)(攻破携程网)