TCGAbiolinks包不仅可以下载GDC数据,还能分析数据 (differential expression analysis, identifying differentially methylated regions,etc. ) ,以及对分析结果进行可视化操作(e.g., survival plots, volcano plots, starburst plots)。本文主要探索了基因差异表达分析及生存分析,其他功能感觉不太好用,可以参考官方文档。

TCGA样品编码方式 见参考​​​​​​​ ​​​​​​​​​​​​​​

1. 差异表达基因分析

# if (!requireNamespace("BiocManager", quietly = TRUE))
#   install.packages("BiocManager")
#
# BiocManager::install("EDASeq")library(TCGAbiolinks)
# ls("package:TCGAbiolinks")
library(EDASeq)# TCGAbiolinks 分析TCGA数据
##1. 差异表达基因分析
# 要分析的TCGA项目名,
# getGDCprojects()$project_id
CancerProject <- "TCGA-BRCA"# 数据存放路径
DataDirectory <- paste0("./",gsub("-","_",CancerProject))
# gsub("-","_",CancerProject) # 替换"-"为"_"# 数据名称
FileNameData <- paste0(DataDirectory, "_","HTSeq_Counts",".rda")# 下载数据
query <- GDCquery(project = CancerProject,data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification", workflow.type = "HTSeq - Counts")
# colnames(query[[1]][[1]])
samplesDown <- getResults(query,cols=c("cases"))  # 数据集中所有样品编号
# typesample, TP: PRIMARY SOLID TUMOR, NT:    Solid Tissue Normal
dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown,typesample = "TP") #原发性实体瘤样品编号dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,typesample = "NT") #正常实体组织样品编号
# 取部分样品,减少数据处理时间(为了演示)
dataSmTP_short <- dataSmTP[1:10]
dataSmNT_short <- dataSmNT[1:10]
# 下载数据
queryDown <- GDCquery(project = CancerProject, data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification", workflow.type = "HTSeq - Counts", barcode = c(dataSmTP_short, dataSmNT_short))GDCdownload(query = queryDown,directory = DataDirectory)dataPrep <- GDCprepare(query = queryDown, save = TRUE, directory =  DataDirectory,save.filename = FileNameData)# 数据预处理
dataPrep <- TCGAanalyze_Preprocessing(object = dataPrep, cor.cut = 0.6,datatype = "HTSeq - Counts")
# 使用EDASeq软件包使mRNA转录本和miRNA数据标准化
dataNorm <- TCGAanalyze_Normalization(tabDF = dataPrep,geneInfo = geneInfoHT,method = "gcContent")
# 默认method="geneLength"
#dataNorm2 <- TCGAanalyze_Normalization(tabDF = dataPrep,
#                                      geneInfo = geneInfoHT,
#                                      method = "geneLength")
#boxplot(dataNorm2, outline = FALSE)
boxplot(dataPrep, outline = FALSE)
boxplot(dataNorm, outline = FALSE)
# 用gcContent对数据标准化后,每个样本中基因表达谱数据的分布相似。# filter mRNA transcripts and miRNA, samples,
# higher than the threshold defined quantile mean across all samples.
dataFilt <- TCGAanalyze_Filtering(tabDF = dataNorm,method = "quantile", qnt.cut =  0.25)
dim(dataFilt) #17394    20
dim(dataNorm) #23192    20
# 去除23192 - 17394 个基因# 使用edgeR或limma软件包进行差异表达分析(DEA)。
# 默认pipeline = "edgeR"
dataDEGs <- TCGAanalyze_DEA(mat1 = dataFilt[,dataSmTP_short],mat2 = dataFilt[,dataSmNT_short],Cond1type = "Normal",Cond2type = "Tumor",fdr.cut = 0.01 ,logFC.cut = 1,method = "glmLRT")Genelist <- rownames(dataDEGsFiltLevel)
# GO富集分析
ansEA <- TCGAanalyze_EAcomplete(TFname="DEA genes Normal Vs Tumor",Genelist)
# ansEA$ResBP,ansEA$ResMF,ansEA$ResCC,ansEA$ResPat# 作图并保存
TCGAvisualize_EAbarplot(tf = rownames(ansEA$ResBP), GOBPTab = ansEA$ResBP,GOCCTab = ansEA$ResCC,GOMFTab = ansEA$ResMF,PathTab = ansEA$ResPat,nRGTab = Genelist,filename="a.pdf",nBar = 10)

2. 生存分析

# 2. 生存分析
clin.gbm <- GDCquery_clinic("TCGA-GBM", "clinical")
TCGAanalyze_survival(clin.gbm,"gender",main = "TCGA Set\n GBM",height = 10, width=10)

参考:

https://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/analysis.html#TCGAanalyze_survival:_Survival_Analysis

https://www.bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html

TCGA样品编码方式​​​​​​​

TCGAbiolinks包分析TCGA数据相关推荐

  1. TCGAbiolinks包下载TCGA数据

    ​​​​​​Bioconductor的TCGAbiolinks包用于GDC数据综合分析的R/Bioconductor软件包,本文主要展示下载数据集和代码. 1.   包的加载 # if (!requi ...

  2. Java抓包+分析网络数据包

    Java抓包+分析网络数据包   本程序基于java语言,需安装winpcap和配置Jpcap.jar库文件(需要的可以评论留下邮箱),成功实现了对本主机网卡接口的显示和网络数据包的抓取,并调用函数对 ...

  3. oracle中prad函数_R中用GDCRNATools包下载TCGA数据

    用GDCRNATools下载TCGA数据,以TCGA-STAD为例下载RNAseq 1)数据下载,gdcRNADownload()函数 ###########用GDCRNATools下载TCGA数据# ...

  4. wireshark抓包分析ping数据包

    目录 1.抓取数据包 2.ping request数据包解析 2.1 ICMP 2.2 传输层 2.3 以太帧 2.3 数据链路层 3. ping reply数据包解析 1.抓取数据包 先用管理员权限 ...

  5. 网络安全学习第10篇 - ping程序的实现,抓包分析ping数据包以及ping工具对于网络安全方面的威胁

    请结合附件:Ping的实现原理与ping.cpp的内容,编写一个程序,使其能够实现简单的ping的功能,即判断目标网站是否可以连接,然后通过Wireshark进行抓包分析其ICMP协议,指出哪个数据包 ...

  6. wireshark抓包分析TCP数据包

    1.直接从TCP的三次握手开始说起 三次握手就是客户与服务器建立连接的过程 客户向服务器发送SYN(SEQ=x)报文,然后就会进入SYN_SEND状态 服务器收到SYN报文之后,回应一个SYN(SEQ ...

  7. R语言---使用cgdsr包下载TCGA数据---笔记整理

    原文链接:https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247486492&idx=1&sn=3a7251244 ...

  8. python数据包分析_packet_analysis: 数据包分析工具

    功能 读取pcap包,打印详细的icmp/tcp/udp协议 读取pcap包或网络接口 1. 打印详细的tcp会话/udp报文数据,目前支持mysql/pgsql/smtp/ftp/redis/mon ...

  9. Wireshark数据包分析之数据包信息解读

    *此篇博客仅作为个人笔记和学习参考 数据包概况 Frame:物理层的数据帧概况; EthernetⅡ:数据链路层以太网帧头部信息; Internet Protocol Version 4:互联网层IP ...

最新文章

  1. [译] React 路由和 React 组件的爱恨情仇
  2. 新站如何使用标签才对SEO优化更有利
  3. MySQL之一致性检测及数据同步
  4. 篝火 2004 年11-15
  5. 查看tcp连接的命令
  6. vue 设置全局变量、指定请求的 baseurl
  7. CentOS安装五笔输入法
  8. 算法笔记-差分和前缀和
  9. 财务主管的ERP实施之路
  10. Java 将Word转为HTML的方法
  11. 计算机微信接收excel打不开怎么回事,电脑端微信打不开怎么解决
  12. ico图标生成器系统 断网情况下快速生成ico文件
  13. php求圆的周长面积,圆的周长怎么算?面积公式
  14. Python笔记 · self,cls,实例方法,静态方法,类方法
  15. Java多线程游戏-雷霆战机
  16. 【no-descending-specificity】问题
  17. TypeError: Class constructor ServeCommand cannot be invoked without ‘new‘
  18. echarts实现柱状图不同颜色 柱状图横向纵向展示
  19. GAN异常检测论文笔记(一)《GANomaly: Semi-Supervised Anomaly Detection via Adversarial Training》
  20. python 100days github_GitHub - 596861134/Python-100-Days: Python - 100天从新手到大师

热门文章

  1. 【swjtu】数据结构实验7_Huffman编码
  2. 计算机视觉顶尖期刊和会议的段子
  3. Structure-from-Motion Revisited
  4. c语言插入排序算法伪代码,排序算法——插入排序(C语言实现)
  5. SpringMVC-applicationContent.xml和Spring-servlet.xml的配置设置
  6. Maven多工程的创建
  7. BBC NEWS | AI设计的新药分子首次进入临床试验
  8. Rosetta | Rosetta简介
  9. SMILES | 简化分子线性输入规范
  10. CentOS7.5安装配置PostgreSQL10