今天师兄发给我一个TCGA网址,让我想办法把胰腺癌的所有RNA-Seq数据下载下来,可是界面是这样的:

这么多样本有各自的测序数据,甲基化数据,突变数据和临床数据等,不可能一个个去点开下载,那么批量下载就可以借助R的一个包TCGA-Assembler。电脑是win10系统,所以以下教程是基于windows系统的。

安装教程:1.建立新文件夹,例如:E:\TCGA_assemble;然后下载TCGA-Assembler安装包(链接:https://pan.baidu.com/s/1WMxP-0ucJxGR7xwg743b6w 密码:33s2)并解压,将解压之后的文件夹里的Module_A.R和Module_B.R复制到刚才建立的文件夹内,同时将curl.exe这个文件,复制到电脑C盘Windows文件夹的System32这个文件夹中。

2.在TCGA_assemble文件夹内建立一个用来存放下载数据的新文件夹(注意一定要在TCGA_assemble文件夹内),比如我下载的数据是pancreatic adenocarcinoma,所以简写命名为PAAD。现在你的TCGA_assemble文件夹内应该是这样的:

3.接下来打开R,并把路径设置到TCGA_assemble文件夹的位置,然后导入刚才的两个模块,在导入模块的过程中可能会出现缺包的情乱,那当然是缺什么包装什么包,这个应该大家都会啦。因为是新电脑,所以要装的包比较多,代码如下:

#设置路径到刚才的文件夹
setwd("E:/TCGA_assemble")
#载入所需的包
source("http://bioconductor.org/biocLite.R")
biocLite("httr")
biocLite("RCurl")
biocLite("stringr")
biocLite("HGNChelper")
biocLite("rjson")
library(httr)
library(RCurl)
library(stringr)
library(HGNChelper)
library(rjson)
#载入TCGA_assemble文件夹中的两个模块,其中A模块用来下载数据,B用来分析数据
source("Module_A.R")
source("Module_B.R")

以上步骤完成后没有报错就可以开始下载数据了。

4.大家在下载前可以先打开解压后的文件夹内的指南,里面有下载每种类型数据的代码和说明。我觉得还是十分清晰明了的。

4.1首先给大家讲一下RNA-Seq数据,也就是大师兄给我的任务。

给大家看一下指南里关于RNA-Seq数据下载的代码是这样的:

第一个参数是cancerType,也就是你要弄清楚下载数据是什么癌症以及它的缩写是什么,具体可以查看网址 https://tcga-data.nci.nih.gov/docs/publications/tcga/。

第二个参数是你需要知道下载的数据是在什么平台测得的,自己去TCGA的网站看下数据信息,如下是部分截图

第三个参数则是组织类型,如果有就写上去,如果没有就默认全选。

第四个参数则是下载的数据保存的位置。

第五个参数则是下载的数据文件名字。

第六个参数则是TCGA上自己挑选的样本ID,一般形式为TCGA-XX-XXXX。

那我的是185个pancreatic adenocarcinoma(PAAD)的RNA-Seq数据,代码如下:

setwd("E:/TCGA_assemble/PAAD")
Patient_ID<-read.table(file="TCGA_ID.txt",sep=" ",quote="\t",header=F)
vPatient_ID<-as.vector(as.array(Patient_ID[,1]))

#A.下载数据
#下载RNA-Seq数据

#' choose a cancer type
#' 可查看网址https://tcga-data.nci.nih.gov/docs/publications/tcga/
filename_READ_RNASeq <- DownloadRNASeqData(cancerType = "PAAD",
                                   assayPlatform = "gene.normalized_RNAseq",
                                   saveFolderName = "./gene_RNA",inputPatientIDs = vPatient_ID)

需要说明的是一般inputPatientIDs=c("TCGA-05-4245", "TCGA-44-2661", "TCGA-38-4630", "TCGA-93-8067", "TCGA-05-5420")是这样的,但是样本太多,所以就想到了比较笨的方法,在网页上将所有样本选中,点击右上角TSV将当前信息下载下来获取Case ID,也就是PatientID,再导入R进行转换。

运行后如果出现如下界面则表明数据下载完成:

最后下载的数据就是这样的(截图比较粗糙,捂脸):

4.2下载甲基化数据同上,代码如下:

#下载甲基化数据
filename_READ_Methylation450<- DownloadMethylationData(cancerType    =    "PAAD",    
                                                       assayPlatform    =    "methylation_450",    saveFolderName    =    "./MethylationData",    
                                                       inputPatientIDs =vPatient_ID)

其他类型数据同样如此,该模块提供了下载这么多类型的数据方法,大家可以根据需要去修改代码,不过一定要搞清楚癌症类型,数据平台和PatientID,

还有模块B是用来分析数据,不过我还米有做,等之后做了就会来更新哒。新人一枚,如有错漏之处欢迎指正。

用R包TCGA-Assembler下载TCGA数据相关推荐

  1. Shiny平台构建与R包开发(三)——数据输出

    作为Shiny平台构建与R包开发教程的第三小节,本节向读者展示如何利用Shiny server输出自己想要的数据,包括Rplot.Table.Text等信息. 数据输出机制 仍以上一节的案例为基础: ...

  2. Shiny平台构建与R包开发(二)——数据输入

    作为Shiny平台构建与R包开发教程的第二小节,本节向读者介绍如何利用Shiny server处理用户输入的各种信息.这些信息既包括用户向Shiny上传的数据集,也包括用户对Shiny页面的各种控件( ...

  3. 生信分析之R语言常用R包一步下载

    系列文章目录 生信分析第一步:R语言基础应用以及数据前处理 文章目录 R包下载 使用GEOquery包下载原始数据 芯片数据读取 GEOquery 下载并读取数据 提取GEO表达矩阵 提取GEO注释信 ...

  4. 魔鬼R包—SNPassoc的下载与安装

    想通过R检验SNP是否满足哈温伯格定律,在网上找到教程说SNPassoc这个包可以完成. 怎么对一组SNP 数据进行统计(频率.哈温平衡检验)_邓飞----育种数据分析之放飞自我-CSDN博客_哈温平 ...

  5. R包实践:lubridate 处理时间数据

    转载自:http://site.douban.com/167315/widget/notes/10872119/note/279269803/ 用lubridate包来处理时间数据 via 生有一道难 ...

  6. Shiny平台构建与R包开发

    Introduction 在数据库网页搭建教程中已经提到,数据分析决策平台的搭建十分重要.数据库网页是数据分析决策平台的重要表现形式之一,能够很好地将大量数据或其分析结果公开展示,并能提供数据下载.统 ...

  7. R包circlize:柱状图用腻了?试试好看的弦状图

    文章目录 柱状图用腻了?试试好看的弦状图 弦图简介 数据准备 代码部分 载入R语言包 数据导入 颜色设定 画图 保存以上图片 Circlize包的所有参数(个性化设置) 笔者个性化弦图 作者简介 猜你 ...

  8. 包包的结构制图_科学网—R包circlize:柱状图用腻了?试试好看的弦状图 - 刘永鑫的博文...

    [TOC] 柱状图用腻了?试试好看的弦状图 作者:郑伟 西北农林科技大学 责编:刘永鑫 中科院遗传发育所 弦图简介 总体来讲,弦图是一种可视化微生物物种或基因相对丰度的方法.平时大多数时间我们看到的文 ...

  9. Shiny平台构建与R包开发(四)——按钮与响应事件

    作为Shiny平台构建与R包开发教程的第四小节,本节向读者进一步强调Shiny server的工作机理,并由此设计按钮点击事件. Shiny server工作机理与问题 前面的几个小节已经向读者初步解 ...

  10. Shiny平台构建与R包开发(一)——ui布局

    本节为Shiny平台构建与R包开发教程的第一小节. Getting Started 初识Shiny时,了解其工作机理非常重要.下面的案例展示了一个最简单的Shiny APP的工作机理: #DO NOT ...

最新文章

  1. python爬虫知识点总结(二十三)Scrapy中Download Middleware的用法
  2. 用Tableau画Arc Bar Chart
  3. Dialog向Activity传递数据
  4. 关于Linux的虚拟内存管理
  5. 关于mAdapter.notifyDataSetChanged()无效问题
  6. 在linux上实现DllMain + 共享库创建方法
  7. 碧蓝航线8.20服务器维护,碧蓝航线半人马来袭 8.20更新公告
  8. C++ 四种类型转换运算符
  9. dp - 求连续区间异或的最大值
  10. windows2003修改远程桌面连接数
  11. Win7 IIS7 HTTP 错误 404.2 - Not Found解决方法
  12. 新手小白python数据清洗代码_5天10分钟,学会数据清洗!(Python)
  13. 剑指Offer——数组中出现次数超过一半的数字
  14. 没想明白:JAVA的char是2字节,如何实现18030的4字节?
  15. Linux面试题(总结最全面的面试题)
  16. iOS 15 H264硬编码码率变小,图像模糊
  17. excel2019批量删除空白行的方法
  18. I.MX6Q(TQIMX6Q/TQE9)学习笔记——新版BSP之u-boot移植
  19. unity材质球发光_Unity3D中使物体自发光
  20. 固态硬盘和机械硬盘区别 固态硬盘和机械硬盘的优缺点

热门文章

  1. 在短视频源码开发中,移动端音视频加密、防盗播实现方案
  2. 编程中,有哪些好的习惯一开始就值得坚持?
  3. 华为鲲鹏泰山服务器系统安装,鲲鹏处理器正式商用:浙江移动营业厅用上华为泰山服务器...
  4. app防止被抓包,包括Fiddler,Charles,HttpCanary等工具
  5. 盒子综合案例——德云社十八愁与宠物知识栏
  6. APT案例调研和研究
  7. Apache安装教程
  8. 给Android平板添加字体,以华为平板为例
  9. 高防CDN为什么会被TTCDN取代的?
  10. 聚类分析通俗易懂解释