本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html)第2部分内容,以一篇Nature文章为例,详细解读如何从NCBI下载高通量测序数据。

文章

AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

数据

根据文章中的提示,打开NCBI上的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)

在搜索框中输入登录号“GSE81916”。在新打开的页面中,拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据,Supplementary file是原始数据,提供SRA格式的文件(通过ftp下载)和bw压缩格式的文件(通过 http下载, 点击custom可以选择要下载的文件)

ftp链接打开后显示有15个SRR文件

点击custom后显示有15个bw文件(bw文件是精简版的bam文件),可以选择想要的文件后再下载。

根据“Sample”以及“Overall design”中的信息可以大概看出,属于RNA-seq的数据有:第9-15个样品,即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢?

以GSM2177724为例,直接点击,一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。

从NCBI下载数据

那么如何下载这些数据呢? GEO数据库已经给出了答案:

但是看完后依然不明白具体的下载方法,于是我自己摸索出了以下的下载方法:

1.直接点击http或者ftp连接依次点击下载全部打包文件。

这个方法下载速度很慢。

2.linux下通过sratoolkit工具中的prefetch命令下载:

prefetch SRR3589948

这种方法常常出现链接失败,或者链接断掉。

3.参考某篇博客中提到的方法

( http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ):NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件,根据文件中的下载地址,用wget命令批量下载:

tail-n+1SraRuninfo.csv|tr',''\t'|xargs-i echo{}>>sampleinfo.txt#将csv文件中的逗号分割替换成tab分割

head-n1 sampleinfo.txt|tr'\t''\n'|nl|grep'path'#查找其中下载路径是第几列

10downloas_path#返回结果显示是在第10列

tail-n+2sampleinfo.txt|cut-f10|xargs-i wget-c{}#依次提取每一行中的第10列,并利用wget进行下载

#依次下载太慢,可以生成脚本并行下载

tail-n+2sampleinfo.txt|cut-f10|xargs-i echo wget-c{}\&>>download.sh#生成脚本

bash download.sh#运行脚本进行并行下载

4.使用Aspera

教程: http://boyun.sh.cn/bio/?p=1933 以及: http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种

Server版的点击后毫无反应

Client版的只有windows系统下的浏览器插件

根据提示在window上安装好aspera后,再进入 GEO数据库尝试下载sra文件,但是 aspera并不启动。 后来,终于找到了这一篇文章: http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载,需要进入到特定的NCBI网址: https://www.ncbi.nlm.nih.gov/projects/faspftp/

从这里根据SPR075747这个study编号,找到文章中所有的原始数据,就可以通过 Aspera client下载了,速度嘛,也不快,300多k。

5.使用GEOquery

无意中找到Jimmy大神的一篇帖子( http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html ),介绍了用R包GEOquery下载GEO数据库中的数据的方法,可参考。

以上就是我尝试的5种下载方法,最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能,但是相对于我的目标(分析数据)来说,花太多时间纠结下载方法其实并不好,应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么?环境配置?软件安装?数据下载不,不是。而应该是解读数据,从数据中回答生物学问题!这才是我们应用生物信息学的最终目的。

作业

关于GEO/SRA数据库

GEO数据库

GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!

参考介绍: https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

SRA文件的存放

从NCNI的这个站点( https://www.ncbi.nlm.nih.gov/projects/faspftp/ )可以看出,sra原始的reads数据是在sra/sra-instant/下的,该目录下的analysis是分析结果文件。

reads目录下,又分为ByExp,ByRun和ByStudy三个目录,每个目录下都有sra子目录,而且又分为三个子目录,所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。

软件及参数回帖:Tophat2.0.13,参考基因组GRCh37/hg19,gene transfer file(GTF version GRCh37.70),去掉MQ>30的reads(low quality mapped reads)

计算reads count: HTSeq0.6.0

差异表达基因:DEseq3.0

deferential exon usage:DEXSeq3.1

read per million normalization: BEDTools2.17.0, bedGraphToBigWigtool 4.

linux ftp下载geo,高通量数据下载还能这样操作?相关推荐

  1. 高通量数据中批次效应的鉴定和处理(六)- 直接校正表达矩阵

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  2. 高通量数据中批次效应的鉴定和处理(五)- 预测并校正可能存在的混杂因素...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  3. 高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  4. 送书|高通量数据中批次效应的鉴定和处理(四)- 在差异基因鉴定过程中移除批次效应...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  5. 毕业论文知识点记录(二)——环境数据下载之全球土壤数据下载(非时序性)

    毕业论文知识点记录(二)--环境数据下载之全球土壤数据下载(非时序性) #(零)数据介绍 本次论文环境数据中包含两部分数据,分别是时序性的0-10cm平均土壤温度和平均土壤湿度 以及非时序性的土壤类型 ...

  6. linux下载sra数据库,NCBI-SRA数据下载的3种方法

    SRA 数据库, 为Sequence Read Archive 的缩写.主要存储高通量测序的原始数据,来自四个测序平台,分别为:Roche_LS454,Illumina,ABI_SOLID和HELIC ...

  7. linux分析mirna,从高通量测序的数据中分析novel miRNA

    做miRNA分析的人都知道,已有的miRNA注释并不完整,同时miRNA的表达有时间和空间的特异性,因此在进行miRNA的测序分析之后,大家往往会对其中的新的miRNA更感兴趣,在这里给大家介绍一款在 ...

  8. Free GIS Data下载 遥感与GIS数据下载

    免费的GIS数据集强势来袭,看到这个数据集的时候简直惊呆了,学GIS的童鞋们速速收走吧!此网站包含了300多个分类的地理数据集下载地址,除了全球矢量栅格数据,还有DEM,土地利用,水文,气候,交通等各 ...

  9. 本草纲目pdf彩图版下载_本草纲目下载|本草纲目彩色图集精编珍藏版下载pdf高清版下载_最火手机站...

    本草纲目是由我国明朝著名的医学家李时珍编写的一部中医典著,即使到了当代,这部著作也为中医学者们提供了非常重要的参考和学习方向,本次为大家提供本草纲目彩色图集精编珍藏版,而且是pdf高清版,让你可以在电 ...

最新文章

  1. php.zip安装教程,php如何安装zip模块?(方法介绍)
  2. 高一计算机专业班主任工作总结,2016学年上学期高一班主任工作总结
  3. ECCV 2020 论文大盘点-图像与视频分割篇
  4. MYSQL----(2) 数据库基础知识
  5. spark笔记之RDD常用的算子操作
  6. nuxt express mysql_用Express+Nuxt从零开始写一个SSR博客
  7. kafka内部消费偏移
  8. Bzoj2124(p5364): 等差子序列
  9. matlab size
  10. 190503每日一句
  11. eyoucms添加附属栏目功能
  12. win7下crtl+scroll会触发蓝屏重启(滑稽脸)
  13. 使用合取范式进行整数规划建模的方法
  14. 36岁老码农现身说法
  15. [vue-ts]ts版本问题合集
  16. 高强度间歇训练(HIIT)
  17. 亮温模型--相关概念
  18. SSH java 面试题
  19. Dump文件介绍与使用
  20. 【技术贴】禁止打印进程spoolsv - spoolsv.exe随机启动

热门文章

  1. 海关179号出口运单报文CEB505Message描述规范
  2. MongoDB 3.6高可用集群(分片技术)
  3. 2013.11.03《巧记英语单词》
  4. 先利其器 让江民杀毒软件变得更加实用(转)
  5. sencha-touch.js MIUI Android 8.0兼容性问题
  6. 作为一名后台开发人员,你必须知道的两种过滤器
  7. JVM-XX:NewRatio 、-XX:SurvivorRatio 参数的含义
  8. java 拦截器顺序_Springmvc拦截器执行顺序及各方法作用详解
  9. 接口文档管理工具-Postman、Swagger、RAP
  10. 一个数组中只有两个数字是出现一次,其他所有数字都出现了两次。 编写一个函数找出这两个只出现一次的数字。