linux ftp下载geo,高通量数据下载还能这样操作?
本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html)第2部分内容,以一篇Nature文章为例,详细解读如何从NCBI下载高通量测序数据。
文章
AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
数据
根据文章中的提示,打开NCBI上的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)
在搜索框中输入登录号“GSE81916”。在新打开的页面中,拉到底端即可看到文章的可下载数据。其中Download family是经过GEO数据库整理和标准化的数据,Supplementary file是原始数据,提供SRA格式的文件(通过ftp下载)和bw压缩格式的文件(通过 http下载, 点击custom可以选择要下载的文件)
ftp链接打开后显示有15个SRR文件
点击custom后显示有15个bw文件(bw文件是精简版的bam文件),可以选择想要的文件后再下载。
根据“Sample”以及“Overall design”中的信息可以大概看出,属于RNA-seq的数据有:第9-15个样品,即GSM2177723到GSM2177729。但是它们对应的是哪些SRA文件呢?
以GSM2177724为例,直接点击,一路点下去我们就能看到它对应的是SRR3589957.sra这个文件。
从NCBI下载数据
那么如何下载这些数据呢? GEO数据库已经给出了答案:
但是看完后依然不明白具体的下载方法,于是我自己摸索出了以下的下载方法:
1.直接点击http或者ftp连接依次点击下载全部打包文件。
这个方法下载速度很慢。
2.linux下通过sratoolkit工具中的prefetch命令下载:
prefetch SRR3589948
这种方法常常出现链接失败,或者链接断掉。
3.参考某篇博客中提到的方法
( http://blog.sina.com.cn/s/blog_7f1542270102wdk4.html ):NCBI---SRA---搜索SRP075747---选择全部文件---send to----file---format:Runifo---creat file 即生成一个SraRuninfo.csv的文件,根据文件中的下载地址,用wget命令批量下载:
tail-n+1SraRuninfo.csv|tr',''\t'|xargs-i echo{}>>sampleinfo.txt#将csv文件中的逗号分割替换成tab分割
head-n1 sampleinfo.txt|tr'\t''\n'|nl|grep'path'#查找其中下载路径是第几列
10downloas_path#返回结果显示是在第10列
tail-n+2sampleinfo.txt|cut-f10|xargs-i wget-c{}#依次提取每一行中的第10列,并利用wget进行下载
#依次下载太慢,可以生成脚本并行下载
tail-n+2sampleinfo.txt|cut-f10|xargs-i echo wget-c{}\&>>download.sh#生成脚本
bash download.sh#运行脚本进行并行下载
4.使用Aspera
教程: http://boyun.sh.cn/bio/?p=1933 以及: http://blog.csdn.net/xubo245/article/details/50513201 但是实际操作时我在Aspera官网上看到“Aspera connect ”有server和client两种
Server版的点击后毫无反应
Client版的只有windows系统下的浏览器插件
根据提示在window上安装好aspera后,再进入 GEO数据库尝试下载sra文件,但是 aspera并不启动。 后来,终于找到了这一篇文章: http://mp.weixin.qq.com/s/oCmngiD3-zBDx6cUC4Fw 原来通过Aspera下载,需要进入到特定的NCBI网址: https://www.ncbi.nlm.nih.gov/projects/faspftp/
从这里根据SPR075747这个study编号,找到文章中所有的原始数据,就可以通过 Aspera client下载了,速度嘛,也不快,300多k。
5.使用GEOquery
无意中找到Jimmy大神的一篇帖子( http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html ),介绍了用R包GEOquery下载GEO数据库中的数据的方法,可参考。
以上就是我尝试的5种下载方法,最终我还是通过命令行的方法批量下载的。尽管下载的过程中我也学到了不少新技能,但是相对于我的目标(分析数据)来说,花太多时间纠结下载方法其实并不好,应该尽量将精力集中在最核心的技能的学习中。生物信息分析中最核心的技能是什么?环境配置?软件安装?数据下载不,不是。而应该是解读数据,从数据中回答生物学问题!这才是我们应用生物信息学的最终目的。
作业
关于GEO/SRA数据库
GEO数据库
GEO数据库隶属于NCBI,是最大最全面的基因表达数据库,主要是芯片和转录组测序数据。除储存数据外,也提供一些数据挖掘工具,因此利用好这个数据库,没有实验,没有自己的数据也能发好文章!
参考介绍: https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html
SRA文件的存放
从NCNI的这个站点( https://www.ncbi.nlm.nih.gov/projects/faspftp/ )可以看出,sra原始的reads数据是在sra/sra-instant/下的,该目录下的analysis是分析结果文件。
reads目录下,又分为ByExp,ByRun和ByStudy三个目录,每个目录下都有sra子目录,而且又分为三个子目录,所以从这里找sra文件是非常繁琐的。不如从GEO主页上直接搜索编号。
软件及参数回帖:Tophat2.0.13,参考基因组GRCh37/hg19,gene transfer file(GTF version GRCh37.70),去掉MQ>30的reads(low quality mapped reads)
计算reads count: HTSeq0.6.0
差异表达基因:DEseq3.0
deferential exon usage:DEXSeq3.1
read per million normalization: BEDTools2.17.0, bedGraphToBigWigtool 4.
linux ftp下载geo,高通量数据下载还能这样操作?相关推荐
- 高通量数据中批次效应的鉴定和处理(六)- 直接校正表达矩阵
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 高通量数据中批次效应的鉴定和处理(五)- 预测并校正可能存在的混杂因素...
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 送书|高通量数据中批次效应的鉴定和处理(四)- 在差异基因鉴定过程中移除批次效应...
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 毕业论文知识点记录(二)——环境数据下载之全球土壤数据下载(非时序性)
毕业论文知识点记录(二)--环境数据下载之全球土壤数据下载(非时序性) #(零)数据介绍 本次论文环境数据中包含两部分数据,分别是时序性的0-10cm平均土壤温度和平均土壤湿度 以及非时序性的土壤类型 ...
- linux下载sra数据库,NCBI-SRA数据下载的3种方法
SRA 数据库, 为Sequence Read Archive 的缩写.主要存储高通量测序的原始数据,来自四个测序平台,分别为:Roche_LS454,Illumina,ABI_SOLID和HELIC ...
- linux分析mirna,从高通量测序的数据中分析novel miRNA
做miRNA分析的人都知道,已有的miRNA注释并不完整,同时miRNA的表达有时间和空间的特异性,因此在进行miRNA的测序分析之后,大家往往会对其中的新的miRNA更感兴趣,在这里给大家介绍一款在 ...
- Free GIS Data下载 遥感与GIS数据下载
免费的GIS数据集强势来袭,看到这个数据集的时候简直惊呆了,学GIS的童鞋们速速收走吧!此网站包含了300多个分类的地理数据集下载地址,除了全球矢量栅格数据,还有DEM,土地利用,水文,气候,交通等各 ...
- 本草纲目pdf彩图版下载_本草纲目下载|本草纲目彩色图集精编珍藏版下载pdf高清版下载_最火手机站...
本草纲目是由我国明朝著名的医学家李时珍编写的一部中医典著,即使到了当代,这部著作也为中医学者们提供了非常重要的参考和学习方向,本次为大家提供本草纲目彩色图集精编珍藏版,而且是pdf高清版,让你可以在电 ...
最新文章
- php.zip安装教程,php如何安装zip模块?(方法介绍)
- 高一计算机专业班主任工作总结,2016学年上学期高一班主任工作总结
- ECCV 2020 论文大盘点-图像与视频分割篇
- MYSQL----(2) 数据库基础知识
- spark笔记之RDD常用的算子操作
- nuxt express mysql_用Express+Nuxt从零开始写一个SSR博客
- kafka内部消费偏移
- Bzoj2124(p5364): 等差子序列
- matlab size
- 190503每日一句
- eyoucms添加附属栏目功能
- win7下crtl+scroll会触发蓝屏重启(滑稽脸)
- 使用合取范式进行整数规划建模的方法
- 36岁老码农现身说法
- [vue-ts]ts版本问题合集
- 高强度间歇训练(HIIT)
- 亮温模型--相关概念
- SSH java 面试题
- Dump文件介绍与使用
- 【技术贴】禁止打印进程spoolsv - spoolsv.exe随机启动
热门文章
- 海关179号出口运单报文CEB505Message描述规范
- MongoDB 3.6高可用集群(分片技术)
- 2013.11.03《巧记英语单词》
- 先利其器 让江民杀毒软件变得更加实用(转)
- sencha-touch.js MIUI Android 8.0兼容性问题
- 作为一名后台开发人员,你必须知道的两种过滤器
- JVM-XX:NewRatio 、-XX:SurvivorRatio 参数的含义
- java 拦截器顺序_Springmvc拦截器执行顺序及各方法作用详解
- 接口文档管理工具-Postman、Swagger、RAP
- 一个数组中只有两个数字是出现一次,其他所有数字都出现了两次。 编写一个函数找出这两个只出现一次的数字。