NCBI下载SRA数据的4种方法
作为生命科学的从事者,不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database,一个综合性的生命科学资源网站)。那么作为一个生命科学中的一员,如果你们没用过NCBI网站,这就好像是在说“知网是啥”。希望提到这个网站的事情,你的表情不会是下面这个样子,哈哈哈。。。
不管你是否了解NCBI网站,这都不重要,重要的是如果哪一天你需要用到了(比如要从NCBI上面下载个原始数据,这个需求比较合理吧!),你会不会呢?当然不会也没有关系了,因为这篇就是教你如何下载数据的!哈哈。。。
下面言归正传,来说一说NCBI下载数据的几种方式:
- NCBI官方的 SRA Toolkit 进行下载
- wget, curl 命令直接下载
- aspera 工具下载
- grabseqs 工具下载
1、SRA Toolkit 下载数据
第一种方法就是使用NCBI官方提供的软件来下来,这个也是相当的方便可行,只要到官网下载SRA Toolkit软件(该软件是二进制的格式,如下截图,选中对应本版下载到本地解压就可以使用,相当方便),然后就可以下载数据了。
软件准备好了,下面就可以下载数据了:
prefetch SRR1482463 -O output #output替换为你想下载数据的路径
那么如果想批量下载一个项目的很多数据呢?首先得找到数据的SRR号,随便选中一个SRR号在“SRA”数据库中搜索,会得到如下截图:
然后点击“All runs”,会得到如下截图:
接着选中你想下载的数据,点击"Accession list",会下载一个包含选中数据SRR号的文件(SRR_Acc_List.txt),如下所示:
最后就可以批量下载了:
prefetch -O output --option-file SRR_Acc_List.txt
2、wget, curl 下载数据
第二种下载方式,wget, curl 命令直接下载。用这种方式下载数据需要知道数据的下载链接,如何获取数据链接呢?获取数据链接也有两种方式,一是通过NCBI网页,二是通过SRA toolkit。
先说通过网页如何获取,当我们在“SRA”数据库中搜索SRR后,点击下面表格中的SRR号如“SRR1482463”,会跳转到页面如下:
切换到‘Data access’界面,就找到数据链接了,如下截图:
通过SRA toolkit获得数据链接就更省事了,到SRA toolkit软件的bin目录下找到srapath软件,一行命令就可以了:
srapath SRR1482463
#结果如下
https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
找到链接就可以用wget来下载数据了:
wget -c -t 0 -O path/SRR1482463.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos1/sra-pub-run-5/SRR1482463/SRR1482463.2
#-c -t 配合使用可以防止下载数据的过程中链接中断的问题,-O则可以指定下载路径和文件名。
3、aspera下载数据
第三种下载方式,就是使用aspera软件来下载数据:
#软件下载与安装
$ wget https://download.asperasoft.com/download/sw/connect/3.9.1/ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ tar zxvf ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.tar.gz
$ bash ibm-aspera-connect-3.9.1.171801-linux-g2.12-64.sh#数据下载
ascp -v -k 1 -T -l 200m -i <path>/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz
4、grabseqs下载数据
第四种下载方式是使用grabseqs软件来下载数据,该软件是比较新的软件,可以将下载的sra数据直接转换为fastq文件,相比于上面三种省略了sra -> fastq的转换步骤,可谓是一步到位。因为该软件会调用fastq-dump直接将sra拆分成fastq,所以你得提前安装好fastq-dump。该软件是基于python3,可使用pip安装相当方便。安装和使用方法如下:
#安装
pip3 install grabseqs
#下载数据
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000
sra转化为fastq
当我们拿到了sra数据并不能直接使用,需要将其转为fastq文件。数据都拿到了,转化格式当然是很简单的事了,就是跑一行命令的事情。使用SRA Toolskit中的fastq-dump软件即可。值得注意地是如果数据是pair-end的格式最好加参数--split-3,这样对于一方有而另一方没有的reads就会单独放在一个文件里。
#sra -> fastq
fastq-dump SRR1482463.sra --split-3 --gzip --defline-qual '+' -A filename -O outdir
四种方式你学会了,其实方式不重要,选择一个适合自己的方式即可,重要是能够获取到自己想要的数据,毕竟科研的本质是要数据来支持自己的研究。
NCBI下载SRA数据的4种方法相关推荐
- 批量下载sra文件linux,NCBI下载SRA数据的4种方法
作为生命科学的从事者,不论是老师或者学生都应该用过NCBI((National Center for Biotechnology Information Search database,一个综合性的生 ...
- linux 下载sra数据库,NCBI下载SRA数据和之后的数据处理
一,下载该软件 wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz ta ...
- 从NCBI下载SRA数据
#下载 /media/wh/20T_1/Bama_pig/wangdong/APP/sratoolkit.2.11.1-centos_linux64/bin/./prefetch SRR2172038 ...
- 批量下载sra文件linux,Linux下从NCBI批量下载SRA数据的sra和aspera方法
Minus_yao 2018.04.25 yaoguocai_cool@163.com #从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~ 方法一: 软件准备: 使用n ...
- Linux下从NCBI批量下载SRA数据的sra和aspera方法
Minus_yao 2018.04.25 yaoguocai_cool@163.com #从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~ 方法一: 软件准备: 使用n ...
- 干货分享 | Windows系统下载SRA数据方法——生信小白亲测可行
在开展二代测序相关课题研究时,经常需要上传或者下载SRA数据库中的数据,对熟悉Linux系统.懂代码的同学们来说是非常容易的事情.但像小编这一类看到代码两眼一抹黑的小白就有点难度了,尤其电脑还是Win ...
- NCBI中SRA数据下载
NCBI中SRA数据下载 hs6605015 2020-08-02 14:35:34 1170 收藏 8 版权 应用场景: 如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要 ...
- 下载NCBI的SRA数据 详细教程
SRA(Sequence ReadArchive)数据库是NCBI(National Center for Biotechnology Information)旗下用于存储高通量测序数据的子库.来自世 ...
- 如何linux下载sra数据,下载sra数据
今天又要开始摸鱼了.记录下下载sra数据的历程.曲折啊. 下载sra files的目的是为了获得相应的fastq或sam files,进而进行分析. 第1选择 -- Aspera Connect 如果 ...
最新文章
- 点云学习在自动驾驶中的研究概述
- .net中窗体之间的数据交换总结
- python学习之if语句
- Scala代码案例:求ax2+bx+c=0方程的根
- kafka-manager 安装
- POJ 1611 The Suspects (并查集)
- linux云服务终端提示符显示-bash-4.2#解决方法
- JavaFX 8的弹出式编辑器
- Java中的注解是如何工作的?
- 杭电计算机考研复试经验
- SPSS聚类分析——一个案例演示聚类分析全过程
- HP1010和HP1020的区别
- c++_2: 类的定义
- 信息安全-保研面试经历总结
- Kotlin读书总结之面向对象
- vb.net打砖块游戏
- 实现ftpserver
- Non-local的一些理解
- Android开发之自定义随机验证码控件
- 【Go语言实战】(2) Gin+Vue 电子商城
热门文章
- 安卓定时启动软件app_便签app排行榜前十名安卓手机哪个高颜值便签软件好用?...
- pyqt创建窗口没有句柄_Filament 渲染引擎剖析 之 FrameGraph 1 虚拟资源的定义与创建...
- 2021院士候选人,近150人获提名!看看有没有自己的母校~
- websocket如何区分用户_WebSocket与普通Socket的差异
- spark广播变量的原理_spark使用广播变量
- docker 使用挂载运行tomcat
- 服务没有报告任何错误。 请键入 NET HELPMSG 3534 以获得更多的帮助。
- 在maven项目中使用Junit进行单元测试
- IDentif.AI | 开发AI平台以快速确定包括COVID-19在内感染的治疗方案
- WPF加载相对路径的图片的解决方法