生信搬运工-02

文章目录

  • 一、SRA数据库
  • 二、sra文件下载方式
    • 1.SRA Toolkit安装与使用
    • 2.grabseqs下载sra数据
  • 总结

一、SRA数据库

SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存大规模平行测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrez system,由 NCBI 负责维护。

ENA数据库:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),功能等同SRA,并且对保存的数据做了注释,界面相对于SRA更友好,对于有数据需求的研究人员来说,ENA数据库最诱人的点应该是可以直接下载fastq (.gz)文件,由 EBI 负责维护。

两者在主要功能方面非常类似,同时数据互通。

二、sra文件下载方式

1.SRA Toolkit安装与使用

SRA Toolkit是ncbi下载.sra文件和转换.fastq文件的极好工具。
首先,到ncbi官网点击Download–>Download tools,找到SRA Toolkit,点击Download,找适合自己的版本,比如CentOS Linux64位,复制链接,在服务器上用wget下载。

下载

wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz

解压缩,并配置环境

tar xzvf sratoolkit.3.0.0-centos_linux64.tar.gz
cd sratoolkit.3.0.0-centos_linux64/bin | pwd | cd ..    #复制路径
echo 'export PATH=$PATH:/home/hongsheng_zhong/software/sratoolkit.3.0.0-centos_linux64/bin ' >> ~/.bashrc
source ~/.bashrc            #添加环境变量
vdb-config --interactive    #会出现一个框架,按字母x键退出,然后就可以使用啦
prefetch -V                 #安装成功测试

下载SRA命令

prefetch SRR1553610    #下载.sra文件
fastq-dump --split-e ./SRR1553610/SRR1553610.sra  #将.sra文件转换成.fastq文件

.sra转换成fastq格式文件

fastq-dump --split-3 SRR1553610.sra

经测,速度很快

#单个数据下载
prefeth SRR4045218 -O output  #output为数据输出路径
#批量下载,提前准备好SRR编号的TXT文件
prefetch -O output --option-file SRR_Acc_List.txt

通过数据库查找对应SRR号可以获取数据链接。一般都显示在“Data access”界面下。

超过20G的文件使用wget下载

wget -c -t 0 -O  SRR4045218.sra https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos3/sra-pub-run-19/SRR4045218/SRR4045218.1

2.grabseqs下载sra数据

第四种下载方式的优势在于可以直接将下载的sra数据直接转换为fastq文件。该软件基于python3,可使用pip安装。

#安装
pip3 install grabseqs
#下载数据
grabseqs sra -t 6 SRR000000 SRP000000 PRJNA000000

总结

sra里保存着测序的.sra格式的原始文件,一般有四种下载方式,以上介绍sratoolkit、grabseqs两种方式,另外可以直接在数据库里用链接下载,或者使用aspera下载数据。
原文链接:https://blog.csdn.net/weixin_45214599/article/details/114847650
原文链接:https://blog.csdn.net/weixin_44065382/article/details/120378765

生信搬运工-02-sra文件的下载相关推荐

  1. 生信搬运工-01-fastq文件的处理

    生信搬运工-01 文章目录 一.fastq文件 1.介绍 2.fastq转换为fasta 3.测序的大致流程 总结 一.fastq文件 1.介绍 首先在了解fastq,fasta之前,了解一下什么是质 ...

  2. SRA文件的下载(prefetch)和解压SRA文件(fastq-dump)

    sra文件下载方式 NCBI-SRA和EBI-ENA数据库 SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnolog ...

  3. 生信技能-高通量测序工具bam、samtools、bedtools及conda的下载和安装

    一.BWA 1.介绍 简介:用于建立 index:基于 BWT 算法,将 reads 比对到参考基因组:最新版本 bwa-mem2,Intel实验室对计算效率进行了优化. 详情:baw是一款将序列比对 ...

  4. 干货分享 | Windows系统下载SRA数据方法——生信小白亲测可行

    在开展二代测序相关课题研究时,经常需要上传或者下载SRA数据库中的数据,对熟悉Linux系统.懂代码的同学们来说是非常容易的事情.但像小编这一类看到代码两眼一抹黑的小白就有点难度了,尤其电脑还是Win ...

  5. 生信 使用SRA Toolkit下载SSR数据

    https://trace.ncbi.nlm.nih.gov/Traces/sra software --download 下载了NCBI SRA Toolkit解压后得到2进制的exe工具包 快捷键 ...

  6. 生信软件 | Sratools (操作SRA文件)

    文章目录 1. 介绍 2. 安装 2.1 Conda 安装 2.2 传统安装 3. 使用 3.1 下载SRA 3.2 抽取fastq文件 1. 介绍 Sratools是NCBI官方提供,用于操作SRA ...

  7. 生信分析过程中这些常见文件的格式以及查看方式你都知道吗?

    生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...

  8. 生信分析过程中这些常见文件(fastq/bed/gtf/sam/bam/wig)的格式以及查看方式你都知道吗?

    生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...

  9. linux怎么查看一个bam文件,生信分析过程中这些常见文件的格式以及查看方式你都知道吗?...

    原标题:生信分析过程中这些常见文件的格式以及查看方式你都知道吗? 生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据 fastq 之外,还需要准备基因组文件 fasta 格式和基因注释文件 ...

  10. C#,生信软件实践(06)——DNA数据库GenBank文件的详解介绍及解释器之完整C#源代码

    1 GenBank 1.1 NCBI--美国国家生物技术信息中心(美国国立生物技术信息中心) NCBI(美国国立生物技术信息中心)是在NIH的国立医学图书馆(NLM)的一个分支.它的使命包括四项任务: ...

最新文章

  1. 站立会议 ---01
  2. python怎么读取excel某一行某一列-python3读取excel文件只提取某些行某些列的值方法...
  3. 【学习笔记】27、面向对象学习
  4. Linux优盘挂载卸载以及文件查看
  5. 2异常处理_Java处理异常2种机制关键字区别解析
  6. 小白视角来看传说中的卷积神经网络
  7. 你必须知道的几种java容器(集合类)
  8. java 环境变量_Win10系统配置Java环境变量
  9. 图解wordpress模板架构
  10. 安装netframewo酷比魔方平板电脑一键Root教程
  11. vijos 1002
  12. Mac 终端所有命令失效
  13. 计算机课程设计心得,课程设计心得体会450字
  14. 使用FFmpeg合并多个MP4视频
  15. ubuntu 20.04网卡驱动安装(rtl8812au)
  16. 为什么RSA 公钥指数(e=65537)
  17. 从创建服务器到搭建一台内网穿透服务器
  18. 高等数学笔记-乐经良老师-第五章-积分(Ⅰ)-定积分与不定积分-第一节-定积分的概念
  19. 「经济读物」小岛经济学:鱼、美元和经济的故事
  20. 百度地图的驾车路线规划

热门文章

  1. 贴片钽电容封装及规格参数资料
  2. VSCode如何返回上一步
  3. 熵的性质:可加性和强可加性
  4. 腾讯云文档数据库MongoDB怎么样?腾讯云文档数据库MongoDB有什么优点?
  5. 海思Hi3519模块开发板最新资料介绍
  6. 计算机组装小游戏,电脑组装店游戏
  7. APP微信登录后端PHP,PHP开发微信授权登录教程
  8. 软件工程考研复试、工作面试常见问题及答案
  9. 1688API接口:item_search_img - 按图搜索1688商品(拍立淘)
  10. 等差数列及等比数列求和公式