生信软件 | Sratools (操作SRA文件)
文章目录
- 1. 介绍
- 2. 安装
- 2.1 Conda 安装
- 2.2 传统安装
- 3. 使用
- 3.1 下载SRA
- 3.2 抽取fastq文件
1. 介绍
- Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合
- 一般常用于下载SRA文件,从SRA文件中提取fastq,sam文件,查看SRA文件信息等
2. 安装
这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装
2.1 Conda 安装
conda install -y sra-tools
这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件的依赖问题) : Conda 安装使用图文详解
2.2 传统安装
下载
下载地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下载地址2:https://github.com/ncbi/sra-tools/wiki/Downloads
在Linux系统(以CentOS为例)下将上述的链接下载到本地
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.6-1/sratoolkit.2.9.6-1-centos_linux64.tar.gz
解压
gunzip -c sratoolkit.2.9.6-1-centos_linux64.tar.gz | tar xf -
设置环境变量
所有的可执行文件均在
sratoolkit.2.9.6-1-centos_linux64/bin
目录下环境变量添加的详细方法:Linux 添加环境变量的五种方法
- 打开环境变量设置文件
sudo vim /etc/environment
添加软件 bin 目录的路径,并用
:
隔开执行source命令,使配置立即生效
sudo source /etc/enviroment
3. 使用
官方文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
3.1 下载SRA
https://github.com/ncbi/sra-tools/wiki/HowTo:-Access-SRA-Data
下载单个文件
prefetch SRR390728
下载多个文件
prefetch cart_0.krt
3.2 抽取fastq文件
fastq-dump --split-3 SRR893046 -O fastq
**注意:**NCBI其实已经更新了一个多线程抽取工具fasterq-dump
,可以在sratools的bin目录里找到,但是文档没有写,没有特殊需求的话,可以考虑直接用新工具替代。
这个fasterq-dump
与fastq-dump
相比,就像动车碾压绿皮火车,用法如下:
fasterq-dump --split-3 SRR893046 -O fastq
详情查看:https://www.jianshu.com/p/5c97a34cc1ad
生信软件 | Sratools (操作SRA文件)相关推荐
- 生信软件 | Samtools(SAM文件处理工具)
介绍 SAM(sequence Alignment/mapping) 数据格式是目前高通量测序中存放比对数据的标准格式 转换 BAM 与 SAM 格式 比对文件排序,建立fastq索引 安装 cond ...
- 生信软件4 - 拷贝数变异CNV分析软件 WisecondorX
使用wisecondorX可进行拷贝数变异CNV的分析,作者在论文中对比了多种软件的使用效果,可自行根据自己的项目需要,判断是否使用. wisecondrX安装 # conda安装 conda ins ...
- 生信软件2 - 下游比对数据的统计工具 picard
下游比对数据的统计工具 picard Picard是一组命令行工具,用于处理高通量排序数据和格式,如sam/ bam/ cran和vcf文件. 安装 在Linux系统目录下执行以下命令下载软件 wge ...
- 生信软件5 - RIdeogram包绘制染色体密度图
该R包在全基因组测序WGS中可以通过用于描述突变位点在染色体上的分布,在转录组测序RNA-Seq中可用于描述差异表达基因在染色体上的分布,在WGBS中可用于描述DNA甲基化在染色体上的分布等. R包软 ...
- C#,生信软件实践(01)——DNA序列数据库FASTA文件合并工具的源代码
1 生物信息学简介 生物信息学(BioInformatics)是研究生物信息的采集.处理.存储.传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的 ...
- 生信软件c语言,科学网—[转载]没有docker我真的不想动这样的生信软件 - 张成岗的博文...
没有docker我真的不想动这样的生信软件 2020-03-26阅读 2620 C语言源代码需要编译的软件 最开始开发者都是C语言流派, 所以标准的源代码安装三部曲即可,即使 configure+ma ...
- 生信软件 | FastQC(质量控制,查看测序质量)
生信软件 | FastQC 介绍 高通量测序数据的高级质控工具 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告 安装 conda install fastqc 这里需要安装Conda ...
- C#,生信软件实践(06)——DNA数据库GenBank文件的详解介绍及解释器之完整C#源代码
1 GenBank 1.1 NCBI--美国国家生物技术信息中心(美国国立生物技术信息中心) NCBI(美国国立生物技术信息中心)是在NIH的国立医学图书馆(NLM)的一个分支.它的使命包括四项任务: ...
- 生物信息学软件_生信软件操作视频教程大赛
楔子 朋友圈偶然看到由信息中心生命科学图书馆联合营养与健康院团委.研究生会.中科院创新创业俱乐部举办的2019年度生物软件操作视频征集大赛,虽然是生物软件操作大赛,但是里面列出来的几乎都是生物信息学软 ...
最新文章
- Nature:希望你在读博士之初就能知道的 20 件事
- 扩展欧几里得 POJ 1061
- 如何克服工作经历中的挫折或低潮期
- JAVA学习博客---2015.5
- nodejs接收表单写入mysql_NodeJS提交表单存数据库(转)
- 用Java和ffmpeg把音频和视频合成视频
- 使用github找资源
- MySQL更新数据语句
- MATLAB安装错误:Check your internet connection and proxy settings in MATLAB Web preferences
- 求一元二次方程的解法c语言,有什么方法求一元二次方程求解決一元二次方程的解法要详细...
- 金融知识小科普 - 金融杠杆
- mysql 复制frm_如何通过直接复制frm文件以实现恢复/复制innodb数据表
- wampserver图标为绿色,打开localhost页面错误提示:The requested URL / was not found on this server
- decoct() 函数
- weka分类器怎么设置样本类别_NeurIPS 2020 | 港中文MMLab自步对比学习: 充分挖掘无监督学习样本...
- FCOS—分割思想做目标检测
- 207399-07-3,IR-780;IR-808;1558079-49-4,IR-825
- 量化交易学习笔记(13) 交易数据获取(优化版本)
- SwitchHosts 工具
- web前端网页设计期末课程大作业:旅游网页主题网站设计——三亚旅游网页设计(6个页面) HTML+CSS+JavaScript