二代测序 下载 NCBI sra 文件
本文最近更新地址:
http://blog.csdn.net/tanzuozhev/article/details/51077222
随着测序技术的不断提高,二代测序数据成指数增长。
NCBI提供了SRA数据库存储这些数据。
http://www.ncbi.nlm.nih.gov/sra
为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit。包括以下命令:
官方文档:
http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
prefetch: Allows command-line downloading of SRA, dbGaP, and ADSP data 下载数据
fastq-dump: Convert SRA data into fastq format # 将下载的sra数据转换为 fastq文件,支持 PE
sam-dump: Convert SRA data to sam format# sra转换为sam
sra-pileup: Generate pileup statistics on aligned SRA data
vdb-config: Display and modify VDB configuration information
vdb-decrypt: Decrypt non-SRA dbGaP data (“phenotype data”)
prefetch
常用命令
Data transfer:
# 如果已有下载的文件是否强制下载,默认为非强制
-f | --force <value> Force object download. One of: no, yes, all. no [default]: Skip download if the object if found and complete; yes: Download it even if it is found and is complete; all: Ignore lock files (stale locks or if it is currently being downloaded: use at your own risk!).# 选择下载的方式 ascp 和 http,默认先尝试 ascp,再尝试http
--transport <value> Value one of: ascp (only), http (only), both (first try ascp, fallback to http). Default: both.# 列举 kart 文件中的 内容,大小
# 你可以把需要下载的项目放入 kart 文件
-l | --list List the contents of a kart file.
-s | --list-sizes List the content of kart file with target file sizes.# 设置文件的最小尺寸
-N | --min-size <size> Minimum file size to download in KB (inclusive).# 设置文件的最大尺寸
-X | --max-size <size> Maximum file size to download in KB (exclusive). Default: 20G.# 排序方式
-o | --order <value> Kart prefetch order. One of: kart (in kart order), size (by file size: smallest first). default: size.
例子
prefetch ERR732926
直接下载 ERR732926 样本的文件,默认放入 ~//ncbi/public/sra
目录下
prefetch cart_0.krt
下载 kart文件中的列表
prefetch -l cart_0.krt
列举cart_0.krt文件的内容
fastq-dump
General:
-h | --help Displays ALL options, general usage, and version information.
-V | --version Display the version of the program.
Data formatting:
#分割 paired-end data
--split-files Dump each read into separate file. Files will receive suffix corresponding to read number.
--split-spot Split spots into individual reads.# 只保留fasta,没有质量得分
--fasta <[line width]> FASTA only, no qualities. Optional line wrap width (set to zero for no wrapping).
-I | --readids Append read id after spot id as 'accession.spot.readid' on defline.
-F | --origfmt Defline contains only original sequence name.
-C | --dumpcs <[cskey]> Formats sequence using color space (default for SOLiD). "cskey" may be specified for translation.
-B | --dumpbase Formats sequence using base space (default for other than SOLiD).
-Q | --offset <integer> Offset to use for ASCII quality scores. Default is 33 ("!").
Filtering:
-N | --minSpotId <rowid> Minimum spot id to be dumped. Use with "X" to dump a range.
-X | --maxSpotId <rowid> Maximum spot id to be dumped. Use with "N" to dump a range.
-M | --minReadLen <len> Filter by sequence length >= <len>
--skip-technical Dump only biological reads.
--aligned Dump only aligned sequences. Aligned datasets only; see sra-stat.
--unaligned Dump only unaligned sequences. Will dump all for unaligned datasets.# 输出数据
Workflow and piping:
-O | --outdir <path> Output directory, default is current working directory ('.').
-Z | --stdout Output to stdout, all split data become joined into single stream.
--gzip Compress output using gzip.
--bzip2 Compress output using bzip2.
例子
fastq-dump -X 5 -Z SRR390728
可以在不下载的情况下,显示SRR390728样本的前五个读段(20行)
fastq-dump -I –split-files SRR390728
处理 paired-end 文件
Produces two fastq files (–split-files) containing “.1” and “.2” read suffices (-I) for paired-end data.
fastq-dump –split-files –fasta 60 SRR390728
Produces two (–split-files) fasta files (–fasta) with 60 bases per line (“60” included after –fasta).
fastq-dump –split-files –aligned -Q 64 SRR390728
Produces two fastq files (–split-files) that contain only aligned reads (–aligned; Note: only for files submitted as aligned data), with a quality offset of 64 (-Q 64) Please see the documentation on vdb-dump if you wish to produce fasta/qual data.
列举出常用命令,如果有其他需要请阅读官方文档。
二代测序 下载 NCBI sra 文件相关推荐
- 下载 NCBI sra 文件
随着测序技术的不断提高,二代测序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下 ...
- 和dump文件_SRA数据库及下载二代测序原始数据转换为fastq文件
一.SRA数据库: NCBI网站储存二代测序原始数据的数据库. (一)SRA数据类型: 1.Studies:研究课题 2.Experiments:实验设计 3.Samples:样品信息 4.Runs: ...
- SRA文件的下载(prefetch)和解压SRA文件(fastq-dump)
sra文件下载方式 NCBI-SRA和EBI-ENA数据库 SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnolog ...
- aspera下载sra文件linux,使用aspera下载.fastq.gz和.sra数据
aspera SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通 ...
- 下载NCBI的SRA数据 详细教程
SRA(Sequence ReadArchive)数据库是NCBI(National Center for Biotechnology Information)旗下用于存储高通量测序数据的子库.来自世 ...
- Linux里sra文件是什么,prefetch命令下载SRA文件
除了利用ascp命令从NCBI下载SRA文件外,SRAtoolkit也提供了prefetch命令用于下载SRA文件. prefetch命令用法如下: Usage: prefetch [options] ...
- 关于文献中二代测序数据下载(NCBI)的问题
关于文献中二代测序数据下载(NCBI)的问题 现在二代测序用于生物学研究非常广泛,大部分文章的序列会上传到Sequence Read Archive(SRA)上,这东西也属于NCBI数据库中的吧,我理 ...
- linux下载测序数据,利用SRA号从NCBI下载测序原始数据
生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里:并在文章末尾标明数据存储位置和登录号,如 The data from this study ...
- 批量下载sra文件linux,Linux下从NCBI批量下载SRA数据的sra和aspera方法
Minus_yao 2018.04.25 yaoguocai_cool@163.com #从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~ 方法一: 软件准备: 使用n ...
- Linux下载ncbi的SRA文件
从ncbi下载文献中的SRA文件,什么是SRA文件现在还不知道,抽空补上 参考 NCBI-SRA数据下载的3种方法 - 简书 (jianshu.com)https://www.jianshu.com/ ...
最新文章
- LeetCode实战:盛最多水的容器
- python eval 入门_Python学习笔记整理3之输入输出、python eval函数
- svn提示out of date的解决方法
- CentOS 7下安装Python3.6.4
- 分号与逗号的区别及举例_如何掌握分号的用法 和顿号有什么区别
- linux 内核编译不能打字,linux系统升级后,手动编译的kernel无法启动问题
- linux ssh原理
- jq使用教程06_数据更新日志
- python自学书-Python电子书免费分享
- BLM业务战略规划的底层逻辑是什么?
- 质量提高90%以上,智能化施工为高铁建设提速增效
- word图片与文字居中对齐
- Excel使用之计算时间差
- 兰德系数(Rand Index)
- 单叶双曲面MATLAB编程,在matlab中画函数(x^2+y^2)/9-z^2/4=1的旋转单叶双曲面
- 电脑桌面计算机打开很慢,电脑桌面刷新反应很慢怎么办?电脑桌面刷新很慢解决方法...
- IOS HTTPS 服务器信任评估
- PDN建立失败场景(二)
- 区块链链上数据全公开,你却不知道怎么查?找Gikee啊
- 姬魔恋战纪服务器维护,姬魔恋战纪闪退、进不去、黑屏不能玩的原因和解决办法[图]...