自己本身是做分子生物学的,有关生物信息学的知识接触很少,于是按照自己的习惯从头摸索。参考以下几个文章对Aspera和SRA Toolkits进行下载、设置和使用,这篇文章是对几个文章的综合整理,留做自己以后学习使用。

  1. 有关生物信息学数据库,参考:
    “生物信息学数据库资源”的文章,里面介绍了几个重要的数据库:NCBI、EBI、UCSC等,知道了需要分析的数据。
  2. SRA数据主要使用两种工具下载
  • Aspera connect参考:
    使用aspera下载.fastq.gz和.sra数据
    从NCBI-SRA和EBI-ENA数据库下载数据
    Ubuntu16.04下利用Aspera下载NCBI-SRA库基因数据
  • SRA Toolkit参考:
    生信软件 | Sratools (操作SRA文件)
    安装和使用SRA toolkit
    菜鸟自学之——SRA Toolkit 的下载和使用

1. NCBI-SRA和EBI-ENA数据库

—————————————————————————————————————————————
NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。
在NCBI的众多数据库中,有一项是专门保存高通量测序原始数据的,即SRA数据库( Sequence Read Archive)隶属NCBI,它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrez system,由 NCBI 负责维护。SRA数据库中的数据分为Studies, Experiments, Samples和相应的Runs四个层次:

  1. Study:accession number 以 DRP,SRP,ERP开头,表示的是一个特定目的的研究课题,可以包含多个研究机构和研究类型等。study 包含了项目的所有 metadata,并有一个 NCBI和 EBI 共同承认的项目编号(universal project id),一个 study 可以包含多个实验(experiment)。
  2. Sample:accession number以 DRS,SRS,ERS 开头,表示的是样品信息。样本信息可以包括物种信息、菌株(品系)信息、家系信息、表型数据、临床数据,组织类型等。可以通过 Trace来查询。
  3. Experiment:accession number 以 DRX,SRX,ERX开头。表示一个实验记载的实验设计(Design),实验平台(Platform)和结果处理 (processing)三部分信息。实验是SRA 数据库的最基本单元,一个实验信息可以同时包含多个结果集(run)。
  4. Run:accession number 以DRR,SRR,ERR 开头。一个 Run 包括测序序列及质量数据。
  5. Submission:一个 study 的数据,可以分多次递交至 SRA 数据库。比如在一个项目启动前期,就可以把study,experiment 的数据递交上去,随着项目的进展,逐批递交 run 数据。study 等同于项目,submission等同于批次的概念。

与NCBI网站相对的是欧洲的EBI (European Bioinformatics Institute)数据库,其中的子数据库——ENA数据库European Nucleotide Archive功能同SRA,并且对数据做了注释,界面更友好,里面可以直接下载 .fastq (.gz)和 .sra文件。

两者在主要功能方面非常类似,同时数据互通。

2. SRA文件下载方式

——————————————————————————————————————————————
需要获取他人发表的公开测序数据,来帮助自己的研究领域,下载.sra文件是为了获取该sra相对应的fastq或者sam文件,通过文件格式转换就可以和自己的pipeline对接上,用于直接分析,所以:
第一步确定编号:我们需要到SRA或者ENA上搜索我们选择好的SRR号/SRS号/SRP号,先在ENA上搜索,如没有再去SRA上搜索,因为ENA下载比SRA快,还可以直接选择fastq格式的数据。
第二步下载数据:从数据库下载 SRA 数据有多种方法,如:用wget或curl等传统命令从 FTP 服务器上下载 sra 文件(警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!);用ascp命令下载 sra 文件;使用NCBI的sratoolkit 工具集中的prefetch、fastq-dump和sam-dump直接下载;另外biostar handbook中有一个wonderdump脚本也方便下载数据(目前未验证过)。本文主要介绍前两种方法。

3. Ubuntu命令行安装Aspera Connect软件

—————————————————————————————————————————————
Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。
Aspera官网:https://downloads.asperasoft.com/en/downloads/8?list

1.使用wget命令下载Aspera Connect

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

#wget 命令的用法参考:wget 下载整个网站,或者特定目录

2.使用tar命令解压

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

#tar命令的用法参考:tar命令的详细解释、linux 压缩 解压
#参数:z(gzip相关)x(解压缩)v(唠叨模式)f(后接文件名)

3. 使用bash命令安装

bash aspera-connect-3.7.4.147727-linux-64.sh

#bash命令的用法参考:Linux基本bash命令(持续更新)

4. 使用cd命令切换至安装目录

cd /home/name

#cd命令的用法参考:Linux命令总结–cd命令、Linux cd命令
#跳转到当前用户的家目录,也可以用~或者没有任何符号
#该软件默认安装在该文件夹。

5. 使用ls命令查看文件目录列表

ls -a .

#ls 命令的用法参考:linux命令详解之ls命令、ls命令详解
#显示所有的文件,包括隐藏文件(以.开头的文件)
#如果看到.aspera文件夹,代表安装成功。

6. 永久添加环境变量(比较复杂的过程,下次总结下)

echo 'export PATH=~/aspera/connect/bin:$PATH' >> ~/.bashrc

#echo命令的用法参考: Linux 命令(27)—— echo 命令
#export命令的用法参考:Linux 命令(49)—— export 命令(builtin)
#修改环境变量参考:Linux系统添加环境变量的方法

7. 使用source命令刷新环境,使文件配置立即生效

source ~/.bashrc

#source命令的用法参考:Linux下source命令详解、linux下的source命令
#也可以关掉当前的shell,重新启动。
#这个命令也还需要进一步的学习。

8. 检测软件运行情况

ascp --help

#查看帮助文档
#至此安装完成

4. Ubuntu命令行安装SRA Toolkit软件

Sratools是NCBI官方提供,用于操作SRA (reads and reference alignments) 数据的工具集合,一般常用于下载SRA文件、从SRA文件中提取fastq,sam文件,查看SRA文件信息等。
NCBI官网下载地址:
下载地址1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
下载地址2:https://github.com/ncbi/sra-tools/wiki/Downloads
官方介绍文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

1. 使用wget下载对应版本的SRA Toolkit

# Ubuntu Linux 64 bit architecture - non-sudo tar archive
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz

2.使用tar命令解压缩文件

tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz

3.对解压后的目录进行更名方便使用

mv sratoolkit.2.10.5-ubuntu64.tar.gz sratoolkit

4.如有需要可以将该软件移动到适当目录下

5.添加环境变量

针对服务器设置如下:

vi ~/.bashrc  #用vi/vim编辑器修改bashrc文件
i  #由command line进入insertion line
export PATH=$PATH:~/software/sratoolkit/bin
ESC, :wq  #退出vi编辑器并保存文件
source ~/.bashrc  #让配置生效

针对自己主机Linux系统设置如下:

vi ~/.bashrc  #用vi/vim编辑器修改bashrc文件
i  #由command line进入insertion line
export PATH=$PATH:/home/xiaomotong/software/sratoolkit/bin
ESC, :wq  #退出vi编辑器并保存文件
source ~/.bashrc  #让配置生效

参考:Linux 添加环境变量的五种方法

6.检测软件运行情况

prefetch -h
Usage:prefetch [options] <SRA accession | kart file> [...]Download SRA or dbGaP files and their dependenciesprefetch [options] <SRA file> [...]Check SRA file for missed dependencies and download themprefetch --list <kart file> [...]List the content of a kart file

RNA-seq流程学习笔记(1)-Ubuntu系统安装SRA数据下载软件Aspera connect和SRT-Toolkit相关推荐

  1. CHIP-seq流程学习笔记(13)-ATAC_seq 数据加工处理

    今天第一次尝试处理ATAC_seq数据,希望能尽快做完吧. 先放个找好的参考文章:ATAC-seq/ChIP-seq分析方法 1.建立相应目录 对新数据建立对应实验人员(zhaoyingying).测 ...

  2. CHIP-seq流程学习笔记(3)-比对软件 bowtie2

    参考文章: bowtie2使用手册 老菜鸟终于开始进行CHIP-seq的学习啦,又是开始学习新的软件.不过现在感觉没那么头大了,毕竟前边学了一些了.先做些简单的记录吧. 1.安装软件 安装仍然在服务器 ...

  3. RNA-seq流程学习笔记(7)-使用Hisat2进行序列比对

    参考文章: RNAseq(4)–Hisat2进行序列比对及Samtools格式转化 RNA-seq(5):序列比对:Hisat2 hisat2比对软件将reads比对到参考基因组 hisat2比对 R ...

  4. CHIP-seq流程学习笔记(7)-热图软件 deeptools

    参考文章: ChIP-seq操作记录 如何使用deeptools处理BAM数据 用deeptools绘制基因组位置的信息 高通量测序数据处理学习记录(四):DeepTools学习笔记 deepTool ...

  5. RNA-seq流程学习笔记(10)-使用HTSeq-count软件对reads进行计数

    参考文章: 转录组入门(6): reads计数 RNA-seq练习 第二部分 RNA-seq(6): reads计数 转录组学习六(reads计数与标准化) 1. reads计数的原理 对我们测序得到 ...

  6. 面向对象的编程思想写单片机程序——(3)学习笔记 之 程序分层、数据产生流程

    系列文章目录 面向对象的编程思想写单片机程序--(1)学习笔记 之 程序设计 面向对象的编程思想写单片机程序--(2)学习笔记 之 怎么抽象出结构体 面向对象的编程思想写单片机程序--(3)学习笔记 ...

  7. hpux安装oracle数据库,【学习笔记】HP-UNIX系统安装BUNDLE和补丁包的方法步骤

    天萃荷净 Oracle研究中心学习笔记:分享一篇关于HP-UNIX系统安装系统安装BUNDLE和补丁包的方法步骤. HPUX补丁包分2种: 1.BUNDLE在一起的: 2.单个的小补丁: 如果补丁包B ...

  8. 软件开发流程--学习笔记

    软件开发流程--学习笔记 背景 产生原因及作用 个人理解 软件开发流程 需求 需求调研 需求分析 需求确认 设计 概要设计 详细设计 编码 测试 交付 维护 知识拓展 软件开发生命周期(SDLC) 软 ...

  9. tensorflow学习笔记——使用TensorFlow操作MNIST数据(1)

    续集请点击我:tensorflow学习笔记--使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...

  10. Python学习笔记_1_基础_2:数据运算、bytes数据类型、.pyc文件(什么鬼)

    Python学习笔记_1_基础_2:数据运算.bytes数据类型..pyc文件(什么鬼) 一.数据运算 Python数据运算感觉和C++,Java没有太大的差异,百度一大堆,这里就不想写了.比较有意思 ...

最新文章

  1. javascript中console的用法
  2. 信息安全系统设计基础第十一周学习总结
  3. js 手机号加密 中间星号表示
  4. CSS技巧(含色卡)
  5. springboot嵌入thymeleaf后css404_SpringBoot2整合Thymeleaf
  6. clientHeight、offsetHeight 和 scrollHeight
  7. idea开发vue项目时,使用@引入组件警告:Module is not installed
  8. 通过SecureCRT和PuTTY连接臻云CentOS版云主机
  9. 离散数学编程输出主析取范式(二进制排列转十进制输出)
  10. idea 光标 快捷键_IDEA快捷键
  11. 基于腾讯云cvm的云原生环境搭建
  12. python爬虫-抓取内涵吧内涵段子
  13. android 检测是否模拟器,Android全面检测设备是否模拟器
  14. Electron + Vue 实现输入法自动刷字数
  15. 阿里巴巴 Excel工具easyExcel
  16. 已经包含头文件却仍然显示未定义标识符
  17. 第六届全国大学生生物医学工程创新设计竞赛参赛经历
  18. SpringBoot脏话过滤、登陆拦截?一看就会!
  19. 笔记本通过hdmi连接显示器分辨率设置
  20. 电商下一个风口——C2M重塑制造业

热门文章

  1. windows7/windows NT介绍
  2. 城市智慧排水系统导论
  3. mybats-puls---条件构造器Wrapper,插件扩展,SQL注入器,公共字段填充
  4. linux ubuntu 安装 XDroid失败
  5. modelica学习笔记4
  6. React中ref的三种获取方式
  7. 前端基础知识(三)HTTP和HTTPS、GET和POST
  8. 【渝粤题库】陕西师范大学201951 明清小说史 作业
  9. 颠覆性创新:未来人人都可以构建一个元宇宙
  10. c语言中isupper用法,isupper - [ C语言中文开发手册 ] - 在线原生手册 - php中文网