Linux下从NCBI批量下载SRA数据的sra和aspera方法
Minus_yao 2018.04.25 yaoguocai_cool@163.com
#从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~
方法一:
软件准备:
使用ncbi提供的下载工具sratoolkit,下载到本地服务器上
Wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.0/sratoolkit.2.9.0-centos_linux64.tar.gz
解压:
tar -zxvf sratoolkit.2.9.0-centos_linux64.tar.gz
添加环境变量
echo'exportPATH=/home/gyao/program/sratoolkit.2.9.0-centos_linux64.tar.gz/bin:$PATH'>> ~/.bashrc
source~/.bashrc
数据列表准备:
以ERP005860数据为例,包含314个sra文件,先从NCBI上拿到SRR_Acc_List.txt文件。
下载这个AccessionList文件,里面是314行形如ERR526291的编号
下载命令行:
nohup/home/gyao/program/sratoolkit/sratoolkit.2.9.0-centos_linux64/bin/prefetch -a"/home/gyao/.aspera/connect/bin/ascp|/home/gyao/.aspera/connect/etc/asperaweb_id_dsa.openssh"--ascp-options "-QT -l 40m" --option-file SRR_Acc_List.txt &
(注意--option-file应在当前文件夹下,如前添加了环境变量,可直接使用prefetch;不过,默认文件下载的位置是~/ncbi/public/sra,试图修改时很麻烦遂放弃)。
这个方法能够批量下载,但是用了几天发现速度变得超级慢,还莫名其妙断掉,想其他办法,选择aspera下载。
软件准备:
下载软件:
Wgethttp://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解压:
tarzxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
安装:
bashaspera-connect-3.7.4.147727-linux-64.sh
添加环境变量:
echo'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source~/.bashrc
命令ascp –help查看帮助文档说明安装成功。
从NCBI上单个文件下载命令:
ascp-i /home/gyao/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/ERR/ERR526/ERR526291/ERR526291.sra./download_dir/
速度还是挺快的~
关键的问题是解决上述314个文件批量下载,我的方法是利用前面下载的SRR_Acc_List.txt文件,用python写一个简单的脚本,批量执行断点下载。
基本思路是:写一个translate.py脚本,将SRR_Acc_List.txt内容转换为ascpera可识别的格式,并写入SRR_Acc_ascp.sh文件(这是一个可执行脚本.sh),bash运行SRR_Acc_ascp.sh脚本文件。
Translate.py的coding:
输出的SRR_Acc_ascp.sh文件内容(部分)如下:
命令行:
nohup bash SRR_Acc_ascp.sh &
可以关机回去睡觉了,目前速度还不错,希望明天早上起来有好消息~
Linux下从NCBI批量下载SRA数据的sra和aspera方法相关推荐
- 批量下载sra文件linux,Linux下从NCBI批量下载SRA数据的sra和aspera方法
Minus_yao 2018.04.25 yaoguocai_cool@163.com #从NCBI下载SRA数据,最近在疯狂下载宏基因组数据,试着解决一下这个问题~ 方法一: 软件准备: 使用n ...
- 批量下载ECMWF数据的正确姿势
前言 之所以要写这篇文章,是因为我发现网上这方面的教程比较重复并且有一些大家很关系的问题都没有给出解答.因此我希望自己写一篇指导文章,帮助那些想要批量下载ECMWF数据的小伙伴跳过各种坑,能用正确的姿 ...
- 关于批量下载MODIS数据的坑
关于批量下载MODIS数据的坑与正确姿势 1. 第一个坑 1.1 Ladsweb的坑 由于之前做项目的时候去Ladsweb官网下载数据的时候还好好的,于是经过被批评改正之后回来就信心满满地去Ladsw ...
- 批量下载ERA5数据(Python+IDM)
本文介绍了如何通过Python脚本和Internet Download Manager(IDM)软件批量下载ERA5数据. 1. ERA5数据简介 ERA5是第五代ECMWF大气再分析全球气候数据,该 ...
- 再谈批量下载Modis数据之Google earth engine
再谈批量下载Modis数据之Google earth engine 最近在学习GEE,就拿Modis数据练个手.本文选用MOD13A1 NDVI产品为例,介绍如何通过gee来批量下载Modis数据到本 ...
- linux x下载工具,Linux下强大的Axel下载工具
Linux下经常用的下载软件有wget,wget是单线程下载,断点不能续传,Axel工具是linux下的http/ftp中强大下载工具,支持多线程下载和断点续下. 这里介绍Alex的安装.和简单使用. ...
- python脚本--批量下载GNSS数据
文章目录 1. 前言 2. 思路 3. Talk is cheap 4. 总结 1. 前言 应某一瓜皮要求,为其写一个用于批量下载GNSS数据的脚本.恰好前几天研究过如何在教务系统中自动签到,便有了这 ...
- python之批量下载网页数据
python之批量下载网页数据 要下载如下网页所示数据,一个一个点下载繁琐,我们用python代码来批量下载. python代码: import urllib.request # url reques ...
- Linux打印添加水印,Linux 下给图片批量加水印
一个非盈利组织的项目负责人突发奇想想给他们网站上的每张照片加上水印,说实话那些照片都是平时活动.party 的生活照片用不着用水印那么夸张,第一次听说给生活照加水印的.没办法,谁让我们和他们有合作项目 ...
最新文章
- .NET控件名称缩写一览表 zz
- 《TCP/IP详解 卷一》读书笔记-----广播多播IGMP
- 前端入门11-JavaScript语法之数组
- 阿里研究员:软件测试中的18个难题
- Asp.net 批量导入Excel用户数据功能加强版
- 两款在线小游戏-e梦迷宫、恐龙跳一跳
- 一些简单的例子让你在Java中能更好的学习并理解循环结构(1)!
- 华为p40为何没有搭载鸿蒙系统?
- extjs grid显示html,Extjs grid column里添加button等html标签,并增加点击事件
- 【Flutter】微信项目实战【07】 通讯录界面搭建(下)
- linux-LINUX试题
- 计蒜客模拟赛D2T3 蒜头君救人:用bfs转移状压dp
- maven 项目在 tomcat 中启动报错:Caused by: java.util.zip.ZipException: invalid LOC header (bad signature)...
- nodejs后台系列--第四篇--koa(二)
- 基于python的贪吃蛇游戏设计论文_《贪吃蛇游戏课程设计》报告毕业设计(论文)...
- 电子元器件符号+实物图+命名规则(太全了,绝对收藏)
- 让你的「文件传输助手」歇一歇吧,你完全有更实用的备忘录工具选择
- 微信支付生成签名和验签SDK源码分析
- 基于芯科Host-NCP解决方案的Zigbee 3.0 Gateway技术研究(-)-Z3GatewayHost应用
- 吕公奇文——《破窑赋》