推断分子系统发育树时,很多分子序列数据都是从GenBank等公共数据库下载的。当数据很多时,每条序列都要检索、下载十分耗时,而且容易出错。作者基于NCBI官方提供的Entrez direct软件包,二次开放了能批量下载GenBank分子序列数据的程序——Getfast。此程序能解析用户提供的ACLIST文件,并自动下载生成包含所有序列的fasta文件,供构建分子系统发育树使用。

一、运行环境

Linux系统,安装有NCBI的Entrez direct软件包

二、使用方法

1. 准备aclist文件(见示例L122_16S.aclist)。在GenBank中,每一条序列都有唯一的“ID号”--ACCESSION(简称AC号。如KT003151:代表皿蛛Nippononeta coreana的 16S 核糖体 RNA基因片段,长度401bp)。用户将所需下载序列的AC号列表保存到扩展名为".aclist"的文本文件中,AC号间用半角逗号","分隔。注意:aclist中所有序列必须为同源序列,既相同基因的片段。

2. 运行Getfasta(见示例L122.sh)。运行Getfasta添加如下参数:

-f  “[aclist文件路径]”(如“$DIR/L122_16S.aclist”)(必填)

-g “[同源序列的产物名]” (如“16S ribosomal RNA”)(选填,当aclist中的一条或多条序列包含多个多个基因时,须用-g参数限定下载序列中包含指定基因的片段。)

-t "TAXON"/"TID"(-t 的参数为固定值“TAXON”或"TID",添加此参数表示最后生成的fasta每条序列的标签不用AC号而是用taxon的名称表示/TID表示。)

| tee [日志文件名] (如$DIR//L122.log)(必填)

3. 查看结果(见示例L122_16S.aclist.ft2,L122_16S.aclist.fasta,L122.log)

(1)日志文件。日志文件记录了Getfasta整个运行过程,包括每一条序列的下载情况。特别要说明的是,GenBank中某些序列含有多个基因片段,用户所要的只是-g参数显示同源基因的片段。本软件可根据设定参数,自动识别所需片段的起止点,只下载所需片段,并将此过程记录在日志文件中(如示例中第62条-第65条序列属此情况)。

(2)ft2文件。基于Entrez Direct,本程序最初下载的是NCBI提供的ft2格式的数据。该文件含有AC号、序列、长度、物种名、产物名等多个信息。由于该格式无法直接用于跑树,因此还要将其进一步编辑,生成fasta格式文件。

(3)fasta文件。这是最终得到的序列数据,保存为各种建树软件均能识别的fasta格式。其中,每条序列的标签用该序列在GenBank中的AC号标识。

最后需要说明的是,由于Getfasta是基于E-direct开发的下载程序,其运行速度与网速、aclist序列数量、Linux主机配置有关。当数据量较大时,请根据屏幕提示耐心等待。。。

附件:

Getfasta

示例文件

Getfasta--根据Acession Number(Ac号)批量下载GenBank分子序列数据的自动化程序相关推荐

  1. Google Earth Engine(GEE)批量下载不透水面数据

    目标: 提取山西省不透水面数据并批量下载,使用的数据为清华大学宫鹏老师的不透水面数据集"Tsinghua/FROM-GLC/GAIA/v10" 参考文献:Gong, P., Li, ...

  2. 使用sentinelsat包和IDM批量下载offline的sentinel数据

    目录 1.问题描述 2.下载思路 3.源码 4.结果 建了一个QQ群,大家可以在里边聊聊水色遥感数据下载和数据处理方面的事情:1087024529 1.问题描述 Sentinel数据(包括1,2,3) ...

  3. 【GEE】批量下载全球降水量GPM数据 (NASA)

    [GEE]批量下载GPM月度降水量数据 可访问GPM Data Directory 查看数据集 下载方式: 直接在GES DISC中生成数据订单,并使用wget或down them all直接下载. ...

  4. 用Python批量下载DACC的MODIS数据

    本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中...... 若有大佬发现步骤有不对之处,望指出,不胜感激. 1.下载Python ...

  5. 使用IDM批量下载Sentinel(哨兵)卫星数据

    目录 1.前言 2.Sentinel数据检索 3.对IDM进行设置并完成下载 建了一个QQ群,大家可以在里边聊聊水色遥感数据下载和数据处理方面的事情:1087024529 该方法只针对online的s ...

  6. 一个批量下载3GPP文档的shell小程序

    一个批量下载3GPP文档的shell小程序 wget "https://www.3gpp.org/ftp/Specs/archive"#获取所有的URL链接 function ge ...

  7. 如何用python批量下载数据_Python批量下载地理空间数据云数据!Python无所不能!...

    模拟登录 这里要用到两个包:requests和json.requests使用前得先安装:pip install requests. In [3]: 进群:548377875 即可获取数十套PDF哦! ...

  8. python批量下载ECMWF欧洲中心数据

    ECMWF欧洲中心提供的api只能根据单时间下载,我稍微改动了一下,可以根据时间进行批量下载.详细步骤如下: 1.注册账户获得key. 网址: https://cds.climate.copernic ...

  9. 【InSAR 笔记1】ASF网站哨兵一号批量下载

    加入下载筐 -> 打开下载筐 -> 下载.py文件 -> 运行.py文件 -> 输入用户名和密码 ASF 下载网站 python download-all-2020-05-12 ...

最新文章

  1. Datawhale浙大分享(附投票结果)
  2. html5 游戏图片预加载,前端实现图片(img)预加载
  3. 突发!ASML断供中芯国际
  4. c++ 在哪里找文档来看_FPX双C十四连败引热议!Doinb:我再也不跟LWX双排了
  5. 突破NP屏蔽,实现按键模拟!
  6. 关于 java.toString() ,(String),String.valueOf的区别
  7. linux如何安装eclipse
  8. 微软宣布 Edge 浏览器将切换至 Chromium 内核
  9. db2怎么限定查询条数_如何查询各国进口关税税率!
  10. 【BZOJ-18532393】幸运数字Cirno的完美算数教室 容斥原理 + 爆搜 + 剪枝
  11. SSIS典型应用场景分析
  12. python入门经典代码-【python】编程语言入门经典100例--11
  13. html中的float属性,css float属性 图解float属性的点点滴滴
  14. Node.js学习(第一章:Node.js安装方法及模块化理解)
  15. Excel的设置 .net
  16. LaTeX 公式编辑器(网页版)
  17. c语言怎么学自学,初学者如何学习c语言,带你玩转C语言
  18. html蔚蓝网注册页面,如何在网站中添加手机短信验证码注册功能?
  19. html椭圆的写法,4.8 把圆变换为椭圆 - HTML5 Canvas 实战
  20. 什么是Armbian

热门文章

  1. 自再现模形成过程matlab,激光原理课程设计--平行平面腔自再现模Fox-Li数值迭代解法及MATLAB实现.doc...
  2. 【java基础】java继承从“我爸是李刚”讲起
  3. java 每行打印五个数字_java代码练习======每隔5行打印数字
  4. PHP 7.4的新增特性(功能,弃用,速度)
  5. Duang~Shark 闪跌 99%! Fork 了 Bunny 的代码还 Fork 了它的攻击
  6. HTML5中canvas实现拼图游戏,HTML5 Canvas学习笔记(6)拼图游戏(数字版)
  7. 【IT-Windows】某些设置由你的组织来管理
  8. 【ES实战】Elasticsearch指标监控说明
  9. 二重积分问题、计算法则与注意事项汇总
  10. MATLAB Handle类的set和get方法