前言

今天又和NCBI数据库干上了。由于NCBI奇奇怪怪的格式，导致我们下载特定物种（某个科、某个属）比较麻烦，手动一条条下载肯定是不现实的，而对于部分很少涉及干实验的生物研究人员来讲写代码也不容易。在此我分享一个思路，能够较为方便的下载数据：

工具

Linux(wsl 也可以)
python3
rsync（NCBI推荐的下载方式）

代码与解析

我们使用bash来调用python脚本 RefseqDataDownload.py
RefseqDataDownload.py 需要两个物种分类学文件，数据来自于GTDB ,物种分类学文件可以自行准备或是使用附带文件A_Species_taxonomy.csv和B_Species_taxonomy.csv。请注意附带文件难以做到实时更新
RefseqDataDownload.py 需要三个参数：

原核生物类型，输入 archaea/bacteria。
下载数据的名称，例如属名Methanosarcina，注意如果是要下载某个种，请输入种属名(Methanosarcina_mazei，注意两者中间有下划线)。
下载数据的分类学地位，其中 Domain=1, Phylum=2, Class=3, Order=4, Family=5, Genus=6, Species=7。

RefseqDataDownload.py 产生Contex.txt文件，包含对应物种的下载连接，进行接下来调用 rsync 下载

import os
import subprocess
import re
import argparseclass NameException(Exception): pass
subprocess.call("pip3 install pandas",shell=True)
subprocess.call("pip3 install numpy",shell=True)
subprocess.call("pip3 install requests",shell= True)import pandas as pd
import numpy as np
import requestsdef loadcsv(type):if type == 'archaea':csvname = 'A_Species_taxonomy.csv'elif type == 'bacteria':csvname = 'B_Species_taxonomy.csv'else:raise NameException("Error: please input archaea/bacteria!")SpeciesTaxonomy = pd.read_csv(csvname,names=['ID','Domain','Phylum','Class','Order','Family','Genus','Species'])return SpeciesTaxonomyif __name__ == "__main__":ap = argparse.ArgumentParser(description = "按照分类地位下载NCBI Refseq的faa数据,数据来源例子:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/archaea/Methanosarcina_mazei/representative/GCF_000007065.1_ASM706v1/GCF_000007065.1_ASM706v1_protein.faa.gz")ap.add_argument("-t", help = "原核生物的类型，输入 archaea/bacteria", required = True)ap.add_argument("-n", help = "下载数据的名称", required = True)ap.add_argument("-l", help = "分类等级, Domain=1, Phylum=2, Class=3, Order=4, Family=5, Genus=6, Species=7", required = True)opts = ap.parse_args()type = opts.tinputName = opts.nlevel = int(opts.l)SName = inputName.replace("_"," ")SpeciesTaxonomy = loadcsv(type)ColumnIndex = SpeciesTaxonomy.columns[level]IDinfo = (SpeciesTaxonomy.ID[SpeciesTaxonomy[ColumnIndex] == SName][0:][:3]== "GCF")OutputFrame = pd.DataFrame({'ID':SpeciesTaxonomy.ID[SpeciesTaxonomy[ColumnIndex] == SName],'Species':SpeciesTaxonomy.Species[SpeciesTaxonomy[ColumnIndex] == SName]})OutputFrame = OutputFrame[OutputFrame['ID'].apply(lambda x:x[0:3]) ==  'GCF']OutputFrame = OutputFrame.drop_duplicates(subset= ["Species"],keep='first')count = 0ContextFilename = inputName + 'Context.txt'with open(ContextFilename, "w") as f:for i in OutputFrame.Species:SpeciesName = i.replace(" ",'_')archaea_url = "https://ftp.ncbi.nlm.nih.gov/genomes/refseq/"+ type +"/"+SpeciesName+"/representative/"request = requests.get(archaea_url)raw_list = re.compile(r'<a.*?>(.*?)</a>').finditer(request.text.strip())for i in raw_list:x = i.group(1)if x[0:3] == 'GCF':count = count + 1faafile = x[:-1] + "_protein.faa.gz"finalUrl_https = archaea_url + x + faafilefinalUrl_rsync = finalUrl_https.replace("https","rsync")f.write(finalUrl_rsync)f.write('\n')#print(finalUrl_rsync)print("完成搜索:",inputName,"\t序列总数:",count)

使用download.sh 完成下载：

#!/bin/bashpython3 RefseqDataDownload.py -t $1 -n $2 -l $3#echo download data from NCBIwhile read line
do rsync --copy-links --recursive --times --verbose $line $2/
done < $2Context.txt

rsync下载速度一般，能翻墙的话速度会快些。

使用例子

# 在Linux系统上输入如下命令
bash download.sh archaea Methanosarcina 6
# 先产生一个MethanosarcinaContext.txt 文本文件
# 之后产生一个 Methanosarcina 文件夹。存放下载的 protein.faa.gz 数据

建议

如果想要下载其他的数据(.gbff，.fna，)可以修改RefseqDataDownload.py 代码，将faafile = x[:-1] + "_protein.faa.gz"改为对应的其他格式：fnafile = x[:-1] + "_genomic.fna.gz "
如果要下载原核生物的所有基因组数据，方法请参照从NCBI 上下载 gbff 文件并得到 CDS 信息。

代码下载

https://download.csdn.net/download/LSD_1943/86711079?spm=1001.2014.3001.5501

从NCBI refseq 中下载特定物种的蛋白质数据相关推荐

Chrome浏览器中清除特定网站的Cookie数据
背景:当我们在网站上遇到错误时,经常会用到的一个方法就是清除Cookie,清除网站的Cookie和网站数据来重置本地的缓存,很多客户端引起的错误都可以使用该方法修复, 但是在清除Cookie时有一个问 ...
ncbi-genome-download在NCBI上批量下载基因组
ncbi-genome-download在NCBI上批量下载基因组 1.简介 2. 安装 3. 使用 1.简介 ncbi-genome-download是一个可以直接从NCBI上批量下载序列的软件,数 ...
论文系统Step1:从日志记录中提取特定信息
论文系统Step1:从日志记录中提取特定信息前言论文数据需要,需要实现从服务器日志中提取出用户的特定交互行为信息.日志内容如下: 自己需要获取"请求数据包一行的信息"及&quo ...
利用sentinel hub Python开发包查询和下载Sentinel-2等卫星遥感数据
利用sentinel hub Python开发包查询和下载Sentinel-2等卫星遥感数据 1. 描述 sentinelhub Python包支持用户利用两种方式进行卫星遥感数据的下载和处理.第 ...
从NCBI当中SRA数据库中下载高通量测序数据
从NCBI当中SRA数据库中下载高通量测序数据 NCBI sra 数据下载用迅雷替代官方的prefetch批量下载SRA测序数据,更快更稳定! 用别人的数据,发自己的文章由于大多数杂志在文章发表前 ...
android开发微博搜索,一款帮助用户自动提取微博热搜、知乎热榜、百度实时热点条目中与特定领域...
HotDetector(全网热门探测仪) 全网热门探测仪一款帮助用户自动提取微博热搜.知乎热榜.百度实时热点条目中与特定领域(科技.娱乐.体育.自定义)有关内容的实用App. 它使用Java SE 8 ...
linux命令行学习游戏,如何在Linux命令行中下载GOG游戏
如果你是一个游戏玩家同时也是一个Linux用户,你可能很高兴在GOG在几个月前宣布它会在你最喜欢的操作系统上推出游戏.如果你之前从来没有听说过GOG,我鼓励你看看他们的产品目录中的"很棒的老 ...
python3 下载特定网页上的文件
python3 下载特定网页上的文件参考:https://blog.csdn.net/csdn86868686888/article/details/82108146 https://www.cnb ...
NCBI RefSeq命名格式的详细说明
转自:http://liucheng.name/379/ NCBI RefSeq (美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库.NCBI的参考序列计划(RefSeq)将 ...

从NCBI refseq 中下载特定物种的蛋白质数据

前言

工具

代码与解析

使用例子

建议

代码下载

从NCBI refseq 中下载特定物种的蛋白质数据相关推荐

最新文章

热门文章