一、软件的安装

1.软件下载:

curl    ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip -O (熟悉curl下载文件的方法,见http://www.cnblogs.com/duhuo/p/5695256.html)

2.解压

unzip edirect.zip

3.添加、激活环境变量

echo  'export PATH=/home/lmt/desktop/edirect/:$PATH'  >>  ~/.zshrc (根据自己的配置文件选择,可能使~/.bashrc。查看shell ,echo $SHELL 就晓得啦)

source ~/.zshrc(激活环境变量)

二、.entrez direct的功能

1.esearch   根据给定的indexed fields进行查找

2.efilter   过滤之前查找到的的结果

3.efetch   根据指定的格式下载所需的数据

。。。。。

三、用法举例

下载核酸或蛋白序列(fasta格式)

esearch -db nucleotide -query  'CHN-JS-2014'  |  efetch    -format    fasta       >  11.fasta             #下载的为全基因组碱基序列

>KP757892.1 Porcine deltacoronavirus isolate CHN-JS-2014, complete genome
ACATGGGGACTAAAGATAAAAATTATAGCATTAGTCTATAATTTTATCTCCCTAGCTTCGCTAGTTCTCT
ACCGACACCAATCCAGGTGCGTCTGCCACCAAGTTGGCTACCCTTTCTAGGGGCGCTTTCGCGCTTGCTC
ACCATTAGATTACCTGGAAACCAGCCATTCAGGTTGGAGTTTCCCCAGGCTCTTTTGTGTGGGCATTAGC

esearch  -db  necleotide -query  'CHN-JS-2014'  |  efetch  -format   gene_fasta   >  22.fasta      #下载的为各个区段的基因的碱基序列,如S/E/M等,分开的

>lcl|KP757892.1_gene_3 [gene=E] [locus_tag=PDCoV-CHN-JS-2014_gp3] [location=22797..23048]
ATGGTAGTCGACGACTGGGCCGTTACCATCCCTGGACAATATATTATTGCTATACTAGTTGTCATCTGCA
TTGGTGTGGCACTACTTTTTATTAACACTTGCTTAGCTTGTGTTAAATTATTTTACAAGTGCTACCTAGG
GGCAGCATACCTTGTTAGGCCTATTATAGTGTACTACTCCAAGCCGAACCCCGTACCTGAGGATGAGTTT
GTAAAAGTACACCAATTTCCTAGAAACACTCACTATGTCTGA
>lcl|KP757892.1_gene_4 [gene=M] [locus_tag=PDCoV-CHN-JS-2014_gp4] [location=23041..23694]
ATGTCTGACGCAGAAGAGTGGCAAATTATTGTTTTCATTGCGATCATATGGGCGCTTGGCGTCATCCTCC
AAGGAGGCTATGCCACGCGTAATCGTGTGATCTATGTTATTAAACTTATTCTGCTTTGGCTGCTCCAACC
CTTCACCCTAGTGGTGACCATTTGGACCGCAGTTGACAGATCATCTAAGAAGGACGCAGTTTTCATTGTG
TCCATAATTTTTGCCGTACTGACCTTCATATCCTGGGCCAAGTACTGGTATGACTCAATTCGCTTATTAA
TGAAAACCAGATCTGCATGGGCACTCTCACCTGAGAGTAGACTCCTTGCAGGGATTATGGATCCAATGGG
TACATGGAGGTGCATTCCCATCGACCACATGGCTCCAATTCTCACACCAGTCGTTAAGCATGGCAAGCTC

esearch  -db  necleotide -query  'CHN-JS-2014'  |  efetch  -format   fasta_cds_aa     >  33.fasta            #下载的为各个区段的基因的蛋白序列,分开的(在核酸库里搜索,试着用蛋白库,发现报错)

>lcl|KP757892.1_prot_AKC54443.1_3 [gene=E] [locus_tag=PDCoV-CHN-JS-2014_gp3] [protein=envelope protein] [protein_id=AKC54443.1] [location=22797..23048] [gbkey=CDS]
MVVDDWAVTIPGQYIIAILVVICIGVALLFINTCLACVKLFYKCYLGAAYLVRPIIVYYSKPNPVPEDEF
VKVHQFPRNTHYV
>lcl|KP757892.1_prot_AKC54444.1_4 [gene=M] [locus_tag=PDCoV-CHN-JS-2014_gp4] [protein=membrane protein] [protein_id=AKC54444.1] [location=23041..23694] [gbkey=CDS]
MSDAEEWQIIVFIAIIWALGVILQGGYATRNRVIYVIKLILLWLLQPFTLVVTIWTAVDRSSKKDAVFIV
SIIFAVLTFISWAKYWYDSIRLLMKTRSAWALSPESRLLAGIMDPMGTWRCIPIDHMAPILTPVVKHGKL
KLHGQELANGISVRNPPQDMVIVSPSDTFHYTFKKPVESNNDPEFAVLIYQGDRASNAGLHTITTSKAGD
ARLYKYM

esearch  -db  necleotide -query  'CHN-JS-2014'  |  efetch  -format   fasta_cds_na     >  44.fasta            #下载的为各个区段基因的碱基序列,如S/E/M等,分开的,和22.fasta结果一样,只是注释信息较多

下载序列(非fasta格式)

>lcl|KP757892.1_cds_AKC54443.1_3 [gene=E] [locus_tag=PDCoV-CHN-JS-2014_gp3] [protein=envelope protein] [protein_id=AKC54443.1] [location=22797..23048] [gbkey=CDS]
ATGGTAGTCGACGACTGGGCCGTTACCATCCCTGGACAATATATTATTGCTATACTAGTTGTCATCTGCA
TTGGTGTGGCACTACTTTTTATTAACACTTGCTTAGCTTGTGTTAAATTATTTTACAAGTGCTACCTAGG
GGCAGCATACCTTGTTAGGCCTATTATAGTGTACTACTCCAAGCCGAACCCCGTACCTGAGGATGAGTTT
GTAAAAGTACACCAATTTCCTAGAAACACTCACTATGTCTGA
>lcl|KP757892.1_cds_AKC54444.1_4 [gene=M] [locus_tag=PDCoV-CHN-JS-2014_gp4] [protein=membrane protein] [protein_id=AKC54444.1] [location=23041..23694] [gbkey=CDS]
ATGTCTGACGCAGAAGAGTGGCAAATTATTGTTTTCATTGCGATCATATGGGCGCTTGGCGTCATCCTCC
AAGGAGGCTATGCCACGCGTAATCGTGTGATCTATGTTATTAAACTTATTCTGCTTTGGCTGCTCCAACC
CTTCACCCTAGTGGTGACCATTTGGACCGCAGTTGACAGATCATCTAAGAAGGACGCAGTTTTCATTGTG
TCCATAATTTTTGCCGTACTGACCTTCATATCCTGGGCCAAGTACTGGTATGACTCAATTCGCTTATTAA
TGAAAACCAGATCTGCATGGGCACTCTCACCTGAGAGTAGACTCCTTGCAGGGATTATGGATCCAATGGG
TACATGGAGGTGCATTCCCATCGACCACATGGCTCCAATTCTCACACCAGTCGTTAAGCATGGCAAGCTC

esearch  -db  necleotide -query  'CHN-JS-2014'  |  efetch  -format   gb     >  55.fasta                                   #下载的格式和在NCBI里的界面结果显示一样。

LOCUS       KP757892               25420 bp ss-RNA     linear   VRL 17-DEC-2015
DEFINITION  Porcine deltacoronavirus isolate CHN-JS-2014, complete genome.
ACCESSION   KP757892
VERSION     KP757892.1
KEYWORDS    .
SOURCE      Porcine deltacoronavirusORGANISM  Porcine deltacoronavirusViruses; ssRNA viruses; ssRNA positive-strand viruses, no DNAstage; Nidovirales; Coronaviridae; Coronavirinae.
REFERENCE   1  (bases 1 to 25420)AUTHORS   Dong,N., Fang,L., Zeng,S., Sun,Q., Chen,H. and Xiao,S.TITLE     Porcine Deltacoronavirus in Mainland ChinaJOURNAL   Emerging Infect. Dis. 21 (12), 2254-2255 (2015)PUBMED   26584185
REFERENCE   2  (bases 1 to 25420)AUTHORS   Dong,N., Fang,L., Zeng,S., Sun,Q. and Xiao,S.TITLE     Direct SubmissionJOURNAL   Submitted (06-FEB-2015) State Key Laboratory of AgriculturalMicrobiology, Huazhong Agricultural University, 1 Shizishan Street,Wuhan, Hubei 430070, China
COMMENT     ##Assembly-Data-START##Sequencing Technology :: Sanger dideoxy sequencing##Assembly-Data-END##
FEATURES             Location/Qualifiers
。。。。
。。。。。。。。。。。。。。gene            22797..23048/gene="E"/locus_tag="PDCoV-CHN-JS-2014_gp3"CDS             22797..23048/gene="E"/locus_tag="PDCoV-CHN-JS-2014_gp3"/codon_start=1/product="envelope protein"/protein_id="AKC54443.1"/translation="MVVDDWAVTIPGQYIIAILVVICIGVALLFINTCLACVKLFYKCYLGAAYLVRPIIVYYSKPNPVPEDEFVKVHQFPRNTHYV"
     gene            23041..23694/gene="M"。。。。。。。。。。。。。

下载SRA数据的info信息

esearch  -db   sra   -query   SRP075747  |  efetch   -format  runinfo  >  runinfo.txt

Run,ReleaseDate,LoadDate,spots,bases,spots_with_mates,avgLength,size_MB,AssemblyName,download_path,Experiment,LibraryName,LibraryStrategy,LibrarySelection,LibrarySource,LibraryLayout,InsertSize,InsertDev,Platform,Model,SRAStudy,BioProject,Study_Pubmed_id,ProjectID,Sample,BioSample,SampleType,TaxID,ScientificName,SampleName,g1k_pop_code,source,g1k_analysis_group,Subject_ID,Sex,Disease,Tumor,Affection_Status,Analyte_Type,Histological_Type,Body_Site,CenterName,Submission,dbgap_study_accession,Consent,RunHash,ReadHash
SRR3589948,2016-09-09 16:27:05,2016-05-26 07:22:58,40008592,4080876384,40008592,102,1812,,https://sra-download.ncbi.nlm.nih.gov/traces/sra40/SRR/003505/SRR3589948,SRX1801292,,RIP-Seq,other,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 2500,SRP075747,PRJNA323422,2,323422,SRS1468122,SAMN05178619,simple,9606,Homo sapiens,GSM2177715,,,,,,,no,,,,,GEO,SRA429358,,public,D9CB6278FA440C16D04832F947BF338F,165928A89FAE018C75463F7074DADEA8
SRR3589949,2016-09-09 16:27:05,2016-05-26 07:23:43,37825589,3858210078,37825589,102,1664,,https://sra-download.ncbi.nlm.nih.gov/traces/sra40/SRR/003505/SRR3589949,SRX1801293,,RIP-Seq,other,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 2500,SRP075747,PRJNA323422,2,323422,SRS1468123,SAMN05178620,simple,9606,Homo sapiens,GSM2177716,,,,,,,no,,,,,GEO,SRA429358,,public,4C986EE070A46559AF6F8892378A6E7C,EC2FFDCD9C997BED576391FD3B19CF9E

转载于:https://www.cnblogs.com/lmt921108/p/8087474.html

linux command line 利用Entrez Direct下载NCBI数据相关推荐

  1. 【The Linux Command Line】学习笔记

    以下内容参考于书籍<The Linux Command Line>,中文版本翻译项目:快乐的 Linux 命令行 终端 提示符:$ 表示普通用户,# 表示超级用户 鼠标与光标:使用光标选择 ...

  2. Linux Command Line 解析

    处理模型 Linux kernel 的启动包括很多组件的初始化和相关配置,这些配置参数一般是通过command line 进行配置的.在进行后续分析之前,先来理解一下command line 的处理模 ...

  3. The Linux Command Line读书笔记(二)

    第七章: 字符展开: 通过展开,你输入的字符,在 shell 对它起作用之前,会展开成为别的字符. [me@linuxbox ~]$ echo * Desktop Documents ls-outpu ...

  4. linux bash:command,学习使用Linux Command line(Git Bash)

    了解一个新事物,一个新知识最好的方式,就是对它问问题,然后再自己寻找答案,进行解答并总结,SO...... Question: 命令行是什么? Baidu 命令提示符是在操作系统中,提示进行命令输入的 ...

  5. 利用GEE来下载landsat-TIRES数据

    一.Tiers数据介绍 USGS为每一颗Landsat卫星都提供了三层(类别)的数据:Tier1(T1),Tier2(T2),Real Time(RT)来满足科研人员的不同需求. T1:满足几何和辐射 ...

  6. matlab提示output,强制Matlab输出到命令行(Force Matlab output to command line)

    强制Matlab输出到命令行(Force Matlab output to command line) 我正在从Windows命令提示符运行MATLAB脚本: "C:\Program Fil ...

  7. SQLYog打不开,MYSQL 8.0 Command Line Client闪退,命令提示符也打不开mysql,谁来救救我!!!

    图形化界面工具SQLyog MYSQL 8.0 Command Line Client cmd 电脑下载的软件太多了 不知道是不是兼容性的原因 今天上课能用的软件 明天上课却打不开了 这时内心真是慌的 ...

  8. NCBI 数据介绍和下载

    本来打算自己写一个,但是太懒了,感觉别人写的也很详细,我也写不出什么花,就在这直接做一个只是整理: NCBI 扫盲 NCBI上的这些字母都是什么鬼 SRA,GEO,dbSNP,WGS等是什么 NCBI ...

  9. 关于批量下载MODIS数据的坑

    关于批量下载MODIS数据的坑与正确姿势 1. 第一个坑 1.1 Ladsweb的坑 由于之前做项目的时候去Ladsweb官网下载数据的时候还好好的,于是经过被批评改正之后回来就信心满满地去Ladsw ...

最新文章

  1. 《神经元》发表脑智卓越中心关于灵活分类决策神经环路机制的研究成果
  2. 编译x264 for ios
  3. 盖茨:即使收购雅虎失败也要对决谷歌
  4. 开发常见错误解决(3)VS2005调试程序出错,绑定句柄无效 Terminal Services
  5. learning scala read from file
  6. 从蛋白质结构到功能的生物信息学研究 From Protein Structure to Function with Bioinformatics PDF
  7. opencv-python教程学习系列13-图像平滑
  8. Dockerfile里的VOLUMES关键字
  9. LoRa无线通信模块在运动安全上的物联网运用
  10. Magento教程 8:如何新增首页选单?
  11. 如何从零搭建一个hexo博客网站02
  12. 冈萨雷斯图像处理Matlab函数汇总
  13. 锐起无盘XP安装与配置图文(一)
  14. 如何正确安装 Google Picasa 2 中文版?
  15. moea切比雪夫_基于分解的多目标进化优化MOEA/D之切比雪夫方法代码
  16. matlab 保存.fig文件后无法保存的问题
  17. adb 隐藏/删除 app
  18. 简单实用的vue常用后台管理模板框架
  19. python爬取qq音乐歌词风变编程_风变编程的Python课,让我离掌握编程又进了一步...
  20. 图像识别开源_看看开源图像识别技术

热门文章

  1. 两化融合贯标有什么好处
  2. 2021年中国装载机行业发展现状分析,行业集中度不断提升「图」
  3. java基于springboot+vue的家具用品销售商城系统 前后端分离nodejs含商家用户
  4. 计算机学科基础综合【目录】
  5. 【转载】常用统计软件下载地址大全
  6. 项目变更管理的必要性是什么?
  7. 电视上的腾讯会员和手机上的一样吗
  8. Codevs3162抄书问题题解
  9. 登录github更改host文件
  10. 在(0,1)二元域上寻找8次不可约多项式