FASTA序列格式说明

高通量测序数据常采用 FASTQ 格式来保存所测的碱基读段和质量分数。

如图所示,FASTQ 格式以测序读段为单位存储,每条读段占 4 行,

其中第一行和的第三行由文件识别标志和读段名(ID)组成(第一行以“@”开头而第三行以“+”开头;

第三行中 ID 可以省略,但“+”不能省略),

第二行为碱基序列,第四行为各碱基所对应的测序质量分数序列。

fasta序列格式是blast组织数据的基本格式，无论是数据库还是查询序列，大多数情况都使用fasta序列格式，所以首先对fasta格式在做详细说明。下面是一个来源于NCBI的fasta格式序列：

>gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNAAAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTATTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCTATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCATCAATATCGCCAGTACAGCCAACGATGTTTTCAATTTCTTGAAACCGAAGAAAAGAAAGCATTAAGAAAAGAAATTGAGTGAATGGTATTAGATATATTACTAAAGGATCGATCACAATGATATATAGATAGGTCATAGATGTCAACGTGAATTTATGGATTTTTGTTTTCCCCTTTGTAGTACTTACTTATAGTCAGTTCTTAAATTGATTGCAACGACAACTGTGTACTATTTTTTATATTTGGTTCGAAAAGTTGCATTATTAACGATTTTAGAAAATAAAACTACTTTACTTTTACACG

格式首先以大于号“>”开头，接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”，然后是序列的描述信息。换行后是序列信息，标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可，而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符（通常60个字符）。序列中允许空格，换行，空行，直到下一个大于号，表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号类似与数据库中的流水号，由数字组成，具有绝对唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。gi号后面是序列的标识符，下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识（如接收号、名称等）等几部分组成，他们之间用“|”隔开，如果某项缺失，可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”，表示序列来源于NCBI的参考序列库，接收号为“NM_001043364.2”。

对于自己构建的序列数据库（序列不是来源与NCBI或其他数据），可以采用“gnl|database|identifier”或者“lcl|identifier”格式，以保证可以使用blast的所有功能。database或者identifier是需要指定的数据库的标识和序列标识，指定的名称可以用大小写字母、数字、下划线“_”、破折号“-”或者点号“.”。注意名称是区分大小写的，同时不能出现空格，空格表示序列标识符结束。
数据库中的序列标识符必须保证唯一，许多时候格式数据库是formatdb报告错误，就是因为标示符重复，还有一点需要强调的是序列不能为空，否则也会报错。
下面是一个例子，这四个序列的标识符都是唯一。

gnl|H.sapiens|seq1
gnl|H.sapiens|seq2
gnl|M.Mus|seq1
lcl|seq1

表：序列来源的数据库与对应的标识符

Database Name数据库名称	Identifier Syntax 标识符
GenBank	gb\|accession\|locus
EMBL Data Library	emb\|accession\|locus
DDBJ, DNA Database of Japan	dbj\|accession\|locus
NBRF PIR	pir\|\|entry
Protein Research Foundation	prf\|\|name
SWISS-PROT	sp\|accession\|entry name
Brookhaven Protein Data Bank	pdb\|entry\|chain
Patents	pat\|country\|number
GenInfo Backbone Id	bbs\|number
General database identifier	gnl\|database\|identifier
NCBI Reference Sequence	ref\|accession\|locus
Local Sequence identifier	lcl\|identifier

表：序列中的每个字母或字符所代表的含义。

核苷酸序列：
        A --> adenosine           M --> A C (amino)
        C --> cytidine            S --> G C (strong)
        G --> guanine             W --> A T (weak)
        T --> thymidine           B --> G T C
        U --> uridine             D --> G A T
        R --> G A (purine)        H --> A C T
        Y --> T C (pyrimidine)    V --> G C A
        K --> G T (keto)          N --> A G C T (any)
                                  - gap of indeterminate length

氨基酸序列：
    A alanine                         P proline
    B aspartate or asparagine         Q glutamine
    C cystine                         R arginine
    D aspartate                       S serine
    E glutamate                       T threonine
    F phenylalanine                   U selenocysteine
    G glycine                         V valine
    H histidine                       W tryptophan
    I isoleucine                      Y tyrosine
    K lysine                          Z glutamate or glutamine
    L leucine                         X any
    M methionine                      * translation stop
    N asparagine                      - gap of indeterminate length

FASTA序列格式说明相关推荐

C#，生信软件实践（03）——DNA数据库GenBank格式详解及转为FASTA序列格式的源代码
1 GenBank 1.1 NCBI--美国国家生物技术信息中心(美国国立生物技术信息中心) NCBI(美国国立生物技术信息中心)是在NIH的国立医学图书馆(NLM)的一个分支.它的使命包括四项任务: ...
linux系统fasta程序,快速计算fasta序列长度的方法
最近看了一下进入PLoB的网页来路分析,看到有同学搜索计算fasta序列长度.其实自己在之前的数据分析中也遇到过相关的问题,这里给大家分享两种我常用的方法. 方法一:linux下用awk计算fasta ...
NGS基础---Fasta/Fastq格式记录
Fasta/Fastq格式记录时间:2020-10-21 生信中,常用到Fasta和Fastq格式,这两种是比较基础和常见的序列保存文件.通过wiki和网上资料,对这两种格式进行说明和记录. 1. ...
linux提取fasta文件的id,FASTA序列文件处理一网打尽
推荐两个地方: 地方一都是小脚本,但实用,大伙也可以自己练习写. 地方二成熟软件SeqKit,也很实用. 一.小脚本大家可以在这里下载以下脚本: https://github.com/jorvis/ ...
linux提取fasta文件的id,从大的fasta文件中提取特定的fasta序列
我想使用以下脚本从大的fasta文件中提取特定的fasta序列,但输出为空.从大的fasta文件中提取特定的fasta序列 transcripts.txt文件包含我想从assembly.fasta到s ...
通过bed文件获取fasta序列
一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, ...
python生信脚本之fasta序列反向互补
1.如何使用python把fasta序列进行反向互补后续还要再优化 def fasta2dict(fasta_name):with open(fasta_name) as fa:fa_dict = ...
怎么用python计算序列长度_【python脚本】计算fasta序列长度;基因组contig/scaffold/chromosome长度...
目的如题脚本 import sys,os,re def process_file(reader): '''Open, read,and print a file''' names=[] index ...
fq,fa,fna,ffn,faa都是什么鬼，与fasta,fastq格式有什么关系？终于1分钟搞懂了
fasta与fastq的区别: fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释. 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Py ...
C语言输出重复序列的序号,如何在FASTA序列中找到反向重复模式？
我是Python和生物信息学的新手,但我正在通过rosalind.info网站学习两种方法.您可以使用后缀树执行此操作.后缀树(见 http://en.wikipedia.org/wiki/Suffi ...

FASTA序列格式说明

FASTA序列格式说明

FASTA序列格式说明相关推荐

最新文章

热门文章