FASTA序列格式说明

高通量测序数据常采用 FASTQ 格式来保 存所测的碱基读段质量分数

如图 所示,FASTQ 格式以测序读段为单位存 储,每条读段占 4 行,

其中第一行和的第三行由文件识别标志和读段名(ID)组成(第一行以“@”开头而第三行以“+”开头;

第三行中 ID 可以省略,但“+”不能省 略),

第二行为碱基序列,第四行为各碱基所对应的测序质量分数序列。

fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式,所以首先对fasta格式在做详细说明。 下面是一个来源于NCBI的fasta格式序列:

>gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNAAAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTATTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCTATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCATCAATATCGCCAGTACAGCCAACGATGTTTTCAATTTCTTGAAACCGAAGAAAAGAAAGCATTAAGAAAAGAAATTGAGTGAATGGTATTAGATATATTACTAAAGGATCGATCACAATGATATATAGATAGGTCATAGATGTCAACGTGAATTTATGGATTTTTGTTTTCCCCTTTGTAGTACTTACTTATAGTCAGTTCTTAAATTGATTGCAACGACAACTGTGTACTATTTTTTATATTTGGTTCGAAAAGTTGCATTATTAACGATTTTAGAAAATAAAACTACTTTACTTTTACACG

格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
     所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。

对于自己构建的序列数据库(序列不是来源与NCBI或其他数据),可以采用“gnl|database|identifier”或者“lcl|identifier”格式,以保证可以使用blast的所有功能。database或者identifier是需要指定的数据库的标识和序列标识,指定的名称可以用大小写字母、数字、下划线“_”、破折号“-”或者点号“.”。注意名称是区分大小写的,同时不能出现空格,空格表示序列标识符结束。
数据库中的序列标识符必须保证唯一,许多时候格式数据库是formatdb报告错误,就是因为标示符重复,还有一点需要强调的是序列不能为空,否则也会报错。
下面是一个例子,这四个序列的标识符都是唯一。

  • gnl|H.sapiens|seq1
  • gnl|H.sapiens|seq2
  • gnl|M.Mus|seq1
  • lcl|seq1

表:序列来源的数据库与对应的标识符

Database Name数据库名称      Identifier Syntax 标识符
GenBank gb|accession|locus
EMBL Data Library emb|accession|locus
DDBJ, DNA Database of Japan dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|entry name
Brookhaven Protein Data Bank pdb|entry|chain
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier

表:序列中的每个字母或字符所代表的含义。

核苷酸序列:
        A --> adenosine           M --> A C (amino)
        C --> cytidine            S --> G C (strong)
        G --> guanine             W --> A T (weak)
        T --> thymidine           B --> G T C
        U --> uridine             D --> G A T
        R --> G A (purine)        H --> A C T
        Y --> T C (pyrimidine)    V --> G C A
        K --> G T (keto)          N --> A G C T (any)
                                  -  gap of indeterminate length

氨基酸序列:
    A  alanine                         P  proline
    B  aspartate or asparagine         Q  glutamine
    C  cystine                         R  arginine
    D  aspartate                       S  serine
    E  glutamate                       T  threonine
    F  phenylalanine                   U  selenocysteine
    G  glycine                         V  valine
    H  histidine                       W  tryptophan
    I  isoleucine                      Y  tyrosine
    K  lysine                          Z  glutamate or glutamine
    L  leucine                         X  any
    M  methionine                      *  translation stop
    N  asparagine                      -  gap of indeterminate length

FASTA序列格式说明相关推荐

  1. C#,生信软件实践(03)——DNA数据库GenBank格式详解及转为FASTA序列格式的源代码

    1 GenBank 1.1 NCBI--美国国家生物技术信息中心(美国国立生物技术信息中心) NCBI(美国国立生物技术信息中心)是在NIH的国立医学图书馆(NLM)的一个分支.它的使命包括四项任务: ...

  2. linux系统fasta程序,快速计算fasta序列长度的方法

    最近看了一下进入PLoB的网页来路分析,看到有同学搜索计算fasta序列长度.其实自己在之前的数据分析中也遇到过相关的问题,这里给大家分享两种我常用的方法. 方法一:linux下用awk计算fasta ...

  3. NGS基础---Fasta/Fastq格式记录

    Fasta/Fastq格式记录 时间:2020-10-21 生信中,常用到Fasta和Fastq格式,这两种是比较基础和常见的序列保存文件.通过wiki和网上资料,对这两种格式进行说明和记录. 1. ...

  4. linux提取fasta文件的id,FASTA序列文件处理一网打尽

    推荐两个地方: 地方一都是小脚本,但实用,大伙也可以自己练习写. 地方二成熟软件SeqKit,也很实用. 一.小脚本 大家可以在这里下载以下脚本: https://github.com/jorvis/ ...

  5. linux提取fasta文件的id,从大的fasta文件中提取特定的fasta序列

    我想使用以下脚本从大的fasta文件中提取特定的fasta序列,但输出为空.从大的fasta文件中提取特定的fasta序列 transcripts.txt文件包含我想从assembly.fasta到s ...

  6. 通过bed文件获取fasta序列

    一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, ...

  7. python生信脚本之fasta序列反向互补

    1.如何使用python把fasta序列进行反向互补 后续还要再优化 def fasta2dict(fasta_name):with open(fasta_name) as fa:fa_dict = ...

  8. 怎么用python计算序列长度_【python脚本】计算fasta序列长度;基因组contig/scaffold/chromosome长度...

    目的 如题 脚本 import sys,os,re def process_file(reader): '''Open, read,and print a file''' names=[] index ...

  9. fq,fa,fna,ffn,faa都是什么鬼,与fasta,fastq格式有什么关系?终于1分钟搞懂了

    fasta与fastq的区别: fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释. 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Py ...

  10. C语言 输出重复序列的序号,如何在FASTA序列中找到反向重复模式?

    我是Python和生物信息学的新手,但我正在通过rosalind.info网站学习两种方法.您可以使用后缀树执行此操作.后缀树(见 http://en.wikipedia.org/wiki/Suffi ...

最新文章

  1. 中国大学生创业报告发布
  2. Git将主合并到功能分支
  3. 大众点评新一轮融资超8亿美元,弥补腾讯O2O短板
  4. 事务超时时间无效_阿里分布式事务组件 fescar/seata 对 XA 2PC 的改进及其设计思想...
  5. 网络 IO 演变过程
  6. windows下开启 PHP扩展Redis
  7. java中常见的数据结构分类
  8. ESP8285 sdkconfig
  9. c语言编程被当作病毒,c语言编写病毒
  10. 移动海信IP102H_905L3-B_线刷固件包
  11. [转]2014年最新810多套android源码2.46GB免费一次性打包下载
  12. 励志情感类视频剪辑需要如何制作?
  13. js面向对象怎么理解
  14. 解读GDPR | 你应该知道的那些事儿
  15. 在 HTML5 中捕获音频和视频
  16. MQ之ActiveMQ
  17. wm命令(wm size)修改屏幕尺寸
  18. 关于高斯光学的一些知识
  19. 国际化常见快捷登录总结:使用 Google、Facebook 等三方平台实现快速登录
  20. rabbitmq 启动命令

热门文章

  1. CF1654-G. Snowy Mountain(2900) GOOD
  2. 有了这份IT职业发展路线图,大学生就业从此不迷茫
  3. 投资理财之基金篇(一) - 认识基金
  4. enfuzion与lsf构建渲染集群_集群渲染系统构建及优化-精选文档
  5. AndroidQ(十)Android Q功能和API
  6. 阿里巴巴面试题及答案-持续更新(2)(2020年)
  7. mysql 正则表达式 标点符号_正则表达式-匹配标点符号
  8. 如何将bmp转化为jpg,bmp转jpg方法
  9. vue封装了个日历组件(包含农历,节日)
  10. 最近发现谷歌浏览器打开网页速度很慢,比IE都慢