FASTA序列格式说明
FASTA序列格式说明
高通量测序数据常采用 FASTQ 格式来保 存所测的碱基读段和质量分数。
如图 所示,FASTQ 格式以测序读段为单位存 储,每条读段占 4 行,
其中第一行和的第三行由文件识别标志和读段名(ID)组成(第一行以“@”开头而第三行以“+”开头;
第三行中 ID 可以省略,但“+”不能省 略),
第二行为碱基序列,第四行为各碱基所对应的测序质量分数序列。
fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式,所以首先对fasta格式在做详细说明。 下面是一个来源于NCBI的fasta格式序列:
>gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNAAAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTCTTTGTTTTTATTGTGGCAATGTCTCTGGTGTCATGTAGTACAGCCGCTCCAGCAAAAATACCTATCAAGGCCATTAAGACTGTAGGAAAGGCAGTCGGTAAAGGTCTAAGAGCCATCAATATCGCCAGTACAGCCAACGATGTTTTCAATTTCTTGAAACCGAAGAAAAGAAAGCATTAAGAAAAGAAATTGAGTGAATGGTATTAGATATATTACTAAAGGATCGATCACAATGATATATAGATAGGTCATAGATGTCAACGTGAATTTATGGATTTTTGTTTTCCCCTTTGTAGTACTTACTTATAGTCAGTTCTTAAATTGATTGCAACGACAACTGTGTACTATTTTTTATATTTGGTTCGAAAAGTTGCATTATTAACGATTTTAGAAAATAAAACTACTTTACTTTTACACG
格式首先以大于号“>”开头,接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”,然后是序列的描述信息。换行后是序列信息,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过80个字符(通常60个字符)。序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,具有绝对唯一性。一条核酸或者蛋白质改变了,将赋予一个新的gi号(这时序列的接收号可能不变)。gi号后面是序列的标识符,下表是来源于不同数据库的标识符的说明。标识符由序列来源标识、序列标识(如接收号、名称等)等几部分组成,他们之间用“|”隔开,如果某项缺失,可以留空但是“|”不能省略。如上例中标识符为“ref|NM_001043364.2|”,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
对于自己构建的序列数据库(序列不是来源与NCBI或其他数据),可以采用“gnl|database|identifier”或者“lcl|identifier”格式,以保证可以使用blast的所有功能。database或者identifier是需要指定的数据库的标识和序列标识,指定的名称可以用大小写字母、数字、下划线“_”、破折号“-”或者点号“.”。注意名称是区分大小写的,同时不能出现空格,空格表示序列标识符结束。
数据库中的序列标识符必须保证唯一,许多时候格式数据库是formatdb报告错误,就是因为标示符重复,还有一点需要强调的是序列不能为空,否则也会报错。
下面是一个例子,这四个序列的标识符都是唯一。
- gnl|H.sapiens|seq1
- gnl|H.sapiens|seq2
- gnl|M.Mus|seq1
- lcl|seq1
表:序列来源的数据库与对应的标识符
Database Name数据库名称 | Identifier Syntax 标识符 |
GenBank | gb|accession|locus |
EMBL Data Library | emb|accession|locus |
DDBJ, DNA Database of Japan | dbj|accession|locus |
NBRF PIR | pir||entry |
Protein Research Foundation | prf||name |
SWISS-PROT | sp|accession|entry name |
Brookhaven Protein Data Bank | pdb|entry|chain |
Patents | pat|country|number |
GenInfo Backbone Id | bbs|number |
General database identifier | gnl|database|identifier |
NCBI Reference Sequence | ref|accession|locus |
Local Sequence identifier | lcl|identifier |
表:序列中的每个字母或字符所代表的含义。
核苷酸序列:
A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length
氨基酸序列:
A alanine P proline
B aspartate or asparagine Q glutamine
C cystine R arginine
D aspartate S serine
E glutamate T threonine
F phenylalanine U selenocysteine
G glycine V valine
H histidine W tryptophan
I isoleucine Y tyrosine
K lysine Z glutamate or glutamine
L leucine X any
M methionine * translation stop
N asparagine - gap of indeterminate length
FASTA序列格式说明相关推荐
- C#,生信软件实践(03)——DNA数据库GenBank格式详解及转为FASTA序列格式的源代码
1 GenBank 1.1 NCBI--美国国家生物技术信息中心(美国国立生物技术信息中心) NCBI(美国国立生物技术信息中心)是在NIH的国立医学图书馆(NLM)的一个分支.它的使命包括四项任务: ...
- linux系统fasta程序,快速计算fasta序列长度的方法
最近看了一下进入PLoB的网页来路分析,看到有同学搜索计算fasta序列长度.其实自己在之前的数据分析中也遇到过相关的问题,这里给大家分享两种我常用的方法. 方法一:linux下用awk计算fasta ...
- NGS基础---Fasta/Fastq格式记录
Fasta/Fastq格式记录 时间:2020-10-21 生信中,常用到Fasta和Fastq格式,这两种是比较基础和常见的序列保存文件.通过wiki和网上资料,对这两种格式进行说明和记录. 1. ...
- linux提取fasta文件的id,FASTA序列文件处理一网打尽
推荐两个地方: 地方一都是小脚本,但实用,大伙也可以自己练习写. 地方二成熟软件SeqKit,也很实用. 一.小脚本 大家可以在这里下载以下脚本: https://github.com/jorvis/ ...
- linux提取fasta文件的id,从大的fasta文件中提取特定的fasta序列
我想使用以下脚本从大的fasta文件中提取特定的fasta序列,但输出为空.从大的fasta文件中提取特定的fasta序列 transcripts.txt文件包含我想从assembly.fasta到s ...
- 通过bed文件获取fasta序列
一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, ...
- python生信脚本之fasta序列反向互补
1.如何使用python把fasta序列进行反向互补 后续还要再优化 def fasta2dict(fasta_name):with open(fasta_name) as fa:fa_dict = ...
- 怎么用python计算序列长度_【python脚本】计算fasta序列长度;基因组contig/scaffold/chromosome长度...
目的 如题 脚本 import sys,os,re def process_file(reader): '''Open, read,and print a file''' names=[] index ...
- fq,fa,fna,ffn,faa都是什么鬼,与fasta,fastq格式有什么关系?终于1分钟搞懂了
fasta与fastq的区别: fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释. 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Py ...
- C语言 输出重复序列的序号,如何在FASTA序列中找到反向重复模式?
我是Python和生物信息学的新手,但我正在通过rosalind.info网站学习两种方法.您可以使用后缀树执行此操作.后缀树(见 http://en.wikipedia.org/wiki/Suffi ...
最新文章
- 中国大学生创业报告发布
- Git将主合并到功能分支
- 大众点评新一轮融资超8亿美元,弥补腾讯O2O短板
- 事务超时时间无效_阿里分布式事务组件 fescar/seata 对 XA 2PC 的改进及其设计思想...
- 网络 IO 演变过程
- windows下开启 PHP扩展Redis
- java中常见的数据结构分类
- ESP8285 sdkconfig
- c语言编程被当作病毒,c语言编写病毒
- 移动海信IP102H_905L3-B_线刷固件包
- [转]2014年最新810多套android源码2.46GB免费一次性打包下载
- 励志情感类视频剪辑需要如何制作?
- js面向对象怎么理解
- 解读GDPR | 你应该知道的那些事儿
- 在 HTML5 中捕获音频和视频
- MQ之ActiveMQ
- wm命令(wm size)修改屏幕尺寸
- 关于高斯光学的一些知识
- 国际化常见快捷登录总结:使用 Google、Facebook 等三方平台实现快速登录
- rabbitmq 启动命令
热门文章
- CF1654-G. Snowy Mountain(2900) GOOD
- 有了这份IT职业发展路线图,大学生就业从此不迷茫
- 投资理财之基金篇(一) - 认识基金
- enfuzion与lsf构建渲染集群_集群渲染系统构建及优化-精选文档
- AndroidQ(十)Android Q功能和API
- 阿里巴巴面试题及答案-持续更新(2)(2020年)
- mysql 正则表达式 标点符号_正则表达式-匹配标点符号
- 如何将bmp转化为jpg,bmp转jpg方法
- vue封装了个日历组件(包含农历,节日)
- 最近发现谷歌浏览器打开网页速度很慢,比IE都慢