Fasta/Fastq格式记录

时间:2020-10-21

生信中,常用到Fasta和Fastq格式,这两种是比较基础和常见的序列保存文件。通过wiki和网上资料,对这两种格式进行说明和记录。

1. Fasta格式

Fasta格式文件可以存储DNA(ATCGN)或者Protein序列(Amino Acid)。每两行表示一个序列,其中第一行以 > 开头,后面为序列名称或描述信息;第二行为序列本身。对于DNA序列就是简单的Adenine (A), Guanine (G), Thymine (T), Cytosine ©构成;对于Protein序列,序列是蛋白的英文简称,氨基酸的名称,比较详细的介绍在下面列出:

丙氨酸(Ala,A);精氨酸(Arg,R);天冬酰胺(Asn,N);天冬氨酸(Asp,D);半胱氨酸(Cys,C);谷氨酸(Glu,E);谷氨酰胺(Gln,Q);甘氨酸(Gly,G);组氨酸(His,H);异亮氨酸(Ile,I);亮氨酸(Leu,L);赖氨酸(Lys,K);甲硫氨酸(Met,M);苯丙氨酸(Phe,F);脯氨酸(Pro,P);丝氨酸(Ser,S);苏氨酸(Thr,T);色氨酸(Try,W);酪氨酸(Tyr,Y);缬氨酸(Val,V)----特别的,有两个天冬酰胺或天冬氨酸(Asx,B);谷氨酸或谷氨酰胺(Glx,Z)

在实际的序列中,会出现下面字母的情况,其中X代表任何氨基酸,星号(*)代表转录终止,短线(-)代表gap:

A  alanine              P  proline
B  aspartate/asparagine  Q  glutamine
C  cystine                R  arginine
D  aspartate           S  serine
E  glutamate          T  threonine
F  phenylalanine  U  selenocysteine
G  glycine                 V  valine
H  histidine             W  tryptophan
I  isoleucine            Y  tyrosine
K  lysine                    Z  glutamate/glutamine
L  leucine                  X  any
M  methionine     *  translation stop
N  asparagine       -  gap of indeterminate length

2. Fastq格式

Fastq格式最初由Wellcome Sanger Institute设计,每4行为一条序列信息,其中四行的含义如下:

  • 第一行:以@开头,例如 @A00783:439:HHG7TDSXY:3:1101:8377:1000,其中A00783:439:HHG7TDSXY代表测序仪、run id和flowcell id,3代表flowcell lane编号,1101代表lane中tile的编号,8377代表tile中的x坐标,1000代表tile中的y坐标。
  • 第二行:以AGCTN序列,N代表未测出是哪个碱基
  • 第三行:以+号开头,可以不接信息或者接第一行相同的序列信息
  • 第四行:存储ASCII码转换的质量值,该行与第二行序列是一一对应的关系,准确体现每个碱基的质量值。

有些Fastq的第一行会多出一些信息@A00783:439:HHG7TDSXY:3:1101:8377:1000 1:N:0:GGACTTCT+ACGTCCAT,其中1:N:0:GGACTTCT+ACGTCCAT的含义为1read1,N过滤通过(Y代表过滤未通过),0没有控制点被打开(否则是一个偶数),GGACTTCT+ACGTCCAT为index 序列

3. Phred Qulity Score (质量值)

依据测序仪给出的测序错误概率P,质量值的计算有两种方式:

Qsolexa = -10 × log10 (p/1-p)

Qsanger = -10 × log10 p

Qsolexa和Qsanger二者的质量曲线表明,当p<0.05或Q质量>13时没有明显区别,目前主要使用的是Qsanger计算方法。所以,可以计算:

  • p = 0.1 Qsanger = 10

  • p = 0.01 Qsanger = 20

  • p = 0.001 Qsanger = 30

  • p = 0.0001 Qsanger = 40

对于不同的平台,质量值的转换不同,现在主要以Sanger为准,多数为Phred+33(计算的Phred Quality Score + 33),也要注意部分数据可能是Phred+64:

 S - Sanger        Phred+33,  raw reads typically (0, 40)X - Solexa        Solexa+64, raw reads typically (-5, 40)I - Illumina 1.3+ Phred+64,  raw reads typically (0, 40)J - Illumina 1.5+ Phred+64,  raw reads typically (3, 41)with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold) (Note: See discussion above).L - Illumina 1.8+ Phred+33,  raw reads typically (0, 41)

计算完Phred Quality Score,Fastq文件为了降低存储空间,将质量值转为ASCII对应的单字符,实现高效存储。ASCII表详细对应信息如下,以表格为例,A 代表质量值为65,F代表质量值为70:
通过上面的表可知,在 Phred+33情况下,字母A代表的phred质量是:65-33=32, 字母B代表的phred质量是:66-33=33。

简单的例fastq格式为:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

简单的例fasta格式为:

>test
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

总结

测序产生的序列通常以Fasta和Fastq格式保存,Fastq中除了序列信息,还包括质量信息和测序仪器信息等,高通量测序结果通常以压缩形式的Fastq文件保存和释放(格式例如:filename.fastq.gz),后续分析软件也基本兼容gz格式。

参考:

https://en.wikipedia.org/wiki/FASTA_format

https://en.wikipedia.org/wiki/FASTQ_format

https://zhuanlan.zhihu.com/p/20714540

https://zhuanlan.zhihu.com/p/190778779

https://molbiol-tools.ca/Amino_acid_abbreviations.htm

https://www.neb.com/tools-and-resources/usage-guidelines/amino-acid-structures

NGS基础---Fasta/Fastq格式记录相关推荐

  1. fq,fa,fna,ffn,faa都是什么鬼,与fasta,fastq格式有什么关系?终于1分钟搞懂了

    fasta与fastq的区别: fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释. 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Py ...

  2. **生信自学记录1——获取Fastq格式的反向互补序列**

    ` 生信自学记录1--获取Fastq格式的反向互补序列 总共分为三步 1.读取基因序列的str格式,返回反向互补序列str 2.打开fastq格式的文本提取基因序列,返回互补序列list 3.读取互补 ...

  3. fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html

    其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff),收集这些格式的说明书. fasta和fastq格式文件的shell小练习 http ...

  4. 【bioinfo】fasta/fastq/sam格式互相转化

    一些常见的生信分析数据文件格式,可参考该网址: https://learn.gencore.bio.nyu.edu/ngs-file-formats/fastaa-format/ [1]fastq2f ...

  5. 生信必会格式:Fasta Fastq 简介及转换

    文章目录 前言 FASTA 例子:血红蛋白α的核酸和蛋白质序列 FASTQ FASTA FASTQ 对比 FASTQ 转为 FASTA 使用基本的命令:sed.paste.awk 使用现有工具:Bio ...

  6. 生信小白学习日记Day4Day5——NGS基础 NGS分析注释(BWA软件)

    2019年5月30日,晚上,心情变好,好几天没更新了,看到男朋友在学一款软件,我也近朱者赤,来继续注释Day2-2中NGS分析流程中的一个重要软件--BWA NGS基础 NGS分析注释 BWA 对应于 ...

  7. linux怎么查看fastq格式文件,2020-01-11 了解FASTQ格式并处理FASTQ文件

    FASTQ文件格式是测序仪展示数据的标准格式,可以看成FASTA文件的变种(FASTA+Q),因为其包含了对序列中每个碱基的Qualify Measurement.(如:碱基A出错的可能性是1/100 ...

  8. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

  9. RNA-seq流程学习笔记(4)-使用FastQC软件对fastq格式的数据进行质量控制

    今天开始学习使用FastQC软件对范例SRA测序文件的质量进行分析. 主要参考文章: RNA-seq(3):sra到fastq格式转换并进行质量控制 转录组入门(3):了解fastq测序数据 用Fas ...

最新文章

  1. 《编写可维护的JavaScript》——1.7 直接量
  2. 【luogu 3375】【模板】KMP字符串匹配
  3. Design Pattern - Factory Method(C#)
  4. 第十八讲 傅里叶变换
  5. 使用 Equinox 开发 OSGi 应用程序
  6. MySQL Data Manipulation Statements
  7. VR 游戏开发资料收集
  8. css3弹性盒子+小程序布局
  9. R语言绘图基础篇-线图
  10. 程序员的成长课-读后感
  11. pcm5102a解码芯片音质评测_音乐更重要,iQOO Pro配备独立解码芯片,Hi-Fi音质更懂你...
  12. 电池SOC仿真系列-基于GA-BP神经网络的电池SOC估算方法
  13. 用Unity的GetSpectrumData方法识别钢琴曲中的钢琴琴键
  14. UOJ449 集训队作业2018 喂鸽子
  15. 直播运营-直播抠图效果完整展示
  16. 像写Flutter一样开发Android原生应用
  17. 在达内学java出来可靠吗_【求解】在达内学习java也有内幕啊 我要曝光!
  18. 专转本计算机必背知识点,江苏专转本计算机必考重点(精华版).doc
  19. 就业与保障杂志就业与保障杂志社就业与保障编辑部2022年第3期目录
  20. 3月18日云栖精选夜读 | 开发者必看!探秘阿里云Hi购季开发者分会场:海量学习资源0元起!...

热门文章

  1. 宗宁:不死京东的收官之战--附刘强东点评
  2. pandas 导出 Excel 文件的时候自动列宽,自动加上边框
  3. 同步播放的效果——iSubtitle for mac视频字幕制作可以做到!
  4. Spring Cloud 微服务技术栈
  5. BZOJ3944 Sum 杜教筛
  6. MATLAB filter2
  7. WPF自定义带图标按钮
  8. 华硕编程竞赛11月JAVA专场 B题召唤精灵 题解
  9. Arduno + ESP8266模组运用中移OneNet物联网平台实现远程监控
  10. 小爬爬4.协程基本用法多任务异步协程爬虫示例(大数据量)