Fastq文件大小和测序覆盖度初探

王焕威 聚道科技GeneDock 2017-04-10

(本文由GeneDock公司 Bioinformatics Engineer 王焕威撰写,转载请保留作者信息和原文链接)

引  子

在二代测序(NGS)领域中,Fastq文件大小和测序深度(即测了多少乘)是两个常用的概念,但不同人给出的Fastq文件大小与测序深度的比例可能并不一致,而且之间的关系也一直模糊不清。

故,这篇博客就试图去探讨这两者的关系及其相关概念。

基本概念

1

Fastq文件的基本格式

Fastq文件是二代测序行业中常用的原始序列文件。每4行表示一个read(测序序列),其格式示例如下:

  • 第一行:为序列ID

  • 第二行:序列

  • 第三行:固定为“+”

  • 第四行:序列的质量值(quality score)

2

Fastq文件的序列ID行

对于Fastq文件中每个序列的ID行(首行),其格式并不统一,不同来源Fastq文件的首行表示不同。

illumina测序仪的ID行一般包含测序仪、运行编号、flowcell ID、lane ID、tile ID、横纵轴坐标、索引序列等等。

(@<instrument>:<run number>:<flowcell ID>:<lane>:<tile>:<x-pos>:<y-pos> <read>:<is filtered>:<control number>:<index sequence>)

示例如下:

@EAS139:136:FC706VJ:2:5:1000:12850 1:Y:18:ATCACG

3

测序深度(coverage or depth)

测序深度或者覆盖度(coverage or depth)是指参考序列一个碱基上比对的reads的数目。计算公式为:

【测序深度 = reads长度 × 比对的reads数目 / 参考序列长度】

测序深度是NGS分析的重要质控指标。Craig Venter的文章指出全基因组应该达到30X-40X的测序深度。

* We report on the sequencing of 10,545 human genomes at 30×–40× coverage with an emphasis on quality metrics and novel variant and sequence discovery.

4

人类基因组的长度

对于人类全基因组来说,长度大约3Gbp(Giga-basepairs)。

* 3,234.83 Mb (Mega-basepairs) per haploid genome

对于人类外显子组来说,长度大约是30Mbp(Mega-basepairs)。

* The exome of the human genome consists of roughly 180,000 exons constituting about 1% of the total genome, or about 30 megabases of DNA.

另外,对于外显子组还需要考虑捕获芯片设计的问题,如Agilent和Nimblegen的不同芯片捕获区域不同。

各种对应关系

1

ASCII码和文件大小

Fastq文件所含内容均为ASCII码,每个ASCII码占用一个字节(Byte)空间。故:

Fastq文件大小 =(ID行长度 + reads长度 + 1个加号 + reads长度 + 4个换行符) × reads数目

示例如下:【计算公式为 (7 + 60 + 1 + 60 + 4) × 1 = 132B】

为了简化,我们忽略第三行的加号、换行符,并认为ID行长度在0~1个read长度,故:

【Fastq文件大小 = ~ 2.5 × reads长度 × reads数目】

2

Fastq文件大小和Fastq.gz文件大小

在传输Fastq文件过程中,经常使用gzip程序对其进行压缩,以减小文件大小,增加传输速度。而gzip对于不同Fastq文件的压缩比不同,大约在(3~5):1之间。

示例如下:【计算公式为:291852847/65573424 = 4.45078】

故:Fastq.gz文件大小 = ~ Fastq文件大小/4。

3

从Fastq文件到比对的reads数

由于Fastq文件经常会进行去接头等前处理的工作,比对的reads长度与原始reads长度略有不同,此处暂时忽略。

另外由于只有部分原始reads会比对(mapped)到参考基因组,因此还有一个比对率的问题。

故:比对的reads数目 = reads数目 × 比对率。比对率也是NGS分析的重要质控指标。

总 结

综合以上信息:

1. 测序深度 = reads长度 × 比对的reads数目 / 参考序列长度

2. 人类基因组 = ~3Gbp

3. Fastq文件大小 = ~ 2.5 × reads长度 × reads 数目

4. Fastq.gz文件大小=~Fastq文件大小 / 4

5. 比对的reads数目 = reads数目 × 比对率

在进行了各种近似之后(ID行的近似,参考基因组的近似,gz压缩率的近似,去接头后reads长度变化等),再假设比对率为90%,若要测30X的人类基因组需要62.5GB(Giga Base)的数据。

Fastq文件大小和测序覆盖度初探相关推荐

  1. 纯二代测序从头组装基因组

    基因组组装 基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表示从大规模测序得到的短读(reads)中找到的一致性序列.组装的第一步就是从短片段(p ...

  2. 纯二代测序从头组装基因组(基础版)

    基因组组装 基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表示从大规模测序得到的短读(reads)中找到的一致性序列.组装的第一步就是从短片段(p ...

  3. NBT:主流高通量测序仪在人/细菌/宏基因组测序评测结果发布,华大智造表现优异...

    导读 高通量DNA测序技术(DNA-seq)是临床和基础生物医学研究的重要手段之一.作为一种常规的技术方法,DNA-seq在多个领域均有广泛应用,例如个体基因分型和变异鉴定,种群和物种水平的基因组特征 ...

  4. 从实验室走向大众,一文读懂Nanopore测序技术的发展及应用

    关键词/Nanopore测序技术    文/基因慧 随着基因测序技术不断突破,二代测序的发展也将基因检测成本大幅降低.理想的测序方法,是对原始DNA模板进行直接.准确的测序,消除PCR扩增带来的偏差, ...

  5. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  6. 16款测序平台性能大PK,华大表现不俗!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  7. NGS基础:测序原始数据下载

    生物或医学中涉及高通量测序的论文,一般会将原始测序数据上传到公开的数据库,上传方式见测序文章数据上传找哪里:并在文章末尾标明数据存储位置和登录号,如 The data from this study ...

  8. 基因测序技术发展历史及一、二、三代测序技术原理和应用

    基因测序技术发展历史及一.二.三代测序技术原理和应用 红皇后学术 公众号:红皇后学术(ID: zzlphs2516) 已关注 125 人赞同了该文章 基因测序技术 基因测序技术也称作DNA测序技术,即 ...

  9. 16款测序平台性能大PK!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布

    DNA是生命遗传信息的载体,获取DNA序列信息对于基础科研和临床诊断都至关重要.自1977年第一代测序技术问世以来,经过四十余年的探索,DNA测序技术取得了重大进展.随着对测序成本降低的需求,以高通量 ...

最新文章

  1. 中奖名单,老读者请看过来!
  2. 领英1000多个假账户被曝光,用AI生成假脸冒充真人发推销信息,已形成相关产业链...
  3. 图解SQL Server 2008入门总结
  4. C++ 生成洛伦兹的蝴蝶
  5. 前端学习(2742):重读vue电商网站52之路由懒加载
  6. Spark cluster 部署
  7. 如何使用SQL Server链接服务器查询Excel数据
  8. Ubuntu 下安装tomcat和配置eclipse的遇到的问题的一点心得。
  9. java软件工程师自我评价_java开发简历自我评价【java简历自我评价模板】
  10. d3开发Svg编辑器
  11. python中for循环的用法a+aa+aaa-Python练习题 013:求解a+aa+aaa……
  12. 4.7 使用色相/饱和度命令调整图像的色彩 [原创Ps教程]
  13. 超级炫酷的3D旋转美女图——Python实现
  14. 埃默里大学计算机值得读吗,埃默里大学计算机科学-生物统计学硕士研究生怎么样?好不好...
  15. 官宣 | 首届云原生编程挑战赛报名通道正式开启
  16. c语言path环境变量,Windows下PATH等环境变量详解(转载)
  17. 有关《家》的经典歌曲_浅谈艺术歌曲《家》的演唱
  18. OpenFOAM-v2112安装——很详细
  19. 1000行代码徒手写正则表达式引擎【1】--JAVA中正则表达式的使用
  20. WEB前端:(3)HTML5②超链接及页面内跳转

热门文章

  1. 影视后期制作课题报告
  2. 手机闪存速度测试工具,AndroBench
  3. Linux网络——套接字编程
  4. EOS竞猜游戏SKR EOS遭黑客攻击,成都链安已于前天发出预警
  5. java输出0-100之间的偶数、奇数
  6. C# WPF 建立无边框(标题栏)的登录窗口的示例
  7. unity课设小游戏_unity3d游戏课程设计报告
  8. 苹果电脑ntfs如何打开硬盘?mac能读取的硬盘格式
  9. 抖音短视频数据抓取实战系列(三)——Fiddler抓取抖音用户详细信息数据
  10. 病毒木马查杀实战第024篇:MBR病毒之编程解析引导区