FASTQ! BAM! VCF

生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢?

西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个碱基,这与庞大的人参考基因组比,相差好多。我们只能多复印几本书,打碎了,把碎纸片拼凑起来。就跟拼图一样,查看参考图纸,试图弄清楚每个小块的位置,然后慢慢组合在一起。

生信小白:这么多块拼图...我觉得我一辈子都拼不完!!!

西克孚肉:都8012年了,有计算机了啊!这就是我们生信猿的价值所在了嘛。

回到主题,今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。

Q:FASTQ文件是什么?

西克孚肉:

通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。

FASTQ存的是测序仪产生的原始测序数据:

  • 第一行:以‘@’开头,是这一条序列的名字
  • 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基
  • 第三行:固定为‘+’
  • 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示

生信小白:产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?

西克孚肉:当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。

Q:BAM文件是什么?

西克孚肉:

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。

头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息

比对结果:BAM的核心,包含以下几个内容

让我们回忆一下:
FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。

Q:VCF文件是什么?

西克孚肉:

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。

这样我们就可以解释倒数第四行的内容:

20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。

其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。

欢乐的时光总是过的特别快,今天就讲到这里啦,下一期我们来介绍从FASTQ到BAM经历了什么。

往期回顾:

第0期 生信分析是个什么玩意儿?

参考文献:

  1. 李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.
  2. Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
  3. FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format
  4. SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
  5. Variant_Call_Format:https://en.wikipedia.org/wiki/V

FASTQ! BAM! VCF相关推荐

  1. 生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...

    生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢? 西克孚肉:这主要受限于技术,测序仪一次只能读取几百.几千.几万个碱基,这与 ...

  2. linux bam文件格式,pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)...

    在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.bcf文件.目前已经有一些主流的处理此类格式文件的工具,如samtools.picard.vcftools.bcftools,但此 ...

  3. pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)--转载...

    pysam 模块介绍!!!! http://pysam.readthedocs.io/en/latest/index.html 在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.b ...

  4. 从FASTQ到BAM经历了什么?

    第2期 从FASTQ到BAM经历了什么? GeneDock聚道科技 为生命计算,助看病不难! 已关注 杨杨杨 等 20 人赞同了该文章 生信小白:肉哥啊,上次介绍了数据处理过程中的三种重要格式,那从F ...

  5. 从入门到精(fang)通(qi)第5期 我们的征途是星辰大海

    生物信息分析:从入门到精(fang)通(qi)第5期 我们的征途是星辰大海 GeneDock聚道科技 为生命计算,助看病不难! 已关注 19 人赞同了该文章 生信小白:震惊!一个全基因组会产生数百万个 ...

  6. 第4期 变异注解之旅

    第4期 变异注解之旅 GeneDock聚道科技 为生命计算,助看病不难! 已关注 饭饼饼 . Suranyi 等 20 人赞同了该文章 生信小白:肉哥,在第1期的介绍中,你讲了VCF文件,但我们只知道 ...

  7. 生物信息Python-从入门到精通?

    Python开发的方向太多了,有机器学习,数据挖掘,网络开发,爬虫等等.其实在生信领域,Python还显现不出绝对的优势,生信的大部分软件流程都是用shell或Perl写的,而且已经足够好用了.我选P ...

  8. 生物信息分析:从入门到精通结语

    生物信息分析:从入门到精(fang)通(qi)结语:入门生信一时爽,一直分析一直爽 GeneDock聚道科技 为生命计算,助看病不难! 已关注 王焕威 等 8 人赞同了该文章 生信小白:服务器.超算. ...

  9. fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件

    软件作者介绍 陈实富博士,海普洛斯联合创始人 / CTO 海普洛斯是全球领先的精准医疗和基因大数据国家高新技术企业,拥有 Illumina NovaSeq. HiSeq X10.NextSeq等全系列 ...

最新文章

  1. c语言mysql源代码,永盈会-官方网站
  2. Could not load file or assembly 'System.Web.Extensions
  3. 4W1T教程1 如何使用幻灯片
  4. 进程外Session保存和全局文件错误捕获
  5. IDEA中Spring智能提示,XML Configuration File中spring config
  6. LayaAir 定时器 Timer
  7. 36. 打印数组的主次对角线
  8. 概率论与数理统计 习题篇
  9. 网页播放器(CKplayer)的视频怎么下载——m3u8简单探索
  10. i511300h和i51135g7的区别 i5 1135g7和11300h核显对比
  11. YGG 与 StemsDAO 达成合作,为全球音乐创作者提供支持
  12. Stellarium:诱人的星相不雅察软件
  13. OpenHarmony恢复启动子系统init进程之服务管理与发布
  14. 把一个字符串13579先变成Array——[1, 3, 5, 7, 9],再利用reduce(),就可以写出一个把字符串转换为Number的函数。
  15. JavaScript 和读取服务器cookie
  16. 分布式事务之TCC模型 confirm失败补偿
  17. 【物联网】LoRa vs NBIoT
  18. 基于嵌入式ARM工控主板与X86工控主板的比较
  19. vxe-table vxe-pager 如何使用分页,自定义分页
  20. 程序员成长系列--应该读的通用技术书籍列表

热门文章

  1. bluecam连接步骤说明_磊科路由器登录设置及默认密码说明
  2. 从零开始学习「张氏相机标定法」
  3. 2021-08-09 图像灰度二值化
  4. 计算器html js php代码,JavaScript计算器网页版实现代码分享
  5. Could not initialize class org.apache.http.impl.conn.ManagedHttpClientConnectionFactory
  6. java后台post请求调用接口
  7. 创建maven项目但是总是报错
  8. News | 经有限数据研究显示瑞德西韦有望治疗冠状病毒患者
  9. 掌握生信技术,玩转生态与地理领域的科研套路
  10. 海南大学植物保护学院刘铜教授课题组招聘简介