FASTQ! BAM! VCF
FASTQ! BAM! VCF
生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢?
西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个碱基,这与庞大的人参考基因组比,相差好多。我们只能多复印几本书,打碎了,把碎纸片拼凑起来。就跟拼图一样,查看参考图纸,试图弄清楚每个小块的位置,然后慢慢组合在一起。
生信小白:这么多块拼图...我觉得我一辈子都拼不完!!!
西克孚肉:都8012年了,有计算机了啊!这就是我们生信猿的价值所在了嘛。
回到主题,今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。
Q:FASTQ文件是什么?
西克孚肉:
通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。
FASTQ存的是测序仪产生的原始测序数据:
- 第一行:以‘@’开头,是这一条序列的名字
- 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基
- 第三行:固定为‘+’
- 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示
生信小白:产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?
西克孚肉:当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。
Q:BAM文件是什么?
西克孚肉:
把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。
BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。
头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息
比对结果:BAM的核心,包含以下几个内容
让我们回忆一下:
FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。
Q:VCF文件是什么?
西克孚肉:
VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。
这样我们就可以解释倒数第四行的内容:
20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。
其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。
欢乐的时光总是过的特别快,今天就讲到这里啦,下一期我们来介绍从FASTQ到BAM经历了什么。
往期回顾:
第0期 生信分析是个什么玩意儿?
参考文献:
- 李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.
- Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
- FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format
- SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
- Variant_Call_Format:https://en.wikipedia.org/wiki/V
FASTQ! BAM! VCF相关推荐
- 生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...
生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢? 西克孚肉:这主要受限于技术,测序仪一次只能读取几百.几千.几万个碱基,这与 ...
- linux bam文件格式,pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)...
在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.bcf文件.目前已经有一些主流的处理此类格式文件的工具,如samtools.picard.vcftools.bcftools,但此 ...
- pysam - 多种格式基因组数据(sam/bam/vcf/bcf/cram/…)读写与处理模块(python)--转载...
pysam 模块介绍!!!! http://pysam.readthedocs.io/en/latest/index.html 在开发基因组相关流程或工具时,经常需要读取.处理和创建bam.vcf.b ...
- 从FASTQ到BAM经历了什么?
第2期 从FASTQ到BAM经历了什么? GeneDock聚道科技 为生命计算,助看病不难! 已关注 杨杨杨 等 20 人赞同了该文章 生信小白:肉哥啊,上次介绍了数据处理过程中的三种重要格式,那从F ...
- 从入门到精(fang)通(qi)第5期 我们的征途是星辰大海
生物信息分析:从入门到精(fang)通(qi)第5期 我们的征途是星辰大海 GeneDock聚道科技 为生命计算,助看病不难! 已关注 19 人赞同了该文章 生信小白:震惊!一个全基因组会产生数百万个 ...
- 第4期 变异注解之旅
第4期 变异注解之旅 GeneDock聚道科技 为生命计算,助看病不难! 已关注 饭饼饼 . Suranyi 等 20 人赞同了该文章 生信小白:肉哥,在第1期的介绍中,你讲了VCF文件,但我们只知道 ...
- 生物信息Python-从入门到精通?
Python开发的方向太多了,有机器学习,数据挖掘,网络开发,爬虫等等.其实在生信领域,Python还显现不出绝对的优势,生信的大部分软件流程都是用shell或Perl写的,而且已经足够好用了.我选P ...
- 生物信息分析:从入门到精通结语
生物信息分析:从入门到精(fang)通(qi)结语:入门生信一时爽,一直分析一直爽 GeneDock聚道科技 为生命计算,助看病不难! 已关注 王焕威 等 8 人赞同了该文章 生信小白:服务器.超算. ...
- fastp: 极速全能的FASTQ文件自动质控+过滤+校正+预处理软件
软件作者介绍 陈实富博士,海普洛斯联合创始人 / CTO 海普洛斯是全球领先的精准医疗和基因大数据国家高新技术企业,拥有 Illumina NovaSeq. HiSeq X10.NextSeq等全系列 ...
最新文章
- c语言mysql源代码,永盈会-官方网站
- Could not load file or assembly 'System.Web.Extensions
- 4W1T教程1 如何使用幻灯片
- 进程外Session保存和全局文件错误捕获
- IDEA中Spring智能提示,XML Configuration File中spring config
- LayaAir 定时器 Timer
- 36. 打印数组的主次对角线
- 概率论与数理统计 习题篇
- 网页播放器(CKplayer)的视频怎么下载——m3u8简单探索
- i511300h和i51135g7的区别 i5 1135g7和11300h核显对比
- YGG 与 StemsDAO 达成合作,为全球音乐创作者提供支持
- Stellarium:诱人的星相不雅察软件
- OpenHarmony恢复启动子系统init进程之服务管理与发布
- 把一个字符串13579先变成Array——[1, 3, 5, 7, 9],再利用reduce(),就可以写出一个把字符串转换为Number的函数。
- JavaScript 和读取服务器cookie
- 分布式事务之TCC模型 confirm失败补偿
- 【物联网】LoRa vs NBIoT
- 基于嵌入式ARM工控主板与X86工控主板的比较
- vxe-table vxe-pager 如何使用分页,自定义分页
- 程序员成长系列--应该读的通用技术书籍列表
热门文章
- bluecam连接步骤说明_磊科路由器登录设置及默认密码说明
- 从零开始学习「张氏相机标定法」
- 2021-08-09 图像灰度二值化
- 计算器html js php代码,JavaScript计算器网页版实现代码分享
- Could not initialize class org.apache.http.impl.conn.ManagedHttpClientConnectionFactory
- java后台post请求调用接口
- 创建maven项目但是总是报错
- News | 经有限数据研究显示瑞德西韦有望治疗冠状病毒患者
- 掌握生信技术,玩转生态与地理领域的科研套路
- 海南大学植物保护学院刘铜教授课题组招聘简介