生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi）第1期FASTQ! BAM! VCF! 傻傻分不清楚...

生信小白：肉哥，上次听完你的介绍，我满脑子跟这张图片一样...凌乱？！我们为什么不一次性把整本书读取了，非要把这本书撕碎呢？

西克孚肉：这主要受限于技术，测序仪一次只能读取几百、几千、几万个碱基，这与庞大的人参考基因组比，相差好多。我们只能多复印几本书，打碎了，把碎纸片拼凑起来。就跟拼图一样，查看参考图纸，试图弄清楚每个小块的位置，然后慢慢组合在一起。

生信小白：这么多块拼图...我觉得我一辈子都拼不完！！！

西克孚肉：都8012年了，有计算机了啊！这就是我们生信猿的价值所在了嘛。

回到主题，今天给你讲讲数据格式，我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是，接收FASTQ，获得BAM，然后生成VCF。

Q：FASTQ文件是什么？

西克孚肉：

通常人们会拿着DNA的碎纸片，由碎纸片扫描的图片文件，转化成文本文件就是FASTQ。

FASTQ存的是测序仪产生的原始测序数据:

第一行：以‘@’开头，是这一条序列的名字
第二行：序列，由A，C，G，T和N这五种字母构成，这是我们真正关心的DNA序列，N代表的是测序时那些无法被识别出来的碱基
第三行：固定为‘+’
第四行：测序质量值，它描述的是每个测序碱基的可靠程度，用ASCII码表示

生信小白：产生这些小拼图文件之后，这些拼图与盒子上的参考图会有不同吗？

西克孚肉：当然会啦，这张图片毕竟只是个参考啦。人与人之间存在许多差异，这些差异解释了为什么有的人容易得某种癌症，有的人对一些药物有反应，而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。

Q：BAM文件是什么？

西克孚肉：

把FASTQ文件比对到参考基因组之后，我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件，十分巨大。为解决空间爆满的问题，BWA的开发者设计了一种高效的压缩算法，压缩得到的BAM文件大小差不多只有原来的1/6。

BAM文件分为两个部分：头文件（header）和比对结果（record，有时也叫alignment section）。

头文件：每一行都用‘@’ 符号开头，里面主要包含了版本信息，序列比对的参考序列信息

比对结果：BAM的核心，包含以下几个内容

让我们回忆一下：
FASTQ记录的是原始序列和测序质量，BAM记录的是序列比对信息，下面介绍VCF，这是记录变异信息的文件格式。

Q：VCF文件是什么？

西克孚肉：

VCF文件分为两个部分，第一部分是说明文件，每行均以两个## 符号开头，第二部分是突变信息。

这样我们就可以解释倒数第四行的内容：

20：17330 是一个新发现的由T到A的变异，但质量值较低（QUAL=3），根据说明文件的第十三行，质量值小于10，被标成了‘q10’，在后续分析中可以被过滤掉。

其它行代表什么信息，大家感兴趣的话也可以试着翻译翻译。

欢乐的时光总是过的特别快，今天就讲到这里啦，下一期我们来介绍从FASTQ到BAM经历了什么。

往期回顾：

第0期生信分析是个什么玩意儿？

参考文献：

李金明．高通量测序技术[M]．北京：科学出版社，2018：84-91．
Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
FASTQ_format：https://en.wikipedia.org/wiki/FASTQ_format
SAM / BAM / CRAM - Mapped sequence data formats：https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
Variant_Call_Format：https://en.wikipedia.org/wiki/Variant_Call_Format

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi）第1期FASTQ! BAM! VCF! 傻傻分不清楚...相关推荐

生信分析矫正P值_好看的富集分析图GOplot
GO分析在科研中十分常见,简单的表格或者柱状图已经很难满足大家的需求,今天小编介绍一个专注于可视化的R包--GOplot.安装及加载 ###########安装#install.packages('G ...
生信分析矫正P值_TCGA数据分析系列（二）：数据库之GEPIA2
所谓工欲善其事,必先利其器,从今天开始,我们来介绍TCGA数据库的使用.今天我们来介绍一款非常容易上手的数据库:GEPIA2 链接点这里话不多说,直接进入正题 GEP1A2数据来源如图所示,GEP ...
免费生信课程|多组学数据整合分析之转录组和蛋白质组分析
搜索"基因组Genome",轻松关注不迷路生科云网址:https://www.bioincloud.tech/ 01 课程简介多组学技术是结合两种或两种以上组学研究方法,如基因 ...
数据可视化分析票房数据报告_票房收入分析和可视化
数据可视化分析票房数据报告 Welcome back to my 100 Days of Data Science Challenge Journey. On day 4 and 5, I work ...
生信自学笔记（二）生物信息
基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据蛋白质序列是指 20 种氨基酸的排列顺 ...
python 相关性检验怎么计算p值_相关性分析之Predictive Power Score(PPS)
常用相关性分析方法在分析特征间相关性时,常使用的方法是 pandas.DataFrame.corr : DataFrame.corr(self, method='pearson', min_peri ...
生信笔记：E值究竟是什么？！！！
先来看E值的计算公式: E=kmne−λSE=kmne^{- \lambda S} E=kmne−λS k,λk, \lambdak,λ 是两个修正参数,与数据库和算法有关,用来平衡不同打分矩阵和搜索 ...
分析堆栈溢出原因_我分析了有关堆栈溢出的所有书籍。这是最受欢迎的。
分析堆栈溢出原因 by Vlad Wetzel 通过弗拉德·韦泽尔我分析了有关堆栈溢出的所有书籍. 这是最受欢迎的. (I analyzed every book ever mentioned on ...
pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四)：连续区域...
此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi）第1期FASTQ! BAM! VCF! 傻傻分不清楚...

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi）第1期FASTQ! BAM! VCF! 傻傻分不清楚...相关推荐

最新文章

热门文章

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi） 第1期FASTQ! BAM! VCF! 傻傻分不清楚...

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi） 第1期FASTQ! BAM! VCF! 傻傻分不清楚...相关推荐

最新文章

热门文章

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi）第1期FASTQ! BAM! VCF! 傻傻分不清楚...

生信分析矫正P值_生物信息分析：从入门到精（fang）通（qi）第1期FASTQ! BAM! VCF! 傻傻分不清楚...相关推荐