生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢?

西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个碱基,这与庞大的人参考基因组比,相差好多。我们只能多复印几本书,打碎了,把碎纸片拼凑起来。就跟拼图一样,查看参考图纸,试图弄清楚每个小块的位置,然后慢慢组合在一起。

生信小白:这么多块拼图...我觉得我一辈子都拼不完!!!

西克孚肉:都8012年了,有计算机了啊!这就是我们生信猿的价值所在了嘛。

回到主题,今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。

Q:FASTQ文件是什么?

西克孚肉:

通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。

FASTQ存的是测序仪产生的原始测序数据:

  • 第一行:以‘@’开头,是这一条序列的名字
  • 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基
  • 第三行:固定为‘+’
  • 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示

生信小白:产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?

西克孚肉:当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。

Q:BAM文件是什么?

西克孚肉:

把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。

BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。

头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息

比对结果:BAM的核心,包含以下几个内容

让我们回忆一下:
FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。

Q:VCF文件是什么?

西克孚肉:

VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。

这样我们就可以解释倒数第四行的内容:

20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。

其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。

欢乐的时光总是过的特别快,今天就讲到这里啦,下一期我们来介绍从FASTQ到BAM经历了什么。

往期回顾:

第0期 生信分析是个什么玩意儿?

参考文献:

  1. 李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.
  2. Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
  3. FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format
  4. SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
  5. Variant_Call_Format:https://en.wikipedia.org/wiki/Variant_Call_Format

生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...相关推荐

  1. 生信分析矫正P值_好看的富集分析图GOplot

    GO分析在科研中十分常见,简单的表格或者柱状图已经很难满足大家的需求,今天小编介绍一个专注于可视化的R包--GOplot.安装及加载 ###########安装#install.packages('G ...

  2. 生信分析矫正P值_TCGA数据分析系列(二):数据库之GEPIA2

    所谓工欲善其事,必先利其器,从今天开始,我们来介绍TCGA数据库的使用.今天我们来介绍一款非常容易上手的数据库:GEPIA2 链接点这里 话不多说,直接进入正题 GEP1A2数据来源 如图所示,GEP ...

  3. 免费生信课程|多组学数据整合分析之转录组和蛋白质组分析

    搜索"基因组Genome",轻松关注不迷路 生科云网址:https://www.bioincloud.tech/ 01 课程简介 多组学技术是结合两种或两种以上组学研究方法,如基因 ...

  4. 数据可视化分析票房数据报告_票房收入分析和可视化

    数据可视化分析票房数据报告 Welcome back to my 100 Days of Data Science Challenge Journey. On day 4 and 5, I work ...

  5. 生信自学笔记(二)生物信息

    基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺 ...

  6. python 相关性检验怎么计算p值_相关性分析之Predictive Power Score(PPS)

    常用相关性分析方法 在分析特征间相关性时,常使用的方法是 pandas.DataFrame.corr : DataFrame.corr(self, method='pearson', min_peri ...

  7. 生信笔记:E值究竟是什么?!!!

    先来看E值的计算公式: E=kmne−λSE=kmne^{- \lambda S} E=kmne−λS k,λk, \lambdak,λ 是两个修正参数,与数据库和算法有关,用来平衡不同打分矩阵和搜索 ...

  8. 分析堆栈溢出原因_我分析了有关堆栈溢出的所有书籍。 这是最受欢迎的。

    分析堆栈溢出原因 by Vlad Wetzel 通过弗拉德·韦泽尔 我分析了有关堆栈溢出的所有书籍. 这是最受欢迎的. (I analyzed every book ever mentioned on ...

  9. pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四):连续区域...

    此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...

最新文章

  1. 今年CVPR,我们填补了3D场景布局数据集空白,并向全世界开源!
  2. 软件测试(20150819)
  3. 好记心不如烂笔头之jQuery学习,第一章
  4. 如何给页面加上loding_怎么做404页面?
  5. JavaScript学习(五十二)—继承、call方法和apply方法
  6. Vue-学生管理功能实例
  7. 嵌入式Linux驱动笔记--转自风筝丶
  8. 新stem编程scratch3水果钢琴创意键盘兼容MakeyMakey开源国产盒装使用教程
  9. 电力负荷预测数据集(2018.1-2020.12,间隔15min,10w多条,含温度、风速等天气因素特征)
  10. js 实现文件上传 php,JS+php后台实现文件上传功能详解
  11. java 获取汉字拼音_java springboot中获取汉字拼音
  12. 函数信号发生器的功能介绍
  13. 设计制作了一套easyui皮肤组件
  14. C++语法基础(1/3)
  15. 2、SpringBoot接口Http协议开发实战8节课(7-8)
  16. 手机如何压缩照片?压缩方法分享
  17. Linux系统编程 / 分析开源软件Triggerhappy
  18. win10或win7计算机右键管理打不开
  19. ORA-00371: not enough shared pool memory, should be atleast 62198988 bytes
  20. 大连 青少年 python 培训

热门文章

  1. 我又发现了超赞的软硬件项目,全部开源
  2. 离散数学学习笔记——第六讲——二元关系(4.2 序偶和笛卡儿积)
  3. 对酒店房间自助售货机的支付漏洞挖掘
  4. BI Publisher Resource
  5. java jit 编译器,[Java Performance] JIT编译器简介
  6. 在 Java 中转义 HTML
  7. 算法学习————自然归并算法(c/c++)
  8. 多种综合评价方法的python实现
  9. KubeDNS 和 CoreDNS
  10. What is OKR?