生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...
生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢?
西克孚肉:这主要受限于技术,测序仪一次只能读取几百、几千、几万个碱基,这与庞大的人参考基因组比,相差好多。我们只能多复印几本书,打碎了,把碎纸片拼凑起来。就跟拼图一样,查看参考图纸,试图弄清楚每个小块的位置,然后慢慢组合在一起。
生信小白:这么多块拼图...我觉得我一辈子都拼不完!!!
西克孚肉:都8012年了,有计算机了啊!这就是我们生信猿的价值所在了嘛。
回到主题,今天给你讲讲数据格式,我们生信猿常觉得自己是格式转换器。生信分析的旅程大致是,接收FASTQ,获得BAM,然后生成VCF。
Q:FASTQ文件是什么?
西克孚肉:
通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ。
FASTQ存的是测序仪产生的原始测序数据:
- 第一行:以‘@’开头,是这一条序列的名字
- 第二行:序列,由A,C,G,T和N这五种字母构成,这是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基
- 第三行:固定为‘+’
- 第四行:测序质量值,它描述的是每个测序碱基的可靠程度,用ASCII码表示
生信小白:产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗?
西克孚肉:当然会啦,这张图片毕竟只是个参考啦。人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应。找寻差异的过程也使生信分析变得更加有趣。
Q:BAM文件是什么?
西克孚肉:
把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6。
BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section)。
头文件:每一行都用‘@’ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息
比对结果:BAM的核心,包含以下几个内容
让我们回忆一下:
FASTQ记录的是原始序列和测序质量,BAM记录的是序列比对信息,下面介绍VCF,这是记录变异信息的文件格式。
Q:VCF文件是什么?
西克孚肉:
VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息。
这样我们就可以解释倒数第四行的内容:
20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了‘q10’,在后续分析中可以被过滤掉。
其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译。
欢乐的时光总是过的特别快,今天就讲到这里啦,下一期我们来介绍从FASTQ到BAM经历了什么。
往期回顾:
第0期 生信分析是个什么玩意儿?
参考文献:
- 李金明.高通量测序技术[M].北京:科学出版社,2018:84-91.
- Goodwin S , Mcpherson J D , Mccombie W R . Coming of age: ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics,2016, 17(6):333-351
- FASTQ_format:https://en.wikipedia.org/wiki/FASTQ_format
- SAM / BAM / CRAM - Mapped sequence data formats:https://gatkforums.broadinstitute.org/gatk/discussion/11014/sam-bam-cram-mapped-sequence-data-formats
- Variant_Call_Format:https://en.wikipedia.org/wiki/Variant_Call_Format
生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...相关推荐
- 生信分析矫正P值_好看的富集分析图GOplot
GO分析在科研中十分常见,简单的表格或者柱状图已经很难满足大家的需求,今天小编介绍一个专注于可视化的R包--GOplot.安装及加载 ###########安装#install.packages('G ...
- 生信分析矫正P值_TCGA数据分析系列(二):数据库之GEPIA2
所谓工欲善其事,必先利其器,从今天开始,我们来介绍TCGA数据库的使用.今天我们来介绍一款非常容易上手的数据库:GEPIA2 链接点这里 话不多说,直接进入正题 GEP1A2数据来源 如图所示,GEP ...
- 免费生信课程|多组学数据整合分析之转录组和蛋白质组分析
搜索"基因组Genome",轻松关注不迷路 生科云网址:https://www.bioincloud.tech/ 01 课程简介 多组学技术是结合两种或两种以上组学研究方法,如基因 ...
- 数据可视化分析票房数据报告_票房收入分析和可视化
数据可视化分析票房数据报告 Welcome back to my 100 Days of Data Science Challenge Journey. On day 4 and 5, I work ...
- 生信自学笔记(二)生物信息
基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺 ...
- python 相关性检验怎么计算p值_相关性分析之Predictive Power Score(PPS)
常用相关性分析方法 在分析特征间相关性时,常使用的方法是 pandas.DataFrame.corr : DataFrame.corr(self, method='pearson', min_peri ...
- 生信笔记:E值究竟是什么?!!!
先来看E值的计算公式: E=kmne−λSE=kmne^{- \lambda S} E=kmne−λS k,λk, \lambdak,λ 是两个修正参数,与数据库和算法有关,用来平衡不同打分矩阵和搜索 ...
- 分析堆栈溢出原因_我分析了有关堆栈溢出的所有书籍。 这是最受欢迎的。
分析堆栈溢出原因 by Vlad Wetzel 通过弗拉德·韦泽尔 我分析了有关堆栈溢出的所有书籍. 这是最受欢迎的. (I analyzed every book ever mentioned on ...
- pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四):连续区域...
此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd 转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的) 经常听别人说 ...
最新文章
- 今年CVPR,我们填补了3D场景布局数据集空白,并向全世界开源!
- 软件测试(20150819)
- 好记心不如烂笔头之jQuery学习,第一章
- 如何给页面加上loding_怎么做404页面?
- JavaScript学习(五十二)—继承、call方法和apply方法
- Vue-学生管理功能实例
- 嵌入式Linux驱动笔记--转自风筝丶
- 新stem编程scratch3水果钢琴创意键盘兼容MakeyMakey开源国产盒装使用教程
- 电力负荷预测数据集(2018.1-2020.12,间隔15min,10w多条,含温度、风速等天气因素特征)
- js 实现文件上传 php,JS+php后台实现文件上传功能详解
- java 获取汉字拼音_java springboot中获取汉字拼音
- 函数信号发生器的功能介绍
- 设计制作了一套easyui皮肤组件
- C++语法基础(1/3)
- 2、SpringBoot接口Http协议开发实战8节课(7-8)
- 手机如何压缩照片?压缩方法分享
- Linux系统编程 / 分析开源软件Triggerhappy
- win10或win7计算机右键管理打不开
- ORA-00371: not enough shared pool memory, should be atleast 62198988 bytes
- 大连 青少年 python 培训