二代测序之SNV检测总结笔记
二代测序之SNV检测总结笔记
文章目录
- 二代测序之SNV检测总结笔记
- Short variant calling的流程:
- 测序常见错误:
- Germline:HaplotypeCaller (单倍体) in GATK
- 过滤候选的Variant信息
- 筛选流程:
- Somatic Calling Workflow(Mutect2)
- 参考资料:
Short variant calling的流程:
比对好的肿瘤样本的Reads和参考基因组做比对获得全部的在肿瘤中发现的突变mutations,比对好的正常样本的Reads和参考基因组做比对获得胚系突变germline mutations,这两个之间的差别很大程度上是somatic mutations,且该结果是来源于上百万的细胞的平均值,而非单细胞的数据,是从群体层面来看的平均效果。
变异的检测相对基因型的检测更困难和一般,基因型决定一系列的等位基因具体的变异,而等位基因的数量是确定的,通常人类是二倍体,特殊只需考虑SNPs和单倍体的情况。
而变异的检测就需要考虑癌症基因组可能出现:拷贝数的变化,肿瘤的异质性,制备文库时出现肿瘤和正常的混合污染,混合的潜在性非二倍体的基因型。
其中Coverage为测序深度。位置2,4,8出现了变化的碱基,最后一个只出现了一个C,可能是测序错误,所以放弃。
Allele Fraction(AF):指Reads中多少个reads支持替代的碱基的比例
AF = (n[多少个变化的碱基]+1)/(N[Reads中该位置总共多少个碱基]+2)%
据课程所知:+1是统计上解决样本容量较低(造成频度估计不准)一种常见的trick。另一种常见近似是+2(两种类型的结果频数各加上2,相当于总样本量+4)
测序常见错误:
文库制备过程中
1.混杂各种细胞导致污染,如细菌,肿瘤正常细胞,微生物等的混杂
2.引入技术序列(如接头序列)
测序过程中
比对过程中
Germline:HaplotypeCaller (单倍体) in GATK
基于java软件的variant calling的软件,应用于germline的分析。
流程:
- 根据比对好的bam文件去筛选哪一些是存在显著变异的区域[active regions]
- 对候选区域的reads挑出来进行重新的拼接[re-assembly],拼接可能得到单倍型。
对各种各样的单倍型进行一个定性的评价[likelihoods],这里使用PairHMM模型。
根据倍型的组合,把germline的变异的位点挑出来[SWA(Smith-Waterman alignment)]。
过滤候选的Variant信息
- 碱基质量(base qualities) :低质量暗示着测序错误
- Read位置:偏差暗示着匹配错误
- 基因组链[Genomic strand]:偏差暗示着匹配错误
- 基因组位置:是否存在PCR重复序列,self-chain[染色体之间相似性的比较],homoploymers均聚物[地复杂区域]
- 匹配信息:算法相关的质量分数
根据以上的这些进行过滤筛选。
筛选流程:
最后根据dbSNP数据库进行判断,筛掉SNP,获得突变的信息。
Somatic Calling Workflow(Mutect2)
参考资料:
- https://www.bilibili.com/video/BV1oQ4y1P7fD?share_source=copy_web
- https://blog.csdn.net/tanzuozhev/article/details/84864344?ivk_sa=1024320u
欢迎关注我的公众号呀~
二代测序之SNV检测总结笔记相关推荐
- 二代测序之SNV基础知识笔记总结
二代测序之SNV基础知识笔记总结 文章目录 二代测序之SNV基础知识笔记总结 SNV基础知识 SNVs Mutation vs. Variant[变异和突变] 不同层次的突变 DNA: 1.编码DNA ...
- 【bioinfo】二代测序在肿瘤突变检测中的错误来源和解决策略
文章目录 文献摘要 NGS工作流程中的错误来源 1)FFPE样本: 2)DNA打断: 3)PCR扩增和聚合酶保真度: 4)测序平台: 5)数据分析: NGS工作流错误解决策略 使用UID 不使用UID ...
- 二代测序组装PK三代测序组装
二代测序组装PK三代测序组装 2016-07-29 编辑:诺禾致源 三代Pacbio测序技术 以其长读长,无需扩增,无GC偏好性等优势成为de novo组装的新宠儿. 然而,Pacbio测序成本 ...
- 一文掌握二代测序NGS
目录 一. RPKM,FPKM,TPM的区别 二. 二代测序中的barcode 三. De Novo sequencing & resequencing 四. depth & cove ...
- 基因测序3——三、四代测序技术来势汹汹,国产化仍在布局二代测序?
基因测序3--三.四代测序技术来势汹汹,国产化仍在布局二代测序? 和义广业创新平台 为医械创新创业者提供一站式产业转化服务 取消关注 1 人赞同了该文章 导读 [行业分析]基因测序系列,将聚焦基因测序 ...
- illumina不愧是二代测序无冕之王
写在前面 illlumina公司自1998年成立,至2012年成为全球范围内最主要的测序平台后,illumina测序仪的产品发布也快速更迭,在2014年美国科技评论杂志MIT Technology R ...
- 二代测序的原理和简介
二代测序的简介 第二代测序(Next-generation sequencing,NGS)又称为高通量测序(High-throughput sequencing),是基于PCR和基因芯片发展而来的 ...
- illumina 二代测序原理及过程
● 参考资料: illumina 双端测序 二代测序中 barcodes index 的介绍 illumina 测序原理-百度文库 illumina 测序原理-丁香园 DNA 文库构建和 Illumi ...
- 二代测序原理及其流程
第二代测序(Next-generation sequencing,NGS)又称为高通量测序,其开创性的引入了可逆终止末端,从而实现边合成边测序,在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记来 ...
最新文章
- Oracle中的备份和恢复之前必须知道的
- Kerberos的原理 - MIT
- 强势崛起的Python会在十年内取代Java吗?
- Why is it recommended to create clusters with odd number of nodes? | 为什么集群节点建议奇数个?
- Win7 x64 PL/SQL 连接 Oralce 提示 Could not initialize %ORACLE_HOME%\bin\oci.dll
- ROS入门-16.tf坐标系广播与监听的编程实现
- 如何关闭dell inspiron n4010的内置麦克
- loadrunner-11安装+破解+汉化(提供安装包,破解方式,汉化包)
- jmeter json提取器和正则表达式提取器
- M1 mac 安装打印机驱动程序
- ps怎么撤销参考线_PS怎么拉辅助线和清除、移动参考线——视频教程十
- Web 前端通过调用ActiveX实现LPT1端口小票机打印功能。
- 微信吸粉秘籍之人气论坛吸粉方法
- 高数 | 【概念剖析】多元函数的偏导数、方向导数、梯度以及微分之间的关系
- Minecraft 1.19.2 Forge模组开发 08.生物生成
- Docker将会在Windows和MAC平台本地化
- 【综合应用】基础PLS-SEM模型STATA实战
- 我为什么要做富文本编辑器【wangEditor5总结】
- 从内外参到 Structure From Motion(SFM)
- 高准流量计的蒸汽流量测量技术