二代测序之SNV检测总结笔记

文章目录

  • 二代测序之SNV检测总结笔记
    • Short variant calling的流程:
      • 测序常见错误:
    • Germline:HaplotypeCaller (单倍体) in GATK
    • 过滤候选的Variant信息
      • 筛选流程:
    • Somatic Calling Workflow(Mutect2)
    • 参考资料:

Short variant calling的流程:

比对好的肿瘤样本的Reads和参考基因组做比对获得全部的在肿瘤中发现的突变mutations,比对好的正常样本的Reads和参考基因组做比对获得胚系突变germline mutations,这两个之间的差别很大程度上是somatic mutations,且该结果是来源于上百万的细胞的平均值,而非单细胞的数据,是从群体层面来看的平均效果。

变异的检测相对基因型的检测更困难和一般,基因型决定一系列的等位基因具体的变异,而等位基因的数量是确定的,通常人类是二倍体,特殊只需考虑SNPs和单倍体的情况。

而变异的检测就需要考虑癌症基因组可能出现:拷贝数的变化,肿瘤的异质性,制备文库时出现肿瘤和正常的混合污染,混合的潜在性非二倍体的基因型。

其中Coverage为测序深度。位置2,4,8出现了变化的碱基,最后一个只出现了一个C,可能是测序错误,所以放弃。

Allele Fraction(AF):指Reads中多少个reads支持替代的碱基的比例

AF = (n[多少个变化的碱基]+1)/(N[Reads中该位置总共多少个碱基]+2)%

据课程所知:+1是统计上解决样本容量较低(造成频度估计不准)一种常见的trick。另一种常见近似是+2(两种类型的结果频数各加上2,相当于总样本量+4)

测序常见错误:

  • 文库制备过程中

    1.混杂各种细胞导致污染,如细菌,肿瘤正常细胞,微生物等的混杂

    2.引入技术序列(如接头序列)

  • 测序过程中

  • 比对过程中

Germline:HaplotypeCaller (单倍体) in GATK

基于java软件的variant calling的软件,应用于germline的分析。

流程:

  1. 根据比对好的bam文件去筛选哪一些是存在显著变异的区域[active regions]

  1. 对候选区域的reads挑出来进行重新的拼接[re-assembly],拼接可能得到单倍型。

  1. 对各种各样的单倍型进行一个定性的评价[likelihoods],这里使用PairHMM模型。

  2. 根据倍型的组合,把germline的变异的位点挑出来[SWA(Smith-Waterman alignment)]。

过滤候选的Variant信息

  • 碱基质量(base qualities) :低质量暗示着测序错误
  • Read位置:偏差暗示着匹配错误
  • 基因组链[Genomic strand]:偏差暗示着匹配错误
  • 基因组位置:是否存在PCR重复序列,self-chain[染色体之间相似性的比较],homoploymers均聚物[地复杂区域]
  • 匹配信息:算法相关的质量分数

根据以上的这些进行过滤筛选。

筛选流程:

最后根据dbSNP数据库进行判断,筛掉SNP,获得突变的信息。

Somatic Calling Workflow(Mutect2)

参考资料:

  1. https://www.bilibili.com/video/BV1oQ4y1P7fD?share_source=copy_web
  2. https://blog.csdn.net/tanzuozhev/article/details/84864344?ivk_sa=1024320u

欢迎关注我的公众号呀~

二代测序之SNV检测总结笔记相关推荐

  1. 二代测序之SNV基础知识笔记总结

    二代测序之SNV基础知识笔记总结 文章目录 二代测序之SNV基础知识笔记总结 SNV基础知识 SNVs Mutation vs. Variant[变异和突变] 不同层次的突变 DNA: 1.编码DNA ...

  2. 【bioinfo】二代测序在肿瘤突变检测中的错误来源和解决策略

    文章目录 文献摘要 NGS工作流程中的错误来源 1)FFPE样本: 2)DNA打断: 3)PCR扩增和聚合酶保真度: 4)测序平台: 5)数据分析: NGS工作流错误解决策略 使用UID 不使用UID ...

  3. 二代测序组装PK三代测序组装

    二代测序组装PK三代测序组装 2016-07-29    编辑:诺禾致源 三代Pacbio测序技术 以其长读长,无需扩增,无GC偏好性等优势成为de novo组装的新宠儿. 然而,Pacbio测序成本 ...

  4. 一文掌握二代测序NGS

    目录 一. RPKM,FPKM,TPM的区别 二. 二代测序中的barcode 三. De Novo sequencing & resequencing 四. depth & cove ...

  5. 基因测序3——三、四代测序技术来势汹汹,国产化仍在布局二代测序?

    基因测序3--三.四代测序技术来势汹汹,国产化仍在布局二代测序? 和义广业创新平台 为医械创新创业者提供一站式产业转化服务 取消关注 1 人赞同了该文章 导读 [行业分析]基因测序系列,将聚焦基因测序 ...

  6. illumina不愧是二代测序无冕之王

    写在前面 illlumina公司自1998年成立,至2012年成为全球范围内最主要的测序平台后,illumina测序仪的产品发布也快速更迭,在2014年美国科技评论杂志MIT Technology R ...

  7. 二代测序的原理和简介

    二代测序的简介 ​ 第二代测序(Next-generation sequencing,NGS)又称为高通量测序(High-throughput sequencing),是基于PCR和基因芯片发展而来的 ...

  8. illumina 二代测序原理及过程

    ● 参考资料: illumina 双端测序 二代测序中 barcodes index 的介绍 illumina 测序原理-百度文库 illumina 测序原理-丁香园 DNA 文库构建和 Illumi ...

  9. 二代测序原理及其流程

    第二代测序(Next-generation sequencing,NGS)又称为高通量测序,其开创性的引入了可逆终止末端,从而实现边合成边测序,在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记来 ...

最新文章

  1. Oracle中的备份和恢复之前必须知道的
  2. Kerberos的原理 - MIT
  3. 强势崛起的Python会在十年内取代Java吗?
  4. Why is it recommended to create clusters with odd number of nodes? | 为什么集群节点建议奇数个?
  5. Win7 x64 PL/SQL 连接 Oralce 提示 Could not initialize %ORACLE_HOME%\bin\oci.dll
  6. ROS入门-16.tf坐标系广播与监听的编程实现
  7. 如何关闭dell inspiron n4010的内置麦克
  8. loadrunner-11安装+破解+汉化(提供安装包,破解方式,汉化包)
  9. jmeter json提取器和正则表达式提取器
  10. M1 mac 安装打印机驱动程序
  11. ps怎么撤销参考线_PS怎么拉辅助线和清除、移动参考线——视频教程十
  12. Web 前端通过调用ActiveX实现LPT1端口小票机打印功能。
  13. 微信吸粉秘籍之人气论坛吸粉方法
  14. 高数 | 【概念剖析】多元函数的偏导数、方向导数、梯度以及微分之间的关系
  15. Minecraft 1.19.2 Forge模组开发 08.生物生成
  16. Docker将会在Windows和MAC平台本地化
  17. 【综合应用】基础PLS-SEM模型STATA实战
  18. 我为什么要做富文本编辑器【wangEditor5总结】
  19. 从内外参到 Structure From Motion(SFM)
  20. 高准流量计的蒸汽流量测量技术

热门文章

  1. java实现中文汉字按首字母排序
  2. 30秒让让你的电脑快一倍 - 计算机基础 - 中国红客联盟 - Powered
  3. 钱诚10.4黄金原油、白银今日操作策略布局及多空对锁解套指导
  4. Karen and Coffee 爱思创题解
  5. echars 日历饼图
  6. 【微信小程序】小程序使用canvas画布生成分享朋友圈的海报
  7. 编写程序打印你的姓名和年龄
  8. git merge命令 使用 合并分支
  9. 硬件三人行,运放基础第2讲听课笔记,电路分析基础(一)
  10. Xcode下使用bits/stdc++.h 头文件