• 变异检测的原理&技术要点

    • 定义:变异检测是指 通过测序 技术对某一物种个体或群体的基因组进行测序及差异分析,获得单核苷酸多态性SNP )、插入缺失 InDel )、结构变异( SV )、拷贝数变异CNV )等大量的遗传变异信息用于开发分子标记建立遗传多态性数据库,为后续揭示进化关系、挖掘功能基因等奠定数据基础。
    • 按照片段大小分类:

      • 单碱基:SNP

        • SNP (单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性,包括单个碱基的转换、颠换等。利用 GATK软件对群体数据进行变异检测及过滤,进一步 过滤 SNP 的 reads 支持数小于 4 的位点,得到高可信度的 SNP
      • 1-50bp:InDel

        • InDel 是指基因组中小片段的插入和缺失序列,其长度在 1 50bp 之间。我们采用 GATK 软件进行个体 InDel 的检测。 Small InDel 变异一般比SNP 变异少,同样反映了样品与参考基因组之间的差异,并且编码区的 InDel 会引起移码突变,导致基因功能上的 变化。
      • 50-1000bp:SV

        • SV

          • (结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等序列。可利用 Lumpy, Manta, Delly 软件,基于 pair endreads 比对到参考基因组上面的关系及实际 insert size 大小检测样品与参考基因组间的插入( insertion INS )、缺失 deletionDEL )、倒置 inversion INV )、染色体内部迁移 intra chromosomal translocation ITX )、染色体间的迁移 interchromosomal translocation CTX 。
      • 大于1000bp:CNV

        • 拷贝数异常
        • (copy number variations, CNVs 是属于基因组结构变异( structural variation ),根据大小可分为两个层次:显微水平microscopic )和亚显微水平 ( 。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变 , 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb 3Mb 的基因组结构变异 , 包括缺失、插入、重复、重排、倒 位、 DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性 (copy number polymorphisms, CNPs )。
    • 名词解释

      • 测序深度 :测序得到的总碱基数与基因组大小的比值。
      • 覆盖率: 指测序获得的序列占整个基因组的比例,与测序深度正相关。
      • 比对率( mapping rate )):反映了样本测序数据与参考基因组的相似性 需要 70 %%,最好
      • 90% 以上。
  • 二、三代变异检测简介&应用方向
    • 简介

      • 全基因组重测序(WGS )):对基因组序列已知的个体进行全基因组测序,并在个体或群体水平上进行差异性分析的方法。

        • 优势:获得的基因组信息全面,高分文章青睐,循环使用性高
        • 不足:成本高
      • 简化基因组测序:指用限制性内切酶对基因组进行简化,只对酶识别位点相关的 DNA 进行高通量测序。

        • 优点:快速、简便、低成本
        • 不足:
        • 1) 只能获得 SNP 等信息, SV 、 CNV 检测可靠性较低
        • 2) 用酶切的片段进行测序,基因组覆盖度低,获得变异信息不全
        • 3) 建库前需要进行酶切评估,建库分析结果,受酶切评估结果和基因组组装质量所限
        • 4) 多数应用在影响因子 5 分以下的期刊,如 BMC 、 Plos one 等
      • 检测数据量推荐:检测 SNP 5 10 × ;检测 InDel 10 15 × SV 15 20 × CNV 30 ×
    • 检测分析流程

      • 流程图
      • 流程推荐软件

        • 分析流程:使用软件
        • 数据质控:Fastqc
        • 比对:BWA
        • SNP、 InDel 检测 :GATK
        • SV检测: Manta、 Delly
        • CNV检测 :CNVnator
        • 注释:ANNOVAR
        • 圈图绘制:Circos
    • 应用方向

      • 基于二代测序检测到的SNP 位点,后续可分别做群体进化、 GWAS 、 BSA 、遗传图谱,具体的应用方向如下所示:
    • 优势和短板

      • 三代优势

        • 长 读长

          • 处理重复区域;
          • 提供连续的基因组装配;
        • 均衡的测序覆盖度

          • 没有偏好性 (GC%, 序列复杂度
          • 能够进行完整基因组测序;
        • 无测序系统偏差

          • Random errors wash out in final consensus 在最终的一致性序列中,去除了随机错误
          • 提供准确的基因组序列。
      • 二代短板

        • 读长短:导致组装不完全无法跨越重复序列
        • 覆盖度不均一;G/C 或 A/T 富含区域是 重灾区 无法达到真正意义上的全
        • 基因组测序;

          • 扩增等因素导致系统错误 (指测序的准确率
          • 适用于 SNP 检测 不适用大范围的结构变异检测
    • 三代检测类型

      • CLR与CSS

        • 图示
      • 两种测序模式对比
      • CLR检测SV

        • CLR检测SV数据量推荐

          • 构建 CLR 文库, 15 30 × 测序深度时, SVs 检测准确度和检出率在 80 85%
          • 对于大片段 SV 检出率、准确度更高。
          • 图示
        • CLR检测SV混样的可行性

          • 图示
        • CLR检测SV分析流程

          • 图示
      • HiFi变异检测SNP、InDex

        • SNV检测 15 × 可检测到 99.5%的变异,至少需要 10 ×;
        • InDel 17 × 可检测到与 NGS 相当的变异(90% );
        • SV 检测15 × 检测到 95% 的变异 。
        • 文献参考
          Accurate circular consensus long
          read sequencing improves variant detection and assembly of a human genome 2019 Nature Biotechnology
        • 分析流程

          • 图示
  • 总结
    • 1.与 CLR 相比, HiFi 检测到的SV 边界更好,断点更明显;
    • 2. CLR 变异一般用于检测 SV可以和二代数据联合起来;HiFi 可检测 SNP 、 InDel 、SV 等;
    • 3. CLR 检测推荐测序深度 30 ×以上; HiFi 推荐 15 × 的测序深度。
    • 思路一:有参考基因组

      • CLR :长读长的优势,碱基准确度相对较差的劣势,建议三代数据检测并结合二代数据进行纠错
      • CCS HiFi :较高的碱基准确度,可同时检测 SNP/ InDel /SV ,无需二代数据校准
      • 可基于长读长对基因组补 gap ,获得更精确信息。
    • 思路二:无参考基因组

      • CLR :组装参考基因组
      • CCS HiFi :较高的碱基准确度,更有利于分型与重复区域的组装,更节省时间周期
      • 组装完成后,基于所测二代和三代数据进行结构变异检测,提高数据利用率。

2020.9.12丨变异检测的原理应用方向相关推荐

  1. 突变检测软件 测试数据库,合作文章|变异检测软件技能大PK,谁才是Battle King?...

    DNA变异是个体间遗传变异的重要来源之一.第二代测序技术(NGS)和第三代测序技术(TGS)都在遗传变异研究中大放异彩.许多变异检测工具可以用来解析二代或三代数据,但是目前没有软件能兼顾灵敏性和特异性 ...

  2. [原]基因组变异检测概述

    考虑到cnblog不适合基因组领域这种类型的文章,进过多番折腾,终于用jekyll+github搭了个独立博客www.huangshujia.me,现在博客已经搬迁! 首先,在开始之前我觉得有必要稍微 ...

  3. 基因组变异检测概述(SNP、InDel、SV)

    首先,在开始之前我觉得有必要稍微科普缓冲一下,以便不使得不熟悉生物信息或基因组的客官们疑惑.O(∩_∩)O! 1.基因组:每个人都有一个基因组,这里的"基因组"并不只是" ...

  4. 基因组大数据变异检测算法的并行优化

    基因组大数据变异检测算法的并行优化 基因组大数据变异检测算法的并行优化 崔英博1, 黄春1, 唐滔1, 杨灿群1, 廖湘科1, 彭绍亮2,3 1 国防科技大学计算机学院,湖南 长沙 410073 2 ...

  5. CRISPR/Cas最新研究进展(2020年12月快报)

    即将过去的12月份,有哪些重大的CRISPR/Cas研究或发现呢?小编梳理了一下这个月报道的CRISPR/Cas研究方面的新闻,供大家阅读. 1.开发出CiBER-seq新技术,可同时分析细胞中的多达 ...

  6. 大盘点 | 2020年5篇目标检测算法最佳综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Cynthia Yawain 编辑丨极市平台 本文为极市平台原创整理,如需转载,请联系极市小编. ...

  7. 信安教程第二版-第12章网络安全审计技术原理与应用

    第12章 网络安全审计技术原理与应用 12.1 网络安全审计概述 227 12.1.1 网络安全审计概念 227 12.1.2 网络安全审计相关标准 227 12.1.3 网络安全审计相关法规政策 2 ...

  8. 基因-高通量测序-变异检测

    基因变异检测 ​ 本周的任务是弄清楚基因检测是什么,本来以为挺简单的,后来发现自己基本的染色体都忘干净了. ​ 基因变异检测看名字就知道是针对基因的,但是基因是什么呢?感觉基因像是一种抽象的概念,那么 ...

  9. ECCV 2020 论文大盘点-目标检测篇

    本文盘点ECCV 2020 与目标检测相关的研究,包含目标检测新范式.密集目标检测.点云目标检测.少样本目标检测.水下目标检测.域适应目标检测.弱监督目标检测.训练策略等,总计 41 篇,其中 2 篇 ...

最新文章

  1. 查找Windows文件来历的好方法
  2. 为什么SQL正在击败NoSQL,这对未来的数据意味着什么
  3. 为什么有那么多人选择“人工智能”,真的有那么好吗?
  4. 解决java compiler level does not match the version of the inst
  5. 也谈压缩感知(compressive sensing)
  6. 6.4两种给定两个均不超过9的正整数k和n,要求编写程序求k+kk+kkk++…+kk…k (n个k,不是n个k乘积)之和
  7. docker hub上镜像手动下载_Docker 下载镜像
  8. YDOOK:VSC VisioStudio Code 设置 鼠标滚轮缩放字体大小 滚轮控制字体放大缩小
  9. Real-Time Rendering——18.5 Multiprocessing多处理
  10. 学校计算机考证要交费吗,大家好,请问技校考证要交几百元费用是否可以?
  11. 单片机学习笔记-基础知识
  12. 自然语言处理的词法分析、句法分析、语义分析
  13. python 006 __ 小斌文档 | 特殊字符的使用
  14. 帝国php漏洞,帝国cms远程代码执行漏洞-1
  15. 《Python数据分析与挖掘实战》第7章-聚类+绘制雷达图
  16. 【无标题】SEO优化
  17. 线程池 (通俗易懂)
  18. AGV自导航机器人执行的安全标准
  19. 记录关于利用txt文件划分训练集、测试集与验证集
  20. 10本好书读物推荐,职场管理者必读,建议收藏

热门文章

  1. 智慧养老解决方案:ZigBee技术在智慧养老中的作用-新导智能
  2. 智慧养老解决方案-智慧养老具体方案之一-新导智能
  3. NCL将Grib文件转换成nc文件 JRA55文件说明
  4. 医嘱共享与his系统和医保服务器,事半功倍!医院HIS系统下连带医嘱组合是如何工作的?...
  5. K12在线教育发展前景分析
  6. 2021年卫生技术副高考试成绩何时查询,2021年卫生资格考试成绩公布是什么时候?-中国卫生人才网...
  7. 用户注册填写手机号接收短信验证码怎么实现?
  8. 图片验证码自动识别,使用tess4j进行验证码自动识别(java实现)
  9. python语言高空坠球_”健身铁球高空坠落,遂宁女婴被砸身亡之谜?“
  10. ubuntu 耳机有电流声的解决办法