原文见:Validating generalized incremental joint variant calling with GATK HaplotypeCaller, FreeBayes, Platypus and samtools

说到变异检测,可能大家第一个想到的工具就是GATK HaplotypeCaller。它很出名,所以用的人多,为什么用的人多?是因为大家听说他很准,但是到底有多准呢?其实大家都不会去深究,不过没关系,有人会帮我们去做评测。

在2014年就有一篇博客,用NA12878/NA12891/NA12892 trio数据集对GATK HaplotypeCaller, FreeBayes, Platypus 和samtools 这五个软件做了一个比较,下面是比较结果。

首先作者这几个工具同时对所有样本进行变异检测,因为它们都号称可以利用群体结构相互验证,提高结果的正确性。

群体变异检测

先不要被这个条形图的明显反差误差,以为Platypus非常差,其实它们都在一个数量级上。在同一个数量级上,GATK的HaplotypeCaller在精度和准确上都的确比其他软件好。也可以发现samtools其实在找indels更加的粗犷,找到了更多本来不存在的indels,但是在snp上的表现其实是一致的。

下一步是比较群体、混池和单个样本检测。这里说明一下混池,所谓的混池就是把多个样本混在一起测序,丢失了个体信息。

为什么要研究单个样本的变异效果呢?主要是为了提高效率,便于并行。

混池检测表现

单样本检测

这上面两个图其实和之前那个图类似,但是的确在精度上和准度上有些降低。并且samtools的假阳性依旧非常感人。

最后说说我的看法:

这篇博客主要是看检测后的数据集效果,而没有看变异过滤后效果。GATK的优势在于,能够利用机器学习的方法根据已有变异数据库进一步提高结果的准确度。但是对于植物而言,所能做的就是硬指标过滤。

因此,如果做人类,最推荐的工具是GATK,因为表现的确很好。而且人类还会不断增加样本,需要使用GVCFS文件解决N+1的问题

如果是植物,我目前就用freebayes了,效率高,表现也不错。同时强烈推荐阅读这篇文献"Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。

植物多倍体找SNP策略1

植物多倍体找SNP策略2

还有这三篇文章(可惜已经被原作者删了):

  • variant分析阶段小结1-基础知识
  • variant分析阶段小结2-寻找变异并过滤
  • variant分析阶段小结3-对变异进行注释

推荐阅读:变异检测到底应该用什么软件?相关推荐

  1. 突变检测软件 测试数据库,合作文章|变异检测软件技能大PK,谁才是Battle King?...

    DNA变异是个体间遗传变异的重要来源之一.第二代测序技术(NGS)和第三代测序技术(TGS)都在遗传变异研究中大放异彩.许多变异检测工具可以用来解析二代或三代数据,但是目前没有软件能兼顾灵敏性和特异性 ...

  2. 赠书:《Java性能优化实践》,众多业内大佬推荐阅读

    没有捷径可走的 Java 性能优化 多年来,用 Google 搜索 Java performance tuning,出现的三篇最热门文章之一是于 1997 年到 1998 年左右发表的文章,这篇文章在 ...

  3. 新书上市 | 《Java性能优化实践》,众多业内大佬推荐阅读

    没有捷径可走的 Java 性能优化 多年来,用 Google 搜索 Java performance tuning,出现的三篇最热门文章之一是于 1997 年到 1998 年左右发表的文章,这篇文章在 ...

  4. 必读:ICLR 2020 的50篇推荐阅读论文

    来源 | 香侬科技 本文整理了ICLR2020的相关论文,此次分享的是从Openreview中选取的部分论文,共50篇,其中大部分为NLP相关.文中涉及的相关论文推荐指数与推荐理由仅为个人观点,利益无 ...

  5. GATK教程 / 体细胞短变异检测 (SNV+InDel)流程概览

    体细胞短变体检测 (SNV + InDel) Somatic short variant discovery (SNVs + Indels) 目的 在单个个体的一个或多个肿瘤样本中,识别体细胞短变异( ...

  6. 在超算上用sentieon快速完成NGS的变异检测

    sentieon 很久之前就听说sentieon在跑calling variants的速度非常快,能甩GATK 不知道多少条街,但是一直缺少一次机会去进行测试.这里感谢sentieon软件公司的张春风 ...

  7. ICLR2020推荐阅读论文50篇

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 香侬科技 作者 | 香侬科技 我们为大家整理了ICLR2020的相关论文,此次分享的是从Op ...

  8. 深度学习论文阅读目标检测篇(一):R-CNN《Rich feature hierarchies for accurate object detection and semantic...》

    深度学习论文阅读目标检测篇(一):R-CNN<Rich feature hierarchies for accurate object detection and semantic segmen ...

  9. 2012年每周推荐阅读汇总

    2012年下半年,我开始了一项名为"每周推荐阅读"的计划,也就是每周给部门里的同事推荐些文章,拓展一下大家的阅读面,不知不觉已经年底了,因为每次的推荐阅读都不太有反馈,所以本打算在 ...

最新文章

  1. CEPH核心理论 相关导图(持续更新)
  2. npm install 报权限错误,permission denied
  3. 表面缺陷检测数据集汇总及其相关论文集收集 | Github开源
  4. linux怎么测试磁盘读写,怎样测试Linux磁盘的读写速率
  5. Markdown-VScode打造Markdown编辑器
  6. 19.函数的使用.rs
  7. 将bgr彩色矩阵归一化到0-255之间 【RGB image normalization】
  8. 【CodeForces - 1020B】Badge(模拟,图,环)
  9. 虚拟的有时比真实的还要好(+奥运杂谈)
  10. 孤岛惊魂5服务器稳定吗,这才是《孤岛惊魂5》真正的“最低画质”
  11. 《TCP/IP Sockets编程(C语言实现) (第2版)》 代码下载(链接以及文件打包)
  12. HSRP冗余热备份协议
  13. VIIRS和DMSP夜间灯光数据(1992-2020)
  14. 【智慧旅游】以阿里飞猪为例浅谈产品升级策略
  15. .net/C# 实现汉字到拼音转换
  16. Recorder︱一些图像识别初创公司产品及API搜集ing...
  17. 虚拟机连接外网(桥接)
  18. jsf 教学_JSF初学者教程
  19. java 软尾 铝_软尾入门车款:JAVA FURIA 27.5上市
  20. 2020身高体重标准表儿童_儿童0一18岁青少年身高体重标准表-2020年儿童身高体重表图(中国标准版)下载最新比例表-西西软件下载...

热门文章

  1. excel根据rgb自动填充颜色_Excel一键定位空值与自动填充
  2. python dash库_让你事半功倍的小众 Python 库
  3. 2021高考成绩查询时间 新闻,教育资讯:2021高考成绩一般公布时间 多久出成绩...
  4. Python基础类型之元组
  5. socket Php 粘包,python3 tcp的粘包现象和解决办法解析
  6. xlst 解析 html c,怎樣實現利用xslt把xml文件內容顯示到html文件中?急!
  7. 【RAY TRACING THE REST OF YOUR LIFE 超详解】 光线追踪 3-5 random direction ONB
  8. 操作系统中的P-V操作(转)
  9. 20172311『Java程序设计』课程 结对编程练习_四则运算第一周阶段总结
  10. vue-cli安装笔记