我认为是样本量远比测序深度重要。只要有足够多的样本,我们甚至可以用很低的测序深度(比如1x)获得这些样本中每个人准确的genotype和群体的遗传频谱。这是为什么?

其中一个核心原因是人类这个物种具有单一祖先起源,这也是一个重要的前提假设。但同时我想强调一点,这里的“单一”并不是特指只有一个个体,而是指形成这个群体(比如说现代人,甚至就只是中国的汉族人)的祖先归结起来只有为数不多的若干个部落。在这种情况下,人群多样性的源头实际上就主要来自这些部落之间的基因交流和融合。

另一个核心原因是时间不够。人类其实是一个很年轻的群体,特别是现代智人(我们这一波),遗传的分化历史很短,按照目前估算大约是10万年前才开始。而群体出现遗传差异的动力主要有两个:(1)基因组自身的突变和重组;(2)生殖细胞在形成配子过程中发生的重组。但基因组突变和重组的速率都是很低的,大概只有10^-8次方左右。也就是说一个人因为突变所带来的遗传差异,积累起来大约是30-100个。这个只是序列上的突变(主要是点突变),重组虽然有所不同——它是大范围序列的交换,影响的范围很大,但是一般不认为它直接带来序列突变。我们可以理解为它带来的是突变在整个群体中的扩散和分配

然而,10万年的时间,差不多只有5000代人,这个数字放在物种遗传的历史上是很短暂的一瞬,这个时间跨度不足以引起整个群体的多样性爆发。对于东亚人来说则更少,目前发表过的研究表明,东亚人的历史更短,大概起源于6万年前,所以你会在千人基因组项目中看到东亚人(特别是汉族人)内部的分化差异极小。最终归结起来,人类这个群体中单倍体的组合数目是非常有限的。

所以如果要揭示一个特定群体的遗传图谱,我们大可不必对全体样本都进行高深度测序,只需要把其中一部分人进行深测获得较高质量的变异集合,然后其他样本则直接使用低深度测序(甚至是定制的芯片测序,不过我更偏向于选择低深度全基因组测序),再结合连锁不平衡遗传定律,我们就完全有能力推断那些没被充分覆盖的区域中的具体基因型,千人基因组和冰岛人就是这样的一个例子。

GATK的HaplotypeCaller算法实际上也是利用这样的原理实现了更加准确的变异检测的。在变异检测时,GATK会利用所有样本的数据,预先构造出这个群体的Haplotype组合(这应该也是HaplotypeCaller这个名字的由来),以及这个组合中各个单体型在群体中的后验概率,然后再依据每个样本自己的比对数据,通过贝叶斯原理计算出各个样本在每个位点上的基因型和各自基因型的后验概率。如果参与分析的样本足够多,那么理论上它就能够构建出更加准确的Haplotype组合,然后反过来就会提升各个样本的变异检测结果。

样本量重要,还是测序深度重要?相关推荐

  1. 了解测序深度用什么软件

    测序深度可以使用许多不同的软件进行计算,其中一些常用的有: FastQC: 检查测序数据质量的开源软件. SAMtools: 一组用于操作SAM/BAM文件的工具,可以用来统计测序深度. BedToo ...

  2. 内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征...

    导读 人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战.为了提高基因组的组装性能,本研究采用了Illumina H ...

  3. Sentieon软件应用之浅层测序分析

    近日,Sentieon与中国遗传疾病诊断领导者安吉康尔积极合作,共同开发测试了基于Sentieon机器学习变异检测模块DNAscope的"浅"测序模型,并探索了该模型在遗传病临床诊 ...

  4. Nature:基于宏基因组测序构建人类肠道微生物组参考基因集

    文章目录 基于宏基因组测序构建人类肠道微生物组参考基因集 文章影响 作者简介 热心肠日报 摘要 正文 宏基因组测序肠道微生物组 图1. 人类肠道微生物组的覆盖度 人类肠道微生物组的基因集 图2. 预测 ...

  5. 易基因 | DNA甲基化测序新技术发布:扩展重亚硫酸盐测序(XRBS)

    DNA甲基化是最早被发现.也是研究最深入的表观遗传调控机制之一.目前研究中常用的DNA甲基化测序方法包括全基因组(WGBS.oxWGBS等).简化基因组(dRRBS.RRBS等).靶向基因组(液相捕获 ...

  6. 易基因|3文一览:简化甲基化测序(RRBS)技术优势及研究成果(医学+物种保护+农学)

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因.本期我们通过3篇高分文章来解读简化甲基化测序(RRBS)技术优势及研究成果(医学+物种保护+农学). DNA甲基化是最早发现的基因表观修饰 ...

  7. 易基因 | 常用的6种DNA甲基化测序方法,你知道几个?

    什么是DNA甲基化? 简单来说,DNA甲基化就是在DNA甲基化转移酶(DNMT)的作用下将甲基选择性地添加到胞嘧啶上形成5′-甲基胞嘧啶的过程.DNA甲基化是最早发现的基因表观修饰方式之一,在维持正常 ...

  8. 微生物组学测序十大错误认知

    大家都知道,使用高通量测序技术解决微生物组学问题,已经成为一种成熟并且高效的技术手段.最近呢,我们的技术人员与科研工作者沟通时,发现很多人对组学研究存在不少模糊甚至错误的认识,为了便于大家学习到正确的 ...

  9. iMeta:哈佛刘洋彧等基于物种组合预测菌群结构的深度学习方法(全文翻译,PPT,中英视频)...

    通过深度学习从物种组合中预测微生物组成 Predicting microbiome compositions from species assemblages through deep learnin ...

  10. 二代测序之SNV检测总结笔记

    二代测序之SNV检测总结笔记 文章目录 二代测序之SNV检测总结笔记 Short variant calling的流程: 测序常见错误: Germline:HaplotypeCaller (单倍体) ...

最新文章

  1. jquery实现上下左右键盘监听_python 使用pygame工具包实现贪吃蛇游戏(多彩版)
  2. MySQL中删除重复数据
  3. 数据结构--数组实现线性表
  4. mysql数据排序指令_MySQL 排序 | 菜鸟教程
  5. SSM 整合 2:Java EE 开发环境的搭建(JDK 配置、Tomcat 安装、IDE 安装、IDE 集成 Tomcat、Spring 及其组件的下载)
  6. mysql学习笔记 查找技术 1207 0311
  7. TPAMI 2021 华为诺亚悉尼大学陶大程团队提出多功能卷积,助力轻量级网络
  8. linux怎么安装ros系统,ubuntu14.04安装ROS indigo的详细图解步骤
  9. JavaSE02、方法,递归迭代
  10. mysql 5.7.10免安装_免安装版mysql5.7.10-16配置教程(2)
  11. iOS codeview
  12. POJ 3678 2-SAT简单题
  13. 教你给视频添加马赛克的剪辑技巧,轻松简单
  14. LuatOS之LVGL字体篇
  15. 自然语言处理工具之 HanLP 鸟瞰
  16. buuctf-pwn write-ups (6)
  17. 天天生鲜项目——用户信息页
  18. linux设置防火墙开放端口
  19. 使用YOLOv3训练BDD100K数据集之标签格式转换
  20. 电子信息工程专业,大学要学什么

热门文章

  1. win7文件服务器代码,win7搭建文件服务器
  2. win10 如何修改 C:\Users\用户名文件夹
  3. Photoshop CS5 轻松匹配图像颜色
  4. 台式计算机怎么装,台式机声卡如何安装
  5. 微端要用什么样的服务器
  6. 【警告】扣扣热键你了解多少
  7. css3d转换_使用CSS 3D转换创建网页电影摄影
  8. BZOJ1864: [Zjoi2006]三色二叉树
  9. gz是什么意思饭圈_网上看不懂的字母缩写!知道Xs是什么意思吗?不是尺寸!...
  10. macos 获取root权限