目前,基因测序普遍使用的DNA测序仪主要基于短读长测序技术,在获得基因组序列片段后,将其映射到参考基因组序列中来确定染色体位置,识别出其与基因组参照的差异。但完全依赖单一参考序列来鉴别具有遗传多样性的人类亚群中的遗传变异时,不可避免会出现对不同基因组参照序列的错误映射。近年来,随着参考基因组的不断发布以及基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种内的多样性,由此,泛基因组(Pan-genome)应运而生。

泛基因组能够在短读长测序数据集中识别单一参考基因组难以发现的结构变异(SV),了解这些SV的功能影响、与疾病的关联或和进化中的作用。此外,泛基因组还包含多种完整基因组组装及其同源信息。

近日,美国加州大学圣克鲁斯基因研究所的Benedict Paten研究团队在Science杂志上发表了题为“Pangenomics enables genotyping of known structural variants in 5202 diverse genomes”的研究文章。研究团队开发了一种泛基因组短读长映射工具——Giraffe,能够高效地将单个测序reads映射到包含数千个人类基因组的泛基因组上,其运行速度与VG-MAP等现有标准映射方法相当,且减少了映射偏差。Giraffe可基于短读长测序数据对SNV、InDel以及SV进行更准确地基因型分析。研究团队利用Giraffe对5,202个不同人类基因组中的167,000个SV进行基因分型,结果显示Giraffe对SV基因分型具有较高的准确度。同时,Giraffe可以更全面地描述遗传变异的特征,对变异进行更全面的表征,进而改进基因组分析。

文章发表于Science 

Giraffe的设计基础是:单个测序reads可以与GBWT无间隙局部比对直至末端,序列中不匹配的间隙能够通过间隙比对的方法解决,有效地处理了复杂的图形区域(图1)。Giraffe首先通过读取个体基因组中的参考单倍型将其graph Burrows-Wheeler transform (GBWT)作为输入,并表示为一系列彩色矩形,然后再按照它们在序列中对应的节点进行分割,根据GBWT与序列中节点的同源性进行着色。其中,单个测序reads和GBWT所匹配的最小长度片段被定义为“Seed”(黑框部分),Giraffe可以列举出Seed并按其在序列中的间距(以核苷酸为单位测量)进行聚类,对“高分”的Seed进行线性拓展使其与GBWT最大化地无间隙局部比对。

图1. Giraffe 操作视图。来源:Science

参考泛基因组可以从多个基因组序列中创建,使用数学图形结构来表示不同序列之间的关系。研究人员利用公开的GRCh38人类参考基因组构建了“1000GP”和“HGSVC”(图2B)两个人类基因组参考图来替代传统线性参考图(图2A)评估Giraffe。 “1000GP”主要包含来自2503个人的76,749,431个SNV,其中包含3,177,111个InDels(<50bp)和181个SV(≥50bp);“HGSVC”主要包含来自三个使用长读长测序的个体的数据:HG00514、HG00733 和 NA19240,其中包含78,106 个较大的SV(≥50 bp)。

图2. 传统线性参考和参考序列图。来源:Science

在人类基因组参考图构建完成后,研究团队分别使用Giraffe和其他映射程序将reads序列映射到泛基因组和线性参考基因组上,并对映射的准确性、等位基因覆盖平衡和速度进行了评估。评估结果表明,Giraffe可以像现有的工具一样,准确地映射到泛基因组中嵌入的数千个基因组。在模拟中,每个reads的真实映射都是已知的,表明Giraffe与之前发布的最精确工具一样准确。

Giraffe是通过使用各种算法来实现这种速度和准确性。与以前的工具不同,Giraffe侧重于映射到个体基因组观察到的泛基因组路径:参考单倍型。这有两个关键好处。首先,优先考虑与已知序列一致的比对,避免在生物学上不太可能的等位基因组合。其次,通过限制reads可以对齐的序列空间来减小尺寸。有效处理了复杂序列区域。

研究团队利用Giraffe对5202人基因数据(短读长测序)中发现的16.7万个SV(长读长测序)进行了基因分型,平均成本为每个样本1.5美元。结果显示,Giraffe对SV基因分型非常准确(图3),并得到了SV在整个人群和各个亚群体中的频率估计,确定了数千个作为表达数量性状位点(eQTL)的SV。

图3. 实验概述。来源:Science

论文通讯作者、加州大学圣克鲁兹分校生物分子工程副教授Benedict Paten表示:“我们多年来一直朝着这个方向努力,如今我们第一次有了实质性的突破。Giraffe算法可以迅速、高效地工作,比单一参考基因组的效果更好。”

综上所述,Giraffe算法通过使用短读长测序数据可以准确地对SNV、InDels和SV进行基因分型,其速度可与映射到单一参考基因组的标准方法相媲美。Giraffe映射精度的提高使全基因组的基因分型在下游得到了改善,既适用于微小变体,也适用于较大的结构变体。Giraffe改进了基因组多态性区域中的泛基因组图谱构建,使具有更广泛代表性的泛基因组参考变得更加实用,有助于更全面地表征SV、改善基因组分析,使基因组学更具包容性。

参考文献:

Sirén J, Monlong J, Chang X, et al. Pangenomics enables genotyping of known structural variants in 5202 diverse genomes. Science. 2021;374(6574):abg8871.

https://www.science.org/doi/10.1126/science.abg8871

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

喜欢就点个“在看”吧!

Science发布基因组比对革新技术:泛基因组学映射工具Giraffe相关推荐

  1. 软件前沿:泛基因组学映射工具Giraffe

    软件前沿:泛基因组学映射工具Giraffe 作者:心如止水 要点: 软件概览 软件算法核心 软件安装和使用 hello,大家好,今天为大家带来关于软件前沿 | 泛基因组学映射工具Giraffe的超详细 ...

  2. 《Science》基因组比对的革命性技术

    来源:生物通 加州大学圣克鲁斯基因组研究所(UC Santa Cruz Genomics Institute)的研究人员推出了一种名为"长颈鹿"(Giraffe)的新工具,可以有效 ...

  3. 中兴通讯发布《5G上行增强技术白皮书》:深化多频段协同能力

    10月25日消息,近日,中兴通讯发布<5G上行增强技术白皮书>,结合自身在5G领域的研究实践,对目前业界关注的几种上行增强技术提供了分析对比.性能介绍和应用场景说明,对5G上行增强技术演进 ...

  4. 微信内测“群直播”;小米发布第三代屏下相机技术;马斯克宣布脑机接口重大突破 | 极客头条...

    整理 | 阿司匹林 图片来源:小米官方 出品 | CSDN(ID:CSDNnews) 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们 ...

  5. 智能数据引擎Dataphin重磅发布,提供一站式的技术管理能力

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 面对各行各业日趋强烈的大数据建设.管理及应用诉求,2018年2月28日MWC大会,阿里云重磅推出了智能数据构建与管理平 ...

  6. Checkpoint 发布恶意软件规避分析的技术百科

    聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 网络安全公司 Checkpoint 发布了关于恶意软件规避分析的技术百科. 该百科涵盖的规避技术与以下方面相关:文件系统.registr ...

  7. Qtum量子链发布QIP-19支持隐私资产技术提案

    编者的话:本提案为Qtum核心开发工程师Shannon发布在Github最新的技术提案,通过预编译智能合约实现隐私协议,以此实现在Qtum网络上发行带有隐私保护的资产和Token. 01 背景 Qtu ...

  8. 海说软件官网重装上线 同时发布两大视频处理技术

    海说软件官网(www.seatell.cn)于今日重装上线,同时重磅发布两大视频处理技术:视频转码.在线直播.海说软件成立3年,其主要业务之一的「精益产品的开发与设计」已帮助全球的众多客户构建出色的软 ...

  9. 2021年计算机科学与技术考研调剂,考研调剂:2021年考研调剂信息发布(福建农林大学计算机科学与技术专业)...

    [摘要] 21考研接下来就要进入最后的复试.调剂.录取阶段.考必过小编为大家整理了关于"考研调剂:2021年考研调剂信息发布(福建农林大学计算机科学与技术专业)"的信息,一起来看下 ...

最新文章

  1. 浙大吴飞教授:尽管AlphaGo Zero已强大到从经验中学习模型,我也绝不赞同马斯克和霍金的威胁论,人才是智能的最终主宰
  2. 调整html css表格位置,调整表格中的列宽(CSS / HTML)
  3. MSN空间上的以往技术贴整理
  4. bs模型Nd怎么用计算机算,BS模式的下试卷自动生成系统的设计与实现
  5. 吕梁离石学校计算机专业在哪里,山西吕梁计算机大专学校有哪些太重技校告诉您...
  6. C++——const加深理解之const在函数后
  7. 万万没想到,面试中,连 ClassLoader类加载器 也能问出这么多问题.....
  8. python list remove_python list有关remove的问题
  9. leetcode python3 简单题67. Add Binary
  10. Vue-Plugin开发插件
  11. TracKit-Ocean:目标跟踪网络(二) -- 运行问题及解决逻辑设计
  12. Winrunner经验总结
  13. java外文文献_spring框架外文文献 PDF 下载
  14. java怎么用扫描仪_如何在Java中使用扫描仪? [重复]
  15. cad画直线长度与实际不符_cad画规定长度直线的方法步骤图
  16. (转)loff_t *ppos是什么东东
  17. chm 乱码 掌阅_CHM乱码解决
  18. (转)金蝶KIS迷你版、标准版在查询数量金额明细账时提示“发生未知错误,系统当前操作被取消,请与金蝶公司联系”...
  19. [转载] 七龙珠第一部——第008话 龟仙人的龟派气功波
  20. html打开pdf的几种方式

热门文章

  1. 腾讯专家谈全球数据保护案例
  2. 【2017年第1期】ISO 8000(大)数据质量标准及应用
  3. 【数据库系统】数据模型、模式、数据的概念辨析
  4. nodjs npm 报错:Segmentation fault: 11
  5. NSA(美国国安局)泄漏Exploit分析
  6. 分布式系统测试那些事儿——信心的毁灭与重建
  7. objectvie-c 数组特别遍历方法
  8. centos6.5下安装gradle编译环境
  9. Converter Tutorial
  10. return另外一个用法