Nature子刊:三代测序重构菌株水平宏基因组序列的计算框架iGDA
https://doi.org/10.1038/s41467-021-23289-4
2021年5月24日,美国西奈山伊坎医学院冯智星等在Nature Communications发文题为Detecting and phasing minor single-nucleotide variants from long-read sequencing data的研究成果,提出了首个利用三代测序重构菌株水平宏基因组序列的计算框架iGDA。iGDA能够准确检测并定相(phasing)频率仅为0.2%的单碱基突变,而且能从三代宏基因组测序数据中有效区分序列差异仅为0.011%的菌株并重构其序列。该研究为在菌株水平进行更高分辨率的宏基因组研究做出了基础性的贡献。
微生物群(microbiota)是存在于包括人体在内的特定环境中的微生物集合,其中包含的微生物基因组的集合被称为宏基因组(metagenome)。微生物群和人类健康与疾病有着密切的关系,比如微生物群的紊乱与包括糖尿病、关节炎以及癌症等在内的重大疾病有关联。从宏基因组测序数据中区分同一物种的不同菌株(strains)并重构其基因组序列是宏基因组学研究的核心问题之一,也是长期以来的一个难点。微生物群中同一物种的不同菌株可能具有完全不同甚至相反的功能,比如大多数大肠杆菌菌株对人体无害且广泛存在于人类肠道中,但是某些大肠杆菌菌株如O104:H4型会造成足以致命的出血性肠炎。由于读段较短(通常<300个碱基),基于二代测序的方法只能重构出高度碎片化的宏基因组序列。三代测序数据尽管读段较长(通常为1~10万个碱基),但是由于测序错误率高(1%~15%),区分同一物种的不同菌株(序列差异约为0.1%)仍是具有挑战性的问题。目前基于三代测序的宏基因组分析方法无法区分同一物种的不同菌株,其重构的宏基因组序列是多个菌株甚至多个物种混合的基因组一致序列。
检测并定相低频点突变是从宏基因组测序数据中区分不同菌株的基础,然而三代测序较高的错误率却使得这项任务变得十分困难。作者通过同时利用读段覆盖范围内所有位点的信息检测点突变,并提出了用最大条件突变率(Maximal Conditional Substitution Rate)检测点突变的新概念,使得低频点突变的检测准确率大幅提高(图1)。虽然能够有效提高检测准确率,但是用简单算法计算最大条件突变率的时间复杂度却是指数级的,即无法在有效时间内完成。为解决计算复杂度问题,作者提出了一种名为随机子空间最大化(Random Subspace Maximization,RSM)的新算法,并在理论上证明其能够高效求解最大条件突变率,而且其结果依概率收敛于真实值。
图 1 真实的低频点突变是相互关联的。A, IGV截图展示如何利用多个位点信息检测低频点突变。B,直接利用突变率很难有效区分别真实点突变与测序错误。C,最大条件突变率能够有效地区分真实点突变与测序错误。
由于单倍型数量未知且频率并不一定相同,定相低频点突变是另一个难题。作者提出了名为自适应最近邻聚类(Adaptive Nearest Neighbor clustering,ANN)的新算法。该算法无需任何单倍型数量或频率的假设,能够直接从数据中估计单倍型的数量及频率。此外,ANN算法无需复杂的参数设置,只有一个参数且能够通过独立数据学习得到。
该研究还建立了三代测序数据的背景模型,发现测序错误率与序列上下文高度相关,并通过机器学习的方法建立通过序列上下文预测测序错误率的模型,并在实验数据中发现该模型能够有效地提高低频点突变的检测准确率。此外,作者还发现DNA甲基化对纳米孔测序的错误率有极大的影响,并会大幅降低检测低频点突变的准确率。为解决这一问题,作者提出了一种能够通过纳米孔测序错误模式检测DNA甲基化的新算法,并利用降低了甲基化对检测低频点突变的影响。
作者构建了包含11个伯氏疏螺旋体菌株以及744个其他种属细菌的三代宏基因组测序数据集,并利用其对iGDA进行了测试。结果表明iGDA能够有效地区分同一物种的不同菌株,且能够准确重构大片段菌株水平的基因组序列。
西奈山伊坎医学院的冯智星博士为本文的通讯作者兼第一作者。西奈山伊坎医学院的Jose Clemente博士、Eric Schadt博士、以及约翰霍普金斯大学的Brandon Wong也为该研究做出了重要贡献。
原文链接:
https://doi.org/10.1038/s41467-021-23289-4
Zhixing Feng, Jose C. Clemente, Brandon Wong & Eric E. Schadt. (2021). Detecting and phasing minor single-nucleotide variants from long-read sequencing data. Nature Communications 12, 3032, doi: https://doi.org/10.1038/s41467-021-23289-4
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索 Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记 云协作 公众号
编程模板: Shell R Perl
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
Nature子刊:三代测序重构菌株水平宏基因组序列的计算框架iGDA相关推荐
- Nature子刊:Salmon不比对快速宏基因组基因定量
文章目录 Salmon:使用双阶段推理对转录本表达进行快速且有偏差意识的量化 导读 摘要 主要结果 图1. Salmon与同类软件对比的表现 扩展阅读 猜你喜欢 写在后面 [外链图片转存失败,源站可能 ...
- Nature子刊:涵盖20多万个基因组的人体肠道微生物参考基因组集
Nature子刊:涵盖20多万个人体肠道微生物基因组的参考基因组集 A unified catalog of 204,938 reference genomes from the human gut ...
- Bioinformatics:吉林大学刘富组-深度学习从宏基因组序列中识别短病毒序列Virtifier...
Virtifier: 基于深度学习方法的宏基因组病毒序列分类方法 Virtifier: a deep learning-based identifier for viral sequences fro ...
- 宏基因组序列物种分类之kraken 1/2和Bracken的使用
细菌基因组测序完,想看看样本有没有被其他的菌污染? 人的转录组测序完,想快速看看人.微生物的序列的比例? 元/宏基因组测序完,想快速获得样本中物种的丰度信息? REFERENCE Wood DE, S ...
- metaProdigal:宏基因组序列中的基因和翻译起始位点预测
文章目录 metaProdigal:宏基因组序列中的基因和翻译起始位点预测 热心肠日报 摘要 动机 Motivation 结果 Results 可用性 Availability 主要结果 表1. 大肠 ...
- Kraken:使用精确比对的超快速宏基因组序列分类软件
文章目录 Kraken:使用精确比对的超快速宏基因组序列分类 热心肠日报 摘要 主要结果 图1. Kraken序列分类算法 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较 图3. 基于三个模拟 ...
- 一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)
一种PacBio测序数据组装得到的基因组序列的纠错方法技术 技术编号:17008244阅读:83留言:0更新日期:2018-01-11 04:20 本发明专利技术提供一种PacBio测序数据组装后序列 ...
- 一种PacBio测序数据组装得到的基因组序列的纠错方法
技术领域 本发明涉及生物信息技术领域,更具体的说,它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法. 背景技术 PacBio是一家测序仪公司,提供第三代测序技术测序平台,他们的测序仪产生的 ...
- PacBio三代宏基因组测序大幅提升海洋水体宏基因组研究效果
期刊名:Frontiers in Microbiology 影响因子:5.64 背景介绍 三代测序的读长长,但错误率较高,且宏基因组的组装软件大都是基于二代测序设计,所以在既往的宏基因组学研究中较少用 ...
最新文章
- buildpack_使用Buildpack容器化Spring Boot应用程序
- 【转】算法导论学习笔记 一 分治算法
- ndk c调用java_使用NDK将Android转换为C,然后在C中调用Java函数
- [转]git merge 与 git rebase的区别
- 高通处理器命名中文化
- tcp spurious retransmission
- PS中部分常用快捷键整理
- python之获取文件当前位置和定位某个位置
- 破解老程序员的迷茫病——JUST DO IT
- 《数据库系统概论》-02 中级SQL 约束、授权、索引
- 软件工程专业期末项目开发全流程模拟日志(第一天)
- linux阿里云ecs发邮件
- 如何快速查看bili上的视频学习
- CFD基本流程 及 STAR-CCM+ 11.0软件介绍
- 耐高压达林顿输出光耦(TLP127,TLP187,TLP627)功能介绍及应用实例
- 健身功法(天涯转贴)
- 自己动手写一个分库分表中间件(三)数据源路由实现
- 软件工程——面向对象需求分析方法——知识点总结
- Android状态栏--实现状态栏全透明
- 转载:table单元格内容自动换行
热门文章
- 某网友惊现如此言论:程序员没有技术壁垒,不值得这么高工资!过高工资引起加班和行业内卷,应该用降薪来换取不加班!网友:你好天真!...
- String性能提升10倍的几个方法!(源码+原理分析)
- 小红书做直播的背后,隐藏了什么秘密?
- 图解Hbase--大数据平台技术栈07
- 【行走的Offer收割机】记一位朋友斩获BAT技术专家Offer的面试经历
- 传统Excel绩效考核和绩效管理系统区别
- 还记得那场关于“分布式锁”的经典论战吗?
- 到底什么是故事点(Story Point)?
- 团队不需要在计划会上考虑到所有事情
- PCB 3D模型与渲染