基于短核苷酸序列频率构建细菌系统发育树
谷禾健康
目前,原核生物的系统发育分类依赖于16S rRNA基因序列,这种序列在细菌中广泛存在且高度保守,但即使16S rDNA测序的结果显示某些细菌间序列相似性≥99%,但它们仍然不能被归为同一物种。因为基因序列中的一些保守区域并不一定代表真正的进化历史,水平基因转移也可能会影响分析结果。
为此研究人员开发了一种方法,并为该方法创建了一个web应用程序Phy5,以及它的命令行版本Phy5cli。
该方法旨在对任何物种或亚种进行系统发育评估,包括与已知物种的基因序列相似性非常低的非致病菌株,可以轻松地进行系统发育树分析。
文中以E.coli、Shigella、Yersinia、Klebsiella和Neisseria spp.的系统发育关系为例进行了应用与验证。
方 法
通过分析短核苷酸的频率差异来区分高度相似物种,划分成不同的类群,从而推断它们在系统发育上的关系。
研究使用R v4.12和Biostrings软件包分别对每个细菌样品的三核苷酸、四核苷酸、五核苷酸和六核苷酸频率进行了测定。
这些K-mer(由k个连续核苷酸组成的单元)频率是构建系统发育树的重要信息。通过测定K-mer频率,可以使用层次聚类分析(hierarchical cluster analysis)将样品细菌基因组的相似性进行比较。
在此过程中,使用曼哈顿距离(Manhattan)估计样本间的差异程度,并使用沃德算法(Ward’s)来判断样本间的相似性和关联性。
在该方法中,将互补的K-mer对(例如AAA vs TTT)视为相同的核苷酸序列,以降低这种互补配对对结果的影响。如下图,就是基于五核苷酸频率的系统发育树构建方案。
应用与验证结果
1
分别基于五核苷酸频率分析和MLST构建的110个Yersinia菌株的系统发育树
如下图所示,图A为基于五核苷酸频率分析所构建的系统发育树,采用曼哈顿距离和Ward算法。
图B是采用neighbor-joining方法的多重位点序列分型(MLST) 分析所构建的系统发育树。
节点上的数字表示在1000个bootstrap值中出现的百分比。颜色区分不同种水平分类。
结果表示两种方法在这个特定的数据集上所产生的系统发育树是高度相似的,它们都可以很好地区分Yersinia和其他物种。
而基于16S rRNA基因序列分析所构建的系统发育树(MAFFT工具)无法区分这些物种,如下图所示,下图B为基于16S rRNA基因序列分析所构建的系统发育树。
2
基于五核苷酸频率分析方法构建系统发育树可以应用于任何物种,且仅需要通过高通量测序技术获取的短链
如下图,根据五核苷酸频率构建了E. albertii、E. coli和Shigella的系统发育树。
发现E. albertii 和致肠出血性大肠杆菌菌株(包括O157、O121和O111等)密切相关,并与Shigella和非致病性E. coli(如K-12菌株)分开排列。
Shigella菌株与肠侵袭性大肠杆菌(EIEC)可以区分开来,并与其他大肠杆菌菌株形成一个分支。
3
基于五核苷酸频率分析方法构建的系统发育树仅适用于近亲物种
研究人员从GenBank序列数据库下载了24个Ipomoea属植物的30个叶绿体基因组的核苷酸序列,并使用五核苷酸频率分析方法构建系统发育树,结果如下图,只构建出来与Ipomoea相关的物种。
如其它隶属于Ipomoea的物种并没有被发现。
研究人员还测试了使用五核苷酸频率分析方法构建各种远亲物种的系统发育树,包括嗜热古菌和细菌。
但结论与上面一致。这个方法无法准确地反映远亲物种之间的亲缘关系。
结 论
基于五核苷酸频率分析的系统发育分析是一个具有潜力的微生物系统发育分析的方法。该方法对于近亲物种表现良好,对于远亲物种,能力还不够。
研究人员将该方法制作成了Phy5的R包,工具小巧,运行速度也快,可在这里获得:
也可以访问在线版本:
参考文献:
Nakano Y, Domon Y, Yamagishi K. Phylogenetic trees of closely related bacterial species and subspecies based on frequencies of short nucleotide sequences. PLoS One. 2023 Apr 20;18(4):e0268847. doi: 10.1371/journal.pone.0268847. PMID: 37079522; PMCID: PMC10118083.
基于短核苷酸序列频率构建细菌系统发育树相关推荐
- 构建单拷贝同源蛋白系统发育树,一条命令提序列!
由于基因重组与基因突变的存在,利用16S rRNA构建的系统发育树通常不够可靠,而使用基于全基因组的单拷贝同源蛋白系统发育树则不会存在这方面的困扰,16S rRNA序列也就1500个碱基左右,而全基因 ...
- 如何构建古生物化石的系统发育树
构建古生物化石的系统发育树需要以下步骤: 收集数据: 首先要收集大量的古生物学数据,包括化石的形态特征和生物学特征. 数据分析: 利用各种生物学分析方法,对收集的数据进行分析. 构建分支: 根据分析结 ...
- vbn中使用的3种流程控制结构是_细菌进化树构建:从模式种序列下载到构建系统发育树一键搞定...
细菌进化树 • 构 建 细菌进化树构建:从模式种序列下载到构建系统发育树一键搞定 对于细菌新种或者新属的发现,总是那么让人期待,但是当我们批量获得16S序列后,逐一对这些尚不知分类地位的序列进行比对并 ...
- MEGA | 多序列比对及系统发育树的构建
MEGA是一个用于多序列比对和可视化.以及构建系统发育树的免费程序.自1993年发布以来,MEGA共更新9个版本 (没有第八.九版),今年发布的MEGA 11为处理更大的数据集进行了优化. 之前我们介 ...
- 使用MrBayes构建贝叶斯系统发育树【实践】
建树是分子系统发育与进化研究中绕不过去的一道坎,本文就本人实际经验介绍贝叶斯树的实际操作: 基于不同原理的系统发育树构建方法的比较 Bayesian Inference (BI)建树 需要使用的软件包 ...
- 使用GENBANK数据进行分子系统发育树的构建
一.引言 GENBANK是目前最大而权威的分子序列数据库,调用其中数据可以进行分子系统发育树的构建. 1.序列数据获取(以皿蛛系统发育树为例) 在GenBank中,每一个物种或阶元都有一个taxid, ...
- MEGA软件——系统发育树构建方法(图文讲解) 转载
转载:http://www.plob.org/2012/12/02/4927.html 一.序列文本的准备 构树之前先将目标基因序列都分别保存为txt文本文件中(或者把所有序列保存在同一个txt文本中 ...
- linux系统发育树的构建步骤,megacc构建进化树.mao文件生成方法
基于linux版megacc构建系统进化树命令如下: /biosoft/MEGA/megacc -a .mao -d fasta -o ./ -a输入的是构建进化树的参数 .mao文件 -d输入的是多 ...
- iMeta | 兰大张东等使用PhyloSuite进行分子系统发育及系统发育树的统计分析
点击蓝字 关注我们 使用PhyloSuite进行分子系统发育及系统发育树的统计分析 iMeta主页:http://www.imeta.science 方 法 ● 原文链接DOI: https://d ...
最新文章
- 小样,加张图你就不认识我了?“补丁”模型骗你没商量!| 技术头条
- 线程的应用-实现Runnable接口创建线程
- HDU - 5769 Substring(后缀数组)
- Webpack —— tree-starking 解析
- 一个好用的基于若干静态图片生成gif图片的在线工具
- 女垒姑娘最漂亮,青年女足最顽强
- Spring boot项目集成Sharding Jdbc
- linux主机熵值过小,tomcat在linux启动应用慢解决方式
- Java笔记-keytool生成SSL双向证书
- Atitit js nodejs 图像处理压缩缩放算法 attilax总结
- 一个故事讲完CPU的工作原理
- CentOS7定制Gnome3外观
- JAVA基础篇(一)
- Windows运行机理——主程序—WinMain
- 谷粒商城:环境搭建(3)
- 微信开发,微信开发者平台
- 感谢我的数据结构老师王卓
- 小白学NLP学习笔记-入门
- Win7电脑右下角声音图标小喇叭出现红叉没有声音解决方案
- php 关注微信触发事件,微信api 关注事件
热门文章
- PhotoShop 之用画笔工具擦除
- Matalb更换YaHei Consolas Hybrid字体
- 使用JMF实现java写自己的视频播放器
- ureport 报表合并单元格后双斜表头制作
- Linux | 项目自动化构建工具 - make/Makefile
- 9图工具 android,在线自动生成.9png图的Android设计切图工具推荐
- 表哥用Python爬取数千条淘宝商品数据后,发现淘宝这些潜规则!
- CSS中强大的EM 单位
- 错误处理:TypeError: destroyWindow() missing required argument ‘winname‘ (pos 1)的详细讲解
- 获取DLL运行时路径的方法