目录

介绍

结果

讨论

M5c 位点的核苷酸偏好

参数优化的有效性

建筑物整体模型处理

特征选择分析

与最先进的方法的性能比较

材料和方法

基准数据集

序列编码方案

堆叠集成学习框架

模型评估

实验环境


5-甲基胞嘧啶(m5c)是一种重要的转录后修饰,广泛存在于多种 rna 中。许多研究表明,m5c 在许多生物学功能中起着重要作用,如 rna 结构的稳定性和代谢。计算方法作为一种从高通量 rna 序列数据中识别 m5c 位点的有效方法,有助于解释这一重要修饰的功能机制。这项研究提出了一种新的特定物种的计算方法,staem5,来准确地预测小家鼠和拟南芥中的 rna m5c 位点。staem5采用特征融合策略来利用信息序列剖面,并结合5种常用的机器学习算法,建立了一个叠加集成学习框架。广泛的基准测试表明 staem5在交叉验证和独立测试中都优于最先进的方法。我们提供 staem5的源代码,该源代码在 https://github Com/cxd-626/staem5.git.上公开可用。

介绍

转运RNA(TRNAs)、核糖体RNAs(RRNAs)、mRNAs和非编码RNAs中有170多种RNA化学修饰(RCM)。1-5 RCM由甲基转移酶、RNA结合蛋白和去甲基酶三个协调因子决定。3、6、7在所有RCM中,5-胞嘧啶甲基化(M5C)是mRNA中最重要的修饰之一。然而,准确识别M5C是一项具有挑战性的工作。由于mRNA分子的不稳定性,高通量测序技术通常无法在单核苷酸分辨率下准确识别M5C位点。因此,能够准确识别M5C位点的计算方法将具有很高的价值,并可能为深入了解这种重要的RNA修饰的功能作用提供依据。

基于序列信息和机器学习算法的一些计算方法已经被开发出来预测包括智人、小鼠、酿酒酵母和拟南芥在内的四个物种的M5C位点。根据它们应用的机器学习算法,这些方法可以分为两类:(1)基于支持向量机的预测方法,包括M5C-PseDNC、11个M5C-HPCR、12个pM5CS-comp-mRMR、13个RNAM5CPred、14个m5CPred-SVM,15和IRNA-M5C_SVM16;(2)基于随机森林(RF)的方法,包括PEA-M5C、17个RNAM5Cfinder、18和IRNA-M5C_SVM16。例如,刘和陈开发了基于极端梯度增强(XGBoost)的iMRM20,以识别五种类型的RNA修饰。Song等人8开发了一种基于注意力的多标签神经网络MultiRM,可以同时预测12种类型的RNA修饰。表1从几个方面总结了这两类专门为M5C设计的预测器,包括特征提取、性能评估策略、种类、Web服务器或软件可用性以及基准数据集。我们发现大多数方法都是为智人设计的,只有少数几个预测因子被设计和检验,如IRNA-M5C、IRNA-M5C_SVM、RNAM5Cfinder和m5CPred-SVM.15、16、19。此外,与智人相比,小家鼠和拟南芥M5C位点的预测效果并不令人满意。例如,m5CPred-SVM、IRNA-M5C_SVM和IRNA-M5C都是在相同的拟南芥基准数据集上开发的,交叉验证测试的平均准确率分别为71.8%、73.06%和70.7%。原因可能是这些预测器是基于单一的RF或SVM算法开发的。随着最近在生物信息学中用于开发稳健预测模型的集成学习策略的进展,我们有动力利用集成学习技术来改进肌肉分枝杆菌和拟南芥的M5C预测。

CV,交叉验证;PseDNC(M),伪二核苷酸组成,m是物理化学性质的个数;DNC,二核苷酸;TriNC,三核苷酸;TetraNC,四核苷酸;KNF,K-核苷酸频率;KSNPF,K-间隔核苷酸对频率;PseKNC,伪K-字节组核苷酸频率分量;KSNPF,K-间隔核苷酸对频率;PSNP,位置特异性核苷酸倾向;KSNPF,K-间隔核苷酸对频率;PseKNC,伪K-字节组频率分量;KSNPF,K间隔核苷酸对频率;PSNP,位置特异性核苷酸倾向;KSNPF,K间隔核苷酸对频率。PCPseDNC,广义平行相关伪二核苷酸组成。

在这项研究中,我们介绍了STAEM5,一个堆叠的集成模型,用于预测小家鼠和拟南芥的M5C位点。STAEM5是基于位置特异性倾向、k-mer、三核苷酸的电子-离子相互作用假势和平行相关伪二核苷酸组成等四种序列特征开发的。构建最优堆积模型的基本模型从五种流行的机器学习算法中选择每个物种,并采用特征选择策略进一步优化预测性能。交叉验证和独立测试表明,与最先进的方法相比,STEEM5取得了具有竞争力的预测性能。

结果

在这项工作,我们提出了一种新的计算方法,staem5,以确定 m5c 位点的 小家鼠和拟南芥,该模型集成了4种编码方案,即位置特异性倾向(psp)、 k-mer (k = 1,2,3)、平行关联伪二核苷酸组成(pcpdsednc)和三核苷酸电子-离子相互作用伪势(pseeiip)。采用贝叶斯优化算法对每个分类器的参数进行优化。然后,我们用堆叠策略分别评估了基分类器的不同组合,包括 svm、 xgboost、轻梯度提升机(lightgbm)、极端随机树(ExtraTree)和梯度提升决策树(gbdt) ,以确定 小家鼠和拟南芥的最佳集成模型。同时,利用 f 值对特征维数和计算时间进行降维。与训练和独立数据集相比,staem5方法显示出其优越性。Staem5的源代码载于 https://github.com/cxd-626/staem5.git。

讨论

M5c 位点的核苷酸偏好

这部分分析核苷酸偏好的序列片段包含 m5c 位点使用两个样本标志。图1 a 及图1 b 分别列出由两个样本标志产生的拟南芥及 小家鼠的序列标志。正如所观察到的,胞苷(c)是在拟南芥m5c 位点的上游富集的,特别是在位置-18~-10和-7~-1.相反,腺嘌呤(a)和鸟嘌呤(g)是大量的非 m5c 序列片段的上游,特别是在位置-19,-18,-15,-12,-11,-9,-7,-6,-3,和-1.对于小家鼠,c 和 g 的频率相对高于其它两种核酸,尤其是在-20,-10,-9,-5,-3,-2,-1,2的位置。非 m5c 序列在-9、-6、-5、-3~-1和1~3位点有腺嘌呤(a)尿苷(u)模式。这些结果表明,与非 m5c 位点相比,小家鼠和 拟南芥中的 m5c 位点没有显著的序列模体,而且在这两个物种中,序列片段具有不同的核苷酸偏好。因此,很难建立一个通用的跨物种预测模型,而且有必要建立物种特异性模型。

参数优化的有效性

在这一部分,我们评估了五种常用的机器学习算法的预测性能,即 svm,gbdt,xgboost, lightgbm and extrout, 在小家鼠和拟南芥 中进行 m5c 位点预测。对于每个分类算法,根据以前的经验预先设置超参数,并用贝叶斯优化算法进行优化,在生物信息学的许多预测任务中都有效。我们根据10倍交叉验证检验的准确度值,寻找超参数的最佳组合。性能比较结果的准确性方面,五个基本分类器的参数优化前后的10倍交叉验证测试见图2(其他性能指标的详细数值见表 s 1) ,选定的参数见表 s 2。结果表明,经过参数优化后,五种基分类器的性能svm性能提高最大。结果表明,svm模型的准确率从62.40% 提高到73.62% 。此外,gbdt 模型的准确率也由65.69% 提高到71.77% 。相比之下,extratree有最微不足道的性能改善与0.05% 的准确度增加。

另外,从图2和表 s1可以看出,svm的准确率最高(73.62%) ,mcc(0.476) ,特异性(sp)(79.41%) ,pre (76.71%) ,auc (0.807) ,而 lightgbm 的敏感性(sn)(71.19%) ,xgboost 的 f1得分最高(0.723)。综合以上五个性能指标,svm在 拟南芥 的10倍交叉验证测试中取得了最好的预测性能。相比之下,xgboost 的准确率最高(76.68%) ,mcc (0.534) ,f1评分(0.769)。

建筑物整体模型处理

叠加集成学习分类策略分为两个层次,这两个层次的分类器分别称为基分类器和元分类器。在第一个层次上,一组基本分类器生成概率值,然后用这些概率值作为元分类器的输入。在这项研究中,我们使用 Logit模型作为元模型来集成基本分类器到一个堆叠模型。

堆叠策略是在 python 的“ mlxtend”包装中实现的。基分类器的选择是基于模型的准确性。以 拟南芥为例,采用如下的叠加过程: 先将两个性能最好的分类器 svm 和 xgboost 集成,然后评估模型的精度是否有所提高。我们发现,在10次交叉验证中,堆叠模型的准确率仅从73.62% 提高到73.85% ,而支持向量机(svm)的准确率只有支持向量机的73.62% 。因此,我们进一步将排名第三的分类器轻量级算法集成到堆叠模型中,准确率进一步提高了73.85%-73.89% 。然而,当结合第四级分类器 gbdt 和extratree,准确度不同程度地降低。因此,我们相应地选择支持向量机、 xgboost 和 lightgbm 作为堆叠模型的基本分类器,获得了73.89% 的正确率和0.479 mcc。图3显示了不同基分类器组合的准确性和 mcc 的性能比较结果(详细结果见表 s3)。

图3。不同基分类器组合的性能比较结果的准确性和最小外接圆

(A) For A. thaliana and (B) for M. musculus. Note: SX,SVM + XGBoost; SXL, SVM + XGBoost + LightGBM;SXLE, SVM + XGBoost + LightGBM + ExtraTree; SXLEG,SVM + XGBoost +LightGBM+ ExtraTree + GBDT; XE,XGBoost + ExtraTree; XEL, XGBoost + ExtraTree +LightGBM; XELS, XGBoost + ExtraTree + LightGBM +SVM; XELSG, XGBoost + ExtraTree+LightGBM + SVM +GBDT.

随后,我们还将堆叠策略与投票策略进行了比较,后者是另一种流行的集成学习策略。为确保比较的公平性,投票模式与堆叠模式的原则相同(有 Logit模型)。表 s4给出了不同分类器组合的性能比较结果,并总结了表2中最佳叠加和投票模型的性能比较结果。结果表明,叠加模型具有较好的预测性能,更适合于拟南芥和小白鼠的 m5c 位置预测。

特征选择分析

为了去除高维输入特征带来的冗余信息,进一步优化元模型,我们评估了三种流行的特征选择算法,包括相关最大距离(MRMD)、皮尔逊相关系数(PCC)特征选择、和F分数,以寻找最优的特征子集。我们首先通过每个特征选择算法对所有特征进行排序,然后将特征集降维。表S5提供了三种特征选择算法的性能比较结果。结果表明,这三种特征选择方法并没有进一步提高拟南芥M5C位点的预测性能,但在10倍交叉验证试验中,所选择的特征提高了小家鼠模型的模型性能。在F分特征选择过程中,模型的平均准确率随特征数的减少呈现先升后降的趋势,当特征维数为180时,平均准确率最高,为77.26%。相比之下,MRMD和PCC的平均准确率最高,分别在230维和280维时达到了77.21%。这些结果表明,与MRMD和PCC相比,F评分取得了略好的表现。因此,我们使用F分数来选择最优的特征,并通过设置较小的步长5来降低特征维数,并在表S6中提供了特征维数为165-195的特征选择结果。从表S6中,我们可以看到185个特征在准确率(77.42%)和AUC值(0.855)方面的最佳性能。最后,我们在175-190的特征维度上,用1的步长进一步选择最优特征子集,并将结果报告在表S7中。实验结果进一步证实,包含185个特征的特征子集在准确率和AUC方面都能保证最佳性能。因此,这185个特征被用作叠加模型的输入特征来预测小家鼠中的M5C位点。此外,表S8提供了在独立测试数据集上选择前后模型的性能比较结果。

与最先进的方法的性能比较

在本节中,我们比较了Staem5与几种最先进的预测器在相同的训练和独立测试数据集上的预测性能。在拟南芥中,我们将Staem5与iRNA-m5C、m5CPredSVM、和iRNA-m5C_SVM16进行比较;而对于小家鼠,我们比较了Staem5和m5CPred-SVM。训练数据集和独立测试数据集的性能比较结果分别如表3和表4所示。从表3可以看出,除了iRNA-m5C_SVM获得了拟南芥的最佳Sp外,Staem5在拟南芥和M. musus的训练数据集上几乎在所有评价指标上都取得了最好的性能。表4的独立检验结果显示,在拟南芥独立测试集上,Staem5的表现不如iRNA-m5C_SVM和m5CPred-SVM。然而,在M. musus的独立测试集上,Staem5比m5CPred-SVM具有更好的预测性能。虽然Staem5在拟南芥独立测试集上的性能略低于iRNA-m5C_SVM和m5CPred-SVM,但与这两种方法相比,其训练和测试性能差异较低。iRNA-m5C_SVM和m5CPred-SVM在训练数据集上的独立测试结果远远高于它们的性能。相反,Staem5在独立数据集和训练数据集上表现出相似的性能,准确率分别为73.70%和73.89%,说明Staem5比其他数据集更稳健、更稳定。因此,我们可以得出结论,Staem5可以准确预测M. musculus和A. thaliana的m5C位点。

材料和方法

基准数据集

Staem5的原理流程图如图4所示。主要有四个步骤,包括数据收集、特征提取、特征选择和模型构建。第一步,拟南芥的训练和独立测试数据集来自Chen等构建的数据集。拟南芥m5C位点数据来源于NCBI Gene Expression Omnibus (GEO)数据库,小家鼠数据集来自Yang等。拟南芥和小家鼠的训练数据集和独立测试数据集的统计汇总如表S9所示。拟南芥数据集包含5298个正训练样本和5298个负训练样本,1000个正测试样本和1000个负测试样本。相比之下,M. musus数据集有4563个阳性训练样本和4563个阴性训练样本,1000个阳性测试样本和1000个阴性测试样本。

序列编码方案

本研究采用四种序列编码方案,包括平行相关伪二核苷酸组成(PCPseDNC)、位置特异性倾向(PSP)、k-mer和三核苷酸的电子-离子相互作用伪电位(PseEIIP)。PCPseDNC通过iLearn计算,PCPseDNC有38个物理化学性质。PSP、k-mer和PseEIIP被广泛应用于mRNA中RNA n6 -甲基腺苷(m6A)位点、蛋白s -磺酰化位点和n4 -乙酰胞苷(ac4C)位点的预测。我们在补充信息中提供了详细的定义和公式。

堆叠集成学习框架

堆叠集成学习策略分为两个层次,这两个层次的分类器分别称为基分类器和元分类器。本文采用支持向量机(SVM)、GBDT、XGBoost、LightGBM和ExtraTree等5种常用的机器学习算法作为基分类器,并采用logistic回归算法作为元分类器构建堆叠集成模型。使用scikit-learn包构建基本分类器,使用“mlxtend”包实现模型的堆叠。

在本研究中,我们在svm中使用径向基核函数,并优化正则化参数C和核参数g,以找到最合适的超参数。GBDT是一种基于树的增强算法,它直接从错误残差中学习,而不是更新数据的权值。它使用梯度下降算法来最小化训练误差。XGBoost通过采用并行学习技术和正则化项对GBDT模型进行改进,提高了模型的有效性。XGBoost在许多生物信息学任务中都取得了巨大的成功作为蛋白质/DNA/RNA功能位点预测。LightGBM是XGBoost的进一步扩展,它通过应用直方图算法来提高训练速度和减少内存消耗,此外,LightGBM还提出了基于梯度的单边采样、独占特征捆绑、叶向增长策略,以获得更好的精度和高效的计算。同时,它还采用了限制最大深度参数来缓解过拟合,LightGBM在生物信息学中得到了广泛的应用。ExtraTree也是一种基于树的算法,由Pierre Geurts等人在2006年提出。虽然ExtraTree与RF非常相似,但它们之间有两个主要的区别。首先,RF是一种bagging方法,而ExtraTree使用所有的训练样本来训练决策树。第二,在随机子集中获得了最优的分岔特征;而ExtraTree则执行完全随机的分叉

模型评估

为了评估和比较 staem5和现有的方法,我们分别根据训练和测试数据集进行了10倍的交叉验证和独立测试。我们应用了5个常用的模型评估指标,包括 sn,sp,accuracy (acc) ,mcc,以及 ROC曲线曲线下面积(auc) ,定义为:

其中 tp、 tn、 fp 和 fn 分别表示真阳性、真阴性、假阳性和假阴性序列的数目。

实验环境

实验是在一台64位 windows 10操作系统的电脑上进行的。Pc 配备了 intel (r) core (tm) i7-7700 cpu 和16gb 物理内存; cpu 的主频为3.60 ghz。5是基于 python 3.7开发的,预测1000个41bp 的询问序列片段大约需要5.7秒。

Staem5:一种精确预测m5C位点的新计算方法相关推荐

  1. 一种准确预测核糖核酸假尿苷位点的新方法

    一种准确预测核糖核酸假尿苷位点的新方法 期刊:Briefings in Bioinformatics 链接:https://doi.org/10.1093/bib/bbab245 背景: 假尿苷是一种 ...

  2. 使用自监督图像表示学习框架精确预测分子性质和药物靶点(Accurate prediction of molecular properties and drug targets using a sel)

    Accurate prediction of molecular properties and drug targets using a self-supervised image represent ...

  3. 天气预报 :天气数据集爬取 + 可视化 + 13种模型预测

    前几天一直在研究 Python 爬虫技术,只为从互联网上获取数据集. 本文就是利用前几天学到的爬虫知识使用 Python 爬取天气数据集,并做的一期讨论日期与最低气温能是否是最高气温的影响因素,进而判 ...

  4. keil c语言 延迟程序,Keil C51程序设计中几种精确延时方法

    前几天时间在做一个基于51单片机开发板的等精度频率计,用LCD1602液晶显示的,晶振是22.1184MHZ,用得是测频率法,目的是想做到能够测试0--900KHZ的信号. 液晶显示部分花了我好几天才 ...

  5. 27 种确定性预测评估指标(Python实现)

    在时间序列预测中,评价指标的多样性为模型性能的评估带来多角度的参考意义.该篇推文列举了当前已知的27种确定性预测评估指标及其Python的实现,其中Python的评估指标函数实现基于numpy库(调用 ...

  6. 【机器学习】27种确定性预测评估指标及其Python实现

    在时间序列预测中,评价指标的多样性为模型性能的评估带来多角度的参考意义.该篇推文列举了当前已知的27种确定性预测评估指标及其Python的实现,其中Python的评估指标函数实现基于numpy库(调用 ...

  7. matlab 图片倒影_一种精确快速处理液滴铺展图像的方法与流程

    本发明涉及液滴动力学领域,具体是一种精确快速处理液滴铺展图像的方法. 背景技术: 液滴撞击壁面现象出现在很多行业中,例如航空航天,农业,工业中的喷淋和印刷等.研究液滴撞击壁面的铺展过程对研究液滴与壁面 ...

  8. 计算机提取干涉条纹原理,两种提取Fabry-Perot干涉条纹圆心的新方法

    摘要本文介绍两种提取Fabry-Perot干涉条纹圆心点坐标的新方法.首先对干涉图像依次进行二值化处理,对所得到的条纹强度曲线进行均平滤波和自适应滤波,根据条纹灰度值强度余弦函数分布的特点,对条纹灰度 ...

  9. 两种方式实现登录跳转新窗体

    两种方式实现登录跳转新窗体 直接隐藏登录窗体 显示主界面 //验证是否有此用户 int? flag = studentService.StudentLogin(userNameText.Text.Tr ...

最新文章

  1. python批量jpg转png(顺序排列1.2.3……)、修改文件夹尺寸
  2. 学什么都不容易!学好一样更不容易!
  3. TScreen 类 - 获取字体列表
  4. linux .forward,linux forward的实现
  5. OpenCV3学习(12.3) kalman滤波器
  6. 什么是Web Service
  7. ROS的学习(七)ROS的话题
  8. 那些不知所措的运算符优先级
  9. 微型计算机主要特点有哪些,微型计算机的主要特点是什么呢?
  10. Nginx配置防盗链和内核参数优化
  11. Chinese-Whisper聚类算法
  12. 2022年全球市场颈椎按摩仪总体规模、主要生产商、主要地区、产品和应用细分研究报告
  13. SpringBoot 整合mybatis、mybatis日志、并测试findAll查询数据库方法
  14. echarts迁徙效果
  15. C++_DOS命令下_猫狗大战小游戏(初识QT小练习)
  16. GO语言-自定义error
  17. 指南Java面试常问问题及答案
  18. 让你流泪的不是毕业,而是无法再重走一次的青春
  19. python编写程序,父类是圆,派生出圆柱体。
  20. PTA 7-106 sdut-C语言实验——模拟计算器

热门文章

  1. 微信公众号开发 (2) 消息处理
  2. java 上传图片 打水印
  3. MacBooster 6 for Mac v6.0.6 软件卸载系统清理 破解版下载
  4. 验证码识别多账号微博自动模拟登录
  5. matlab-debug技巧
  6. 微信小程序用户登录流程思路及主要代码
  7. Flutter —— Packages 和 Plugin
  8. 计算机网络 --- IP
  9. Excel2016打开显示空白的解决方法
  10. Nginx极客时间:rewrite阶段的rewrite模块:return指令