Title:Pf-Phospho: a machine learning-based phosphorylation sites prediction tool for Plasmodium proteins

期刊:BIB

中科院分区:2区

影响因子:13.994

发表时间:2022年6月27号

web服务器:http://202.54.249.134/DB/index.php

摘要

即使有几种有机硅工具可用于预测哺乳动物,酵母或植物蛋白的磷酸化位点,但目前尚无用于预测疟原虫蛋白磷脂的软件。然而,在过去的十年中,大量磷酸化 - 蛋白质数据的可用性以及机器学习的进展(ML)算法为质量系统破译磷酸化模式和开发基于ML的磷材料预测工具的机会开辟了机会。我们已经开发了PF磷酸,这是一种基于ML的方法,用于通过使用12 096个磷脂的大量数据集训练随机森林分类器,这是恶性疟原虫和Bergei疟原虫。在12个已知的磷脂中,有75%的地点已用于培训/验证分类器,而剩余的25%已被用作盲目测试的完全看不见的测试数据。令人鼓舞的是,PF磷酸可以预测具有84%敏感性,75%特异性和78%精度的非激酶磷脂材料。此外,它还可以预测五种质子激酶的激酶特异性磷酸材料 -  PF PKG,恶性疟原虫,PF PKA,PF PK7,PF PK7和PBCDPK4,具有很高的精度。 PF-phospho(http://www.nii.ac.in/pfphospho。html)优于其他广泛使用的磷酸材料预测工具,这些工具已通过使用哺乳动物磷酸蛋白酶数据进行训练。它也已与其他广泛使用的资源(例如plasmodb,mpmp,PFAM)集成在一起,并通过Alphafold2进行了基于ML的预测结构。目前,PF磷酸是唯一用于基于ML的疟原虫信号网络的预测,是一个用户友好的平台,用于整合磷酸化信号的综合分析以及代谢和蛋白质 - 蛋白质 - 蛋白质相互作用网络。

1. 方法和数据集

数据集

通过个别低通量实验以及磷蛋白组学研究确定的已知磷酸化点的现有数据被用来训练ML模型,以预测疟原虫蛋白中可能被磷酸化的S/T/Y残基。在文献中搜索疟原虫蛋白磷酸化的发生情况。由于实验验证的磷酸化位点的数据稀少,在不同的已发表的关于不同疟原虫物种的全球磷蛋白组学研究中确定的具有高置信度的磷酸化位点被编入目录并使用。1列出了文献中报道的野生型和基因敲除/封锁条件下的各种不同的全球磷蛋白组学研究,以及从每个研究中汇编的磷酸位点的数量。从Table 1[1, 24-33]中列出的九项不同的研究中,共汇编了1988种疟原虫蛋白质的12394个已知的磷酸酶位点的出现。这12394个来自1988年疟原虫蛋白的位点被用作建立独立于激酶的磷酸位点预测的ML模型的正面数据集。这1988个蛋白质中剩余的没有被磷酸化的丝氨酸/苏氨酸/酪氨酸残基被认为是阴性数据集。同样大小的阳性和阴性数据集被用于训练和测试(详见补充数据中的材料和方法)。以磷酸化残基为中心的13位多肽序列被用于训练和测试磷酸基点预测的ML模型。为了评估模型,我们从正反两方面分别保留了25%的13-mer序列,建立了一个基准数据集。其余75%的13-mer序列被用于训练模型。在特定激酶的正常与敲除/剔除条件下进行的差异性磷酸化蛋白质组学研究提供了有关被相应激酶磷酸化的位点的信息。基于这些研究,我们收集了PfPKG、PfCDPK1、PfPKA、PfPK7和PbCDPK4[1, 24, 27, 31, 32]的激酶特异性磷酸化位点数据(Table 1)。ML模型仅针对具有至少40个已知底物磷酸化位点的激酶建立,并且通过从S/T/Y中随机挑选被其他四种激酶磷酸化的相同数量的位点来创建特定激酶的负数据集(详见补充数据中的材料与方法)。在PfPKG、PfCDPK1、PfPKA、PfPK7和PbCDPK4[13, 14]的这些阳性和阴性数据集上,也评估了其他可用的公共领域磷酸化点预测工具NetPhorest-2.1和GPS 5.0的性能,使用其相应的激酶家族特定预测器(Table S3和Supple-mentary Data的材料和方法)。

方法

 2.结果

使用不同的算法(例如随机森林,Naivebayes,顺序最小优化(SMO)和深度学习)对ML分类器进行训练。随机森林是基于决策树的ML算法,而NaiveBayes是基于贝叶斯定理的简单算法。 SMO模型是基于输入数据点之间最大距离计算的优化培训的支持向量机(SVM)。深度学习分类器是WEKA工具箱中可用的DL4JMLP分类器。比较了10倍交叉验证(CV)中不同ML分类器的性能(表S2),并发现随机森林算法在ROCAUC(接收器操作特征曲线下的区域)值方面具有优于其他ML模型的性能。因此,在本研究和PF-Chospho Web服务器的实施中,随机森林被选为ML分类器。此外,还进行了2倍CV,以评估随机森林分类器的性能。 ROC和PR曲线显示了在整个得分截止范围内显示模型的性能,如图2所示,而在最佳分数截止下计算的混淆矩阵的其他统计参数的值如下2所示。从图2中的AUC值中可以看出,对于2倍和10倍CV分析,分类器的性能在特征向量中包括在二肽频率外,还包括13-Mer肽的固有疾病倾向时,分类器的性能略有增强。 。最佳性能模型,即包含IDP评分的10倍CV的ROC-AUC为0.86,PR-AUC为0.85,表明预测准确性略高。 2倍CV模型的相应AUC值分别为0.84和0.82,表明模型的收敛性在训练所需的数据量方面。表2显示了所有ML模型的最佳分数,显示了所有模型的灵敏度,特异性,精度,F1得分和Mathews的相关系数(MCC)。包含IDP评分的10倍CV模型的TPR(或灵敏度)为84%图3. ROC(A)和PR(B)曲线显示了与盲测的外部数据集对激酶无关的分类器的性能。 FPR为30%。相应模型的精度,F1得分和MCC值分别为0.78、0.77和0.55。受过二肽频率训练的模型在FPR值为31%的情况下显示为81%。这些结果表明,ML模型可以鉴定质子蛋白中的磷脂,其精度很高。基于这些结果,选择了所有进一步的磷材料预测工作和分析的特征,将二肽频率与IDR分数组合选择。

ML分类剂的盲试磷脂独立预测

在CV分析之后,对具有二肽频率和IDR评分训练的激酶独立的随机森林分类器的性能进行了标准,该独立测试数据集被分开保存,不包括在训练模型中。该数据集由来自1192蛋白的3098个已知磷酸化位点组成。使用前面描述的相同方法,为该正集生成了相等大小的负数据集。然后在此组合的正面和阴性测试数据集上运行10倍CV激酶非依赖性的随机森林分类器,总计6196 s/t/y包含13-Mer肽,以检查模型是否可以正确识别已知的磷酸化位点。图3显示了对此独立数据集执行的盲测的ROC和精度 - 记录曲线。可以看出,ROC-AUC值为0.86,PR-AUC值为0.85。因此,即使在完全看不见的数据上,模型的性能也与CV数据集一样好。从表3可以看出,在最佳分数截止下,该模型在FPR时达到了84%的TPR,所有其他统计参数表明对独立测试数据的预测准确性很高。这些结果使我们有信心,我们的激酶非依赖性磷酸材料预测指标足以鉴定所有不同疟原虫蛋白质的磷脂,因此将是研究基于磷酸质子的信号传导的有用效用。

论文解读:PF磷酸:基于机器学习的磷酸化位点预测疟原虫蛋白的工具相关推荐

  1. 论文解读《PScL-HDeep:基于图像的蛋白质利用集成在人体组织中的亚细胞预测定位》

    论文解读<PScL-HDeep:基于图像的蛋白质利用集成在人体组织中的亚细胞预测定位> 期刊名: BRIEFINGS IN BIOINFORMATICS 期刊名缩写:BRIEF BIOIN ...

  2. 【综述 寿命预测】基于机器学习的设备剩余寿命预测方法综述

    论文题目:基于机器学习的设备剩余寿命预测方法综述 论文年份:2019 论文作者:裴洪/胡昌华/司小胜/张建勋/庞哲楠/张鹏 论文单位:火箭军工程大学导弹工程学院 DOI:10.3901/JME.201 ...

  3. adf机器_智能运维高招 | 基于机器学习的磁盘故障预测

    原标题:智能运维高招 | 基于机器学习的磁盘故障预测 导读 RGF算法+迁移学习精确预测硬盘故障.<Predicting Disk Replacement towards Reliable Da ...

  4. 2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)

    2021年全国大学生数据统计与分析竞赛赛题B-基于机器学习的用户消费行为预测(上) 一.赛题B:用户消费行为价值分析 二.基于机器学习的用户消费行为预测 1.数据简介及清洗 (一)数据简介 (二)数据 ...

  5. 【计算机专业毕设之基于机器学习的大葱价格预测可视化分析-哔哩哔哩】 https://b23.tv/GLkWcjb

    [计算机专业毕设之基于机器学习的大葱价格预测可视化分析-哔哩哔哩] https://b23.tv/GLkWcjb https://b23.tv/GLkWcjb

  6. 论文解读:《基于注意力的多标签神经网络用于12种广泛存在的RNA修饰的综合预测和解释》

    论文解读:<Attention-based multi-label neural networks for integrated prediction and interpretation of ...

  7. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  8. 论文解读:《基于预先训练的DNA载体和注意机制识别增强子-启动子与神经网络的相互作用》

    论文解读:<Identifying enhancer–promoter interactions with neural network based on pre-trained DNA vec ...

  9. ECCV 2018论文解读 | DeepVS:基于深度学习的视频显著性方法

    作者丨蒋铼 学校丨北京航空航天大学在校博士,大不列颠哥伦比亚大学联合培养博士 研究方向丨计算机视觉 本文概述了来自北京航空航天大学徐迈老师组 ECCV 2018 的工作 DeepVS: A Deep ...

最新文章

  1. TreeSet集合(自然排序和比较器排序)
  2. 【NCEPU】吴丹飞:新闻文章点击预测
  3. iOS 9应用开发教程之ios9中实现按钮的响应
  4. MAT之PSO:利用PSO算法优化二元函数,寻找最优个体适应度
  5. Flask系列06--(中间件)Flask的特殊装饰器 before_request,after_request, errorhandler
  6. C++从0到1的入门级教学(十一)——友元
  7. 【VS开发】CString 转为 char *方法大全
  8. linux虚拟光驱挂载方法,Linux操作系统下虚拟光驱(iso)的挂载
  9. 浏览器滚动的详细解释 Vue 固定滚动位置的实现
  10. [Mugeda HTML5技术教程之3] Hello World: 第一个Mugeda动画
  11. 《Ray Tracing in One Weekend》——Chapter 4: Adding a sphere
  12. 【时间序列】python与时间序列-基本案例教程1(1.47万字,19个图,阅读需要37分钟)...
  13. Entrez检索实例 - NCBI
  14. 17python实操案例五
  15. 五大学科竞赛(三)-o2 -lm编译选项
  16. 项目管理100问 | NO.6 如何为项目制定里程碑?
  17. 塞雷三分钟漫画中国史3
  18. [ 常用工具篇 ] burpsuite_pro 安装配置详解(附安装包)
  19. bootstrap自学总结不间断更新
  20. SPARROW-JS 从0开始写 0依赖,原生JS框架

热门文章

  1. 用Python爬取了上万部电影的排名,周末周末好带女神一起去
  2. 穷人翻身远不是钱的事
  3. linux查看内存、cpu占用情况
  4. ESPHome 和 Home Assistant点灯握手
  5. 机器学习和特征工程理论与python代码实现 晓物智联
  6. 【zzq‘笔记】HDR成像技术学习(一)
  7. 企业网站首页设计常见的6种布局方式
  8. 【坤坤讲师--图】Dinic
  9. 缓存数据库选型——redis和memcached
  10. 语音增强--维纳滤波介绍及MATLAB实现