期刊:Nucleic Acids Research

中科院分区:1区

影响因子:19.16

DOI

WebSever

Github:无

出版日期:2023-01-11

作者:张富浩; 李敏; 张剑; Lukasz Kurgan

  1. 摘要

基于序列的RNA结合残基预测器(RBRs)在结构注释或无序注释的结合区域上进行训练。最近一项关于蛋白质结合残基预测因子的研究表明,它们受到高水平交叉预测的困扰(蛋白质结合残基被预测为核酸结合),结构训练的预测因子对无序注释区域表现不佳,反之亦然。因此,我们分析了RBRs的结构和无序训练预测因子的代表集,以全面评估其预测的质量。我们依赖于一个新的低相似基准数据集的实证分析表明,结构训练的RBRs预测器对结构注释的蛋白质表现良好,而无序训练的预测器对无序注释的蛋白质提供准确的结果。然而,这些方法在相反类型的注释上效果一般,因此需要新的解决方案。使用经验方法,我们设计了HybridRNAbind元模型,在结合结构和无序注释RBRs的数据上测试时,生成准确的预测和低数量的交叉预测。

  1. 背景

蛋白质- RNA相互作用是许多细胞过程的工具,包括基因表达、RNA剪接和调控、蛋白质合成和转录后调控。这些蛋白质的调控不当会导致许多疾病,包括癌症、糖尿病、心血管和神经退行性疾病。蛋白质- RNA相互作用的分子水平细节可以从多种资源的数据中进行研究,例如涵盖原子水平细节的蛋白质数据库(PDB),以及提供残差水平注释的BioLiP和DisProt。然而,这些细节只适用于RNAbinding蛋白质的一小部分,这激发了开发精确计算工具的需求。

已经开发了许多方法来预测RNA在蛋白质中的结合。根据输入的不同,它们可以分为两类:基于结构的和基于序列的。基于结构的预测因子仅限于具有结构或结构可以准确预测的蛋白质。原则上,基于序列的预测器可用于描述任何蛋白质序列中的RNAbinding。基于序列的方法可以进一步细分为在蛋白质水平(即预测给定蛋白质序列是否结合RNA)和残基水平(即预测序列中RNA结合氨基酸)进行预测的方法。我们专注于基于剩余水平序列的预测器,因为与蛋白质水平方法相比,它们提供了更多的细节。

绝大多数基于序列的RNA结合残基预测器(RBRs)利用机器学习模型。这些模型是在训练数据集上计算/参数化的,以最小化预测与实际数据之间的差异。然后,训练过的模型可以用于预测训练数据集之外序列的RNA结合残基。其中一些预测因子还利用基于模板的建模,其中预测是从与RNA复杂的相似蛋白质转移而来的。基于训练数据集,基于序列的RBRs预测器可以分为两类:结构训练预测器和无序训练预测器。

前者使用训练数据集,其中RBRs的注释从蛋白质- RNA复合物的结构中提取,通常使用PDB和BioLiP数据库。后者应用训练数据集,其中RBRs定位在内在无序区域(IDRs),可以从DisProt和MobiDB数据库中提取。idr是蛋白质序列中在生理条件下缺乏稳定三维结构的片段。它们广泛存在于所有生物体中,尤其是真核生物中。大量研究记录了蛋白质- RNA相互作用的内在紊乱的普遍性和重要性。具有idr的蛋白质对基于结构的预测因子也具有挑战性,这进一步证明了我们对基于序列的预测因子的关注。

通过手工文献检索和过去的调查,我们确定了31个综合的基于序列的RBRs预测因子。我们发现了2个经过无序训练的预测因子和29个经过结构训练的预测因子,其中9个预测了RNA结合残基和dna结合残基。29个结构训练的预测因子包括(按时间顺序)郑等人的方法, BindN,郑和Miyano方法,RNABindR , PRINTR , RISP , Pprint , RNAProB , BindN+ , NAPS , PiRaNhA, ProteRNA, RBRspred , PRNA , PRBRs , Choi和Han方法,RNABindRPlus , aaRNA , SNBRFinder , Ren和Shen方法,PRIdictor , RNAProSite, DRNApred , PredRBRs , NucBind , ProNA2020 , NCBRPred和MTDsite。障碍训练的预测因子是DisoRDPbind和DeepDISObind。它们同时预测RNA、DNA和蛋白质结合残基。与结构训练方法相比,它们的数量相对较低,这可以解释为RBRs注释在idr中的稀缺性。DisProt是这些注释的唯一来源,只是在最近几年才收录它们。有趣的是,最近的一项研究表明,结构训练的蛋白质结合残基预测因子对于带有无序注释的蛋白质表现不佳,而无序训练的蛋白质结合残基预测因子对于带有结构注释的蛋白质提供不准确的预测。据我们所知,目前还没有针对RBRs的基于序列的预测因子分析这一问题的类似研究。

我们对31个结构和无序训练的预测因子的分析表明,它们中没有一个在训练过程中同时使用结构和无序注释的蛋白质。这表明,对于其他类型的注释,当前的预测器可能提供较差的结果。此外,这些预测因子总是根据它们自己的注释类型进行评估,即结构训练的预测因子不会在无序注释的蛋白质上进行评估,反之亦然。此外,最近的研究确定并讨论了一个交叉预测问题,其中与给定伙伴类型相互作用的残差被交叉预测为与不同伙伴类型相互作用,基本上导致了伙伴不可知论预测。在我们的场景中,交叉预测意味着与非RNA伙伴(例如蛋白质和/或DNA)相互作用的残基被预测为RBRs。交叉预测可以归因于这样一个事实,即预测因子通常是用仅由RNA结合蛋白组成的训练数据集开发的,很少或没有与非RNA伙伴相互作用的蛋白质表示。虽然最近的一些预测因子,如NCBRPred、DRNApred和DisoRDPbind,旨在减少交叉预测的数量,但最近的文献表明,这对目前的RBRs预测因子来说是一个重大挑战。

为了解决这些尚未解决的问题,我们在一个新的低相似度基准数据集上,对具有代表性的无序和结构训练预测因子集合进行了经验评估,该数据集涵盖了与RNA和非RNA伙伴相互作用的结构和无序注释蛋白。我们测量和比较了整个测试数据集上的预测性能,包括交叉预测,并分别对结构注释和无序注释的蛋白质进行了测量。此外,受这一实证评估结果的启发,我们设计、比较评估并发布了一个新的HybridRNAbind元预测器,它结合了由最佳无序和结构训练的预测器产生的结果,对所有蛋白质产生准确的预测。

  1. 数据集

3.1预测因子的选择

我们考虑一组全面的无序和结构训练的预测器,这些预测器已发布,可供最终用户使用,并且相对较快。更具体地说,我们选择满足以下标准的预测器:

(i)从蛋白质序列生成预测;

(ii)在2021年9月我们收集他们的预测时,可以作为网络服务器和/或源代码使用;

(iii)在<30分钟内对平均长度序列进行预测;

(iv)生成包括二元预测(RBRs vs.非RBRs)和实值倾向(给定残基与RNA结合的可能性)的输出。用这些标准筛选31个预测因子,最终选择了8种方法,包括6个结构训练预测因子:Pprint(40)、BindN+(42)、DRNApred(54)、ProNA2020(57)、NCBRPred(58)和MTDsite (59);以及两个障碍训练预测因子:DisoRDPbind(60)和DeepDISObind(63)。

这八种工具涵盖了过去两年(自2020年以来)发表的多种预测因子,以及两种障碍训练方法,可以说都代表了该领域的最先进水平。他们应用了广泛的预测模型和输入。它们包括几个相对简单的早期工具,如应用支持向量机模型和进化信息的Pprint (2008);BindN+(2010),类似地使用支持向量机和进化信息,同时添加量化疏水性、pKa和分子质量/体积的输入;DisoRDPbind(2015),利用逻辑回归与一组扩展的输入,包括经验选择的氨基酸理化特征和假定的无序和二级结构;DRNApred(2017),该研究依赖于两层逻辑回归模型,并进一步扩展了包括进化信息、经验选择的氨基酸理化特征以及假定的无序、二级结构和无序的输入。最新方法的设计侧重于应用更复杂的预测模型。具有卷积和前馈单元以及多任务层的混合深度神经网络。我们还注意到,六个结构训练预测器依赖于仅从PDB中提取的训练数据集,而无序训练预测器的训练数据集仅从DisProt中收集(补充表S1)。

基准数据集

我们开发了一个新的基准数据集,目的是满足几个关键特征:

(i)它必须包含平衡数量的蛋白质,具有结构注释和无序注释的RBRs;

(ii)含有大量与非RNA结合伙伴相互作用的残基,以评估交叉预测;

(iii)与所选预测因子的训练数据集具有较低的序列相似性;

(iv)在结构注释蛋白与无序注释蛋白之间具有相似的结合残基率(RBRs和非RNA结合残基)。

这些特征确保我们可以可靠地比较结构标记蛋白和无序标记蛋白的结构训练和无序标记蛋白的预测因子的结果,并且由于基准蛋白与其训练数据具有相同的低相似性,因此可以公平地评估方法。考虑到这些标准,我们首先使用PDB作为源数据库,BioLiP作为识别相互作用残基的手段收集结构注释蛋白。我们专注于RNA和其他配体复合物中的高质量结构(即分辨率< 3˚A的晶体结构),并使用SIFTS(69)将它们映射到来自UniProt(68)的完整蛋白质序列中。这使我们能够收集最完整的信息,从所有相关的PDB结构中提取给定蛋白质的结合注释。我们使用DisProt和CAID(70)中介绍的程序提取基于无序的结合残基注释。最后,我们收集了8个预测因子的训练数据集:Pprint, BindN+, DRNApred, NCBRPred, ProNA2020, MTDsite, DisoRDPbind和DeepDISOBind。我们在补充表S1中总结了这些训练数据集。我们使用NCBI的BLASTclust相似性<30%(71)对训练蛋白、结构注释蛋白和无序注释蛋白的组合集进行聚类。为了确保用于评估的蛋白质与训练蛋白的共享<30%,我们使用不包括训练蛋白的群集中的蛋白质开发基准/测试数据集。结果,对于紊乱注释蛋白的较小集合,我们获得了25个RNA结合蛋白和195个与其他idr(不包括RBRs,但可能与其他伙伴相互作用)结合的蛋白。我们通过随机选择25个带有结构注释的RNA结合蛋白和195个没有RBRs的结构注释蛋白来匹配这种无序注释蛋白的选择。因此,基准/测试数据集包含440个蛋白质(220个失序标记和220个结构标记),175 278个残基,包括15%的结合残基。表1总结了测试数据集的详细分类。我们使用这个基准数据集来评估八个选定预测器的预测性能,以及我们在本研究中开发的一个新的元预测器。元预测器结合了从选定的表现良好的方法生成的预测。它依赖于一个机器学习模型,我们使用这三种方法的训练数据集进行训练。我们注意到,基于上述数据收集过程,这些训练数据集与测试数据集具有较低的相似性。

  1. 方法

4.1 HybridRNAbind: RBRss的新元预测因子

表2和表3中总结的结果表明,目前的方法都不能很好地用于“其他”类型的注释。此外,我们发现DeepDISOBind达到最好的结果disorder-annotated蛋白质(AUC > 0.7和AULCratio > 5 i n T b l e 2),而NCBRPred和MTDsite structure-annotated的前两名预测蛋白质(AUC > 0.7和AULCratio > 10表2中)。这些方法表现良好的一个潜在原因的数据集是他们依靠深卷积序列递归神经网络模型和/或订单信息,与其他使用不太复杂模型的预测器相比。这一观察结果得到了最近一项研究的支持,该研究实证地证明,在基于序列的内在紊乱预测相关问题上,深度神经网络优于其他模型(76)。受这些观察的启发,我们研究了结合最好的结构训练和无序训练的预测器是否可以产生一个在两种类型的注释中都能很好地工作的元预测器,从而在整个测试数据集上提供更准确的预测。我们的目标是结合少量的最佳方法来最小化元预测器的计算足迹.为此,我们设计了一个新的元预测器HybridRNAbind,它结合了一个精确的障碍训练预测器(DeepDISObind)和一个精确的结构训练预测器(NCBRPred或MTDsite)的预测。首先,我们使用最小-最大方法将每个预测器产生的倾向的范围归一化为单位间隔,其中用于生成二进制预测的阈值映射为0.5。根据表2,我们考虑两个选项来设置阈值,基于特异性= 0.9和0.95。接下来,我们将来自两种最佳方法(DeepDISObind和NCBRPred vs. DeepDISObind和MTDsite)的预测融合在一起,以生成可能同时适用于无序和结构注释蛋白的新分数。

我们考虑了两种替代方案:一种是使用启发式规则结合预测的简单共识,另一种是使用训练数据生成的机器学习模型。我们制定并比较了两个简单/基于规则的共识:简单平均,其中新得分是两个标准化得分的平均值;合并平均,如果两种方法都不能预测二进制绑定,则使用两种归一化得分的平均值,如果至少有一种方法预测二进制绑定,则使用两种得分的最大值。合并平均值对两种输入法的二进制预测执行逻辑或运算,有效地合并它们产生的假定RBRs。这导致2 × 2 × 2 = 8配置,给定两种类型的规则(简单平均vs合并平均),两对输入方法(DeepDISObind和NCBRPred vs DeepDISObind和MTDsite),以及两种推导二元预测和正态化的方法(特异性= 0.9 vs 0.95)。基于机器学习模型的方法应用了三种流行的算法来使用输入预测器的训练数据集生成元模型:DeepDISObind, NCBRPred和MTDsite。

NCBRPred和MTDsite使用相同的训练数据集(补充表S1),我们将其与DeepDISObind的训练数据集结合起来。我们应用了一个简单的逻辑回归来实现预测的加权平均和两个更高级的算法:随机森林(77)和XGBoost(78)。我们没有使用更复杂的算法,因为输入特征(即预测)的数量很低。我们通过在训练数据集上执行基于3倍交叉验证(在蛋白质水平上)的网格搜索来参数化随机森林和XGBoost;逻辑回归不需要参数化。对于随机森林,我们考虑树的数量={15,20,50,75,100,200},最大树深度={3,4,5,6,7}。对于XGBoost,我们尝试树数= {15,20,50,75,100,200},m a x树深度={3,4,5,6,7},学习率={0.1,0.3}。补充表S3比较了由结果元预测器产生的预测质量,包括简单/启发式方法和三种机器学习模型。

我们发现,与使用DeepDISObind和MTDsite相比,将DeepDISObind与NCBRPred结合使用可以产生更高的预测质量(更高的auc和AULCratios)。对于启发式元模型,使用更高的基于特异性的阈值略微减少了过度预测,正如预期的那样,与简单平均值相比,合并平均值产生了更多的假定RBRs,这可以从更高的AULCratios中得到证明。XGBoost和随机森林产生的模型提供类似水平的预测性能,随机森林在包括无序和结构注释蛋白的数据集上评估时具有较小的优势(AUC = 0.733 vs. 0.730, AULCratio = 9.55 vs. 9.46)。这两个模型都优于简单的逻辑回归(AUC = 0.728, AULCratio = 9.37)。随机森林模型也比最佳启发式元模型更准确(AUC = 0.729, AULCratio = 9.55)。总之,这些结果表明,最佳配置结合了DeepDISObind和使用随机森林模型的NCBRPred,这是我们用来实现HybridRNApred的版本。图2显示了HybridRNApred的流程图。

接下来,我们将HybridRNApred与现有方法进行实证比较。表2展示了新的元预测器在测试数据集上生成最准确的结果,AUC = 0.73, AULCratio = 9.55。这些预测在统计学上优于当前方法的结果(p值< 0.01)。当特异性设置为0.9时,HybridRNApred的TPR(即敏感性)达到0.33,在统计学上优于现有方法的TPR (0.09 ~ 0.29) (p值< 0.01)。我们注意到敏感性值可以通过降低特异性来提高,这种关系由补充图S1A中的ROC曲线描述。重要的是,该图揭示了HybridRNApred的ROC曲线始终高于其他工具的曲线(即高于整个特异性范围)。我们还发现,HybridRNApred与紊乱标记蛋白的最佳紊乱训练DeepDISObind的预测质量相匹配(AUC = 0.72 vs . 0.72;AULCratio = 5.0 vs 5.3),同时对结构注释蛋白具有与最佳结构训练MTDsite相似的预测性能(AUC = 0.76 vs 0.76;AULCratio = 19.8 vs . 10.0)。同样,在对来自测试数据集的50个RNA结合蛋白(Supplementary Table S2)进行评估时,HybridRNApred获得的AUC = 0.80, AULCratio = 5.4,在统计学上高于现有方法的结果(p值< 0.01),其次是DeepDISObind获得的AUC = 0.77, AULCratio = 4.4。此外,与25种紊乱注释RNA结合测试蛋白的最佳紊乱训练预测器相比,HybridRNApred表现相似(AUC = 0.83 vs . 0.83;AUC = 5.2 vs . 5.8)和25个结构注释RNA结合测试蛋白的最佳结构训练预测器(AUC = 0.73 vs . 0.75;AULCratio = 9.2 vs 7.1)。我们还使用精度-召回曲线进行了评估(见补充图、补充图S4以及表S4和表S5),这些结果与基于AUC和AUCratio的结果高度相关,得出了相似的结论。最佳基于结构的方法在结构标注的数据上的性能与最佳基于无序的方法在无序标注的数据上的性能相匹配的能力来自于合并最佳无序训练和结构训练预测输出的底层设计。

表3着重于交叉预测和过度预测,表明HybridRNApred产生了具有竞争力的结果。对于结构注释蛋白,HybridRNAbind的AUCPC和AUOPC <0.3,其平均值为0.252,而第二优mtd位点的平均值为0.279。我们的元预测器还确保了无序注释蛋白的AUCPC和AUOPC的最低平均值(0.329 vs次优DeepDISObind的0.340)和完整测试数据集(0.310 vs次优DeepDISObind的0.355)。通过对TPR / CPR和TPR / OPR比值的分析,可以得出类似的结论(图1和补充图S3)。图1显示,在测试数据集中,HybridRNApred获得了最高的TPR / OPR比率(灰色条)和第二好的TPR / CPR比率(黑色条)。我们得出的结论是,HybridRNApred产生的预测具有相当低的交叉预测率和过度预测率,这是由于其整体的高预测质量。总之,我们发现新的元预测器在测试数据集上显著优于其他方法,同时与最佳的无序训练/结构训练方法在无序注释/无序注释蛋白质上的结果匹配,并提供相对较低水平的交叉预测。

4.2 与基于结构的RBRs预测的比较

受到最近蛋白质结构预测领域的转化进展的激励(79,80),我们将基于序列的方法(包括HybridRNAbind)与具有代表性的基于结构的RBRss预测器进行了比较。我们选择了最近发表的PST-PRNA(81),因为该工具易于获得,计算效率高,并被证明优于其他近期基于结构的预测器,如GraphBind(82)和NucleicNet(83)。我们使用AlphaFold 2(80)预测给定测试蛋白序列的结构,并将此假定结构作为预测RBRss的PST-PRNA的输入。我们修改测试数据集以删除与PST-PRNA训练数据集具有>30%序列相似性的序列,使用与我们在“基准数据集”部分中描述的相同的过程。所得到的测试数据集与所有基于序列的预测器和PST-PRNA的训练数据具有低序列相似性,包括419个蛋白质,其中43个RNA结合蛋白。我们从原始的测试数据集中只删除了21个蛋白质。表5总结了结果。相应的ROC曲线见补充图S5。我们发现,基于结构的PST-PRNA对结构注释蛋白产生了最准确的结果(AUC = 85, AULCratio = 11.2),而HybridRNAbind位居第二(AUC = 0.83, AULCratio = 32.4)。PST-PRNA的AUC显著优于其他所有方法(p值< 0.01)。这一强大的结果可以归因于AlphaFold 2对结构的准确预测,结合PST-PRNA生成的高质量结果。我们还注意到,与PSTPRNA相比,Hy bridRNAbind、NCBRpred和ProNA2020具有统计学上更好的AULCratio值(p值< 0.01)。后者是由于这三个基于序列的预测因子在FPRs < 0.1时获得更好/更高的ROC曲线(补充图S5B)。然而,PST-PRNA对紊乱标记蛋白的表现一般,AUC为0.61,AULCratio = 3.5,而HybridRNAbind (AUC = 0.71)和DeepDISObind (AUC = 0.70)对这些蛋白的表现较好。当使用整个数据集时,与包括PST-PRNA (AUC = 0.66, AULCratio = 3.9)和DeepDISObind (AUC = 0.68, AULCratio = 4.9)在内的其他方法相比,HybridRNAbind产生了最准确的预测(AUC = 0.74, AULCratio = 8.1) (p值< 0.01)。总之,我们的分析表明,基于结构的PST-PRNA与基于序列和结构训练的RBRs预测器对紊乱注释蛋白的预测性能相似。这是因为对位于无序注释蛋白中的无序区域的预测结构可能质量较低和/或由于PSTPRNA是在结构注释蛋白上训练的,因此它无法学习如何预测无序注释蛋白。

  1. 模型

  1. 结果

6.1目前基于序列的RBRs预测器的预测性能

我们比较了所选的8个基于序列的预测因子的预测性能,包括两种无序训练方法(DisoRDPbind和DeepDISOBind)和六种结构训练方法(Pprint, BindN+, DRNApred, NCBRPred, ProNA2020和MTDsite)在整个测试数据集和结构和无序注释蛋白的子集上的预测性能。测试集的结果如表2底部所示,表明预测性能相对适中,即AUC值< 0.70。DeepDISObind获得了最高的AUC = 0.69,而NCBRPred获得了最高的AULCratio = 8.50。后者表明,当FPR值较低时,NCBRPred是最佳选择,优于随机预测器850%。相应的ROC曲线如补充图S1A所示,确实显示了当FPR <0.15时,NCBRPred的曲线是最好的。此外,统计显著性分析(详见2.3节)表明,DeepDISObind的AUC在统计学上高于目前所有其他方法的AUC (p值< 0.01),但其AULCratio显著低于NCBRPred的AULCratio (p值< 0.01)。二元指标与基于无阈值AUC的结果相似,NCBRPred、Pprint和DeepDISObind获得了灵敏度(给定固定特异性)、特异性(给定固定敏感性)和maxF1的最高值。与AULCratio值一致,NCBRPred在高特异性= 0.95和0.90时提供了最高的敏感性,分别对应于FPR = 0.05和0.10。

有趣的是,与整个测试数据集的结果相比,结构注释和无序注释蛋白质的结果有很大的不同。表2显示,DeepDISObind在整个数据集上获得了最高的AUC (AUC = 0.69),在无序注释的蛋白质上获得了准确的结果(AUC = 0.72),而在结构注释的蛋白质上表现相当差(AUC = 0.64)。同时,在结构标记蛋白上具有最佳AUC的方法MTDsite (AUC = 0.76),在无序标记蛋白上得到的结果要差得多(AUC = 0.60)。补充图S1D和G分别显示了结构注释蛋白和失序注释蛋白的8个预测因子的ROC曲线。

使用表2和这些图,我们发现只有经过结构训练的预测因子才能为结构注释蛋白提供准确的结果,即确保这些蛋白的AUC >0.70和AULCratio >8.0的方法都是经过结构训练的(Pprint, NCBRPred和MTDsite)。同样,只有经过无序训练的预测器在无序注释蛋白上表现良好,DeepDISObind是唯一确保AUC >0.70和AULCratio >5.0的工具,并且所有经过结构训练的预测器的AUC <0.64和AULCratio <4.0。统计显著性分析表明,结构训练最好的mtd位点的AUC、AULCratio和maxF1值在统计学上优于结构注释蛋白的两个紊乱训练预测指标的值(p值< 0.01)。同样,与所有结构训练方法相比,最好的紊乱训练DeepDISObind的AUC、AULCratio和maxF1值在统计学上更好(p值< 0.01)。

此外,我们对来自测试数据集的50个RNA结合蛋白的子集评估这些方法。这与以往的研究一致,这些研究通常考虑仅由RNA结合蛋白组成的数据集(7,10,12,40,42,58),因此具有较高的RBRs率。在补充表S2中总结的RNA结合蛋白的结果指向了与完整测试数据集上的结果相似的结论。更具体地说,在无序和结构注释的RNA结合蛋白组合集上的最佳结果是由DeepDISObind生成的,其AUC = 0.77。虽然对25个无序注释的RNA结合蛋白子集的最佳结果是由无序训练的DeepDISObind (AUC = 0.83)获得的,但该方法在25个结构注释的RNA结合蛋白上表现不佳(AUC = 0.606)。另一方面,结构训练的预测因子对无序注释的RNA结合蛋白(其AUC范围在0.50到0.68之间)不准确,但对结构注释的蛋白产生高质量的结果,其中ProNA2020获得了最高的AUC = 0.75。相应的ROC曲线见补充图S2A(所有RNA结合蛋白)、S2B(结构注释的RNA结合蛋白)和S2C(紊乱注释的RNA结合蛋白)。

总之,我们在测试数据集上观察到适度的预测性能水平。这可以用当前方法的二分法来解释,这种方法只对它们训练过的蛋白质提供准确的结果。更具体地说,最好的无序训练方法(DeepDISObind)在无序注释的蛋白质上获得了相对较强的结果,但在结构注释的蛋白质上表现相当差。另一方面,最好的结构训练模型(Pprint, NCBRPred和MTDsite)对结构注释的蛋白质产生准确的结果,而对无序注释的蛋白质产生不准确的预测。这与最近的结果一致,这些结果显示了蛋白质结合残基预测的类似模式(65)。我们还观察到相对较高水平的交叉预测,其中一些方法似乎不加区别地预测所有结合残基。

  1. 讨论

7.1 RBRs的最佳失调训练和结构训练预测因子的残差水平分析

我们研究了结构训练方法仅对结构注释的蛋白质做出准确预测的模式,以及对无序注释的蛋白质表现良好的结构训练预测器的模式是否扩展到各种氨基酸类型。我们计算了精确无序训练DeepDISObind对20种氨基酸类型的预测的AUC值,分别用于结构注释和无序注释的蛋白质。我们同样计算了三个精确结构训练模型(Pprint, NCBRPred和MTDsite)在两个蛋白质集上产生的平均预测的20个AUC值。表4比较了这些结果。我们发现,在所有氨基酸类型上对紊乱注释蛋白(表4中最后两列的粗体)进行测试时,紊乱训练的预测比结构训练的预测更准确。

类似地,当对结构注释的蛋白质进行评估时,结构训练的预测几乎优于无序训练的预测(表4中第三和第四列的粗体);唯一的例外是色氨酸(W),它的无序和结构训练预测都相当准确。总之,这一分析表明,这种模式在不同的残留物类型中是普遍存在的。

有趣的是,我们注意到结构训练的预测对于三种氨基酸类型的无序注释蛋白表现相对较好(AUC > 0.65):精氨酸(R),蛋氨酸(M)和赖氨酸(K);我们在表4中用下划线标识它们。使用最近发表的RNA结合倾向量表(使用PDB数据估计)(8),可在表4的第二列中获得,我们发现这三种氨基酸类型具有较高的RNA结合倾向。我们假设,结构训练方法可以相对准确地预测无序注释蛋白质中的这些残基,因为结构注释训练数据集中包含的一些RNA结合界面实际上包括与RNA相互作用时折叠的无序区域。

最近对PDB结构的分析支持了这一说法,该分析表明许多蛋白质- RNA界面位于无序区域(74)。类似地,我们观察到,对于结构注释蛋白的七种氨基酸类型,包括缬氨酸(V)、蛋氨酸(M)、丙氨酸(A)、色氨酸(W)、异亮氨酸(I)、甘氨酸(G)和亮氨酸(L),紊乱训练的预测是相当准确的(AUC > 0.65);我们在表4中强调了它们。美国荷兰国际集团(ing)流行TOP-IDP内在障碍倾向量表(75),第三列在表4中所示,我们发现他们排除氨基酸类型倾向高障碍(P, E、K、年代,Q,和H)。这可以解释基于一个前提,这七个disorder-annotated氨基酸可能是结构化的训练数据集,因此disorder-trained预测可以将这部分模型到structure-annotated数据。

总的来说,这些结果表明,至少部分预测模型可以跨结构注释和无序注释数据,支持设计元预测器的想法。

  1. 分析

8.1预测RBRs分析

RBRs的注释,特别是对于结构注释的蛋白质,依赖于某种任意的方法,如果给定的氨基酸至少有一个原子与一个RNA原子足够接近,则假设它与RNA结合。

例如,最近的结构训练MTDsite使用3.5˚A作为最大距离的截断点(59),而BioLiP应用了更复杂的方法,最大距离计算为0.5˚A加上两个最近原子的范德华半径之和,一个来自蛋白质,一个来自RNA(5)。这些差异不可避免地导致同一蛋白质的天然RBRs注释略有不同。因此,我们通过分析假阳性(错误预测的假定RBRss)是否位于本地RBRss附近,来调查预测是否对这些差异敏感。换句话说,序列中与原生RBRss相邻的氨基酸预测的RBRss可能是由注释的阈值依赖性质驱动的,也许不应该被视为错误。

图3分析了序列中原生RBRs附近的假定RBRs的存在情况;我们不能在结构中使用接近性来执行这种分析,因为一些注释涉及无序区域。x轴定义了我们分析的残基与最近的原生RBRs之间的位置数,而y轴量化了相应的tpr,假设假定的RBRs在由x轴定义的距离内是正确的。换句话说,当x = 0时的tpr值与表2中报告的值相同,而当x = 1,2,3时,他们也将定位于本地RBRss附近的假定RBRss视为真阳性。我们涵盖了最佳的每个形成预测因子(HybridRNAbind, NCBRPred, MTDsite和DeepDISOBind),并根据我们在表2中应用的相同的两个阈值定义二元预测(即特异性= 0.90和0.95)。

有趣的是,我们发现由每种方法生成的大量假定RBRs位于序列中本机RBRs的相邻位置。从x = 0到n d x = 1之间tpr的大幅增加来看,这是显而易见的。例如,在特异性= 0.90时,HybridRNApred的TPR从0.33增长到0.40,MTDsite的TPR从0.27增长到0.39。当x = 2 and x = 3时,增加的速度显著减缓,即HybridRNApred的TPR分别增长到0.44和0.46,MTDsite的TPR分别增长到0.45和0.50。这意味着与原生RBRs相邻位置的“假阳性”要比更远位置的“假阳性”频繁得多。反过来,这表明一些我们归类为过度预测的假阳性可能是由用于注释结合残基的不同方法引起的,实际上可能对应于正确的预测。这一结果与最近的研究一致,这些研究也发现在天然蛋白质和核酸结合残基附近的“假阳性”显著增加。考虑到RBRs注释方式的可变性,我们在表2中量化的预测性能可能低估了实际质量。

8.2 case study

我们阐述了由新的元预测器生成的预测,以及HybridRNAbind使用的两种性能良好的方法DeepDISObind和NCBRpred作为输入,用于测试蛋白质之一60S核糖体蛋白L28 (UniProt ID: P02406)。我们在图4A中看到的这个例子,旨在举例说明元预测及其输入之间的差异。该蛋白包括多个RNA结合区域,包括n端长区域(M1至K47),序列中间的中等大小结合区域(K55至E84),以及c端一对短区域(L113至I118和S131至L133)。基于MobiDB数据库的注释,长区域(M1到H39)的一个大片段本质上是无序的(17)。这可能就是为什么无序训练的DeepDISObind将这些残基预测为RBRs。中等大小和短的结合区域位于该蛋白的结构部分,相应地,经过结构训练的NCBRPred可以识别大多数这些RBRss。新的元预测器结合了DeepDISObind和NCBRPred的结果,与单独使用这两种方法相比,结果有所改进。HybridRNApred模拟了两种输入预测器对长结合区域的预测,两种方法都产生高倾向值;通过使用来自NCBRPred的更准确的结果,修复了DeepDISObind对结构化中型区域的预测不足;并利用DeepDISObind的低分,减少NCBRpred产生的c端附近RBRss(即假阳性数)的过度预测。图4B将来自HybridRNAbind的基于序列的预测映射到L28蛋白与核糖体RNA复合物的结构中。结果表明,RBRs的正确预测(绿色部分为真阳性)位于嵌入RNA的蛋白质部分,而非RBRs的正确预测(灰色部分为真阴性)则集中在延伸到RNA外的蛋白质片段中。总而言之,这个案例研究证明了我们的元预测器所使用的方法的有效性。

8.3 讨论

基于序列的RBRs预测因子分为两个不同的亚组:结构注释蛋白和无序注释蛋白。受最近一项分析蛋白质结合残基预测因子的研究(65)的激励,我们进行了一项全面的比较研究,使用涵盖结构和无序注释蛋白的低相似基准数据集,调查了RBRss预测因子的两个亚组的代表性集合。

我们发现,目前RBRs的预测因子提供了中等水平的预测性能。这可以用我们的经验观察来解释,它们只对训练过的蛋白质提供准确的结果。更具体地说,无序训练方法在无序标注的蛋白质上表现良好,这与他们的训练数据集一致,而对于结构标注的蛋白质,它们产生的预测质量相对较差,因为结构标注的蛋白质不包括在他们的训练数据集中。类似地,结构训练方法为结构注释的蛋白质生成准确的结果,而对无序注释的蛋白质表现不佳。这可以通过开发新的工具来解决,这些工具可以同时训练结构注释和无序注释的蛋白质。我们发现他们的预测具有相对高水平的交叉预测的特点,一些方法不加区别地预测结合任何配体类型的残基。此外,我们还表明,一个具有代表性的基于结构的RBRss预测器依赖于AlphaFold 2生成的假定结构,在结构注释的蛋白质上产生准确的结果,而在无序注释的蛋白质上表现不佳。

此外,我们对当前方法和新元模型产生的结果进行的实证分析发现,与序列中更远的位置相比,与原生RBRs相邻的序列位置假阳性更频繁。考虑到结合残基注释在某种程度上的任意(即依赖于阈值)性质,这一结果表明,其中一些假阳性可能对应于正确的预测。这与为预测蛋白质和核酸结合残基所做的类似分析一致(54,84),并表明测量的预测性能可能低估了实际性能。

论文解读-HybridRNAbind:预测结构注释和无序注释蛋白质的RNA相互作用残基相关推荐

  1. 论文解读:利用结构隐代码的隐神经表示方法来合成动态人体的新颖视角

    从稀疏多视点视频合成表演者新颖视角图像.数据输入是通过同步的RGB相机捕获的表演者视频.体神经捕获表演者的3D几何和外表,用来进行3D重建和新颖视角合成. 01 摘要 本论文主要解决在稀疏排列相机情况 ...

  2. 论文解读:《PST-PRNA:使用蛋白质表面地形和深度学习对RNA结合位点的预测》

    Title:PST-PRNA: prediction of RNA-binding sites using protein surface topography and deep learning 期 ...

  3. 直播 | ACL 2021论文解读:表征与结构兼备,结构化语言模型R2D2

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  4. Nature论文解读 | 基于深度学习和心脏影像预测生存概率

    作者丨Peter 单位丨某基因科技公司生物信息工程师 研究方向丨生物信息 本文解读的文章来自今年 2 月份的 Nature 杂志新子刊 Machine Intelligence,标题为:Deep-le ...

  5. 论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

    摘要: 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求.本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER) ...

  6. 论文解读:《多层肽 - 蛋白质相互作用预测的深度学习框架》

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

  7. 论文解读:《基于注意力的多标签神经网络用于12种广泛存在的RNA修饰的综合预测和解释》

    论文解读:<Attention-based multi-label neural networks for integrated prediction and interpretation of ...

  8. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  9. 论文解读:《DeepIDC:基于异构信息和深度学习的注射用药物组合预测框架》

    论文解读:<DeepIDC: A Prediction Framework of Injectable Drug Combination Based on Heterogeneous Infor ...

最新文章

  1. 嵌入式开发常用工具软件
  2. 苹果CMSv10自适应高权重模板源码
  3. python3.7.3配置环境变量_配置环境变量切换到python3.7
  4. NumPy 统计方法
  5. bzoj4504 K个串
  6. VMWare虚拟机空间扩展
  7. angular访问后台服务及监控会话超时的封装实现
  8. 【MPPT光伏】基于MPPT的光伏并网系统的simulink仿真
  9. pdf英文转换成html网页,Pdf转HTML转换工具
  10. php7isapi,WINDOWS 2000下使用ISAPI方式安装PHP
  11. 图片颜色和相机的一些基本知识
  12. 微信公共平台 首次关注 自动回复消息
  13. 初等变换和阶梯矩阵【】
  14. Kaggle经典案例—信用卡诈骗检测的完整流程(学习笔记)
  15. 写给父亲的语音计算器(‘(‘‘)‘算法参与运算c#,二)
  16. python中re.compile_什么是pythonre.compile函数?
  17. 强连通分量分解详解 超级详细
  18. 关于如何调用苹果自带的地图APP
  19. 深度学习入门之神经网络的学习思维导图
  20. 草图大师sketchup的模型加载到cesium里显示 带贴图

热门文章

  1. Jetson-GPIO_python库 使用说明
  2. 人工神经网络模型是一种什么模型 - 人工神经网络的基础数学模型
  3. 【专题】中国手术机器人行业研究报告报告PDF合集分享(附原数据表)
  4. ChatGPT的回答是否可以被验证和验证准确性?
  5. 一起学 mybatis 基础教程
  6. python学会爬虫要多久_零基础三天学会Python爬虫(第二天)
  7. 如何养成高效的好习惯?
  8. Java学习——整型变量的使用说明
  9. matlab中希腊字母相除,matlab中希腊字母
  10. electron 安装import_使用 electron 做个播放器