Capsule-LPI：基于胶囊网络的LncRNA-蛋白质相互作用预测工具

文章目录

1.摘要
2.研究背景
3.实验方法
4.评价标准
5.结论
6.论述

代码和预测网站：http://39.100.104.29:8080/lpc/predict/
原文：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8120853/

1.摘要

背景长非编码RNA（lncRNAs）在多种生物过程中发挥着重要作用。识别LncRNA-蛋白质相互作用（LPI）是理解LncRNA功能的关键。虽然已经开发了一些LPIs计算方法，但LPIs预测问题仍然具有挑战性。如何从更多的角度整合多模态特征，构建具有更好识别性能的深度学习体系结构一直是LPIs研究的重点。

结果：我们提出了一种新的多通道胶囊网络框架，用于整合多模态特征进行LPI预测，胶囊LPI。胶囊LPI整合了四组多峰特征，包括序列特征、基序信息、理化性质和二级结构特征。胶囊LPI由四个特征学习子网络和一个胶囊子网络组成。通过全面的实验比较和评估，我们证明多模特性和多通道胶囊网络的结构都可以显著提高LPI预测的性能。实验结果表明，胶囊LPI的性能优于现有的先进工具。胶囊LPI的精密度为87.3%，提高了1.7%。胶囊LPI的F值为92.2%，提高了1.4%。

结论：本研究提供了一种新的、可行的基于多模态特征和胶囊网络的LPI预测工具。Web服务器（http://csbg-jlu）。site/lpc/predi-ct）的开发是为了方便用户。

关键词：长非编码RNA、lncRNA-蛋白质相互作用、胶囊网络

2.研究背景

长非编码RNA（lncRNAs）是长度大于200 nt的非编码RNA，构成大部分转录本[1]。目前，越来越多的研究发现，lncRNAs在多种生物过程中发挥重要作用[2-5]，并与多种人类疾病如肿瘤和癌症高度相关[6-9]。然而，绝大多数lncRNAs的功能和分子机制尚不清楚。

为了了解lncRNAs的功能，有一条基本途径可以识别与lncRNAs相互作用的蛋白质。大多数lncRNAs需要与一个或多个蛋白质结合才能作用。基于LncRNA-蛋白质相互作用（LPI）结果，借助于丰富的蛋白质注释信息，可以进一步深入了解LncRNA的功能和分子机制。因此，对LPIs的研究具有深远的意义。探索LPI有几种方法，可分为实验方法[11]和计算方法。实验方法耗时且昂贵[12]，而计算方法则高效且经济。

LPI的计算方法很多。例如，Muppirala等人于2011年开发了一个名为RPISeq[12]的计算模型，该模型应用了lncRNAs和蛋白质的序列特征，并包含支持向量机（SVM）和随机森林（RF）分类器。2013年，Lu等人提出了一种名为LncPro[13]的方法，该方法综合了二级结构特征、氢键倾向和范德华相互作用特征，并选择矩阵计算作为计算方法。然后，Suresh等人在2015年提出了RPI Pred[14]，它使用序列特征和结构特征来开发基于SVM的模型。后来，Akbaripour Elahabad等人开发了RpiCool[15]，它利用序列特征和基序特征，并选择RF作为分类器。2015年，Li等人提出了一种新的LPI预测方法LPIHN[16]，该方法基于lncRNA-lncRNA相似性网络、lncRNA-蛋白质相互作用网络和蛋白质-蛋白质相互作用网络构建的异质网络上的随机游动和重启。2016年，Ge等人开发了一种预测LPBNI[17]的LPI网络计算方法。2017年，Zhang等人开发了LPLNP[18]，它集成了lncRNAs的相互作用谱、表达谱、序列组成特征和蛋白质的相互作用谱、CTD特征，并使用线性邻域相似性和标签传播过程来预测潜在的LPI。同年，Zhang等人提出了一种基于序列的特征学习方法，称为SFPEL-LPI[19]。SFPEL-LPI使用lncRNA序列、蛋白质序列和已知的lncRNA-蛋白质相互作用来计算三个lncRNA-lncRNA相似性和蛋白质-蛋白质相似性，并将它们与特征投影集成学习框架相结合。2018年，Zhao等人提出了一个半监督模型LPI-BNPRA[20]，该模型集成了lncRNA相似性矩阵、蛋白质相似性矩阵和lncRNA-蛋白质相互作用矩阵来推断LPI。然后，Zhao等人通过结合随机游走算法和邻域正则化物流，开发了用于LncRNA-蛋白质相互作用预测的IRWNRLPI[21]，其中包括LncRNA相似性矩阵、蛋白质相似性矩阵和LncRNA-蛋白质相互作用矩阵。Hu等人提出了一种集成方法，称为HLPI集成[22]，该方法集成了序列特征和基于SVM、RF和极端梯度增强的集成策略。2019年，Yi等人开发了LPI Pred[23]，其灵感来自自然语言和生物序列之间的相似性。LPI Pred使用word2vec分别获得RNA2vec和Pro2vec作为lncRNAs和蛋白质的单词嵌入特征。选择RF作为预测LPI的分类器。
对于大多数应用领域，在大样本集的支持下，深度学习模型比传统的机器学习具有更好的学习性能。深度学习体系结构擅长于高级特征提取，这允许实现端到端学习。深度学习架构的设计非常灵活。已经开发了许多深度学习架构，如CNN[30]、DBN[31]、RNN[32]、BiLSTM[33]、注意网络[34]、胶囊网络[35]和图形神经网络[36]。胶囊网络是最具代表性的网络之一。为了提高LPI预测的性能并探索胶囊网络对LPI的有效性，将胶囊网络应用于LPI预测，这是首次在图像识别领域提出的。在图像识别过程中，通过特征提取子网络获得的多个深度特征可以很好地用于胶囊网络进行预测[35]。与其他深度学习体系结构相比，胶囊网络对特征之间的关系更加敏感。与其他深度学习架构相比，capsule网络的另一个优势是需要训练的参数很少。在我们的架构中，胶囊网络部分只有36个需要训练的参数，这使得训练速度更快，并改善了过度拟合。

受胶囊网络更好的特征学习能力的启发，除了捕获LPI信息的全景外，还结合了多种特征，包括序列特征、基序信息、物理化学性质和二级结构特征。使用多峰特征的另一个原因是lncRNAs和蛋白质是复杂的，并且具有许多方面，例如序列信息、结构信息以及物理和化学信息。单模态特征难以充分表达lncRNA和蛋白质信息，因此理论上整合多模态特征可以产生更好的预测性能。同时，深度学习体系结构的灵活设计优势也为多模式功能的使用创造了机会。例如，Deng等人在2020年提出了一个名为DDIMDL[37]的多模态深度学习框架，该框架构建了基于深度神经网络（DNN）的子模型来处理四个特征，然后采用联合DNN框架来组合子模型进行预测。近年来，各种LPI预测方法[22,28,29]都采用了多模态特征，并取得了良好的效果。

3.实验方法

1.基于胶囊网络的LPI（LncRNA–protein interaction）预测方法概述
胶囊LPI流程图如图1所示。胶囊LPI包括两个步骤：（a）多模态特征提取。当胶囊LPI接收到一对LncRNA-蛋白质时，可以自动提取四组特征，包括序列特征、基序信息、理化性质和二级结构特征。每组特征在被提取后形成一个特征向量。因此，获得了四种不同的特征向量(b）胶囊LPI的结构。胶囊LPI的体系结构由四个特征学习子网络和一个胶囊子网络组成[35]。特征学习子网络由完全连接的层组成。通过多模态特征提取得到的四种不同的特征向量被输入到特征学习子网络中，以自动学习信息量更大、层次更高的特征。然后，胶囊子网络进一步整合特征并预测LPI
基于胶囊网络的LPI预测流程图如下图a：

图a.胶囊LPI的流程图。多模态特征提取。该图显示了一个LncRNA–蛋白质对的特征提取过程。首先，分别提取lncRNA和蛋白质的序列特征、基序信息、理化性质和二级结构特征。将lncRNA和蛋白质的相同特征组分别连接起来，产生四个特征向量。F1–F4分别代表序列特征、基序信息、理化性质和二级结构特征。请注意，四个特征向量的尺寸不同。

图b.胶囊LPI的结构。胶囊LPI的体系结构分为两部分，第一部分是四个不同的特征学习子网络，每个子网络由四个完全连接的层组成。第二部分是一个胶囊网络。F1–F4是特征向量，分别指序列特征、基序信息、理化性质和二级结构。首先，每个特征向量通过其自身的特征学习子网络得到一个三维输出向量。然后将输出向量作为胶囊处理并获得U1–U4。U1–U4包括各种信息，并根据每个特征进行预测。W1–W4是变换矩阵。它们能够将U1–U4转换为相同的预测空间，并且它们是第二部分中通过反向传播学习的唯一参数。U′1–U′4表示同一预测空间中不同特征的预测。接下来，添加U′1–U′4以获得新胶囊。使用“挤压”激活功能将新胶囊的长度压缩到0到1之间，以获得最终胶囊V。然后取V的长度代表最终的预测结果，长度大于0.5表示相互作用，长度小于0.5表示无相互作用。注意，U1–U4、U′1–U′4和V本质上是向量；我们称它们为“胶囊”，因为它们是胶囊网络的单元。

2.数据集描述
数据集从NPInter数据库下载[38]。该数据库删除了非人类物种的lncRNA–蛋白质相互作用对和长度小于200 nt的ncRNAs。最终保留了6204对lncRNA-蛋白质相互作用对。数据库中不存在负lncRNA–蛋白质样本，因此我们需要构建负样本。我们使用现有LPI预测方法中使用的负样本构造方法[15]。生成阴性样本集的过程如下：首先，从NPInter数据库中获得阳性样本中使用的所有lncRNAs和蛋白质，共有2356个lncRNAs和90个蛋白质。然后，将2356个lncRNAs和90个蛋白质逐个组合，形成212040个LncRNA-蛋白质对。最后，去除阳性样本中的6204个LncRNA-蛋白质对，205836（21040-6204）个LncRNA-蛋白质对被视为阴性样本。大型正样本和负样本之间的不平衡会导致预测偏差[39]，因此我们将205836个负样本随机分为33组，每组包含6204个负样本。到目前为止，我们已经获得6204个lncRNA-蛋白质相互作用对和33组由6204个lncRNA-蛋白质非相互作用对组成的集合，可在http://csbg-jlu上获得。站点/lpc/下载。每个lncRNA-蛋白质非相互作用对集与一个lncRNA-蛋白质相互作用对集相结合，以训练一个模型。然后，我们采用EasyEnsemble[40]对33个模型进行集成，以获得最终模型。更多详细信息请参阅（附加文件1:S1）。
3.多模态特征提取
为了获取LPI的更多视角，提取了四种类型的特征（序列特征、基序信息、理化性质和二级结构特征）。多模态特征的提取过程如图1a所示。以下四小节详细描述了每种类型的功能。
1.序列特征（Sequence features）
对于lncRNAs，选择4-mer频率特征以使用256（4×4×4×4）维向量对每个lncRNAs进行编码，并且向量的每个元素对应于对应的4-mer（e）的频率。GlncRNAs序列中的AUUC、AACG、CGUC）。计算频率的公式如下：

其中i是序列号，fi是第i个k-mer的k-mer频率，ni表示序列中第i个k-mer的数量。

k-mer：是指将一条序列分成包含k个碱基的子字符串，如果reads长度为L，k-mer长度设为k，则产生的k-mers数目为：L-k+1，例如序列AACTGACT，设置k为3，则可以将其分割为AAC ACT CTG TGA GAC ACT共6个k-mers。其中k一定是奇数，如果是偶数遇到回文序列可能会产生完全相同的k-mers。

对于蛋白质，为了降低特征维数，Novo方法[22]用于将氨基酸分为四类：{D，E}，{H，R，K}，{C，G，N，Q，S，T，Y，A}，{F，I，L，M，P，V，W}。然后选择3-mer频率特征，用64（4×4×4）维向量对每个蛋白质进行编码，向量的每个元素对应于蛋白质序列中相应3-mer的频率。频率的计算参考公式1。
我们选择4-mer频率特征和3-mer频率特征分别对每个lncRNA和蛋白质序列进行编码，因为较小的k值表示序列较差，而较大的k值容易导致稀疏表示。在现有模型中，lncRNA的4-mer频率特征和蛋白质的3-mer频率特征主要用于LPI预测[12,41–43]。
总的来说，每个lncRNA-蛋白质对的序列特征向量的维数为320（256 64）。

2.模体信息（Motif information）

模体（motif）是蛋白质分子中具有特定空间构象和特定功能的结构成分。其中一类就是具有特殊功能的超二级结构。一个模体总有其特征性的氨基酸序列，并发挥特殊的功能。
一般而言，常见的motion有以下几种形式：
有规则地聚集在一起形成全由α-螺旋、全由β-片层或α-螺旋与β-片层混合、具体说，形成相对稳定的αα、βββ、βαβ、β2α和αTα等超二级结构，又称模体(motif)或模序。

已经发现许多基序有助于预测RNA-蛋白质相互作用[44–46]。我们使用序列中每个基序的数量来形成基序特征。每个lncRNA用18维向量编码，对应18个基序：Fox1、Nova、Slm2、Fusip1、PTB、ARE、hnRNPA1、PUM、U1A、HuD、QKI、U2B、SF1、HuR、YB1、{AU}、{UG}和一个基序组，该基序组结合了Fox1、Nova、ARE、PUM和U1A。每个蛋白质都用11维向量编码，对应11个基序：{H，R}，{HR，RH}，{E}，{K}，{H}，{R}，{EE}，{KK}，{RS，SR}，{RGG}和{YGG}。每个图案的详细信息见（附加文件1:S2）。
总的来说，每个lncRNA-蛋白质对的基序特征向量的维数为29（18 11）。

3.理化性质（Physicochemical properties）
物理化学性质用于预测lncPro[13]和LncADeep[25]中的LPI。在胶囊LPI中，我们采用了lncPro中使用的物理化学性质，并添加了一些其他物理化学性质。对于lncRNA，范德华相互作用和氢键倾向[47]用于将每个lncRNA序列编码为2个数值向量。对于蛋白质，使用Bull& Breese疏水性[48]、Kyte& Doolittle疏水性[49]、Zimmerman极性[50]、Grantham极性[51]、等电点、体积、Eisenberg疏水性[52]和Hopp& Woods疏水性倾向[53]将每个蛋白质序列编码为8个数字向量。之所以选择这些物理化学性质，是因为它们已通过许多LPI方法验证。
然而，由于每个特征向量的维数取决于相应的lncRNA或蛋白质序列的长度，因此不同样本的输入特征向量维数不同。因此，需要将向量转换为相同的维度。这里，我们采用lncPro中的方法，并使用傅里叶变换，将两种物理化学性质转换为一个光谱域。傅里叶级数的公式如下：

其中L是原始特征向量的长度，Xn是原始特征向量中的第n个值。将傅里叶级数的前10项作为新的光谱特征向量。每个lncRNA序列被编码到与其两个物理化学特征向量相对应的两个10维谱向量中。每个蛋白质序列被编码成8个10维谱向量，对应于其8个理化特征向量。
总的来说，每个lncRNA-蛋白质对的理化光谱特性特征向量的维数为100（2×10 8×10）。

4.二级结构特征
lncRNAs和蛋白质的二级结构比序列更保守，这是推断LPI的一个重要特征。基于最小自由能算法，使用RNAfold[54]获得每个lncRNA的二级结构。然后，我们将二级结构转移到一个由0和1组成的数值载体上，其中成对的核苷酸被1替换，未配对的核苷酸被0替换。
还有一个问题是，数字特征向量的长度与序列的长度有关，这导致不同样本的输入向量维数不同。采用傅里叶变换对特征向量进行变换，保留前10项作为新的频谱特征向量。傅里叶级数如公式2所示。通过这种方式，获得每个lncRNA的二级结构特征向量，其维数为10。
对于蛋白质二级结构，首先使用捕食者获得每个蛋白质的二级结构序列[55]。然后，每个蛋白质的二级结构序列由Chou-Fasman倾向[56]编码到一个数字特征向量中，用于lncPro和LncADeep方法。每个特征向量也通过傅里叶变换进行变换，前10项保留为新的光谱特征向量。这样，每个蛋白质的二级结构特征向量的维数为10。
总的来说，每个lncRNA-蛋白质对的二级结构特征向量的维数为20（10）。
在此，完成了特征向量编码过程。对于每个lncRNA-蛋白质对，我们获得了4组特征向量：序列特征向量（320维向量）(Rna:256 Pro:64)、基序特征向量（29维向量）、理化性质特征向量（100维向量）和二级结构特征向量（20维向量）。

5.capsule-LPI的体系结构（Architecture of capsule‑LPI）
胶囊LPI的关键架构分为两部分，如图1b所示。第一部分是四个特征学习子网络，第二部分是一个用于预测的胶囊子网络[35]。本节详细介绍了胶囊LPI的体系结构和超参数设置。
每个特征向量需要一个特征学习子网络。每个特征学习子网络由完全连通的层组成，该子网络不仅可以提取高层特征，而且可以统一特征向量的维数。特征学习子网络的超参数如附加文件1:S3所示。通过实验，为每个子网选择了5个完全连接的层，因为当层数大于5时，预测精度没有显著提高，并且隐藏层数越大，计算量越大。通过多次实验获得了各隐层神经元的数目。PReLU用作激活功能。为了防止过度拟合，我们在隐藏层中添加了漏层[57]。
然后，将每个特征向量输入到其自己的特征学习子网中，每个特征向量的输出以维数3获得。之所以选择维数3，是因为在尝试多个输出维数后，当特征提取子网的输出维数为3时，模型的预测精度最高。
该体系结构的第二部分是胶囊网络。从特征学习子网中学习到的新的高级抽象特征向量被视为胶囊，并进一步馈入胶囊子网。胶囊本质上是一个载体；我们称之为“胶囊”，因为它是胶囊网络的单位，需要与向量区分开来。胶囊是一组神经元，与单个神经元不同，胶囊包含更多信息[35]。如图1b所示，U1–U4是对应于四种高水平放射性物质的胶囊的抽象特征，包含LPI的多个预测信息。W1–W4是能够将U1–U4转换为相同预测空间的转换矩阵，它们是第二部分中通过反向传播学习的唯一参数。U′1–U′4是同一预测空间中不同特征的预测。U′i的长度表示通过i预测得到的LncRNA-蛋白质的相互作用速率− 特征，其方向表示LPI上的其他信息。如果U′1–U′4的长度较长且方向接近，则这些特性表明，多个特征在预测倾向以及存储在胶囊中的其他交互信息方面支持LPI；如果U′1–U′4很长，但方向不同，这些特性表明，只有每个特征的预测倾向支持LPI，但存储在胶囊中的其他交互信息不足以支持LPI。该网络不仅考虑了每个特征的预测趋势，还考虑了其他交互信息以及不同特征之间的关系，进行预测。
为了确定胶囊（U′1–U′4）在预测倾向（反映在胶囊的长度上）以及其他相互作用信息（反映在胶囊的方向上）方面是否大部分与LPI一致，我们添加这些胶囊以获得新的胶囊S。如果S较长，则S的长度表明大多数胶囊（U′1–U′4）较长且胶囊的方向相似，表明U′1–U′4大部分与LPI一致，其其他存储信息也适用。在添加步骤中，我们不使用胶囊网络论文中使用的动态路由算法，因为我们是一个只需要输出一个胶囊的双分类问题，不需要动态路由算法。胶囊网络的体系结构如（附加文件1:S3）所示。

式中，V为输出胶囊，S为U′1–U′4之和。最后，取V的长度表示预测，大于0.5的长度表示相互作用，小于0.5的长度表示无相互作用。

4.评价标准

为了评估胶囊LPI的性能，我们使用六个评估指标：AUC、AUPRC、准确度、精密度、召回率和F值。AUC和AUPRC分别是ROC和P-R曲线下的面积。其余评估指标的公式如下所示：

其中TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性。TP是测试集中预测结果为阳性且标签也为阳性的样本数。FP是测试集中预测结果为正但标签为负的样本数。TN是测试集中预测结果为负值且标签也为负值的样本数。FN是测试集中预测结果为负但标签为正的样本数。精度反映了结果预测为正时的置信水平。灵敏度反映了当样本为正时我们捕获样本的概率。精度和F− 价值是用于评估综合绩效得分的综合指标。

5.结论

已经进行了三个实验来评估胶囊LPI的结构、特征组合和总体性能。

1.架构比较
首先，有必要评估胶囊LPI结构的性能。由于Capsule LPI采用深度学习架构，我们构建了三个深度学习框架，即全连接网络（FC）、CNN和LSTM，以与Capsule LPI架构进行比较。此外，我们还比较了现有LPI工具的体系结构，如LncADeep的深层叠加网络体系结构[25]。在我们设计的四种特征（序列特征、基序信息、理化性质和二级结构特征）上对这些结构进行了测试。此外，还添加了一组使用LncADeep特性的胶囊LPI和LncADeep结构之间的对照实验，以全面评估胶囊LPI结构的性能。LncADeep的特征包括序列特征和结构特征（附加文件1:S4）。表1显示了胶囊LPI体系结构和其他具有10倍交叉验证的体系结构的性能。
表1显示，在相同的特性和相同的测试环境下，Capsule LPI的体系结构比其他深度学习体系结构实现了更好的性能。在AUC、AUPRC、准确度、召回率和F值方面，CapsulateLPI在4种特征下分别达到95.31%、93.30%、91.66%、96.25%和92.02%，均高于FC、CNN、LSTM和深度叠加网络结构。胶囊LPI的结构在召回指标上有最大的改进，提高了近3%。高召回指数意味着CapsualPI的体系结构可以识别更多潜在的LPI。F值增加了近1%，表明胶囊LPI的整体性能更好。为了进一步评估Capsule LPI架构的改进是否显著，我们计算了Capsule LPI架构和其他深度学习架构之间F值的p值
表1在10倍交叉验证下，胶囊LPI与其他深度学习架构的性能比较

10-fold cross-validation，用来测试算法准确性。是常用的测试方法。将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证（例如10次10折交叉验证），再求其均值，作为对算法准确性的估计。
之所以选择将数据集分为10份，是因为通过利用大量数据集、使用不同学习技术进行的大量试验，表明10折是获得最好误差估计的恰当选择，而且也有一些理论根据可以证明这一点。但这并非最终诊断，争议仍然存在。而且似乎5折或者20折与10折所得出的结果也相差无几。

对十次迭代的结果进行配对t检验。不同架构比较的F值p值如下所示：6.53e-3用于胶囊LPI与FC，1.58e-4用于胶囊LPI与CNN，1.56e-5用于胶囊LPI与LSTM，4.53e-7用于胶囊LPI与lncADeep，8.13e-7用于胶囊LPI（使用lncADeep功能）与lncADeep（使用lncADeep功能）。所有p值均小于0.05，表明改善效果显著。当使用LncADeep的功能时，胶囊LPI的性能架构也高于LncADeep的性能，这表明胶囊LPI的架构不仅仅依赖于本文提到的4个功能。

2.对于不同特征组合的评估
在验证了胶囊LPI的结构性能良好后，需要选择适合胶囊LPI的多模态特征。这里评估了四个特性。为了了解每个特征在预测中是否有效，以及什么样的特征组合是最佳选择，我们进行了15个实验，使用Capsule LPI架构评估不同特征和特征组合的性能。当输入不同的功能组合时，需要对架构进行微调。当某些功能未被采用时，胶囊LPI架构只需关闭这些功能的相应通道。附加文件1:S5中显示了不同数量特征组合的胶囊LPI架构。表2显示了10倍交叉验证下不同组合的结果。
如表2所示，理化性质的单一特征召回率最高，为97.83%。序列特征、基序信息和理化性质的组合得到最高的AUC分数和精确度分数，分别为95.42%和88.46%。对于AUPRC、准确度和F值，4个特征的组合获得的最高值分别为93.30%、91.66%和92.02%。在6个评价指标中，4个特征组合的3个综合指标得分最高，可以认为4个特征组合更适合于胶囊LPI的架构。
如表2所示，理化性质的单一特征召回率最高，为97.83%。序列特征、基序信息和理化性质的组合得到最高的AUC分数和精确度分数，分别为95.42%和88.46%。对于AUPRC、准确度和F值，4个特征的组合获得的最高值分别为93.30%、91.66%和92.02%。在6个评价指标中，4个特征组合的3个综合指标得分最高，可以认为4个特征组合更适合于胶囊LPI的架构。

3.capsule‑LPI性能与现有工具的比较
在验证胶囊LPI的体系结构并为胶囊LPI选择合适的特征组合后，需要评估胶囊LPI的整体性能。

表2 10倍交叉验证下不同特征和不同特征组合的性能比较

表3在5倍交叉验证下，通过胶囊LPI和其他工具预测lncRNA-蛋白质相互作用的性能比较

比较了几种用于预测RNA-蛋白质相互作用的最新工具，即。ERPISeq[12]、lncPro[13]、RPI pred[14]、rpiCool[15]、IPMiner[24]和LncADeep[25]。为了使实验具有可比性，针对LncADeep中的方法对胶囊LPI进行了评估，其中采用了LncADeep中使用的相同数据集以及评估方法。对于相同的数据集，胶囊LPI使用与LncADeep完全相同的阳性样本。由于LncADeep不提供阴性样本，胶囊LPI使用与LncADeep相同的阴性样本生成方法。对于相同的评估方法，LncADeep中使用的5倍交叉验证用于评估胶囊LPI的性能。比较结果如表3所示。
如表3所示，在5倍交叉验证平均评估条件下，胶囊LPI的准确度为87.3%，F值为92.2%，优于其他现有方法。由于其他工具不支持再培训，我们仅计算了5倍交叉验证下胶囊LPI的AUC和AUPRC，分别为95.28±0.47%和95.26±0.62%。胶囊LPI的精度比其他工具的精度至少高1.7%，表明通过胶囊LPI预测得到的LncRNA-蛋白质相互作用对是高度可靠的。胶囊LPI的F值也达到了1.4%的改善，表明胶囊LPI的整体性能是最好的。在灵敏度方面，胶囊LPI获得97.6%，略低于RPISeq（RF）获得的最高灵敏度99.1%。然而，RPISeq在其他两个指标上表现不佳，其精度仅为50。因此，整体Capsule LPI优于当前优秀的工具。

6.论述

在结果部分，三个实验评估了CapsuleLPI的性能。首先，为了验证胶囊LPI的体系结构，对四种体系结构进行了测试。实验结果表明，该结构优于这四种结构，表明它是一种有效的结构。其次，进行了综合特征评价实验。我们考虑现有LPI预测工具中使用的四种特征，并选择胶囊LPI的最佳特征组合，其包含序列特征、基序信息、理化性质和二级结构特征。

最后，将Capsule LPI与其他优秀的LPI预测工具进行了比较。结果表明，胶囊LPI在LPI预测方面优于最先进的方法。然而，一个好的工具不仅要有良好的性能，而且要有助于科学研究和易于使用。在这方面，我们做了一个案例研究，介绍这项工作如何有助于lncRNAs的研究和开发一个方便使用的Web服务器。

一个案例研究：发现lncRNA相关疾病
为了证明胶囊LPI在lncRNAs后续研究中的有效性和实用性，进行了lncRNA疾病关联的案例研究。在本例研究中，我们使用胶囊LPI预测哪些蛋白质与PubMed上最感兴趣的10个lncRNAs相互作用，而与PubMed上研究较少的lncRNAs相互作用。然后，对于每个lncRNA，根据超几何分布推断计算的预测相互作用蛋白的富集疾病来推断疾病。案例研究的过程如下：

1.我们查询PubMed数据库以获得H19、MALAT1、HOTAIR、MEG3、NEAT1、GAS5、UCA1、XIST、PVT1和TUG1，并下载这些lncRNAs的序列。
2.从UniProt数据库下载了26560个智人蛋白质序列。
3.胶囊LPI用于预测lncRNAs的相互作用蛋白，其中阈值设置为0.87，以提高LPI结果的可信度。
4.通过DAVID online对相互作用蛋白的疾病相关性进行富集分析，推断每个lncRNA的潜在疾病相关性。在此，我们在图2中展示了H19的潜在疾病关联结果，并参考了其余lncRNAs（附加文件1:S6）。

此外，潜在相关疾病分为不同类型的疾病，包括代谢、化学依赖、心血管、免疫、药物基因组学、癌症、感染、神经、肾脏、衰老、发育、血液学、心理、生殖和视力。PubMed上排名前10位的lncRNAs与代谢、化学依赖性、心血管、免疫和药物基因组过程高度相关。为了检验这一结果的有效性，我们搜索了LncRNADisease数据库中与每个lncRNA对应的疾病，我们的预测涵盖了绝大多数疾病。例如，目前已知与H19相关的疾病有冠状动脉疾病、胃癌、神经管缺陷、肾癌、不孕症等，分别对应于心血管疾病、癌症、神经疾病、肾脏疾病和生殖疾病。

5.对于PubMed和LncRNADisease上一些研究较少的lncRNAs，执行相同的过程。APF的潜在疾病关联结果如图3所示。此处，在PubMed中仅选择了2份报告的APF lncRNA，并且在LncRNADisease数据库中仅与心肌梗死疾病相关。通过进行上述过程，可以推断出更多的疾病关联，包括2型糖尿病、代谢综合征X、肥胖、哮喘和毛发疾病。这些未报告的疾病可以为生物和医学研究人员的未来工作提供深刻的方向。

图2 H19的潜在疾病关联结果

通过胶囊LPI预测，我们不仅可以分析它们与疾病的关系，还可以获得更多关于lncRNAs功能、进化和亚细胞定位的信息推断。

可在我们的网站（http://csbg-jlu）下载每个lncRNA的所有lncRNAs序列、蛋白质、预测的相互作用蛋白质和推断的潜在疾病关联。站点/lpc/下载）。本案例研究证明了我们的胶囊LPI工具的有效性和实用性。此外，与相互作用的蛋白质通过胶囊LPI预测，我们不仅可以分析它们与疾病的关系，还可以获得更多关于lncRNAs功能、进化和亚细胞定位的信息推断。