Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型

今天给大家介绍密歇根州立大学数学系Guowei Wei教授团队2020年2月14日发表在Nature Machine Intelligence上的文章：A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation. 这篇文章将拓扑表示法与深度学习算法相结合，构建了一个基于拓扑的网络树，用于预测突变后蛋白-蛋白相互作用结合亲和力的变化。

1. 研究背景

预测蛋白质间相互作用的能力对于了解人体广泛的生物学活动和功能以及指导药物发现至关重要。尽管一些研究者在开发合适的计算方法方面做了很大的努力，但预测突变后蛋白质间相互作用的亲和力变化仍然是一个严峻的挑战。在最近的蛋白质-配体结合亲和力预测的世界大赛中，代数拓扑是一种很有前途的简化生物结构复杂性的方法。因此作者引入元素和特异位点的持久同源性(代数拓扑的一个新分支)来简化蛋白质-蛋白质复合物的结构复杂性，并将关键的生物信息嵌入到拓扑不变量中。作者还提出了一种新的深度学习算法NetTree，该算法利用到了卷积神经网络和梯度增强树。然后将拓扑表示法与NetTree相结合，构建了一个基于拓扑的网络树(TopNetTree)，用于预测蛋白质间相互作用。对主要基准数据集的测试表明，所提出的基于拓扑的网络树在预测方面是对当前技术水平的重要改进。

2.TopNetTree模型

这一部分介绍TopNetTree模型及其在PPI预测中的应用。如图1所示， TopNetTree由两个主要模块组成：基于拓扑的特征生成和CNN辅助的梯度提升树(GBT)模型（图1）。对于特征生成，作者主要使用特定于元素和特定位置的持久同源性来捕获结构特征，这种特征通过化学-物理描述符得到了增强，而对于学习模型，作者使用了由CNN输入作为预测因子的GBT。作者通过三个常用的PPI基准数据集证明了提出的TopNetTree的性能。

图1. TopNetTree模型的框架。H0特征由CNN处理，该CNN的平层输出（连同H1, H2和辅助特征）一起输入到GBT模型中，以进行最终预测。

2.1 PPIs的拓扑表示

原子之间的成对相互作用以0维同调群(H0)为特征。高维度的同源群编码PPI复合物中的高阶模式。如图2所示，通过基于欧氏距离(De)的过滤生成的1维同调群(H1)表征了环状或隧道状结构，而2维同调群(H2)描述了PPI配合物中的腔体结构。

图2. 与突变相关的拓扑条码变化。野生型中的亮氨酸残基突变为丙氨酸。在突变残基的12埃截止范围内产生碳原子的条形码。

2.2 拓扑条形码的向量化

向量化的一种方法是将过滤参数的范围离散各个容器中，并记录每个容器中条形码的行为(有关过滤和持久性的说明，请参见图3)。该方法为每个拓扑条形码提供了三个特征向量。注意，对于不同的离散化，这种出生和死亡的描述可能不是稳定的。向量化的另一种方法是总结条形码统计信息，包括条形码长度，出生值和死亡值的总和，最大值，最小值，均值和标准值。本文使用这种方法对通过alpha复杂过滤获得的H1和H2条形码进行矢量化处理，因为这些高维条形码比0维条形码稀疏。

图3. 过滤和持久性。平面上一组点的过滤和H1持续图的说明。

2.3 机器学习模型

预测PPIs突变后的结合亲和力变化的一个主要挑战是，由于3D结构，数据高度复杂，而数据集相对较小。作者设计了一个混合的机器学习算法，它结合了CNN和GBT来克服这个困难。通过CNN模块将三维结构的拓扑简化描述转化为简洁的特征;在此基础上，建立了具有过拟合控制能力的稳健预测模型。

2.3.1 TopGBT模型

在这项工作中，作者使用GBT根据当前对训练数据的预测误差将树添加到集成中。当存在中等数量的特征时，此方法（基于拓扑的GBT或TopGBT）效果很好，并且对于超参数调整和过拟合相对健壮。

2.3.2 TopCNN模型

作者使用基于拓扑的CNN(TopCNN)作为中间模型；具体来说，作者将向量化的H0特征输入CNN中，以提取下游模型的高级特征。

2.3.3 TopNetTree模型

CNN可以自动从H0中提取高级功能。这些CNN提取的特征与由高维拓扑条码H1和H2构造的特征相结合，作为GBT的输入。具体来说，作者建立了一个以PPI为标签的监督CNN模型。训练模型后，作者将平层神经输入到GBT模型中以对其重要性进行排名。基于重要性，CNN功能的子集与其他功能（例如H1和H2条码的统计信息）结合在一起，用于最终的GBT模型，如图1所示。

2.4 PPIs模型的性能

作者考虑了三个数据集：AB-Bind数据集，SKEMPI数据集和SKEMPI 2.0数据集，以验证所提出的TopNetTree模型。两个评估指标(Rp和均方根误差RMSE)用于评估预测的质量。

2.4.1 突变后AB-Bind自由能变化的预测

本文的模型在AB-Bind S645数据集上的Rp达到了0.65，这比表1所示的其他现有方法明显好。与非机器学习方法（如Rosetta和bASA）相比，本文的方法在Rp方面的准确度提高了100％，这表明本文基于拓扑的机器学习方法对PPI系统具有更好的预测能力。本文的方法比Rp = 0.53的最高分数（由mCSM-AB给出）的准确度高约22％，这说明了TopNetTree的强大预测能力。Pires等人发现，从数据集中排除非结合部分将显著提高预测模型的性能。在本文的案例中，如图4所示，相同处理的Rp从0.65增至0.68。作者还使用其余样本作为训练集，对同源结构进行了盲法测试，达到了0.55的Rp，如图4所示。

表1. 在AB-Bind S645数据集上多种方法的Rp指标的对比

图4. TopNetTree模型的数据和结果. a, 在AB-Bind S645数据集上的十折交叉结果。b, 在AB-Bind S645数据集上出去27个非结合位点的十折交叉结果。c, 与同源结构相关的AB-Bind子集的盲预测。d, 结合亲和度随AB-Bind数据集突变而变化的分布，这些数据集按残基区域类型和丙氨酸突变分组。e, 不同残差区域类型的预测结果。

2.4.2 SKEMPI数据集上的性能

表2显示了十折交叉验证中的皮尔逊相关系数。发现所提出的TopNetTree比最佳方法准确度高15％。

表2. SKeMPi数据集中1131个突变的单点突变的各种方法的Rp值比较

2.4.3 SKEMPI 2.0数据集上的性能

作者将TopNetTree模型应用于集S4947，S4169和S8338三个变体数据集。作者使用十折交叉验证测试了S4947集，实现了平均Rp为0.82和1.11 kcal mol-1的RMSE. 作者遵循在mCSM-PPI2一文中对S4169和S833848集使用的十折分层交叉验证方法。对于S4169组，本模型获得了0.79的平均Rp和1.13 kcal mol-1的RMSE。最后，对于S8338组，本文的方法获得的平均Rp为0.85和1.11 kcal mol-1的RMSE。

图5. 使用10折交叉验证的性能评估。a, S4947数据集。b, S4169数据集。c, S8338。

3.结论

从多方面的努力研究PPI的重要性可见一斑，包括量子力学，分子力学，生物化学，生物物理学和分子生物学。例如，在常用PPI数据库AB-Bind的交叉验证中，预测的值与实验数据之间的Rp值仅为0.53。

最近已证明拓扑在简化生物分子结构复杂性方面出奇地有效。它主要在赢得了计算机辅助药物设计的全球竞赛。因此，利用拓扑结构了解PPI至关重要。在这项工作中，作者提出用于预测的TopNetTrees。具体来说，引入了元素和位点特定的持久同源性来表征PPI。此外，作者提出了机器学习算法（CNN辅助GBT）与拓扑方法配对以预测PPI。并且证明了提出的TopNetTree达到了0.65的Rp，这比AB-Bind数据集的先前最佳结果约好22％。对于另一个基准PPI数据集SKEMPI，本方法明显优于相关文献中的最新技术。

参考资料

Wang M, Cang Z, Wei G W. A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation[J]. Nature Machine Intelligence, 2020, 2(2): 116-123.