今天给大家介绍密歇根州立大学数学系Guowei Wei教授团队2020年2月14日发表在Nature Machine Intelligence上的文章:A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation. 这篇文章将拓扑表示法与深度学习算法相结合,构建了一个基于拓扑的网络树,用于预测突变后蛋白-蛋白相互作用结合亲和力的变化。

1. 研究背景

预测蛋白质间相互作用的能力对于了解人体广泛的生物学活动和功能以及指导药物发现至关重要。尽管一些研究者在开发合适的计算方法方面做了很大的努力,但预测突变后蛋白质间相互作用的亲和力变化仍然是一个严峻的挑战。在最近的蛋白质-配体结合亲和力预测的世界大赛中,代数拓扑是一种很有前途的简化生物结构复杂性的方法。因此作者引入元素和特异位点的持久同源性(代数拓扑的一个新分支)来简化蛋白质-蛋白质复合物的结构复杂性,并将关键的生物信息嵌入到拓扑不变量中。作者还提出了一种新的深度学习算法NetTree,该算法利用到了卷积神经网络和梯度增强树。然后将拓扑表示法与NetTree相结合,构建了一个基于拓扑的网络树(TopNetTree),用于预测蛋白质间相互作用。对主要基准数据集的测试表明,所提出的基于拓扑的网络树在预测方面是对当前技术水平的重要改进。

2.TopNetTree模型

这一部分介绍TopNetTree模型及其在PPI预测中的应用。如图1所示, TopNetTree由两个主要模块组成:基于拓扑的特征生成和CNN辅助的梯度提升树(GBT)模型(图1)。对于特征生成,作者主要使用特定于元素和特定位置的持久同源性来捕获结构特征,这种特征通过化学-物理描述符得到了增强,而对于学习模型,作者使用了由CNN输入作为预测因子的GBT。作者通过三个常用的PPI基准数据集证明了提出的TopNetTree的性能。

图1. TopNetTree模型的框架。H0特征由CNN处理,该CNN的平层输出(连同H1, H2和辅助特征)一起输入到GBT模型中,以进行最终预测。

2.1 PPIs的拓扑表示

原子之间的成对相互作用以0维同调群(H0)为特征。高维度的同源群编码PPI复合物中的高阶模式。如图2所示,通过基于欧氏距离(De)的过滤生成的1维同调群(H1)表征了环状或隧道状结构,而2维同调群(H2)描述了PPI配合物中的腔体结构。

图2. 与突变相关的拓扑条码变化。野生型中的亮氨酸残基突变为丙氨酸。在突变残基的12埃截止范围内产生碳原子的条形码。

2.2 拓扑条形码的向量化

向量化的一种方法是将过滤参数的范围离散各个容器中,并记录每个容器中条形码的行为(有关过滤和持久性的说明,请参见图3)。该方法为每个拓扑条形码提供了三个特征向量。注意,对于不同的离散化,这种出生和死亡的描述可能不是稳定的。向量化的另一种方法是总结条形码统计信息,包括条形码长度,出生值和死亡值的总和,最大值,最小值,均值和标准值。本文使用这种方法对通过alpha复杂过滤获得的H1和H2条形码进行矢量化处理,因为这些高维条形码比0维条形码稀疏。

图3. 过滤和持久性。平面上一组点的过滤和H1持续图的说明。

2.3 机器学习模型

预测PPIs突变后的结合亲和力变化的一个主要挑战是,由于3D结构,数据高度复杂,而数据集相对较小。作者设计了一个混合的机器学习算法,它结合了CNN和GBT来克服这个困难。通过CNN模块将三维结构的拓扑简化描述转化为简洁的特征;在此基础上,建立了具有过拟合控制能力的稳健预测模型。

2.3.1 TopGBT模型

在这项工作中,作者使用GBT根据当前对训练数据的预测误差将树添加到集成中。当存在中等数量的特征时,此方法(基于拓扑的GBT或TopGBT)效果很好,并且对于超参数调整和过拟合相对健壮。

2.3.2 TopCNN模型

作者使用基于拓扑的CNN(TopCNN)作为中间模型;具体来说,作者将向量化的H0特征输入CNN中,以提取下游模型的高级特征。

2.3.3 TopNetTree模型

CNN可以自动从H0中提取高级功能。这些CNN提取的特征与由高维拓扑条码H1和H2构造的特征相结合,作为GBT的输入。具体来说,作者建立了一个以PPI为标签的监督CNN模型。训练模型后,作者将平层神经输入到GBT模型中以对其重要性进行排名。基于重要性,CNN功能的子集与其他功能(例如H1和H2条码的统计信息)结合在一起,用于最终的GBT模型,如图1所示。

2.4 PPIs模型的性能

作者考虑了三个数据集:AB-Bind数据集,SKEMPI数据集和SKEMPI 2.0数据集,以验证所提出的TopNetTree模型。两个评估指标(Rp和均方根误差RMSE)用于评估预测的质量。

2.4.1 突变后AB-Bind自由能变化的预测

本文的模型在AB-Bind S645数据集上的Rp达到了0.65,这比表1所示的其他现有方法明显好。与非机器学习方法(如Rosetta和bASA)相比,本文的方法在Rp方面的准确度提高了100%,这表明本文基于拓扑的机器学习方法对PPI系统具有更好的预测能力。本文的方法比Rp = 0.53的最高分数(由mCSM-AB给出)的准确度高约22%,这说明了TopNetTree的强大预测能力。Pires等人发现,从数据集中排除非结合部分将显著提高预测模型的性能。在本文的案例中,如图4所示,相同处理的Rp从0.65增至0.68。作者还使用其余样本作为训练集,对同源结构进行了盲法测试,达到了0.55的Rp,如图4所示。

表1. 在AB-Bind S645数据集上多种方法的Rp指标的对比

图4. TopNetTree模型的数据和结果. a, 在AB-Bind S645数据集上的十折交叉结果。b, 在AB-Bind S645数据集上出去27个非结合位点的十折交叉结果。c, 与同源结构相关的AB-Bind子集的盲预测。d, 结合亲和度随AB-Bind数据集突变而变化的分布,这些数据集按残基区域类型和丙氨酸突变分组。e, 不同残差区域类型的预测结果。

2.4.2 SKEMPI数据集上的性能

表2显示了十折交叉验证中的皮尔逊相关系数。发现所提出的TopNetTree比最佳方法准确度高15%。

表2. SKeMPi数据集中1131个突变的单点突变的各种方法的Rp值比较

2.4.3 SKEMPI 2.0数据集上的性能

作者将TopNetTree模型应用于集S4947,S4169和S8338三个变体数据集。作者使用十折交叉验证测试了S4947集,实现了平均Rp为0.82和1.11 kcal mol-1的RMSE. 作者遵循在mCSM-PPI2一文中对S4169和S833848集使用的十折分层交叉验证方法。对于S4169组,本模型获得了0.79的平均Rp和1.13 kcal mol-1的RMSE。最后,对于S8338组,本文的方法获得的平均Rp为0.85和1.11 kcal mol-1的RMSE。

图5. 使用10折交叉验证的性能评估。a, S4947数据集。b, S4169数据集。c, S8338。

3.结论

从多方面的努力研究PPI的重要性可见一斑,包括量子力学,分子力学,生物化学,生物物理学和分子生物学。例如,在常用PPI数据库AB-Bind的交叉验证中,预测的值与实验数据之间的Rp值仅为0.53。

最近已证明拓扑在简化生物分子结构复杂性方面出奇地有效。它主要在赢得了计算机辅助药物设计的全球竞赛。因此,利用拓扑结构了解PPI至关重要。在这项工作中,作者提出用于预测的TopNetTrees。具体来说,引入了元素和位点特定的持久同源性来表征PPI。此外,作者提出了机器学习算法(CNN辅助GBT)与拓扑方法配对以预测PPI。并且证明了提出的TopNetTree达到了0.65的Rp,这比AB-Bind数据集的先前最佳结果约好22%。对于另一个基准PPI数据集SKEMPI,本方法明显优于相关文献中的最新技术。

参考资料

Wang M, Cang Z, Wei G W. A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation[J]. Nature Machine Intelligence, 2020, 2(2): 116-123.

Nat. Mach. Intel. | 突变后蛋白蛋白结合力的拓扑网络树预测模型相关推荐

  1. Nat. Mach. Intel. | ReLSO: 具有正则化潜在空间优化的基于Transformer的蛋白生成

    今天介绍一篇由耶鲁大学Egbert Castro等人于2022年9月26日发表在nature machine intelligence上的文章.本文引入了正则化潜在空间优化(ReLSO),这是一种基于 ...

  2. Nat. Mach. Intel. | IBM RXN: 深度学习在化学反应分类上大放异彩

    最近IBM和伯尔尼大学的研究人员利用基于自注意力机制的深度神经网络实现了对化学反应的分类,该项成果发布于Nature Machine Intelligence杂志上. 化学反应的分类对化学家们有很高的 ...

  3. Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...

    今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...

  4. Nat. Mach. Intell. | 快速的蛋白质结构从头预测

    今天给大家介绍一篇Nature Machine Intelligence期刊的论文"AmoebaContact and GDFold as a pipeline for rapid de n ...

  5. Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

    今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章.该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型.发现该模型可以从更少的例子中学习到健壮的模型.同时,本文还确 ...

  6. Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

    今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在<Nature Machine Intelligence>上发表了一篇名为"It ...

  7. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  8. Nat. Mach. Intell. | 华科同济医学院剑桥联手推出新冠预测模型!

    今天给大家介绍华中科技大学同济医学院及剑桥大学联合发表在Nature Machine Intelligence的一篇文章.文章中作者提出了一个基于XGBoost机器学习的模型,可以提前10天以上预测患 ...

  9. Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架

    今天给大家介绍的是清华大学曾坚阳教授课题组在Nature Machine Intelligence杂志上发表的一篇关于生物医学关系抽取的文章.在文中,作者提出了一种从大规模文献库中自动提取生物医学关系 ...

最新文章

  1. 【C 语言】字符串模型 ( 两头堵模型 )
  2. python turtle应用实例_turtle库应用实例2-六芒星的绘制
  3. 星级评分--演进式部署
  4. JAVA minaio模型_分布式系统之Java IO模型
  5. 研究生如何选定课题方向 如何变学神
  6. mysql安装过程-zip安装
  7. lg android tv画面调试,细看系统设置 功能齐全设置简单_LG 60GB7800-CC_液晶电视评测-中关村在线...
  8. java静态构造函数_为什么不允许使用Java静态构造函数?
  9. python中的translate_Python3 translate()方法
  10. WAP网站源代码--WAP新闻(文章)系统调试实战
  11. 鸟哥私房菜整理(二)
  12. access vba代码大全_VBA编程在翻译中的应用
  13. 速卖通热卖产品推荐—2021年速卖通家居行业厨房用品热卖产品趋势
  14. Windows 2008 Server搭建Radius服务器
  15. VS2019 团队资源管理器--Git的使用(二)
  16. 社交电商野蛮生长后 社交+电商将成为新的寡头
  17. 【源码】自主机器人路径规划仿真器(FAMU-FSU工程学院自主移动机器人项目)
  18. php 413,PHPCMS上传错误413?
  19. Berkeley DB(BDB)介绍
  20. 2020年7月最新阿里云服务器优惠卷哪里领?

热门文章

  1. 某产品经理炫耀:3年跳槽3次,月薪从8k涨到38k,跳槽涨薪最快!
  2. 有了这篇 Shell 脚本实践指南,同事对我“刮目相看”!
  3. 产品经理的「七宗罪」
  4. 深度学习在高德的探索与实践
  5. 美团点评基于MGR的CMDB高可用架构搭建之路
  6. 微服务该如何进行服务治理?
  7. 收藏!一篇文章搞懂甘特图
  8. 美团分布式服务治理框架OCTO之二:Mesh化
  9. 一个有效的OKR是什么样?
  10. Windows10~python和tensorflow配置