2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical prediction of protein–peptide interactions and signaling networks using machine learning的研究成果。该研究利用机器学习方法能够准确地预测多蛋白家族间的球形蛋白结合域(PBD)-肽相互作用的亲和性。

1

研究背景

在哺乳动物细胞中,许多信号转导是由球形蛋白结合域(PBD)与伴侣蛋白中非结构化肽基序之间的弱蛋白-蛋白相互作用介导的。这些PBD(已知1800多种)的数量和多样性,低结合亲和力和结合特性对微小序列变异的敏感性,对PBD特异性和PBD创建的网络的实验和计算分析提出了重大挑战。在这里,研究者介绍了一种定制的机器学习方法,即分层统计机器建模(HSM),能够准确预测跨多个蛋白质家族的PBD-肽相互作用的亲和力。通过在现代机器学习框架内合成生物物理实验,HSM优于现有的计算方法和高通量实验分析。HSM模型可以在三个空间尺度上以熟悉的生物物理术语来解释:蛋白质-肽结合的能量学、蛋白质-蛋白质相互作用的多齿组织和信号网络的整体架构。

2

模型设计和方法

研究者为六个常见的PBD家族构建了HSM模型,这些家族涉及磷酸酪氨酸,多脯氨酸和C端肽位点(PDZ, SH2, SH3, WW, WH1, PTB; n = 823个域),以及酪氨酸激酶和蛋白质酪氨酸磷酸酶(TK,PTP; n = 143个域;如图1a所示)。在人类蛋白质组中,估计含有PBD的蛋白质总数约为104个蛋白质(图1b),它们参与了〜105-106个相互作用(图1c)。本文研究的8个域占人类PBDs总数的39%左右。原则上,相同的建模框架适用于所有剩余的人类PBD,但是数据稀缺(每个家庭报告的互动少于100个)使评估模型性能变得困难。在开始机器学习之前,研究者执行组合的序列/结构比对,使给定的PBD家族和肽类的所有残基位置对应,从而形成一个统一的残基坐标系统。然后,HSM学习一个伪哈密顿量,该伪哈密顿量将各个残基和残基对映射成结合能,并遵循两个约束条件:(1)在PBD族中,相同位置的残基或残基对始终贡献相同的能量,并且(2)在PBD族中,残基对能量来自固定的势能池。针对第一个限制,研究者提出适用于一个PBD家族中的所有域的模型描述为独立域的HSM (HSM/ID)(图1d)。针对第二个限制,通过迫使HSM模型学习一组残基-残基电位的形式来正式化不同类型的蛋白质之间的相互作用是由相对有限的一组相互作用表面介导的这一观察结果(图1d)。

图1. PBD和建模框架

3

训练和验证

为了训练HSM模型,研究者组装了一个约2×106PBD-肽相互作用的数据集,该数据集主要来自基于阵列的分析;将数据二值化以允许将来自不同实验方法的值进行合并,从而产生3–5%的正相互作用。采用AUC和Recall作为评价指标,和对比方法的比较结果如下图所示。

图2. 模型性能和新预测的PPIs。

4

信号网络的视角。

许多蛋白质包含具有和不具有共生肽位点的多个不同类别的PBD。为了研究涉及这种结合类型的网络,研究者生成了一个高蛋白人类PPI预测(HSM/P,P> 0.7)的蛋白质组范围的节点边图,其中节点对应于蛋白质,相互作用对应边(图6)。

图3. 人类PBD介导的PPI网络的层次组织。

5

讨论

因为已学习的伪哈密顿量是HSM的基础,所以可以用熟悉的特定位置的结合能来解释已学习的相互作用。因此,HSM能够通过促进对PBD和/或肽功能的理解和预测,在三个空间尺度上提供结构上的洞察力:残基/共复合体水平;蛋白质水平,通过量化在多齿状相互作用中单个PBDs和配体的相对贡献和网络级,通过支持大规模建模信息传输从细胞表面到细胞结构和功能的决定因素。

通过将学习的能量与从晶体结构推断出的见解进行比较,可以最容易地说明HSM捕获的生物物理细节,如本文通过分析SH3域(研究者建模的八类PBD /酶之一)所说明的那样。研究者发现,HSM提供了对与从晶体结构获得的接触区域极为相似的接触区域的洞察力,同时还提供了仅从所有已知SH3结构的全面图获得的更广泛的合成。

参考资料

Cunningham J M, Koytiger G, Sorger P K, et al. Biophysical prediction of protein–peptide interactions and signaling networks using machine learning[J]. Nature Methods, 2020: 1-9.

Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测相关推荐

  1. 基于机器学习的航空公司客户价值分析与流失预测

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目背景 面对激烈的市场竞争,各个航空公司相继推出了更优惠的营销方式来吸引更多的客户,国内某航空公司面临着常旅 ...

  2. 欧几里得距离网络_Scientific Reports|基于集成相似度的神经网络药物相互作用预测...

    今天给大家介绍发表在Scientific Reports上的一篇文章,"Drug-Drug interaction predicting by neural network Using in ...

  3. Nat. Genet. | 基于CRISPRi技术检测增强子与启动子相互作用

    今天给大家介绍2019年11月发表在Nature Genetics的论文"Activity-by-contact model of enhancer-promoter regulation ...

  4. 文献解读|柳叶刀:基于机器学习的急性冠脉综合征不良事件预测:一项汇集数据集的建模研究...

    DOI: 10.1016/S0140-6736(20)32519-8 Background 急性冠脉综合征(ACS)患者发生缺血和出血事件的风险很高,两者都是不良预后的驱动因素. 风险评估在每个患者的 ...

  5. 基于机器学习逻辑回归的电信客户流失预测

    直接看视频:https://www.bilibili.com/video/BV1To4y1i78d/?vd_source=8f3cf4ad6c08a40d40ca6809c9c9e8ca 博客会分享完 ...

  6. Nat. Commun | 基于网络的药物组合预测

    本期介绍2019年3月发表在Nature Communications的研究工作,该工作由哈佛医学院.东北大学和Dana-Farber癌症研究所等机构的研究人员完成.药物组合能够增加治疗功效和降低毒性 ...

  7. 基于机器学习的临床决策支持-ANN

    声明:本文示例来自于GitHub用户vkasojhaa的项目,一切权利归其所有,此处仅是自己学习分享. 实现了基于机器学习的乳腺癌的恶性和良性预测,比较了不同机器学习算法之间的性能.主要目的是评估在每 ...

  8. 基于机器学习的临床决策支持

    声明:本文示例来自于GitHub用户vkasojhaa的项目,一切权利归其所有,此处仅是自己学习分享. 实现了基于机器学习的乳腺癌的恶性和良性预测,比较了不同机器学习算法之间的性能.主要目的是评估在每 ...

  9. Nat. Methods | ilastik:为生物图像分析而生的交互式机器学习平台

    工具简介 来自德国海德堡大学的Hamprecht团队开发了一款使用简便的开源交互式工具-ilastik.ilastik能够给用户提供良好的基于机器学习的生物信息图像分析服务,这对于在计算机专业知识方面 ...

最新文章

  1. Win7上Git安装及配置过程
  2. contains与compareDocumentPosition方法详解
  3. android编程中添加gif,Android应用开发之【Android】使用android-gif-drawable包加载GIF动图...
  4. BZOJ 1176([Balkan2007]Mokia-CDQ分治-分治询问)
  5. 整理计算机网络参考模型知识
  6. Hibernate generator小结
  7. Dubbo-gok8s注册中心设计方案与实现
  8. 元年深度 | 侧袋机制应用实务探讨
  9. unix文件中i节点
  10. springboot 设置全局字符编码,解决乱码问题
  11. 台式计算机有线无线网卡设置,台式电脑怎么设置无线网络,详细教您台式电脑怎么设置无线网络...
  12. MyBatisPlus极速入门
  13. 【java】714. 买卖股票的最佳时机含手续费-----动态规划!!!
  14. DualVD:借鉴认知双向编码理论,提出视觉对话新框架 | AAAI 2020
  15. 【蓝桥杯经典数学题】杨辉三角形
  16. 微信小程序(四) 节点查询 | wx.createSelectorQuery
  17. BAISS的动态分布式搜索存储协议(DDSSP)究竟是什么?
  18. 音乐对计算机专业的影响,计算机网络技术对音乐发展的影响探讨
  19. 压铸人的火眼金睛 | 智铸超云案例分享
  20. 每日一面 - mysql中,innodb表里,某一条数据删除了之后,这条数据会被真实的擦掉吗,还是删除了关系?

热门文章

  1. java:单词接龙(dfs)(重点看看:包括相同单词不包含,还有找到第一个相同的开头单词相同的字母,连接字符串重复部分删除)
  2. Win10 摄像头:由于其配置信息(注册表中的)不完整或已损坏,Windows无法启动这个硬件设备.【未解决完全】
  3. java sfc模拟器_Higan(sfc超精准模拟器)
  4. 学生对计算机课程的意见建议,学生对学校工作的意见和建议
  5. C语言inline详细讲解
  6. Django基本使用 - 展示一个HTML文件
  7. SimSiam:Exploring Simple Siamese Representation Learning
  8. 数独生成算法的简单实现
  9. ECS+SLB负载均衡实践
  10. 分层确定性钱包开发的代码实现(HD钱包服务)