Title:A deep-learning framework for multi-level peptide–protein interaction prediction

期刊:nature communications

分区:1区

影像因子:17.694

代码数据集:GitHub - twopin/CAMP: predicting peptide-protein interactions

论文链接:A deep-learning framework for multi-level peptide–protein interaction prediction | Nature Communications

目录

1. 摘要

2. 数据集

3. 方法

4. 结果

5.结论


1. 摘要

肽 - 蛋白质相互作用参与了各种基本细胞功能,它们的鉴定对于设计有效的肽疗法至关重要。最近,已经开发了许多计算方法来预测肽 - 蛋白质相互作用。但是,大多数现有的预测方法在很大程度上取决于高分辨率结构数据。在这里,我们提出了一个深度学习框架,用于多级肽蛋白相互作用预测,称为CAMP,包括二进制肽 - 蛋白质相互作用预测和相应的肽结合残基鉴定。全面的评估表明,CAMP可以成功捕获肽和蛋白质之间的二元相互作用,并识别沿相互作用所涉及的肽的结合残基。此外,CAMP在二元肽蛋白相互作用预测方面的表现优于其他最先进的方法。 CAMP可以用作肽蛋白相互作用预测和鉴定肽中重要结合残基的有用工具,从而可以促进肽药物发现过程。

2. 数据集

构建了一个基准数据集,即来自RCSB PDB21,22的蛋白质 - 肽复合物结构,以及来自Drugbank的已知药物对接对(可以在补充注释10和相应的PDB ID中找到更多数据策划的详细信息我们用于培训和测试的方法可以在补充数据的补充表12和13中找到。我们使用的药品银行ID可以在补充数据中的补充表14中找到)。总体而言,我们获得了7417个阳性相互作用对,涵盖了3412个蛋白序列和5399个肽序列。其中,来自RCSB PDB的6581对具有肽序列中的残基级结合标签。然后,我们通过随机将那些非相互作用的蛋白质和肽对构建了负数据。更具体地说,对于每种正相互作用,通过从所有改组对的非相互作用蛋白和肽对随机采样来产生五个负面因素。总体而言,作为基准数据集,我们获得了44,502个肽 - 蛋白质对。

判断肽序列长度是否有50,小于50的要进行填充

3. 方法

为了避免轮廓内不同特征的不一致尺度(即,疾病和PSSM特征是密集的矢量,而残留级的特性是分类的矢量),CAMP利用了两个多通道特征提取器来得出编码的特征,这些特征是处理蛋白质和肽的处理。分别剖面。每个提取器都有三个分类通道和一个数值通道(图1B)。每个分类通道都由三个自学习单词嵌入层30组成,分别以氨基酸,二级结构和生理化学表示为输入。每个数值通道都由一个完全连接的层组成,以将密集特征作为输入,即肽和蛋白质的内在障碍趋势特征(范围为0至1之间)以及蛋白质的归一化进化基质(PSSM)。

在这里,设计了这样的多通道体系结构,因为输入配置文件包含不同尺度的多方面特征,如果我们只使用简单的编码器,它们可能会带来不一致的情况。接下来,CAMP利用了两个卷积神经网络(CNN)模块,它们分别提取肽和蛋白质的隐藏上下文特征。此外,CAMP采用自我注意的机制来学习残基与蛋白质和肽对最终相互作用预测的单个残基之间的长期依赖性。之后,Camp结合了所有提取的特征,并使用三个完全连接的层来预测给定的相互作用。

4. 结果

图2还显示,在某些集群设置下,CAMP生成了相对变化的预测结果。为了进一步研究引起这种现象的潜在因素,我们使用二进制预测任务的五倍交叉验证程序进行了其他分析(在补充注释1中)。我们的分析结果(补充图1)表明,在两个聚类设置下的相对较大的预测误差可能是由某些蛋白质家族,结构域和生物(例如,用于蛋白质家族的组蛋白和GPCR,用于域的组蛋白和GPCR),以及用于结构域的胰蛋白酶和kringle,以及蛋白质生物的牛)。此外,我们进行了全面的消融研究,以证明营地各个组成部分的重要性,包括不同的特征组和网络体系结构中的自我发项模块(补充注释2)。我们的消融研究(补充表2和补充图2)表明,当前的模型体系结构和特征选择方案对于我们的预测任务是最佳的。通过表征肽上的结合残基来表征新见解。到目前为止,已经开发了许多计算方法来预测PEPPI预测中蛋白质表面上的相互作用位点14,34,35。这些方法从肽 - 蛋白质复合物的3D结构信息中学习,并可以以相对良好的精度在蛋白质表面上查明相互作用的位点。然而,很少有模型专门设计用于表征辣椒肽上的相互作用位点,这对于理解肽的生物学作用和设计有效的肽药物也至关重要。对于药理学家而言,Thechoiceoficalmicalmification在很大程度上依赖于鉴定与结合活性有关的必需肽残基1。从传统上讲,药理学家会迭代地替换可能的残基并进行湿法进行验证。尽管这些尝试可以为进一步的药物设计提供有用的信息,例如,在其侧链上改变特定的非结合残基或修改组以提高稳定性并降低毒性1,2,但这些实验方法通常昂贵且耗时。在CAMP中,我们设计了一个监督预测模块,以鉴定肽序列中的结合残基。我们首先使用源自PEPBDB29的相互作用信息构建了一组合格的标签,用于肽结合残基,该信息是一个综合结构数据库,其中包含来自RCSB PDB21,22的已知相互作用肽 - 蛋白质复合物

5.结论

在这项工作中,我们提出了camp,这是一个多级肽 - 蛋白质相互作用预测的深度学习框架,包括二元相互作用预测和肽结合残基预测。我们首先生成了一系列基于序列的特征,以构建用于肽和蛋白质的特征曲线。与传统的肽或蛋白质特征表示(例如K-MER)相比,我们的综合特征曲线结合了内容丰富的结构注释特征,进化信息和内在障碍趋势得分,以增强肽 - 蛋白质相互作用的预测。然后,我们使用多通道功能提取器分别处理数值和分类特征,以避免多源特征的不一致。全面的交叉验证评估表明,cAMP在二进制相互作用预测上的最先进基线方法的表现优越。此外,我们试图通过鉴定肽结合残基来破译肽 - 蛋白质相互作用的潜在机制。我们表明cAMP可以准确检测到肽序列中的结合残基。我们还提出了四个代表性的案例,以可视化肽结合残基识别任务的结果,并检查了Semaglutide及其类似物的预测目标。我们还验证了CAMP在肽-PBD相互作用预测中的应用潜力,肽 - 蛋白质对的结合亲和力评估以及肽的虚拟筛查。所有这些结果表明,CAMP可以提供准确的肽 - 蛋白质相互作用预测以及对理解肽结合机制的有用见解。与基于结构的对接方法相比,CAMP提供了各种优势。例如,CAMP可以同时完成预测二进制相互作用并识别相互作用中涉及的肽结合残基的任务,而先前基于结构的方法仅着眼于预测结合姿势或识别蛋白质表面上的结合区域。此外,对于单个肽 - 蛋白质对,CAMP在几秒钟内进行预测,而基于结构的对接方法通常需要几个小时。此外,CAMP仅需要序列信息作为输入,因此不依赖有限的结构数据。更具体地说,在瑞士prot数据库中有564,638个蛋白质具有手动注释序列信息,但只有8.49%的蛋白质具有已解决的结构。在这种情况下,CAMP能够比当前基于结构的方法对靶蛋白进行更多的靶蛋白进行预测,从而具有更广泛的应用。然而,当前版本的CAMP仍然存在某些局限性。例如,它不能直接预测给定肽 - 蛋白质对中蛋白质序列的结合残基。实际上,我们探索了CAMP是否可以预测蛋白质的结合残基。在五倍交叉验证的“随机设置”下,当添加一个预测蛋白质结合残基的模块时,CAMP确定了少于实际结合残基的20%不到20%,而二进制交互预测任务的平均AUC略微降低到0.843。在我们框架中,对蛋白质结合残留预测的相对不满意的结果可能是由于以下挑战所致。首先,蛋白质序列通常比肽长得多,范围从52至4911残基,在固定确切的相互作用残基方面构成了困难。其次,使用PLIP从共晶体复合物结构中提取蛋白质结合残基的阳性标记时可能会出现某些不确定性。将来,我们计划合并更多数据,例如结合域信息,以进一步改善预测蛋白质中结合残基的结果。

看不太懂,以后尽量避免这类文章

论文解读:《多层肽 - 蛋白质相互作用预测的深度学习框架》相关推荐

  1. 论文解读PCT: Point Cloud Transformer(用于点云处理的Transformer)

    最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...

  2. CVM2021| PCT: Point cloud transformer(分类+分割任务SOTA)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨paopaoslam 来源丨 泡泡机器人SLAM 标题:PCT: Point cloud tra ...

  3. PCT: Point Cloud Transformer

    PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...

  4. FastFormers 论文解读:可以使Transformer 在CPU上的推理速度提高233倍

    自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...

  5. Point Cloud Transformer(PCT)代码实现

    Point Cloud Transformer(PCT)代码实现 目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...

  6. 论文解读:《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》

    论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...

  7. Point Cloud Transformer(PCT)阅读翻译

    PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...

  8. 论文阅读 PCT:Point Cloud Transformer

    论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...

  9. AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

    摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...

  10. 论文解读:《功能基因组学transformer模型的可解释性》

    论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...

最新文章

  1. 使用雪花id或uuid作为Mysql主键,被老板怼了一顿!
  2. SGU 109 Magic of David Copperfield II
  3. sqlplus执行SQL文件
  4. 笔记-项目配置管理-创建基线或发行基线的主要步骤
  5. android 判断文件是否存在_每日一课 | Python检查文件是否存在
  6. composer设置代理_composer 设置代理
  7. 201771010112罗松《面向对象程序设计(java)》第三周学习总结
  8. 数据结构之线性结构之堆栈
  9. 敲了几年代码,是时候考虑以后的发展了
  10. e语言通用进销存源码_Go 语言设计哲学之五:代码风格的唯一标准
  11. requests 证书验证
  12. 格子染色问题 java_《Mathematical Olympiad——组合数学》——染色问题
  13. 深度学习自学(十五):人脸识别数据预处理方法
  14. BricsCAD 21 for Mac(CAD建模软件)多语言版
  15. python定义一维数组
  16. android fragment 底部菜单栏,安卓开发-底部导航栏切换Fragment进行显示
  17. js清空浏览器cokie缓存_JS设置cookie,删除cookie
  18. 前端自适应图片留白解决
  19. 向Oracle表中的添加数据
  20. MySQL 数据库设计范式/优化

热门文章

  1. Smarty入门教程一----Smarty的安装
  2. 第六讲:STM32F4芯片解读
  3. doctype html5什么意思,是什么意思?
  4. 主线程退出对子线程的影响
  5. vmware NSX 6.3.3 企业版序列号激活码密钥永久使用
  6. 字符串转JSON字符串报错
  7. xpath的extract()方法
  8. python分析微博粉丝_python数据分析微博热门
  9. new HashMap(list.size())指定size就能完全避免扩容带来的额外开销了吗?
  10. SpringBoot中如何配置使用过滤器(Filter)呢?