导语:蛋白质在进化过程中,会发生氨基酸突变,破坏了残基之间的相互作用而导致蛋白质结构不稳定,若此时与突变残基具有相互作用的残基也随之发生突变,且构成新的相互作用,使蛋白质结构保持稳定,称这种变化为蛋白质共进化。本次介绍一篇由美国华盛顿大学霍华德休斯医学院研究团队于2014年5月发表在eLife上的一篇文章,该文章利用共进化信息实现了对蛋白质间残基-残基相互作用的鲁棒且准确的预测。

1

研究背景

蛋白质是连续的氨基酸序列经过盘曲折叠形成特定的三维结构。蛋白质必须有正确的形状才能正常运作,因为它们通常通过与其他蛋白质或分子结合而起作用。两个或多个蛋白质可以结合在一起,形成复合体来执行各种任务;研究这些复合物的结构是一项挑战,即使是在已知蛋白质亚基结构的情况下也是如此。作者注意到在蛋白质复合物中,来自不同蛋白质的氨基酸发生共进化时,这两个氨基酸往往会在蛋白质-蛋白质界面上发生接触。本文的作者开发了一种方法,利用共进化信息来预测在蛋白质复合物(two-protein complex)中哪一部分蛋白质发生了相互接触。

2

研究方法

(1)生成单个对齐

用HHblits和HHfilter对由EcoGene 3.0鉴定的4303个大肠杆菌蛋白基因进行多序列比对。为了减少冗余,作者为每个MSA(多序列比对)构造HMMs并且基于HHΔ( 衡量HMM-HMM相似性:如果一对基因的HHΔ小于0.5,则划分为同一簇)聚簇基因,生成了2340个非冗余基因簇。

对于基准数据集, 使用与每个PDB关联的序列生成新的对齐。对于50S核糖体和NADH脱氢酶,作者使用来自PDB结构3uxr和4hea的嗜热菌HB8序列。

对于同源的NADH脱氢酶链L,M和N,作者在对齐生成协议中将e-value置为1E-60。除了来自大肠杆菌分析的复合物外,作者还使用来自PDB结构3ip4的序列将GatCAB酰胺基转移酶复合物纳入基准集中。对于PDB序列长度比平均长度范围长得多的情况,作者将覆盖范围过滤器修改为查询的50%。然后使用clustal omega v1.2重新比对序列。查询序列中不存在的残基不纳入后续分析中。

(2)生成配对对齐

作者从同一基因组中构建成对的蛋白序列[x1, x2, …, xp; xp+1, …, xp+q] ,位置1:p和p+1:p+q分别对应两个蛋白质。将这样一对蛋白质的多序列比对称为配对对齐。

对于基因组中有单拷贝基因的基因家族,如核糖体蛋白,很容易构建配对对齐,因为来自同一基因组的序列对可以直接连接。虽然在单基因组中一个基因存在的多个旁系同源基因的情况下,生成配对对齐的过程通常是复杂的,但在原核生物中,共同调控的基因通常在基因组中共同定位于操纵子中。作者限制使用具有小的,保守的基因间距离的基因对来创建配对序列,以此规避旁系同源基因。相似的方法被用于构建原核基因组中融合蛋白的数据库。将Δgene定义为一个基因对之间的注释基因数,我们仅考虑Δgene在60%的基因组中保守且小于20的基因对。考虑到在一个基因组中,大多数UniProt accession IDs是连续分配的,可以通过查看UniProt accession IDs的差异从而快速评估Δgene。然后对配对的比对进行过滤,以将冗余度降低至90%序列同一性,并去除缺口大于75%的位置。

(3)蛋白质复合体结构识别

为了在复合体结构中识别蛋白质对,对每一个大肠杆菌蛋白,用已生成的HHblits对齐构造HMM。接着使用hmmsearch在S2C数据库中扫描PDB序列。只考虑满足e-value小于1E-10的匹配。

(4)用配对对齐构建Gremlin模型

Gremlin为每个配对对齐构造一个全局统计模型,为配对对齐中的每一个氨基酸序列分配一个概率。

其中,Vi是编码位置特异性氨基酸倾向的向量,Wij表示编码位置i和j处氨基酸的耦合矩阵。通过最大化对齐的正则化伪似然度,从比对序列中获得这些参数,如下:

总和中的每一项是一个条件分布,该条件分布捕获了整个蛋白质序列中某个位置特定氨基酸的概率,R(v,w)是防止过度拟合的正则化项。

(5)用Gremlin评分排序残基对

为了将W ij矩阵简化为反映位置i和j之间耦合强度的单个值,作者首先计算S ij,即它们的向量2范数。使用这些值的行和列平均值来校正由于不同位置处的序列变异性而导致的Sij的差异:

其中,括号表示采用括号之外的指数的平均值,计算方法类似于Average Product Correction(APC)。与APC不同,作者仅通过计算对应于位置i和j的蛋白质位置的平均值来解决两个蛋白质家族中进化速率的差异:如果i和j都在第一个(第二个)蛋白质中,计算出第一个(第二个)蛋白质的位置上的平均值;如果i在第一个蛋白质中,而j在第二个蛋白质中,则仅在第一个蛋白质的位置上计算列平均值,而在第二个蛋白质的位置上仅计算行平均值。然后,计算归一化的耦合强度,ncsij,计算方法是用除以前3L/2的平均值。

作者观察到,当给定的复合物的最高耦合强度分数很高时,残基接触发生的频率越高越。为了解释这些依赖关系,建立了一个基于细菌50S核糖体复合物估计接触概率的模型:

通过与50S核糖体数据中观察到的频率的非线性拟合,确定了m、c和σ(分别为0.47、0.96和9.77)的值。

(6)将Gremlin评分转化成距离约束

作者将耦合强度转换为特定于残基对的距离约束,并将其包括在Rosetta结构预测程序中。作者使用以下形式的距离约束:

(公式1)

其中,d是受约束的原子间距,weight与 ncsij成比例。

(7)比较建模

使用RosettaCM基于与HHsearch生成的同源结构的比对(Remmert等,2011)建立了比较模型。对于预测会接触的区域中密度缺失的蛋白质,作者使用RosettaCM与受约束的共进化在对接之前构建缺失区域。

(8)从头建模

Rosetta从头建模的协议包括两个阶段:在初始阶段(“质心”),侧链由固定的质心原子表示,可以快速生成和评估各种蛋白质样拓扑结构;第二阶段(“全原子”)建立在明确的侧链中,并实现所有原子能的最小化。YIAM是一种膜蛋白, 由Rosetta膜能量函数建模。强排斥相互作用(公式1:weight: −100, cutoff: 35, slope: 2 and intercept: 100)被添加到细胞外区域的中心和预测的细胞内区域的中心之间,强吸引约束(weight:100, cutoff:35, slope:2 and intercept: 0)在预测的细胞内区域和细胞外区域内,有效地构建了膜状采样空间。使用MESSA的输出来预测跨膜区域。生成了100,000个模型,并且将最适合约束的20个模型收敛到单个群集。

(9)对接测试集

使用Jackhammer(HMMER v3.1b软件包的一部分)来识别基准集中18种复合物的子集,其中至少一种蛋白质或紧密同源物的apo形式具有可解析的结构。在结构为同源蛋白(e-value < 1E-20)并且存在大多数界面残基的情况下,我们使用比较模型生成了目标蛋白的结构模型。

(1)蛋白质-蛋白质对接

对于前3 / 2L预测中的每个约束间对,使用PatchDock v1.0,用聚类参数(rmsd 0.5; discardClustersSmaller 0)生成构象合集,然后使用所有约束对其进行评分。约束得分最高的5个模型使用约束在笛卡尔空间中进行了能量最小化。对于原生接触分数(Fnat)和界面均方根偏差(iRMSD)的计算,界面残基-残基接触是指任何重侧链原子之间的最小距离小于5Å。

3

实验结果

要识别两个蛋白质A和B之间的共进化残基对并不容易:只有当两个有机体中分别包含蛋白质A和蛋白质B的直系同源蛋白,并且生成A序列和B序列的对齐必须正确配对。为了简化直系同源鉴定,关注基因组中具有保守染色体位置的基因对,该基因对在基因组中被少于20个其他带注释的基因隔开。然后,作者为配对蛋白质家族中的序列建立Gremlin全局统计模型。接下来作者研究了具有较大耦合参数的残基对。

细菌50S核糖体亚单位中的残基-残基共进化

作者从研究细菌50S核糖体亚基中的残基-残基偶联参数开始,这是具有原子拆分结构的最大的进化保守细菌多蛋白复合物。对于复合物中的每个蛋白质,通过查询UniProt序列数据库构建多序列比对。对于每个这样的配对比对,建立一个Gremlin全局统计模型,计算归一化的偶联强度,并根据这些评分对蛋白质间残基对进行排名。偶联强度大于1表示两个残基之间的平均偶联率更高。

研究发现,在50S核糖体亚基中,只有一小部分残基协同进化,如偶联强度(图1A的 y轴)大于1.5时,并且大多数残基对距离在8Å 之内,所有残基对距离都在12Å之内。

图1A

图1B中显示了50S结构中共进化残基对的位置(为了清晰起见,各蛋白被拉开了)。黄线表示距离小于8Å,橙线表示距离小于12Å。对于50S核糖体,使用约1500个非冗余基因组的序列数据建立了Gremlin模型。

图1B

对于大的蛋白质-蛋白质复合物,复合物中蛋白质对之间的偶联强度的总和是否可用于区分直接相互作用的和非相互作用的蛋白质对?在50S亚基中,总偶联强度(图1C中的数字)大于1.5的蛋白质对,彼此相互作用(图1C中的方框)。但是,在50S亚基中有一些蛋白对接触,但没有发现共进化。显然,并非每种相互作用都可以通过偶联强度的总和来确定。

图1C

图1D表明,对于具有大量对齐序列的复合体,基于氨基酸序列共进化的残基-残基相互作用预测具有较高的置信度。

细菌复合体基准

对大肠杆菌的基因对生成配对对齐,对于1126个基因对,建立Gremlin全局统计模型,并确定了每个残基对的偶联强度。其中有64对基因对包含Gremlin得分>0.85的残基对,通过实验进一步确定了其中28对的三维结构,图2A中显示了其中一些复合物的Gremlin得分大于0.6的残基对的位置。

图2A

几乎所有Gremlin得分大于0.6的配对都在复合物结构中接触,除了NADH脱氢酶亚基(图2B)明显例外。有研究者认为该复合物在电子转移过程中经历了一系列构象变化。

图2B

结构未知的复合物的接触预测

在图3中,作者提供了目前结构未知的36种复合物的残基-残基接触预测。这些预测应该会有助于确定这些生物学上重要的复合物的结构。

图3

从接触预测到结构建模

预测的接触对于建模组建蛋白质复合物有帮助吗?作者在具有18种蛋白质复合物(复合物的部分结构已知)的对接测试集上进行评估。作者开发了一种对接协议,使用预测的接触作为距离约束,并采样了物理上合理的结构空间,以生成蛋白质-蛋白质复合物的模型。

图4A

iRMSD(界面均方根误差)最高的两种情况(图4A最后两行)在图4B和图4C中说明。高iRMSD是由于其中一种单体结构的构型在结合后发生了较大变化而引起的。尽管发生了这些变化,模型仍然可以准确识别结合界面。

图4B-C

4

总结

作者的研究结果表明,共同进化的残基对在蛋白质复合物中通常都会发生接触。当然,并不是所有在蛋白质界面发生接触的残基对都会发生共进化。之前的研究表明,只要有足够的比对序列,对单体蛋白的接触预测能达到很高的准确率,但是在这种情况下,必须先已知一个家族蛋白结构,并可以从中建立比较模型,限制了接触预测在结构预测中的效用。

作者使用提出的新方法对细菌中的28种蛋白质复合物中的蛋白质-蛋白质界面和细菌核糖体中蛋白质亚基之间的界面进行了预测,与真实结构比较后,得到了较高的准确率。下一步是考虑将该方法应用于真核生物中发现的蛋白质复合物。这是一个挑战,因为真核蛋白可供生成多序列比对的蛋白数量较少,因此更难检测到共进化现象的发生。

数据与工具

http://gremlin.bakerlab.org/complexes/

参考资料

Ovchinnikov S , Kamisetty H , Baker D . Robust and accurate prediction of residue–residue interactions across protein interfaces using evolutionary information[J]. Elife, 2014, 3.

eLife | 利用进化信息预测蛋白质界面间残基-残基相互作用相关推荐

  1. 最新成果展示:利用缺陷信息数据库探索界面工程,助力GaN基肖特基势垒二极管的研究

    在电力电子器件的外延生长和器件制备过程中,特别是对于具有凹槽结构的GaN基肖特基势垒二极管(TMBS)而言,ICP刻蚀将不可避免地损伤材料的表面,产生大量的缺陷,最终牺牲器件的击穿电压.导通电阻等性能 ...

  2. 蛋白质集合c语言算法,利用蛋白质序列的预测方法

    分析新发现的蛋白质或未知功能的基因产物的第一步是用BLAST或其它工具在公共数据库中进行相似性搜索.然而,这种搜索可能无法找到一个已知相符蛋白质:即使能得到一个统计显著的相符蛋白质,也很可能在序列记录 ...

  3. FastRNABindR:快速准确预测蛋白质-RNA界面残基

    paper 单位:宾夕法尼亚州立大学 信息科学与技术学院 Abstract 广泛的生物学过程,包括基因表达的调节.蛋白质的合成以及许多病毒的复制和组装都是由RNA-蛋白质相互作用介导的.然而,蛋白质- ...

  4. 论文解读:PeSTo:用于精确预测蛋白质结合界面的无参数几何深度学习

    Title:PeSTo: parameter-free geometric deep learning for accurate prediction of protein binding inter ...

  5. Nat. Commun. | 无需参数的几何深度学习,可准确预测蛋白质结合界面

    今天为大家介绍的是来自Matteo Dal Peraro团队的一篇关于预测蛋白质结合的论文.蛋白质是生命的重要分子组成部分,由于其特定的分子相互作用而负责大多数生物功能.然而,预测它们的结合界面仍然是 ...

  6. DeepUbi:预测蛋白质泛素化位点的深度学习框架

    文章背景 泛素泛素化是指泛素蛋白与赖氨酸(K)的靶蛋白结合,是真核生物中信号转导.细胞分裂和免疫反应等多种细胞功能的重要调节因子.然而,目前大多数预测目标位置的计算工具都是基于小规模数据和浅层机器学习 ...

  7. 《用于预测蛋白质-配体结合亲和力的结构感知交互图神经网络》

    1.文章原标题与链接 <Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligan ...

  8. Science | 利用深度学习搭建蛋白质功能位点(Scaffolding protein functional sites using deep learning)

    参考文献: https://www.science.org/doi/10.1126/science.abn2100 文献提供的代码地址: https://github.com/RosettaCommo ...

  9. 论文解读:ToxinPred2:一种预测蛋白质毒性的改进方法

    ToxinPred2: an improved method for predicting toxicity of proteins 期刊:Briefings in Bioinformatics 中科 ...

最新文章

  1. Keil调试局部变量显示not in scope的问题解决
  2. 【深度学习】基于深度神经网络进行权重剪枝的算法(一)
  3. 树莓派wiringPi常用的函数介绍
  4. 前端如何搭建一个成熟的脚手架
  5. Win7 Tensorflow 安装
  6. 中小企业的当务之急:内部知识管理
  7. body区域怎么传一个数组_自己轻松写一个jQuery库
  8. hadoop中mapreduce参数优化
  9. 修改/etc/resolv.conf又恢复到原来的状态?[转]
  10. 中国摊铺和混凝土浇筑设备市场趋势报告、技术动态创新及市场预测
  11. [导入]FtpClient Library升级到4.x
  12. linux中nfs存储权限,NFS权限管理 - 麦苗的个人空间 - OSCHINA - 中文开源技术交流社区...
  13. xp计算机管理窗口,XP系统设备管理器的打开技巧
  14. mysql导入文本或excel文件
  15. python导入自定义模块_python引入不同文件夹下的自定义模块方法
  16. 高等数学笔记:定积分相关公式
  17. C# 添加PDF页眉/页脚
  18. mysql 浏览器打开闪退,win10系统使用360浏览器出现闪退的详细方法
  19. unity-新手引导
  20. JQuery插件之-----Datatables(三)Datatables实现多选框与AJAX返回数据

热门文章

  1. 无监督 自监督---综述
  2. 我猜你也在找内网渗透,这篇难道还不够你嚼烂?
  3. dreamweaver作业静态HTML网页设计模板 中国传统书法
  4. shell脚本1例 自动安装httpd
  5. Json格式的数据集标签转化为有效的txt格式(data_coco)
  6. 2018/2019/2020/2021/2022/2023年度计划阅读书籍(持续更新)
  7. 想你所想,华为云桌面Workspace助你轻松办公
  8. 新中新DKQ-A16D身份证读卡器C#对接程序出坑记
  9. 太阳黄经和平黄经的计算方法
  10. 与Java相关的四十个名字