参考文献: https://www.science.org/doi/10.1126/science.abn2100
文献提供的代码地址: https://github.com/RosettaCommons/RFDesign
https://github.com/sokrypton/ColabDesign

围绕功能进行设计蛋白质已经成功地找到了折叠成所需构象的序列,但设计功能蛋白质仍然具有挑战性。Wang等人描述了两种深度学习方法来设计含有预先指定功能位点的蛋白质。在第一个实验中,他们发现了可以折叠成包含功能位点的稳定结构的序列。第二,他们重新训练一个结构预测网络,以恢复只给定功能位点的蛋白质的序列和完整结构。作者通过设计含有多种功能基序的蛋白质来演示他们的方法。

前言

蛋白质的结合和催化功能通常是由蛋白质整体结构所固定的少量功能残基所介导的。也就是说蛋白质的生化功能通常是由组成功能位点的残基自己来实现的,因此设计具有新功能的蛋白质可以分为两个步骤。第一步是确定产生所需活性的功能位点几何形状和氨基酸身份——对酶来说,这可以通过量子化学计算来完成,对蛋白质结合剂来说,这可以通过片段对接计算来完成。或者,也可以从具有所需活性的原生蛋白质中提取功能位点。在这里我们主要关注第二步:给定来自任何来源的功能位点描述,设计一个氨基酸序列,折叠成包含该位点的三维结构。
一种理想的功能从头设计蛋白方法:(i)将功能位点以最小的扭曲嵌入可设计的支架蛋白中 (ii)适用于任意场地几何形状,搜索所有可能的支架拓扑结构和二级结构组成,寻找最适合承载指定场地的结构 (iii)共同生成主干结构和氨基酸序列

文中采取的两种方法

文中使用了深度学习方法来搭建这样的功能位点,提出了两种方法,只需输入功能位点的结构和序列,不需要预先指定支架的折叠或二级结构,用于解决支架功能位点(motif) 的问题。方法可以应用于设计候选免疫原、受体陷阱、金属蛋白、酶和蛋白质结合蛋白。文章使用室内测试和实验测试的组合来验证设计的可行性。

第一种方法是通过“受限幻觉”(hallucination)优化序列,使其预测的结构包含所需的功能位点,比如设定可以与配体产生氢键和疏水相互作用的功能。之前证明了trRosetta结构预测神经网络可以用于生成新的蛋白质,通过最大化trRosetta输出概率,在序列空间的蒙特卡罗采样过程中将序列折叠到某些3D结构。我们把这个过程称为“幻觉”,因为它是靠幻想产生蛋白质,被网络认为是理想的蛋白质,其与任何已知的天然蛋白质都不对应。。trRosetta(一种模型)还可以用于设计折叠成目标骨干结构的序列,方法是使用结构再现损失函数进行序列优化,该函数奖励预测结构与目标结构的相似性
第二种方法是“图像修复”(inpainting),也就是信息缺失恢复问题。在最新版本的RoseTTAFold训练中,除了预测结构外,还对输入多序列对齐中的一个位置子集进行了屏蔽,并训练网络恢复这些丢失的序列信息。这种同时恢复序列和结构信息的能力为功能位点搭建构成了第二种方法:从功能位点开始,填充额外的序列和结构,通过专门训练的RoseTTAFold网络,在一次正向传递中创建一个可行的蛋白质支架。

图片解析
图(A)功能位点脚手架(functional-site scaffolding)的应用。图(B)©见下文。图(D)表示给定不同的序列和结构信息,分别代表不同的训练任务,问号表示序列信息的确实,灰色表示缺少结构信息。图(E) RFjoint可以同时恢复被屏蔽蛋白区域的结构和序列。2KL8被输入RFjoint,并屏蔽连续(长度为30)的序列和结构窗口,网络负责预测蛋白质缺失区域。输出(灰色区域)与原始蛋白(2KL8,左)非常相似,并且由AlphaFold自信地预测(如图所示模型的pLDDT/motif RMSD,从左到右:91.6/0.91,92.0/0.69,和90.4/0.82)。(F和G) Motif脚手架基准数据比较RFjoint与约束幻觉。使用了一组28种从头设计的蛋白质,这些蛋白质是在RoseTTAFold被训练后发表的。对于每个蛋白质,生成20个长度为30的随机掩模,RFjoint和hallucination负责填补缺失的序列和结构,以“支撑”未掩模的“motif”。对于这个掩码长度,RFjoint通常略微优于幻觉,无论是就未掩码蛋白质(“motif”)对原始结构的RMSD (F)还是在AlphaFold置信度(pLDDT在替换区域)(G)而言。圆代表每个基准蛋白质的平均20个输出。三角形代表2KL8。所有面板的颜色:本地功能主题,橙色;幻觉/镶嵌的支架,灰色;约束图案,紫色;绑带伙伴,蓝色;非掩模区域,绿色;和遮罩区域,浅灰色虚线。

方法的具体实现

1.幻觉:

使用了多目标损失函数=Hallucination+Motif+Problem-specific,利用复合损失函数将之前使用的幻觉损失与功能基序上的基序重建损失结合在一起,折叠成包含所需功能位点的结构,幻觉方法利用了其关键优势,即使用针对特定问题(比如与配体形成三个氢键)的任意损失函数的能力,以及无需再训练就可以设计任意长度序列的能力。如上图B所示:通过多次迭代,在每次迭代中传入一个序列给trRosetta或RoseTTAFold神经网络来预测三维坐标和残差之间的距离和方向。预测通过损失函数进行评分,该损失函数用来奖励预测结构的确定性,以及motif再现和其他特定任务函数,保留它认为有效的部分序列,然后对其它部分进行突变,朝着目标稳步进化。
随着RoseTTAFold (RF)的开发,我们发现它在通过功能位点受限幻觉指导蛋白质设计方面比trRosetta表现得更好,这可能反映了更好的蛋白质序列-结构关系的整体建模。使用RoseTTAFold的受限幻觉有进一步的优势,因为3D坐标是显式建模的(trRosetta只生成残差之间的距离和方向),位置再现可以在坐标级别进行评估,额外的问题特定损失项可以在评估与目标的相互作用的坐标空间中实现

2.Inpainting

由于序列优化过程中的每个梯度下降步骤都需要向前和向后通过网络,因此约束幻觉方法虽然功能强大且通用,但计算量很大。
Inpainting给定一个功能位点描述,通过网络的向前传递可以用于完成或“inpaint”蛋白质掩模区域中的蛋白质序列和结构。类似于使用语言模型完成一个给定其前几个单词的句子或使用inpainting完成损坏的图像。如图B所示:缺失信息恢复(“补位”)。部分序列和结构信息输入到一个改进的RoseTTAFold网络(称为RFjoint),并输出完整的序列和结构。

RFjoint:我们从训练用于结构预测的RoseTTAFold (RF)模型开始,在标准固定序列结构预测任务的基础上,对固定骨干序列设计进行进一步的训练,以避免模型退化。这个被称为RFimplicit的模型能够恢复序列和结构都缺失的小的、相邻的区域。在这一结果的鼓舞下,我们明确训练了一个模型,在给定周围蛋白质上下文的情况下,插入缺失序列和结构的片段,以及序列设计和结构预测任务。结果是模型能够高保真地补绘缺失区域,并在序列设计和结构预测方面表现良好。我们称这个网络为RFjoint。训练RFjoint模型包含三个任务: 如上图A所示任务1序列预测:包括给定蛋白质的连续片段的固定骨干序列设计任务,不可见直接的上游和下游蛋白质(见方法)。任务2序列片段和结构的恢复:包括一个inpainting任务,其中模型的任务是预测一个连续的蛋白质片段的序列和结构,也不可见上下游的蛋白质。星号表示“引导点”,在对任务3结构预测进行填充时作为输入提供,这是最初用于训练RosettaFold的结构预测任务。算法大致结构见下图(S1)

之后文章描述了两种方法的具体应用

包括:设计候选免疫原和受体陷阱,设计金属配位蛋白,酶活性位点的计算机设计,设计蛋白质结合蛋白

一些名词解释:

pLDDT: 在AlphaFold中出现的度量值,预测的 lDDT-Cα。它是在 0 -100范围内对局部置信度的每个残基的度量。pLDDT可以沿着一条链显著变化,使得模型能够表达结构域的高置信度,但是在结构域之间的连接子(linker)上具有低置信度。研究人员提出了一些证据,证明低 pLDDT 的区域可能是孤立的非结构。pLDDT<50 的区域不应被解释,或者被解释为「可能的无序预测」。

RMSD: 均方根偏差,在分子对接中说明两个分子之间的结构差异,越小越好,一般要<2Å。

文中引用的一些模型参考文献:

RoseTTAFold (RF): 10.1126/science.abj8754
trRosetta: 10.1073/pnas.1914677117

Science | 利用深度学习搭建蛋白质功能位点(Scaffolding protein functional sites using deep learning)相关推荐

  1. 【超分辨率实验】Matlab-使用深度学习的单图像超分辨率(Single Image Super-Resolution Using Deep Learning)

    [超分辨率实验]Matlab-使用深度学习的单图像超分辨率(Single Image Super-Resolution Using Deep Learning) 此示例演示如何训练非常深的超分辨率 V ...

  2. NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献

    NLP:LSTM之父眼中的深度学习十年简史<The 2010s: Our Decade of Deep Learning / Outlook on the 2020s>的参考文献 目录 T ...

  3. 【自动驾驶】如何利用深度学习搭建一个最简单的无人驾驶系统

                                                 新智驾按:本文为新智驾独家专栏,作者系佐思产研研究总监周彦武,新智驾经授权发布. 国内最牛的无人驾驶厂家的运算 ...

  4. [论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(一)

    文章目录 摘要 一.背景 二.数据收集和预处理 三.Deepphos框架和模型训练 摘要 这项研究中,文章提出了一种新颖的多层CNN架构DeepPhos,以准确预测具有蛋白质序列信息的磷酸化位点.与之 ...

  5. 深度学习基础 Probabilistic Graphical Models | Statistical and Algorithmic Foundations of Deep Learning

    文章目录 Probabilistic Graphical Models Statistical and Algorithmic Foundations of Deep Learning 01 An o ...

  6. 在Spotify使用深度学习做音乐推荐(Recommending music on Spotify with deep learning)

    August 05, 2014 这篇博客做的工作非常impressive,我花了陆陆续续大概一周之间将它翻译成中文.作者是比利时根特大学毕业,博士期间一直在做music information ret ...

  7. Science | 利用强化学习进行蛋白质的自上而下设计

    今天为大家介绍的是来自David Baker团队的一篇关于蛋白质设计的论文.由于进化选择的结果,自然的蛋白质组装的亚基通常具有相当的形状互补性,以生成最优的功能架构,这是当前设计方法所无法实现的.作者 ...

  8. 全球名校AI课程库(6)| Stanford斯坦福 · 深度学习与自然语言处理课程『Natural Language Processing with Deep Learning』

  9. DeepRMethylSite:一种基于深度学习的蛋白质精氨酸甲基化位点预测方法

    DeepRMethylSite:一种基于深度学习的蛋白质精氨酸甲基化位点预测方法 https://www.researchgate.net/publication/341890599_DeepRMet ...

最新文章

  1. CKPT进程工作机制
  2. 使用阿里云镜像maven管理配置开发环境
  3. 显示lib包_【手把手教你】股市技术分析利器之TA-Lib(一)
  4. 使用lucene3.6创建索引和实现简单搜索
  5. JDBC连接数据库集
  6. Vue中如何正常使用锚点定位?
  7. WinForm学习笔记(一)- 无边框窗体移动
  8. CH340/CH341 Linux驱动编译
  9. CreatePipe()函数
  10. 2.遥感传感器和遥感数据
  11. python怎么换背景颜色_Python给照片换底色(蓝底换红底)
  12. 免费开源Blazor在线Ico转换工具
  13. 20162314 《Program Design Data Structures》Learning Summary Of The Eighth Week
  14. H5播放HLS之videojs播放视频
  15. U8 8.9 数据库置疑恢复方法
  16. 模拟器件之三极管场效应管
  17. 160家企业实践调研:《装备制造业服务化转型白皮书》独家发布
  18. Pod生命周期中的状态解释
  19. Chorme打不开网页-更改搜索引擎
  20. 图解IFRS9 金融工具(7)减值损失披露

热门文章

  1. 老爷爷与小孙孙的一次对话
  2. 用Python入门不明觉厉的马尔可夫链蒙特卡罗(附案例代码)
  3. 智慧交管可视化决策系统
  4. 告诉你一个cudaMalloc和cudaMallocPitch的秘密
  5. 【Industry digitization】数字化技术正在全球范围内迅猛发展,世界各国和企业纷纷开启数字化转型之路
  6. Java实现 LeetCode 558 四叉树交集(四叉树,第一次遇到,研究了半天)
  7. 程序员休闲好去处:深圳东湖公园和深圳仙湖植物园精美图片
  8. word彩色图片转黑白
  9. 如何在Mac上刻录DVD以获取可播放的视频?
  10. C#练习题答案: TO DE-RY-PO-陆琪暗号【难度:1级】--景越C#经典编程题库,1000道C#基础练习题等你来挑战