今天给大家介绍的是来自北京人工智能研究院、北京信息科学与技术国国家研究中心等机构发表在arxiv上的预印文章《Conditional Antibody Design as 3D Equivariant Graph Translation》。作者提出了一种多通道等变注意网络 (MEAN),这是一种能够共同设计 CDR 的 1D 序列和 3D 结构的端到端模型。具体而言,MEAN 通过导入包括目标抗原和抗体轻链在内的额外成分,将抗体设计表述为条件图翻译问题。然后, MEAN 采用E(3)-equivariant 消息传递以及注意机制来更好地捕捉不同组件之间的几何相关性。最后,它通过多轮渐进式全镜头方案输出 1D 序列和 3D 结构。

作者的方法在序列和结构建模、抗原结合抗体设计和结合亲和力优化方面超越了最先进的模型。在抗原结合 CDR 设计中比基线提高了约为22%,在亲和力方面比基线高34%。

1.研究背景

传统方法只专注于对 1D CDR 序列进行建模,而最近的工作逐渐转向通过图神经网络 (GNN) 共同设计 1D 序列和 3D 结构。尽管取得了丰硕的进展,但现有方法在模拟抗体和抗原之间的空间相互作用方面仍然薄弱。一方面,上下文信息没有被充分考虑。工作仅描述了 CDR 与同一抗体链的骨架上下文之间的关系,没有涉及靶抗原和其他抗体链,这可能缺乏完整的线索来反映抗体设计的某些重要特性,例如:结合亲和力。另一方面,这些模型仍然无法捕获输入结构的整个 3D 几何形状。

3D 生物学的一个重要特性是每个结构(分子、蛋白质等)都应该独立于观察视图,即 E(3)-equivariance。目前有的工作是将 3D 坐标作为某些不变特征进行预处理,然后再将它们提供给模型。然而,这种预处理将丢失特征和隐藏空间中的方向信息,使其在表征抗体或抗原中不同残基之间的空间接近性方面不太有效。此外,当前的部分生成模型会一一预测氨基酸,这种自回归方式在推理过程中存在效率低和累积错误的问题。

针对上述问题,作者将抗体设计问题表述为 E(3)-等变图翻译,构建了一个新颖的模型。

2.方法

预备知识、符号和任务制定

对于具有两组对称的链的Y 形抗体(如图 1),每组由一条重链和一条轻链组成。在每条链中,有一些恒定结构域和一个具有三个互补决定区 (CDR) 的可变结构域 (VH /VL)。抗原结合位点出现在可变域上,其中相互作用区域主要是 CDR,尤其是 CDR-H3。除 CDR 之外的可变结构域的其余部分在结构上非常保守,通常称为框架区。

图 1:(A) 残基的结构 (B) 对称的 Y 形抗体的结构,关注重链可变域上的三个通用 CDR。(C) 抗原抗体复合物的示意图,具有全局节点、内部上下文边 Ein 和外部交互边 Eex。

将每个抗体-抗原复合物表示为三个空间聚合成分的图,表示为 G = (V := {VH , VL, VA}, E := {Ein, Eex})。这里,组分VH、VL、VA分别对应于重链、轻链和抗原的节点(即残基)。Ein 和 Eex 分别包含每个组件内的内部边缘和跨组件的外部边缘。

节点:V 中的每个节点,即 vi = (hi, Zi) 根据其氨基酸类型 ai 和一组坐标  表示为可训练的特征嵌入向量

边:对于内部边,如果以 Cα 表示的空间距离低于截止距离 c1,则 Ein 定义为连接同一组件内的每对节点的边。通过为那些邻接残差设置 eij = 1 和为其他邻接残差设置 eij = 0 来分配不同的边类型,以合并一维位置。

全局节点:CDR 环的形状与框架区的构象密切相关。因此,为了让生成的 CDR 了解它们所在链的整个上下文,作者通过把全局节点连接到组件中的所有其他节点,将全局节点插入到每个组件中。

MEAN:多通道等变注意网络

作者开发的多通道等变注意网络 MEAN(如图 2) 用来表征输入抗体-抗原复合物的几何形状和拓扑结构。MEAN 的每一层在两个模块之间交替:内部上下文编码器和外部注意力编码器。第一个模块对每个组件内的结构进行编码,而第二个模块则侧重于对不同组件之间的外部交互进行建模。经过几层消息传递后,节点表示和坐标由输出模块转换为预测。所有模块都满足 E(3)-equivariant。

图 2:MEAN 概述和渐进式全镜头解码

渐进式全镜头解码

利用由于 MEAN 的丰富表达能力,在 T 次迭代中逐步生成 CDR(T 远小于 CDR 序列的长度),并且在每次迭代中,预测所有节点的氨基酸类型和 3D 坐标一次性放入 VC 中。作者将这种方案称为全镜头解码,以将其与以前的自回归方法区分开来。

3.实验结果

序列和结构建模

作者从从结构抗体数据库SAbDab中选择了 3,127 个复合物并删除其他缺少轻链或抗原的非法数据点。所有选定的配合物都在 IMGT 方案下重新编号。根据 CDR 的聚类将数据集分为训练集、验证集和测试集,以维护泛化测试。测量 1D 预测序列和基本事实之间的困惑度 (PPL),以及关于 3D 预测结构的均方根偏差 (RMSD),以进行定量评估。

表1:序列和机构生成对比

表1 表明了MEAN 在 1D 序列和 3D 结构建模方面明显优于其他方法,这验证了 MEAN 在对配合物的潜在分布进行建模方面的有效性。

CDR-H3抗原结合设计

作者对设计与给定抗原结合的 CDR-H3 进行了细粒度验证。为了便于评估,采用氨基酸回收率 AAR 和 TM-score作为评测标准。它们分别代表设计和目标 CDR-H3 之间的序列重叠率和结构相似性(范围从 0 到 1)。作者生成 10,000 个 CDR-H3,并选择 PPL 最低的前 100 个候选者来计算平均 AAR 和 TM 分数。用 Adolf-Bryfogle 等人精心挑选的 60 种不同的复合物对所有方法进行了基准测试。训练仍然在上一部分中使用的 SAbDab 数据集上进行。

表2:CDR-H3 抗原结合设计的三个指标对比

如表 2 所示,MEAN 在 AAR 和 TM 分数方面都大大优于所有基线。在 TM-score 上,MEAN 的值接近 0.99 以上,这意味着设计的结构与原来的结构几乎相同。

亲和力优化

表3:优化后的平均亲和力变化

作者将 SAbDab 中的经过预处理的所有复合体,以 9:1 的比例拆分为训练集和验证集,用于对模型进行预训练。从数据集 SKEMPI V2.0中选择了总共 53 种抗体进行亲和力优化。如表 3 所示,MEAN 模型在发现具有更好结合亲和力的抗体方面取得了明显进展。

4.分析

消融实验

表3:左:平均消融。右:与基于迭代细化解码相比,全镜头解码的平均 CDR 长度和训练加速。

如表 3(左)显示,移除全局节点或注意力机制会导致显着的性能损失。这是因为全局节点在组件内部和组件之间全局传输信息,而注意力模块集中在不同组件接口周围的本地信息。观察到仅使用重链会明显削弱性能,并且无法为亲和力优化任务得出可行的解决方案,这从经验上支持在 MEAN 中输入抗原和轻链的必要性。如表 3(右)所示,作者的方法根据 CDR 序列的长度加快了大约 2 到 5 倍。

注意力可视化

在外部注意力编码器中,作者应用注意力机制来评估不同组件中残差之间的权重。对于 CDR-H3 中的每个残基,首先确定抗原中对其结合能贡献最大的残基。然后根据MEAN产生的注意力权重计算识别出的残差的等级。接着通过用界面中的抗原残基总数对其进行归一化来获得相对等级。如果注意力权重有意义,那么最终的排名分布将偏向小数字。否则,它们均匀分布在 0 和 1 之间。实验结果表明,图 4(B)中到达了前一种情况,表明我们的注意力权重与 Rosetta 计算的结合能之间的密切相关性。图 4 (A) 还可视化了注意力权重的示例和相应的能量图,这表明它们的分布是相似的。

图 4:(A)左:CDR-H3 中的残基到抗原中的残基的注意力权重(PDB:4ydk) 右:Rosetta 计算的每对残基的相对能量贡献 (B) 贡献最大的残基对的相对等级的密度图

5.总结

作者团队将抗体设计工作构想成将抗体抗原复合物的整个背景作为输入,以通用 CDR 为输出。提出了多通道等变注意网络(MEAN)来识别和编码不同链内部和链间的局部信息和全局信息。还提出了渐进式全镜头解码策略,以实现更高效、更精确的生成。作者的模型在1D 序列和 3D 结构的学习、CDR-H3抗原结合设计和亲和力优化三个方面大幅度领先于基线。

参考资料

Kong, X., Huang, W. and Liu, Y., 2022. Conditional Antibody Design as 3D Equivariant Graph Translation. arXiv preprint arXiv:2208.06073.

https://arxiv.org/abs/2208.06073

基于3D等变图转换的条件抗体设计相关推荐

  1. 客制化键盘编程_基于3D打印的客制化机械键盘设计与实现

    龙源期刊网 http://www.qikan.com.cn 基于 3D 打印的客制化机械键盘设计与实现 作者:许玺风 毛凌志 来源:<科学与财富> 2020 年第 03 期 摘 要:本文首 ...

  2. CAD2019中创建基于3D图当前视图所有对象的二维表示

    在CAD2019中打开现有3D图,或者绘制新3D图. 在CAD中输入现有3D图stp文件,如图所示: 选择stp文件后,等待转换完成. 将视角转到待投影面. CAD2019中创建基于3D图当前视图所有 ...

  3. 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021)

    DeepPanoContext: 基于全局场景背景图和关系优化的全景3D场景理解(ICCV 2021) 论文标题:DeepPanoContext: Panoramic 3D Scene Underst ...

  4. 基于3D关节点的人体动作识别综述(转)

    原文:2016,Pattern Recognition: 3D skeleton-based human action classification: A survey 摘要 近年来,基于深度序列的人 ...

  5. MICCAI 2020 | 基于3D监督预训练的全身病灶检测SOTA(预训练代码和模型已公开)...

    关注公众号,发现CV技术之美 ▊ 研究背景介绍 由于深度学习任务往往依赖于大量的标注数据,医疗图像的样本标注又会涉及到较多的专业知识,标注人员需要对病灶的大小.形状.边缘等信息进行准确的判断,甚至需要 ...

  6. SemSegMap :基于3D点云语义信息的定位

    点云PCL免费知识星球,点云论文速读. 文章:SemSegMap - 3D Segment-Based Semantic Localization 作者:Andrei Cramariuc, Flori ...

  7. segMatch:基于3D点云分割的回环检测

    该论文的地址是:https://arxiv.org/pdf/1609.07720.pdf segmatch是一个提供车辆的回环检测的技术,使用提取和匹配分割的三维激光点云技术.分割的例子可以在下面的图 ...

  8. Patchwork++论文阅读——基于3D点云的快速鲁棒地面分割算法

    文章目录 摘要 1. 介绍 2. 相关工作 A. 基于学习的地面分割方法 B. 传统的地面分割方法 C. 地面分割的应用 3. PATCHWORK++:快速.稳健.自适应的地面分割 A. 问题定义 B ...

  9. 【自动驾驶】杜明芳:基于多尺度IPM图的车道线检测实现

    摘要:针对无人车自然道路图像检测时遇到的实时性和精度相互制约矛盾,借鉴自校正自适应控制系统理论的思想,提出一种自校正闭环道路视觉检测器架构,并提出一种新型检测器实现算法--基于多尺度IPM图((Inv ...

最新文章

  1. Java设计模式(十二):状态设计模式
  2. viewer vue 文档_vue中使用viewerjs
  3. Mathematics for Computer Graphics
  4. opencv python运动人体检测
  5. Sharepoint学习笔记—error处理-- The user does not exist or is not unique.
  6. mmap函数_Linux内存映射mmap原理分析
  7. 学java的困惑_学习Java - 关于一些代码困惑
  8. ssh 无法连接 z/OS 主机
  9. clock函数,计算程序运行时间
  10. jni java与c++交互返回三维数组jobjectArray
  11. python爬考研_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!
  12. 太原理工大学 微型计算机实验,太原理工大学 微机原理 实验三 十字路口红绿灯闪烁实验...
  13. lenovo微型计算机如何拆t410,联想thinkpad T410S全面拆解
  14. 顺丰标准 150标准丰密面单 Clodop 实现打印
  15. Ubuntu安装OpenCV
  16. Java 拆分Word文档
  17. 根据不同时区来计算当前时间
  18. STM32-----TFTLCD驱动原理
  19. 基于蓝墨云班课的“出门门票”设计与改进
  20. 2023年京东炸年兽脚本《京东炸年兽活动脚本》

热门文章

  1. vue+elementui实现非常好看的博客、网站首页,网站模板
  2. 来了, 微信又双叒叕更新
  3. 国家lpv9服务器包括哪些项目,ipv6与ipv9什么关系
  4. 如何使营销变得年轻化
  5. XML和Dom4j、正则表达式
  6. 14.4 设计新闻发布系统
  7. 在Debian情况下架设PPPoE效劳器-1
  8. 解决电脑开机输入BitLocker密钥才能进入系统的问题
  9. 计算机毕业设计Java医保局综合办公系统(源码+系统+mysql数据库+lw文档)
  10. 健身的基本知识(3)