论文标题:Comprehensive assessment of deep generative architectures for de novo drug design

论文地址:Comprehensive assessment of deep generative architectures for de novo drug design | Briefings in Bioinformatics | Oxford Academic

一、传统药物设计

传统的药物从头设计方法可以分为两类:基于结构的和基于配体的。基于结构的从头药物设计方法可以进一步分为基于原子基于片段的方法。

1、基于结构

基于原子的方法的一个明显优势是可以有效地利用广阔化学空间中的各种化学骨架。然而,基于原子的方法的缺点是生成的化合物难以合成。为了提高生成分子的SAScore,通常将预先定义的片段放置在结合位点内作为片段连接和片段生长的初始结构

片段连接:将多个小片段放入结合位点,根据蛋白质与配体的相互作用,通过linker相互连接。片段和连接剂是从现有的化学数据库中选择的,因此生成的化合物的多样性与数据库中结构的新颖性有关。

片段生长:只有一个小片段种子被放置在结合位点,作为化合物生长的锚点。与片段连接相比,片段生长技术在每个阶段都提供了更大的结构自由度,因为它不依赖于一组linker来弥合两个起始片段之间的差距。基于片段的药物设计方法,如LUDI、PROLIGAND、SPROUT和CONCERTS

2、基于配体

基于配体的方法,如BREED和TOPAS,使用已知与靶标结合的化合物集合来指导新结构的生成。基于配体的方法的主要问题是合成的可达性,在生成过程中不能很好地控制,可能导致合成的可达性较差的结构

所生成化合物的高合成可行性和可行的合成规则的可用性是这些基于反应的方法的主要优点。

然而,规则和反应物数量的限制可能会限制这些算法探索更大的化学空间,因此生成的化合物可能具有有限的结构新颖性和多样性

3、遗传算法

遗传算法(GA)已被证明是成功的传统新药设计。遗传算法是一种著名的基于群体优化的进化算法,它受到生物进化的启发,如繁殖、突变、重组和选择。在基于GA的从头药物设计中,随机生成一组母分子,然后每个母分子使用遗传算子进行随机转换,生成一组新结构的群体,称为“子”。使用评分函数来评估每个“子”结构的质量。根据这些分数,从第一代“父母”和第一代“孩子”的总和中选出新一代。许多传统的从头药物设计方法,如LigBuilder、GANDI、GB-GA、ChemGE等,都在分子生成过程中使用了GA。

传统的从头药物设计方法往往存在结构新颖性与生成分子性质之间的冲突。换句话说,与现有化合物库中的化合物相比,生成的分子确实具有新颖的结构/骨架,但不具有良好的物理化学性质或合成可达性,反之亦然

4、DL模型

基于DL的生成模型在现实世界药物设计场景中的表现还没有得到很好的评估。此外,这些方法还存在分子对接计分函数预测精度较低或用于生成分子计分的绑定自由能计算和/或实验分析时间较长等问题。

现有度量标准和基准:基于Fréchet Inception distance开发了一个度量Fréchet ChemNet distance (FCD)来检测生成的分子是否具有与训练数据集相似的生化性质。分子集(MOSES)的基准测试平台,通过集成一组指标来评估生成分子的多样性和质量。Guacamol 基准以衡量生成模型的能力,用于活性化合物的重新发现、优化和骨架跳跃数。

二、模型测试

系统评估基于dl的生成方法的性能,包括VAE-base(即VAE、SDVAE、GrammarVAE、CGVAE和JT-V AE)、GAN-base(即AAE、LatentGAN、ORGAN和ORGANIC)、RNN(即SMILES-base和Graph-base的RNN)和RL(即REINVENT, GENTRL,ChemTS和DrugEX)。在评估过程中,每个深度生成模型的参数都保持到已发布的版本

基于传统的方法:RECAP、BREED和两种基于GA的方法。

1、Quality of the generated molecular set and performance in goal-directed tasks

相同的体系结构具有相似的总体性能,但是不同基于DL的体系结构的性能指标差异很大。例如,基于rnn的模型的一些指标通常是优秀的,而基于GAN的模型的指标则相对较差。此外,基于Kullback-Leibler (KL)散度和FCD值普遍优于baseline,这意味着基于DL的方法生成的分子性质与训练集的分子性质更一致。

Table2概述了不同方法在目标导向任务中的性能,包括生成与目标分子相同或相似的分子(重新发现和相似),优化目标分子(Hop)和多属性优化(MPO和Median)

基于gan的方法表现出比其他生成方法更差的性能,这是由于它们在Median,MPO和Hop参数方面的性能较差。这是由基于gan的方法生成的分子的低有效性引起的。除了基于gan的方法外,其他基于dl的模型在不同的任务中产生了类似的性能,但基于dl的模型与基于GA的baseline相比并没有明显的优势。

2、Assessing the stability of different DL methods

评估不同模型的稳定性,应检查样本量的影响。5组不同样本量(5 × 10000, 5 × 20000,…, 5 × 1000000)重复生成,(BREED和RECAP一次只能生成固定数量的分子,因此这两种方法不适合进行稳定性研究)。

有效性、唯一性、新颖性和多样性指标表示分子集的整体质量:随着样本量的增加,分子集的有效性变化不大,但其唯一性、新颖性和内部多样性变化较大。当样本量小于阈值时,不同样本量的分子集结构特征是不同的。当样本量大于阈值时,分子集的质量趋于稳定。两种基于ga的基线也可以观察到类似的趋势,但阈值为~ 300000。然后评估生成分子的质量,当样本量达到阈值时,所有模型生成的分子的多样性指标(即唯一性、新颖性和内部多样性)下降,表明模型生成的重复分子更多。基于dl的模型和基线模型的阈值分别为~ 10万和~ 30万,表明基于dl的模型产生多样化分子的能力比基线模型差。

KL、FCD、骨架和片段相似性指标表示生成的分子与训练集的一致性:DL模型生成的分子集的KL、FCD、骨架和片段相似性不随样本量的变化而波动,而两种ga基线生成的分子集的KL、FCD、骨架和片段相似性在所有样本量下都有较大波动。基于DL的模型在模拟训练集属性方面比基线模型更有优势。

3、The scaffolds within the generated datasets for different DL generative models

“生成分子集的质量和目标导向任务中的性能”和“评估不同DL方法的稳定性”小节中的指标并不能完全反映生成分子的结构性质。具有相同骨架的六个分子具有较低的多样性,但它们具有上述理想的指标。因此,需要单独研究生成集合中的骨架,以评估生成分子的多样性:

所生成分子的骨架编号和骨架结构分别如下图,当样本量达到阈值时,骨架数量趋于稳定,但多样性开始急剧下降,同时在阈值之后方差尤其小:

计算相同样本量下五种生成分子集的平均骨架。平均骨架图显示了每个样本量的五个分子集之间的骨架相似性。对于所有生成模型,scafsim随着样本量的增加略有增加,当样本量达到阈值时,生成的分子集的相似性不再发生变化。在阈值之前所生成分子的骨架有较大的差异,而在阈值之后不容易生成新的骨架:

生成模型生成的化学骨架的最大值与上面的“阈值”有关。因此,当样本量小于阈值时,骨架数量没有达到最大值,导致平均骨架数量相对较低;当样本量高于阈值时,骨架数量达到最大值,骨架特征数量趋于稳定。

4、Analysis of the properties of molecules generated by different methods

通过比较“生成分子集的质量和目标导向任务中的性能”、“评估不同DL方法的稳定性”和“生成数据集中的不同DL生成模型的骨架”小节中所示的不同基于DL的模型的性能,每种架构中的一个代表性模型被选择用于下面的属性分析和特定目标任务,不同理化性质的分布:

对于药物(QED)、天然产物(NP)、LogP和合成物可及性(SA)的定量估计,大多数基于dl的方法都能生成与训练数据分布相似的分子,这表明基于dl的模型比基线方法具有更好的学习训练数据性质分布的能力。

5、The performance of different methods in target-specific generation tasks

基于对p38和CDK2的对接VS识别出的潜在抑制剂与现有抑制剂具有中度相似性,而基于DL和GA的方法生成的分子与已知的p38和CDK2抑制剂具有较高的相似性。此外,与VS结果相比,BREED生成的分子与已知抑制剂的相似性较低。

基于支持向量回归(SVR)模型的V AE、GENTRL和LatentGAN(颜色较深)可以生成更多的活性分子,生成分子的分布与已知抑制剂的分布重叠,这表明生成模型可以重新创建训练分子的某些属性。GENTRL和LatentGAN生成的化合物与p38和CDK2抑制剂有较大的重叠,表明这两种方法在分子性质重建方面具有理想的性能:

四、总结

对于具有相同深度学习架构的生成模型,无论是使用不同的分子表示还是引入一些改进的深度学习架构,在相同的架构中,没有一个模型表现出明显的优点或缺点。这表明,一些复杂的分子表征或结构中的技巧可能对从头开始的药物设计的整体性能并不十分关键。对于具有不同DL架构的生成模型,基于RL和gan的生成模型在与目标属性的一致性方面优于其他生成模型,更适合于特定目标任务。

Briefings in Bioinformatics2021 | 从头药物设计的深度生成模型的综合性评估相关推荐

  1. RELATION:基于结构的从头药物设计的深度生成模型

    这次给大家介绍一篇来自浙江大学侯廷军教授课题组.中南大学曹东升教授课题组.华东理工大学李洪林教授课题组联合发表在Journal of Medicinal Chemistry的<RELATION: ...

  2. 论文解读:《RELATION:基于结构的药物从头设计的深度生成模型》

    论文解读:<RELATION:A Deep Generative Model for Structure-Based De Novo Drug Design> 1.文章概述 2.迁移学习相 ...

  3. Nat. Biotech.|药物设计的AI生成模型

    今天介绍2020年1月30日发表在Nature Biotechnology上的评论,作者为Relay Therapeutics公司的Walters和Murcko,该论文评价了当前几种基于AI的药物生成 ...

  4. AAAI | 深度生成模型—NEVAE

    今天给大家介绍的是印度理工学院Niloy Ganguly教授课题组在AAAI2019发表的一篇关于分子生成的论文.作者基于VAE提出一种新的分子图生成模型NEVAE,其编码器和解码器经过特殊设计,通过 ...

  5. Chem. Sci. | 3D深度生成模型进行基于结构的从头药物设计

    本文介绍来自北京大学来鲁华教授课题组发表在Chemical Science上的文章"Structure-based de novo drug design using 3D deep gen ...

  6. 《预训练周刊》第6期:GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计

    No.06 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...

  7. ICLR要搞深度生成模型大讨论,Max Welling和AAAI百万美元大奖得主都来了,Bengio是组织者之一...

    萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 用深度生成模型搞科学发现,是不少AI大牛最近的研究新动向. 就在最新一届ICLR 2022上,包括Max Welling和Regina Barzi ...

  8. 【阿里云课程】深度生成模型基础,自编码器与变分自编码器

    大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第11课中两节,介绍如下: 第1节:生成模型基础 本次课程是阿里天池联合有三AI推出的深度学习系列课程第11期,深度生成模型 ...

  9. 1. 深度生成模型-扩散模型(非均衡热力学的深度无监督学习)

    扩散模型:利用非均衡热力学的深度无监督学习 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 扩散模型:利用非均衡热力学的深 ...

最新文章

  1. 全球通吃5G!高通发布最新骁龙865、7系芯片,小米、OPPO将实现首发
  2. 2011年GALGAME不朽巨作推荐
  3. ubuntu java classpath_java – 如何为Ubuntu中的文件夹设置CLASSPATH变量
  4. java项目:永和大王项目_Java项目:书评
  5. 关于过程和线程的常识点汇总
  6. linux socket read 接受缓存为空_Linux直接IO、缓存IO、阻塞与同步?
  7. webApi2 上传大文件代码
  8. linux 过滤某种类型文件,linux mv 类型过滤
  9. 哈工大《同义词词林》共享版的若干改进
  10. python3绘制皮卡丘
  11. ggsurvplot_combine R语言 一张图内画多条生存曲线
  12. The right to contest automated decisions under the General Data Protection Regulation: Beyond the so
  13. 树莓派驱动水星无线网卡(MW150UH)教程指南
  14. [传感器][算法][python]根据IMU九轴加速度传感器数据序列,判断是否有触碰或翻转
  15. 十只老鼠和一千瓶毒药的故事。。。
  16. ThinkPad 连接无线网络几分钟后无线自动关闭
  17. Java并发工具类(三)Exchanger
  18. 【openEuler】网络配置
  19. git 提交 全部文件
  20. oracle创建索引占用表空间吗,oracle创建索引表空间

热门文章

  1. mybatis的CUID
  2. Openstack中为虚拟机挂载ISO镜像
  3. oss 服务端签名直传核心代码
  4. 54.查表法按日期生成流水号的案例
  5. MATLAB GUI界面
  6. Druid报错c.a.druid.pool.DruidAbstractDataSource : discard long time none received connection.
  7. \t\t北京社保卡 问题汇总 参保人 结算问题
  8. 查找论文的方法(ICCV,CVPR,ECCV)
  9. 手持终端无法启动有以下原因
  10. 从零实现 RGB屏幕