本文介绍苏黎世联邦理工学院、Sidney Kimmel癌症中心等机构的研究者合作发表于Advanced Science的工作:作者将基于配体的分子从头设计与用于靶点预测的机器学习模型相结合,以海洋天然产物Marinopyrrole A为设计模板,自动设计生成了全新的cyclooxygenase-1(COX-1)抑制剂,展示了以天然产物启发的、AI驱动的药物设计的美好前景。特别的,这种基于规则的化合物构建策略打破了高数据量要求的深度学习方法的限制。

简介

天然产物在药物发现中极具潜力,美国FDA批准的药物中有1/3以上是天然产物或天然产物启发的药物,但由于大多天然产物的生物活性未知、具有药理活性的天然产物稀缺以及合成路线复杂等原因阻碍了其工业化。

作者提出了一个高效的计算策略,结合了用于化学结构生成(DOGS)、排序(CATS)和靶点预测(SPiDER)的机器学习模型,用于靶点识别和可合成天然产物相似物的从头设计。这种综合方法将自动化的、基于规则的分子构建与机器学习和实验验证结合,加速了药物的DMTA(design-make-test-analyze)过程。

作者以海洋天然产物Marinopyrrole A(化合物1)作为自动生成新分子的设计模板,验证了所提方法。Marinopyrrole A具有抗菌特性和抗癌活性,其已知的最短合成路线有5个步骤,总产率16%,因此本文旨在通过计算获得与Marinopyrrole A共享疾病相关的大分子靶点的新型、更容易合成的药物分子。此外,作者还分析了设计模板的生物活性在多大程度上被转移到从头设计的分子中,保证新设计是功能性而非模板的结构模拟(即“新结构,同功能”)。

图1. 受天然产品启发的分子骨架迁越

COX-1抑制剂的DMTA过程

(1)设计(design)

首先,使用DOGS(design of genuine structures)软件从200个随机选择的起始片段中从头构建新分子(de novo design)。对于虚拟产物的选择,DOGS在不超过3个线性合成步骤的分子中进行广度优先搜索。在分子构建过程中,生成分子和Marinopyrrole A的分子图相似性作为适应度函数,该相似性已被证明能在设计模板和生成分子间实现骨架迁越,识别结构不同但功能相关的化合物对。

DOGS算法仅由模板和新分子之间的分子相似度来指导,不依赖活性预测构建和选择分子,与无规则的生成式机器学习模型相比,该算法以前向合成的方式生成分子,因此能够为设计提出合成路线。最终,DOGS生成了802个从头设计,包含334个独立分子骨架。

接着,将上述分子根据与Marinopyrrole A的拓扑药效团相似性(CATS距离指标,值越低越相似)进行排序,排名前100的CATS距离均<1.8,包含38个独特骨架,最后在包含最常见的2,4,5-triphenyl骨架(图1)的设计中选出了化合物2(CATS距离=1.46)和化合物3(CATS距离=1.70)。对于这两种化合物,DOGS算法给出的合成路线十分相似(图2)。

图2. 从头设计化合物2和3的合成路线。(a)算法建议的合成路线;(b)实际化学合成。

(2)实验合成、生物活性测试以及分子机制分析

实验根据DOGS建议的合成策略(包括合成步骤以及反应条件等)合成了化合物2以及衍生物2a和2b(图1b),还得到了中间产物化合物4和化合物3。

作者使用了SPiDER靶点预测软件来确定Marinopyrrole A和其仿制化合物的大分子靶点。SPiDER通过与类似化合物和已知生物活性的集合相比较,推断查询分子的潜在生物靶点——通过两个级联的机器学习模型(自组织映射)实现,分别考虑了物理化学特性和分子药理特征方面的分子相似性。本实验中,Marinopyrrole A的靶点预测量最少(n=8),化合物3的最多(n=43)。最后,Marinopyrrole A的8个预测靶点中的7个(前列腺素受体、大麻素受体等)被建议用于所有的新化合物。

初筛中,作者对这些化合物进行了测试,以确定它们对选定靶点的活性,结果表明它们有明显的COX-1抑制活性。由于此前COX-1是否是Marinopyrrole A的靶点未知,故使用无细胞试验进一步验证,结果表示Marinopyrrole A在两位数的微摩尔范围内抑制COX-1,而化合物2、2a和4也表现出强大的COX-1抑制作用。如图3,从头设计的模拟化合物2(compound 2)可优先抑制人体血小板和单核细胞中COX-1衍生产物的合成,是强效COX-1抑制剂。

最后,作为DMTA的最后一环,作者分析了COX-1抑制剂的分子机制,包括结合模式等,对开发新COX抑制剂具有指导意义。

图3. 载体对照组(DMSO)、化合物2处理(“w/o LPS”)、先用LPS激活以诱导COX-2表达(with LPS)

总结讨论

本研究中,原配体的预测靶点量(n=8)远少于从头设计生成的新分子,表明合成衍生物有多种生物活性和更大的靶点杂交性,且作者证实了计算生成的分子至少继承了3个靶点,表明基于配体相似性进行分子从头设计的适用性,也验证了CATS距离用于天然产物化合物排序的有效性。此外,实验中Marinopyrrole A的化学结构是合成过程唯一的参考信息,说明本文方法在低数据量情况下将十分有用,其以既定的化学转化为基础,可在不需要训练数据的情况下应用。

最后,作者表示本文使用的DOGS、CATS和SPiDER等模块中每一个都可用其他解决方案替代,例如在无法使用前向合成方式时使用生成式LSTM替代DOGS进行分子设计、使用强化学习或迁移学习组合分子构建和生物活性预测的软件模块。部分可预测性是合理药物发现的基本挑战,而利用machine intelligence从天然产品中学习有望为其提供前进道路。

参考资料

Friedrich, L., Cingolani, G., Ko, Y.-H., Iaselli, M., Miciaccia, M., Perrone, M. G., Neukirch, K., Bobinger, V., Merk, D., Hofstetter, R. K., Werz, O., Koeberle, A., Scilimati, A., Schneider, G., Learning from Nature: From a Marine Natural Product to Synthetic Cyclooxygenase-1 Inhibitors by Automated De Novo Design. Adv. Sci. 2021, 2100832.

https://doi.org/10.1002/advs.202100832

Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法相关推荐

  1. 基于深度学习的低光照图像增强方法总结(2017-2019)| CSDN博文精选

    扫码参与CSDN"原力计划" 作者 | hyk_1996 来源 | CSDN博客精选 之前在做光照对于高层视觉任务的影响的相关工作,看了不少基于深度学习的低光照增强(low-lig ...

  2. 《Python 深度学习》刷书笔记 Chapter 8 Part-1 生成式深度学习

    文章目录 生成式深度学习 8-1 对于不同的softmax温度,对概率进行重新加权 实现字符级的LSTM文本生成 8-2 下载并解析初始文本文件 8-3 将字符序列向量化 8-4 用于预测下一个字符的 ...

  3. 结合深度学习的工业大数据应用研究

    结合深度学习的工业大数据应用研究 李广  杨欣 电子科技大学大数据研究中心,四川 成都  611731 成都数之联科技有限公司,四川 成都  610041 摘要:如何将大数据等核心技术与智能制造结合, ...

  4. 深度学习模型轻量化(下)

    深度学习模型轻量化(下) 2.4 蒸馏 2.4.1 蒸馏流程 蒸馏本质是student对teacher的拟合,从teacher中汲取养分,学到知识,不仅仅可以用到模型压缩和加速中.蒸馏常见流程如下图所 ...

  5. 【深度学习】基于 Alluxio 数据缓存的性能优化

    作者 | 车漾(阿里云高级技术专家).顾荣(南京大学 副研究员) 导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7 年的不断开发迭代,支撑大数据处理场景的数 ...

  6. 【深度学习】【物联网】深度解读:深度学习在IoT大数据和流分析中的应用

    作者|Natalie 编辑|Emily AI 前线导读:在物联网时代,大量的感知器每天都在收集并产生着涉及各个领域的数据.由于商业和生活质量提升方面的诉求,应用物联网(IoT)技术对大数据流进行分析是 ...

  7. 【深度学习】深度解读:深度学习在IoT大数据和流分析中的应用

    来源:网络大数据(ID:raincent_com) 摘要:这篇论文对于使用深度学习来改进IoT领域的数据分析和学习方法进行了详细的综述. 在物联网时代,大量的感知器每天都在收集并产生着涉及各个领域的数 ...

  8. 【camera】基于深度学习的车牌检测与识别系统实现(课程设计)

    基于深度学习的车牌检测与识别系统实现(课程设计) 代码+数据集下载地址:下载地址 用python3+opencv3做的中国车牌识别,包括算法和客户端界面,只有2个文件,surface.py是界面代码, ...

  9. 如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法?

    如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法? deep learning is a data hungry problem 数据集太小,数据样本不足时,深度学习相对其它机 ...

最新文章

  1. IntelliJ IDEA自动导入包去除星号(import xxx.*)
  2. 虚拟主机IIS防范入侵常见问答
  3. 理解 java 中常用数据结构
  4. Summed-Area Variance Soft Shadow Mapping(SAVSM):一
  5. 小鹏汽车北京车展发布免费加电、电池租赁计划以及低空飞行汽车
  6. 比特币矿商比特微正筹备美股上市
  7. PyTorch 深度学习:37分钟快速入门——FCN 做语义分割
  8. java什么是适配器类?作用是什么?_浅谈Java适配器模式
  9. tar 打包 . 开头的隐藏文件
  10. P8195 [传智杯 #4 决赛] 小智的疑惑 —KMP
  11. 2022年正月初七复工通知
  12. 【QCM2150】WCN3680 WFA认证11ac AP 4.2.23测试FAIL
  13. 国仁网络:揭秘成为“网红”背后的艰辛道路,达人不签约MCN的10个理由。
  14. 使用Matlab实现:Jacobi、Gauss-Seidel迭代
  15. android 点击震动,Android 使用Vibrator服务实现点击按钮带有震动效果
  16. Android性能优化之图片压缩综合解决方案
  17. [从零学习汇编语言] - BX寄存器与loop指令
  18. matlab射频传输距离计算,VHF和UHF信号的传播距离计算工具
  19. Bootstrap动态轮播
  20. 等比、等差数列求和(递归)

热门文章

  1. SQL Server CE學習篇
  2. ICE专题:ICE起步
  3. 爱奇艺基于SpringCloud的韧性能力建设
  4. 文件 IO 中如何保证掉电不丢失数据?
  5. 达摩院基于元学习的对话系统
  6. 使用了这个神器,让我的代码bug少了一半
  7. 基于Hadoop的58同城离线计算平台设计与实践
  8. 分布式事务开局第一篇,从数据库事务隔离级别说起
  9. 阿里某程序员:我级别P7,工资待遇不比协和主治医师差
  10. 分享10个效率实用工具,让你更优雅地使用windows