作者 | 董靖鑫

审稿 | 程玉

今天给大家介绍的是来自蒙特利尔算法研究所、克莱姆森大学等联合发表在ICML2020上的文章。在本文中,作者针对目前新型化学结构的生成方法不能确保所提出的分子结构的合成可及性,也不能提供所提出的小分子的合成路线这一问题,提出了一种用于新药设计的强化学习机制:正向合成的策略梯度,简称为PGFS。

1

背景

在过去的十年中,机器学习和人工智能技术在化学科学和药物发现中的作用大幅提升。但是,大多数新药设计方法并未明确说明其合成可及性,因此无法确保所生成的分子是否可以在物理世界中生成。

将合成知识直接嵌入到新药设计中将使我们能够将搜索限制在合成可及的路线上,并在理论上保证该算法提出的任何分子都可以轻松生成。为实现这一目标,作者提出了一种由强化学习(RL)支持的正向合成模型,名为正向合成的策略梯度(PGFS)。这项工作的主要贡献是开发了一种RL框架,该框架能够应对多步虚拟化学合成的巨大离散作用空间,并使分子生成偏向最大化黑盒目标函数的化学结构,从而在该过程中生成完整的合成路线。并且展示了该算法在标准度量上达到了最先进的性能,比如QED和惩罚clogP。此外通过实验证明,该算法生成的分子相对于现有的基准,对三种与HIV相关的生物目标具有更高的预测活性。

2

模型

该模型的流程为,在每个时间步选择反应物与现有分子反应生成产物,其是下一时间步的分子。现有分子被认为是当前状态,代理选择了一个进一步用于计算反应物的动作。产物(被认为是下一个状态)由基于两种反应物(现有分子和反应物)的环境决定。在最初的时间步中,作者从所有市售反应物列表中随机取样初始分子。为了克服存在超过十万个可能的第二反应物的大的离散作用空间的限制,作者引入了一个中间作用,该作用减少了通过选择反应模板而考虑的反应物空间。以SMARTS语言编码的反应模板根据子图匹配规则定义了允许的化学转化。利用化学信息学工具如RDKit确定性地将它们应用于反应物分子组以提出假设的产物分子。另外作者强加了使该子结构在结构中仅出现一次的附加约束。

该主体包括三个可学习的网络f,π和Q。根据Actor-Critic框架,我们的Actor模块Π由f和π网络组成,而Critic由估计状态-动作对的Q值的Q网络组成。在任何时间步t,作用子模块的输入为状态,输出为动作,该动作为在所有初始反应物的特征表示空间中定义的张量。在给定当前状态的情况下,f网络可预测最佳反应模板。使用最佳反应模板和现有分子作为输入,π网络计算。环境将状态,最佳反应模板和动作作为输入,并计算奖励,下一个状态和一个布尔值,以确定回合是否结束。

在训练的初始阶段,必须注意f网络选择的模板可能无效。为了克服这个问题并确保梯度通过f网络传播,我们首先将模板T与模板掩码Tmask相乘,然后使用Gumbel softmax获得最佳模板:

3

实验

3.1 预测模型

为了测试PGFS在计算机概念验证中新药设计的适用性,作者针对与HIV相关的三个生物学靶标(CCR5,HIV整合酶,HIV逆转录酶(HIV-RT))开发了预测模型作为评分函数。公共领域中可用的生物活性数据使我们能够使用定量结构-活性关系建模(QSAR)概念开发基于配体的机器学习模型。

3.2 实验设置

3.2.1模型设置

f网络使用四个全连接层,在隐藏层中具有256、128、128个神经元。π网络使用四个全连接层,其中隐藏层包含256、256、167个神经元。所有隐藏层都使用ReLU激活,而最后一层使用tanh激活。类似地,Q网络还使用四个完全连接的层,在隐藏层中具有256、64、16个神经元,其中对所有隐藏层使用ReLU激活,对于最后一层使用线性激活。使用Adam优化器训练所有网络,其中f和π网络的学习率为1e-4,而Q网络的学习率为3e-4。

3.2.2 基线设置

在这项研究中,特定的基线随机搜索(RS)首先是随机初始反应物,然后是随机反应模板T的选择,然后是兼容反应物的随机选择。该反应的产物在下一个反应中代替随机初始反应物。重复此过程,直到达到最大合成步数或直到产品中没有反应中心为止。在这项研究中,作者将一次允许的最大合成步数定义为5。继续随机搜索,直到达到停止标准,例如搜索时间或反应次数。在表1和表2的随机搜索过程中使用的允许的反应步骤总数为400,000。

3.3 结果分析

3.3.1 基线比较

在QED和惩罚的clogP奖励与随机搜索(RS)上的PGFS性能比较-据观察,PGFS的性能明显优于随机基线。给定相同的初始化合物,可以观察到每个分数的明显分布变化,这证实了训练是成功的。

上图展示了随机搜索和PGFS在三个HIV相关QSAR评分上的性能比较。其中,(a)、(b)和(c):迭代5步虚拟合成每一步的相应基于QSAR评分的箱型图。每个箱型图中的第一步(反应步骤=0)显示了初始反应物的分数。(d)、(e)和(f):在没有广告过滤的5步迭代中基于QSAR的最大奖励的分布。(g)、(h)和(I):在从两个集合中过滤出不满足相应QSAR模型的AD标准的化合物之后,在5步迭代中基于QSAR的最大奖励的分布。

在HIV奖励与随机搜索(RS)上的PGFS性能比较-接下来,对HIV奖励实施了这两种算法,并从上图得出类似的观察结果,即与使用PGFS获得的结构相关的奖励明显优于RS 方法。此外,我们从两个组中筛选出不符合QSAR模型AD标准的化合物,并且在上图(g),上图(i)和上图(h)中,对于PGFS,仍清楚地观察到了向高分化合物的分布转移。

3.3.2 量化性能基线

表1 不同评分函数性能比较

表1将PGFS性能与不同评分函数的不同模型进行了比较。与所有其他方法相比,PGFS在每个定义的任务中都生成了最高分数的化合物。PGFS达到了在新药设计研究中报告的最大QED分数。

表2 在每种使用的方法和Enamine的构成要素中,预测的HIV得分最高的前100个分子中的平均值±1std。

在将任务定义为HIV相关靶标的预期最大半数抑制浓度(pIC50)的单目标最大化的概念验证中,与新药设计和随机搜索相比,在给定了本研究的设置下PGFS在获得的最大奖励(表1)和前100名最高奖励的平均值(表2)比较中得分最高。

上图展示了由PGFS生成的具有针对CCR5的最高预测活性的化合物的结构和模型使用的合成路线。

4

结论

在这项工作中,作者介绍了RL的正向合成技术在新药设计中的首次应用PGFS,以寻找可合成的小分子空间。作者使用层次组织架构,其中第二个部分是在连续空间中计算的,然后该环境将其转换为最佳有效反应物。PGFS在QED和惩罚的clogP任务上实现了最先进的性能。另外作者还在模拟药物发现过程的计算机模拟场景中展示了该方法的优越性。PGFS在研究使用的所有任务中表现出稳定的学习能力,并且与现有基准相比具有更丰富的高分生成的化合物。

数据及源代码

https://github.com/99andBeyond/Apollo1060

参考资料

https://proceedings.icml.cc/static/paper_files/icml/2020/6186-Paper.pdf

ICML2020 | PGFS:如何保证生成分子是可合成的?强化学习来帮忙相关推荐

  1. 【语言模型生成分子更好】Language models can learn complex molecular distributions

    Language models can learn complex molecular distributions[Nature Communications] 语言模型可以学习复杂的分子分布 pap ...

  2. J. Cheminform. | DrugEx v2:多重药理学中基于pareto的多目标强化学习的药物分子从头设计...

    本文介绍的是由荷兰莱顿药物研究学术中心.西安交通大学电子与信息工程学院和莱顿高级计算机科学研究所联合发表在Journal of Cheminformatics上的研究成果.作者在之前的一项研究中提出了 ...

  3. ACL2020 | 使用强化学习为机器翻译生成对抗样本

    2020-07-12 03:08:49 本文介绍的是 ACL 2020 论文<A Reinforced Generation of Adversarial Examples for Neural ...

  4. ICML 2018 | 从强化学习到生成模型:40篇值得一读的论文

    https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...

  5. InfoGAN(基于信息最大化生成对抗网的可解释表征学习)

    前言: 这篇博客为阅读论文后的总结与感受,方便日后翻阅.查缺补漏,侵删! 论文: InfoGAN: Interpretable Representation Learning by Informati ...

  6. 【强化学习】GAIL生成对抗模仿学习详解《Generative adversarial imitation learning》

    前文是一些针对IRL,IL综述性的解释,后文是针对<Generative adversarial imitation learning>文章的理解及公式的推导. 通过深度强化学习,我们能够 ...

  7. 谷歌发布 RLDS,在强化学习生成、共享和使用数据集

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 大多数强化学习和序列决策算法都需要智能体与环境的大量交互生成训练数据,以获得最佳性能.这种方法效率很低,尤其是在很难做到这种交互 ...

  8. 深度学习之生成对抗网络(1)博弈学习实例

    深度学习之生成对抗网络(1)博弈学习实例 博弈学习实例  在 生成对抗网络(Generative Adversarial Network,简称GAN)发明之前,变分自编码器被认为是理论完备,实现简单, ...

  9. 生成微信所有朋友合成的头像,来自网络GitHub,

    #生成微信所有朋友合成的头像,来自网络GitHub,import itchat import os import PIL.Image as Image from os import listdir i ...

最新文章

  1. html 3d立体阴影效果图,CSS3打造带阴影的旋转3D图像
  2. 如何通过HTML标记或JS代码实现跳转返回页面顶部
  3. 【java】反射+poi 导出excel
  4. 利用Object.defineProperty实现Vue数据双向绑定
  5. 4后期盒子叫什么_考研:什么叫跨考专业?跨考专业的4大原因和存在3个方面的困难...
  6. Mysql学习总结(27)——Mysql数据库字符串函数
  7. 查看Oracle的redo日志切换频率
  8. 卡爆mysql_荐 MySQL死锁和卡死分析
  9. ZigBee-CC2530单片机 - 按键控制LED
  10. LED显示行业之知识大全3
  11. oracle sql的优化方法
  12. 基于机器学习的Adam 优化算法来提高深层神经网络的训练速度
  13. web漏洞-远端WWW服务支持TRACE请求
  14. 计算机类综合素质测评考什么,综合素质测试考什么内容
  15. 实名推荐的神器,你安排上了几款?
  16. 一款好用的内存清理工具
  17. 中国酒庄行业经营状况及营销策略分析报告(新版)2022-2027年
  18. Android手机适配问题怎么处理,都有什么方案。
  19. Windows下C语言实现HTTP客户端
  20. [经济]股票的基本知识和部分专业术语的解释

热门文章

  1. Ext.ux.form.SearchField使用方法
  2. 漫画:如何用 K8s 实现 CI/CD 发布流程?
  3. 阿里某p9哭穷:300万年薪,依然挣扎在温饱线上!
  4. 快手突然宣布取消大小周,改为按需加班,给加班工资!字节被打脸,员工吵翻天!...
  5. 这个算法网站,强推。
  6. 快手基于 RocketMQ 的在线消息系统建设实践
  7. 吵疯了,Pull Request到底是个啥?
  8. 今年我读了四个开源项目的源码,来分享下心得
  9. 最全干货:从写简历,到面试、谈薪酬的那些技巧和防坑指南
  10. 某程序员为让公司裁掉自己,消极怠工!故意旷工!但公司坚持不裁他,领导:给你发工资,就是不裁你!...