今天给大家介绍的是瑞典制药公司阿斯利康,伯尔尼大学和广州再生医学与健康中心广东省实验室于2020年2月4日联合发表在Journal of Cheminformatics的一篇论文,这篇文章提出了一种新的基于SMILES的分子生成模型,该模型可从骨架中生成分子,并且可以从任意分子集中进行训练。作者认为这种基于SMILES的生成模型将成为对已经存在的基于SMILES的体系结构的有用补充,并且可以替代基于图的装饰方法。

1

背景

深度生成模型因其可以从有限的数量中生成新数据,目前已成功应用于生成文本、图像、视频等领域。令人关注的是,其在药物发现领域的重要作用,使得许多新方法可用于探索化学空间,例如RNN,VAE,GAN等。在这些模型中,常用两种方式来表示分子数据,一类是利用SMILES字符串,一类是利用分子图。基于SMILES字符串的模型因为SMILES字符串的简单结构可以使得模型更快的进行训练,并且2019年Josep Arús‑Pous等人提出的在分子生成模型中引入Randomized SMILES可以大大改善生成结果,使得模型的收敛效果更好,过拟合较少。但是由于SMILES本身语法的限制,其结构不允许从骨架(scaffold,即具有明确连接点的部分构建的分子,譬如去除一个化合物的所有取代基)中生成分子,当然在之前的研究中有学者利用双向RNN从两侧完善一个SMILES,可是这样使得连接点的个数局限于两个,另外虽然图神经网络可在无限定连接点的情况下装饰骨架,但是由于本身的实验性结构,从而要求在实验中进行大量的训练和采样。

作者提出了一种可以基于SMILES生成模型通过骨架生成分子的架构,该架构可以分两步生成分子,并且可以生成训练集,以帮助模型针对各种骨架进行泛化。此外,骨架和装饰器可以进一步过滤,只允许具有特定属性的骨架和装饰器。作者表明,通过过滤使装饰器模型能够学习有关如何装饰骨架的特定信息。

2

框架概括

整个分子生成过程可分为两个步骤:骨架生成器(scaffold generator)和装饰器(decorator)。生成器是基于Randomized SMILES的RNN,装饰器为编码器-解码器体系结构,其编码器是一个双向RNN,解码器是一个单向RNN。SMILES语法使用标记“[*]”进行了扩展,该标记由部分化学软件库支持,作为部分构建的分子中的连接点。首先,由骨架生成器或者手动输入生成Randomized SMILES,之后将骨架输入到装饰器模型中,这里需要训练两个装饰器,一个装饰器一次仅装饰一个连接点,另一个装饰器一次装饰所有连接点。在第一种情况下,模型会装饰骨架的SMILES字符串中的第一个连接点,然后将生成的装饰重新连接到骨架上,并将半构建的分子反馈到装饰器中。重复该过程,直到装饰了所有连接点。半装饰分子的随机SMILES表示在每个步骤都会改变,因此会移动SMILES字符串中连接点的相对位置。这个过程允许在装饰带有n个连接点的分子时考虑所有可能的排序。第二种情况装饰所有连接点时和第一种相似,但仅通过一步,使用“|”字符作为分隔按SMILES字符串中出现的顺序生成所有装饰。

3

训练集生成

装饰器模型需要训练集,其中每个item都包括骨架及其装饰,这里不是选择已经创建的化合物(例如专利数据),而是通过详尽地对分子数据库中的所有分子彻底删除c个非环键进行切片来创建数据集,将产生的碎片分为骨架和装饰。从分子切片中,如果不存在连接点数=c的片段,则将组合丢弃。这些item中的每一个("骨架装饰元组”)都由骨架和与其具有同样连接点的装饰组成。下图为DRD2拮抗剂桂利嗪切片的三种可能组合。

4

实验

(1)在DRD2上生成预测活性分子

骨架装饰器的主要目的是尽可能有意义地装饰任何输入骨架。在第一个实验中,一个小型数据集由4211个多巴胺受体D2(DRD2)活性调节剂组成,用于训练装饰器模型(多步和单步)。然后,这些模型在不同的骨架上进行了测试,这些骨架与训练集数据相似。从每个骨架中获得一系列分子,然后使用活性预测模型(APM)将其与随机装饰的分子进行比较。

首先通过除去具有五个随机选择的骨架的所有元组以及从具有这些骨架的152个分子中的任何一个获得的所有元组,来提取由5532个骨架装饰元组组成的验证集。

使用多步装饰器模型对五个选定的骨架进行多次装饰,从上表可以看出,总共产生14,300个独特的分子,其中包括验证集中存在的63个分子(占41.4%),预测的活性分子的百分比始终低于从装饰的分子中获得的百分比。

从使用训练集中的骨架训练的分子生成模型中采样然后使用多步骨架装饰模型进行多次装饰。结果表明,预测为有活性的生成分子的比例通常很高,从45.4%增至98.9%(表2)。但是最重要的是,装饰分子始终比ChEMBL和训练集诱导剂具有更高的预测活性分子比。

另外,通过单步结构模型装饰骨架结果表明,单步结构模型能够从验证集中生成152个分子中的90个(59.2%)。尽管比多步模型更好,但其实多步模型和单步模型之间的比较必须相对进行,因为多步体系结构采样过程的性质不允许控制要采样的分子数量。

作者在此实验中对生成分子相似性也做了研究,从训练集中的分子样本,两个骨架集和两个诱导剂集产生的分子样本中,分别计算出四个数值:分子质,cLogP, SA得分和QED,得出用装饰模型生成的分子比诱导剂更倾向于遵循训练集分布。

(2)用合成化学感知模型装饰骨架

在第二个实验中,通过使用仅由符合合成化学RECAP规则的键连接的装饰和类药骨架进行训练的装饰器模型,ChEMBL数据库得到使用和过滤。。与之前的实验一样,两组骨架:一组仅存在于验证集中的42个骨架,以及一组由生成模型生成的不在ChEMBL数据集的40个骨架。使用多步装饰器模型对两组骨架进行多次装饰,每个骨架平均总共可产生12294和11504个不同的分子。验证集件骨架上装饰的分子占35.4%,结果略低于DRD2实验中的结果。

上图验证了生成的分子的质量。结果表明装饰模型能够创建分子,这些分子除了在连接点上满足RECAP规则外,还具有类药物性,并且可以在任何骨架下合成。

另外,还使用与多步装饰器相同的超参数和训练集对单步装饰器模型进行了训练,装饰了相同的骨架组,当计算上一节中所述的值时,下表可以看出整体性能稍差。

5

总结

作者提出了一种新的基于SMILES的分子生成模型,该模型可以从骨架生成分子。除此之外,还定义了一种算法,通过穷尽地切片分子的无环键并获得所有可能的组合,将任意分子集处理为由骨架装饰元组组成的集合。此外,它是一种数据增强技术,可以很容易地与随机SMILES结合使用小型分子集获得更好的结果,该模型可以直接与各种已提出的技术结合,例如强化学习和迁移学习,以进一步指导分子的产生。

代码及相关数据集

1.https://github.com/undeadpixel/reinvent-randomized.

2.http://github.com/undeadpixel/reinvent-scaffold-decorator.

3.http://tm.gdb.tools/scaffold_decorator.

4.https://doi.org/10.5281/zenodo.3611425.

参考资料

Arús-Pous, J., Patronov, A., Bjerrum, E.J. et al. SMILES-based deep generative scaffold decorator for de-novo drug design. J Cheminform 12, 38 (2020).

https://doi.org/10.1186/s13321-020-00441-8

J. Cheminform. | 基于SMILES的利用骨架的分子生成模型相关推荐

  1. DL之Attention-ED:基于TF NMT利用带有Attention的 ED模型训练、测试(中英文平行语料库)实现将英文翻译为中文的LSTM翻译模型过程全记录

    DL之Attention-ED:基于TF NMT利用带有Attention的 ED模型训练(中英文平行语料库)实现将英文翻译为中文的LSTM翻译模型过程全记录 目录 测试输出结果 模型监控 训练过程全 ...

  2. JCIM| 基于双向RNN的分子生成模型

    今天给大家介绍的是被誉为"欧陆第一名校"苏黎世联邦理工学院(ETH Zurich)化学与应用生物科学系博士生Francesca Grisoni和制药行业顾问Gisbert Schn ...

  3. 基于点云的三维物体表示与生成模型

    主讲嘉宾: 西安交通大学在读硕士生,主要研究三维点云,「3D视觉从入门到精通」星球嘉宾. 课程大纲: 1.三维物体的表示 2.LatentGAN模型 3.PC2PC模型 4.点云的表示其他经典方法 [ ...

  4. J. Cheminform. | 基于化学基因组学中深度和浅层学习预测药物特异性

    今天给大家介绍由巴黎文理研究大学计算生物研究中心的Veronique Stoven教授课题组发表在J Cheminform上的一篇文章.作者提出一种具有深度学习功能的化学基因组神经网络(CN),以分子 ...

  5. arxiv202210 | cTransformer:基于Transformer的De Novo Molecular Design生成模型

    Preprint. 原文标题: A Transformer-based Generative Model for De Novo Molecular Design 地址:https://arxiv.o ...

  6. 用文本指导文本:基于文本的自监督可控文本生成模型

    论文标题: CoCon: A Self-Supervised Approach for Controlled Text Generation 论文作者: Alvin Chan, Yew-Soon On ...

  7. 第三期直播《基于点云的三维物体表示与生成模型》精彩回录

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 大家好,本公众号现已开启线上视频公开课,主讲人通过B站直播间,对3D视觉领域相关知识点进行讲解,并在微 ...

  8. Chem. Sci. | 3D深度生成模型进行基于结构的从头药物设计

    本文介绍来自北京大学来鲁华教授课题组发表在Chemical Science上的文章"Structure-based de novo drug design using 3D deep gen ...

  9. Survey | 基于生成模型的分子设计

    今天给大家介绍MIT的Rafeal Gomez-Bombarelli教授发表在arXiv上的综述文章.文章对分子生成模型进行了分类,并介绍了各类模型的发展和性能.最后,作者总结了生成模型作为分子设计前 ...

最新文章

  1. linux的crontab监控,centos服务器crontab计划任务 监控网站
  2. c语言报告程序分析报告,2012C语言程序分析报告.doc
  3. spring中的JdbcTemplate——JdbcTemplate的最基本用法
  4. 大工19春《计算机原理》在线作业2,大工19春《计算机原理》在线作业2.pdf
  5. Foudation框架常用结构体和常用类
  6. java怎么在记事本里写过运行_[置顶] 如何运行用记事本写的java程序
  7. 改善深层神经网络:超参数调整、正则化以及优化 —— 3.1调试处理
  8. 面向对象的一些基础概念
  9. bat中文乱码_详解Windows下获取时间bat脚本总结,值得收藏
  10. 安卓学习笔记01:安装集成开发环境Android Studio
  11. 移动自动化测试:appium的用法 (appium usage)
  12. 在linux使用git的操作,几个问题解决
  13. VS工程下的tlb, tlh, tli文件说明(COM)
  14. java timezone 中国_Java中TimeZone类的常用方法
  15. 开源RPC性能比拼测试 : 一不小心我们进了第一梯队
  16. windows内网渗透PTH/PTK攻击
  17. OpenGL---实例 球体 画圆锥
  18. 张赐荣: C#ADO.NET 操作Mysql 详细教程
  19. CAN总线网络知识(一)
  20. 大学生“挑战杯”创业计划大赛财务分析估算方法与技巧【转】

热门文章

  1. 病情高度活动的RA病人的感染风险增加
  2. 爬取了1W个字节跳动岗位信息,我发现了什么?
  3. Redis 为什么默认 16 个数据库?
  4. 高手都这么给 Spring MVC 做单元测试!
  5. 9月8日凌晨,字节跳动全员收到邮件!因为这件事,所有人多发半个月工资!字节沸腾!网友酸了!...
  6. 震精!Spring Boot内存泄露,排查竟这么难!
  7. 滴滴业务研发的精益实践
  8. 看到外卖平台这样改善数据库架构,DBA表示放心了
  9. 优秀程序员都会关注的公众号
  10. Scrum Mastery:产品开发中如何优化产品价值?