本篇文章来自2021年10月发表在Journal of Chemical Information And Modeling上的MolGPT: Molecular Generation Using a Transformer-Decoder Model。文章提出了一个来预测分子生成的SMILES标记序列。该模型利用了掩蔽的自我注意机制,使学习字符串标记之间的长期依赖关系变得更简单。这对于学习满足配价和环闭包的有效字符串的语义特别有用。此外,该模型学习更高层次的化学表示通过分子性质控制。MolGPT能够生成属性值与用户传递的精确值仅略有偏差的分子。它还能够生成包含用户指定支架的分子,同时控制这些特性。

1

研究背景
据推测,潜在类药物候选分子的总数在1023到1060个分子之间,其中只有约108个分子已经合成。2由于难以筛选实际无限的化学空间,且合成分子和潜在分子之间存在巨大差异,因此生成模型用于模拟分子分布,以对具有理想性质的分子进行取样。此类模型学习大量分子的概率分布,因此能够通过从这些分布中取样生成新分子。生成性预训练变换器模型(GPT),GPT模型可以开发更好的语言嵌入,从而模拟更长距离的连接。因此,当用于多种语言建模任务(如自然语言推理、问答、句子相似性和分类)时,嵌入显示出最佳性能。为了获得这种结构的额外好处,作者训练了一个名为MolGPT的GPT模型来预测分子生成的SMILES标记序列。

2

数据集
在这项工作中,作者使用了两个基准数据集,MOSES和GuacaMol,来训练和评估模型。
(1)MOSES:来自Zinc数据集190万clean lead-like分子,分子量范围为250至350 Da,可旋转键数低于7,XlogP低于3.5。
(2)GuacaMol:ChEMBL 数据库的子集,包含160万分子。MOSES数据集主要用于表示类药性分子,因此具有理想药物性质的分子分布。然而,为了测试模型对条件生成的控制,我们更喜欢GuacaMol数据集中可用属性值的较大分布,如图1所示。
对模型进行训练,以了解分子的一些性质,以便控制生成和优化。使用的属性如下:
(1)logP:分配系数的对数。分配系数比较平衡时溶质在两种不互溶溶剂中的溶解度。如果其中一种溶剂是水,另一种是非极性溶剂,那么logP是疏水性的量度。
(2)SAS:合成化合物难度的度量。这是一个介于1(容易做出)和10(非常难做出)之间的分数。
(3)TPSA:拓扑极性表面积,所有极性原子的表面积之和。它测量药物渗透细胞膜的能力。TPSA大于140Å2的分子渗透细胞膜的能力较差。
(4)QED:通过考虑主要分子特性,对药物相似性进行量化。其范围从0(所有不利属性)到1(所有有利属性)。

模型概述
MolGPT由堆叠的解码块组成,每个解码块由屏蔽的自我注意层和完全连接的神经网络组成。完全连接的神经网络的最后一层返回一个大小为256的向量,然后用作下一个解码器块的输入。MolGPT由八个这样的解码器块组成。为了跟踪输入序列的顺序,将位置值嵌入分配给每个标记。在条件训练期间,提供段标记以区分条件和SMILES标记。段标记嵌入表示特定输入是一种条件还是一种分子标记,以便于模型区分两者。使用嵌入层将所有分子标记映射到256维向量。类似地,使用单独的可训练嵌入层将位置标记和分段标记映射到256维向量。然后添加这些SMILES标记嵌入、位置嵌入和段标记嵌入,从而为SMILES字符串的每个标记生成大小为256的向量,然后将其作为输入传递给模型。

图1.使用MolGPT模型进行训练和生成的流程
图2. MolGPT模型结构

3

训练过程和评估指标
3.1 训练过程:
每个模型使用Adam优化器进行10个epoch的训练,学习率为6×10−4,在生成过程中,一个起始token(从训练集中的第一个分子token列表中随机抽样)与条件一起提供给网络。在MOSES和Guacamol进行了训练和测试。大多数模型在10个epoch后收敛并表现出最佳性能。
3.2 评估指标:

  • 有效性:生成的有效分子的分数。我们使用RDkit对分子进行有效性检查。有效性衡量模型学习SMILES语法和原子价的程度
  • 唯一性:有效生成的唯一分子的分数。低唯一性突出了重复的分子生成和低水平的模型分布学习
  • 新颖性:不在训练集中的有效独特生成分子的分数。低新颖性是过度装修的标志。
  • 内部多样性(IntDivp):测量生成分子的多样性,这是一个专门设计用于检查模式崩溃或模型是否继续生成类似结构的度量。
  • Frechet化学网络距离(FCD):使用生成分子的特征和数据集中分子的特征计算。这些特征是从ChemNet模型的倒数第二层获得的。低FCD值表示模型已成功捕获数据集的统计信息。
  • KL散度 KL发散度是使用生成集和参考集的大量物理化学描述符计算的。较低的值表明该模型已经很好地了解了这些特性的分布。

4

结果
(1)非条件分子生成,MolGPT在这些标准上与以前的方法进行了比较。除有效性之外的所有度量都是根据模型生成的有效分子集计算的。

表1 使用MOSES数据集上训练的不同方法比较对应于非条件生成的分子的不同度量

表2 使用在Guacamol数据集上训练的不同方法,比较对应于非条件生成的分子的不同度量

表1和表2中报告了每个数据集在温度为1.0的模型的性能,JT-VAE总是生成有效的分子,因为它在生成的每一步都检查有效性。除JT-VAE外,观察到MolGPT在生成有效且独特的分子方面表现最佳。MolGPT在MOSES数据集上的有效性得分接近完美。然而,MolGPT在数据集上的新颖性得分较低,仅略高于AAE;在Guacamol数据集上,MolGPT在效度、新颖性和KL发散性方面表现出最好的结果,而其FCD比RNN小0.006,这种新颖性的提升是由于Guacamol数据集中分子的更大多样性;但MolGPT生成的分子具有非常高的有效性,这也表明该方法能够很好地处理长期依赖性。

(2)显著性图,在开发机器学习框架和管道以提高任务效率的同时,还需要证明这些模型允许解释。我们使用显著性图来可视化我们模型的分子生成过程。


图4 所示生成分子的输入显著性图

图4显示了所示生成分子的一些生成标记的输入显著性图。深紫色下划线是用于显著性贴图的标记。每个标记的颜色强度表示该标记对于生成带下划线标记的重要性。输入显著性方法为每个输入标记分配一个分数,该分数指示该标记在生成下一个标记时的重要性。”(”,“C”和“c”分别指链、非芳香族碳和芳香族碳的分支。从图4中,我们可以看到,当在第一个显著性图中生成“O”原子时,该模型关注先前的双键和“N”原子。双键满足氧原子的价态,而“N”原子参与互变异构体的形成,这增加了结构的稳定性。在第二个显著性图中生成“C”原子时,模型注意“(“和”)”检查它们是否平衡,并注意非芳环中的原子。在非芳环中,它主要注意近邻“2”和“N”个原子。生成“2”标记时,它会注意前一个“C”标记和非芳香环中的标记。生成“c”时在显著性图的最后一行和倒数第二行中,模型正确地关注了芳香环中的原子,因为该环仍然是不完整的。因此,这些显著性图提供了对生成过程的化学解释的一些见解。
(3)基于单个和多个属性生成,生物学和化学中的许多过程都要求分子具有一定的属性值以执行某些功能。评估MolGPT生成具有特定性质的分子的能力。

图5 在(a)logP,(b)TPSA,(c)SAS和(d)QED条件下生成的分子的性质分布


表3 基于对Guacamol数据集的训练(使用1.0的温度值)生成单一性质条件下的分子时,不同指标的比较

图5描述了MolGPT生成的分子在控制单一性质时的分子性质分布。表3中报告了每个属性的平均偏差(MAD)、标准偏差(SD)、有效性、唯一性和新颖性值。如图5所示,属性分布以所需值为中心。表3中的低SD和MAD分数进一步说明了这一点。
在为特定目的生成分子时,有必要优化多个性质。例如,人们可能希望分子具有特定的logP和TPSA值。因此,需要检查模型同时控制多个属性的能力。使用SAS、logP和TPSA评估模型一次使用两个和三个属性控件生成所需分布的能力。生成分布分子性质如图6所示。观察到以所需特性值为中心的分离良好的簇。表4中报告的每个属性组合的低MAD和SD值(与属性值范围相比)表明MolGPT对多个属性具有强大的控制能力,以便准确生成。

图6 组合属性为条件的生成分子的性质分布

表4 Guacamol数据集的多属性条件训练

(4)基于骨架的生成
评估MolGPT在保持骨架结构的同时生成具有特定属性值的结构的能力,其结果将在本节和下一节中给出。在MOSES基准数据集上进行这些实验,因为它包含一组与训练集中存在的骨架不重叠的测试骨架。随机选择100个测试骨架,然后为每个骨架生成100个分子,然后计算有效性、唯一性、新颖性和“相似比”。 “相似性比”定义为生成分子的骨架与条件骨架的Tanimoto相似性大于0.8的有效生成分子的分数。

图7 骨架条件化结果评估指标的箱线图

图7显示了每个指标在方框图中的分布。从箱线图可以看出,对于所有100个支架,有效性都大于0.8,约75%的支架具有大于0.7的独特性和新颖性。所有骨架的“相似度”都大于 0.8,这表明大多数生成的有效分子具有与用于训练的骨架非常相似的骨架。

(5)基于骨架和属性的生成
评估模型生成包含所需骨架的结构的能力,同时也控制多个分子特性。从MOSES测试集中随机选择了五种不同尺寸的骨架(支持信息图S1)

图8 以骨架和属性为条件的生成分子的性质分布,生成分子的骨架和用于调节属性的骨架的Tanimoto相似性分布


图9 以骨架和属性组合为条件的生成分子的性质分布


图10 生成分子的骨架和用于调节属性组合的骨架的Tanimoto相似性分布

从图8中可以看到QED是一个同时依赖于多个分子性质的函数。因此,QED受骨架本身结构的影响很大,因此很难在此类约束条件下进行控制。我们认为,这些相互竞争的目标是QED控制产生的分布之间存在大量重叠的原因。MolGPT向骨架添加不同的功能组,以获得所需的属性值。多属性控制簇如图9所示。即使在使用多个属性时,我们也可以看到Tanimoto相似性分布在图10中的1处达到峰值。可以理解的是,基于属性的集群不像以前那样结构良好。但是,对于两个属性控制,集群之间有很好的分离。分子性质的预期值接近这些团簇的中心。对于三个属性控件,其中一个簇(红色)由于高度约束属性值而格式不好。我们看到,其余的星团基本上是形态良好、相互分离的。

5

结论
(1)本文设计了一个用于分子生成的称为MolGPT的解码器模型。该模型利用了掩蔽的自我注意机制,使学习字符串标记之间的长期依赖关系变得更简单。这对于学习满足配价和环闭包的有效字符串的语义特别有用。此外,可以使用显著性映射来解释生成过程。因此,MolGPT能够在两个数据集上显示良好的性能,其有效性和新颖性优于以Guacamol数据集为基准的所有其他方法。
(2)还表明,该模型学习更高层次的化学表示通过分子性质控制。MolGPT能够生成属性值与用户传递的精确值仅略有偏差的分子。它还能够生成包含用户指定骨架的分子,同时控制这些特性。尽管存在基于骨架的药物设计的限制条件,但它仍具有良好的准确性。因此,认为MolGPT模型具有强大体系结构。

论文详解-MolGPT: Molecular Generation Using a Transformer-Decoder Model相关推荐

  1. ShuffleNetv2论文详解

    ShuffleNet v2 论文详解 近期在研究轻量级 backbone 网络,我们所熟悉和工业界能部署的网络有 MobileNet V2.ShuffleNet V2.RepVGG 等,本篇博客是对 ...

  2. 智能城市dqn算法交通信号灯调度_博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型...

    原标题:博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型 国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共 ...

  3. Fast R-CNN论文详解

    Fast R-CNN论文详解 作者:ture_dream &创新点 规避R-CNN中冗余的特征提取操作,只对整张图像全区域进行一次特征提取: 用RoI pooling层取代最后一层max po ...

  4. 限时9.9元 | 快速领取数学建模竞赛备战必备技巧与论文详解!

    全世界只有3.14 % 的人关注了 青少年数学之旅 大家晚上好,随着美赛时间的公布以及大大小小的数学建模竞赛的进行,小天经常可以收到来自很多小伙伴们提出的问题,"竞赛中如何去考虑选题?&qu ...

  5. transfromer-XL论文详解

    transfromer-XL论文详解 – 潘登同学的NLP笔记 文章目录 transfromer-XL论文详解 -- 潘登同学的NLP笔记 Vanilla Transformer Segment-Le ...

  6. KernelGAN论文详解分享

    KernelGAN- Blind Super-Resolution Kernel Estimation using an Internal-GAN论文详解 论文地址:https://arxiv.org ...

  7. 【论文精读3】MVSNet系列论文详解-P-MVSNet

    P-MVSNet全名为"P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo ...

  8. Spark RDD 论文详解(三)Spark 编程接口

    前言 本文隶属于专栏<1000个问题搞定大数据技术体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见1000个问题搞定大数据技 ...

  9. Spark 3.2.0 版本新特性 push-based shuffle 论文详解(一)概要和介绍

    前言 本文隶属于专栏<大数据技术体系>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据技术体系 目录 Spark 3.2.0 ...

  10. GeniePath:Graph Neural Networks with Adaptive Receptive Paths 论文详解 AAAI2019

    文章目录 1 相关介绍 1.1 感受野的定义 贡献 2 图卷积网络GCN GCN.GraphSAGE.GAT Discussions 3 GeniePath 3.1 Permutation Invar ...

最新文章

  1. 调用支付宝接口android最新,Android 外接sdk之支付宝
  2. 解决Maven依赖冲突的好帮手,必须了解一下!
  3. 【Git】Git 基础命令 ( 查看提交记录 git log | 版本回滚 git reset | 撤销回滚 git reflog )
  4. MVC详解:了解真正所谓的框架
  5. 本文把TCP/IP讲绝了!
  6. 10.completion_suggester
  7. win7下开启和使用telnet的方法
  8. 神经稀疏体素场论文笔记
  9. python缺少标准库_Python 实现自动导入缺失的库
  10. cad导出 dxf后中文不显示_CAD快速看图 for Mac
  11. python requests 提示警告 InsecureRequestWarning
  12. ionic获取手机通讯录
  13. Keras 加载cifar100太慢,下载后在本地加载方法
  14. jsoup获取图片并下载
  15. 无敌论坛_无敌分享网_无敌资源网|专注CG教程和素材分享
  16. python 爬虫3 新浪微博 爬虫 实战
  17. uniapp 即时通讯_uniapp中与webview的即时通讯
  18. vbs查看系统开关机时间
  19. Prometheus监控告警搭建(一)
  20. SpringBoot与SpringCloud的版本对应详细版

热门文章

  1. HTTP知识点总结 - 转载
  2. 元气骑士远程联机(仅安卓)
  3. itunes显示无法更新服务器失败怎么办啊,更新iTunes出现错误 iTunes更新失败解决方案...
  4. 【转载】测试报告模板
  5. 服务器终端配置,如何配置终端/通讯服务器
  6. 全网最详细官网一键换肤教程
  7. 笔记本双显卡 EFI 启动安装 ArchLinux
  8. Java 编写的 坦克大战小游戏
  9. VMware ESXi-虚拟化平台的搭建
  10. 使用Typora添加数学公式