作者 | 陆丰庆


今天给大家介绍瑞士知名药企阿斯利康和伯尔尼大学的 Esben Jannik Bjerrum团队在Nature Machine Intelligence上的一篇论文。该研究提出基于分子SMILES表示的条件循环神经网络,输入目标性质,模型可直接生成具有对应性质的分子。

1

背景

机器学习对生物和化学领域有着深远影响,其可被用于生物活性预测,分子性质预测,医疗诊断等。然而,反向分子设计,即生成具有特定结构和物理化学性质的分子,对于机器学习仍是一项挑战。

生成式机器学习模型不需要明确的设计规则就可以在目标空间中进行采样,这类模型学习数据的分布,并生成符合这种分布的新数据。近些年来,生成式深度学习模型在新药设计领域迅速发展,被用于生成具有特定性质的分子。由于分子线性输入规范(SMILES)可将分子以字符串形式表达,有一部分自回归式生成模型利用循环神经网络对SMILES表达式进行序列建模和预训练,以生成满足基本物化性质的分子,随后结合迁移学习或强化学习技术将生成分子引导至具有目标属性的化学空间。此外,有研究人员将目标分子的化学性质和图结构进行编码,作为条件变分自编码器和条件对抗生成网络的输入条件,生成对应分子。Esben Jannik Bjerrum团队基于分子的SMILES表达和循环神经网络,提出了条件式生成模型。输入目标性质,模型将直接生成具有对应性质的分子。实验表明输入条件可操纵循环神经网络生成目标化学空间中的分子,例如对特定蛋白质结构有生物活性的分子。

2

方法

2.1 数据集

作者使用两个开源分子数据库:ChEMBL和ExCAPE-DB。其中ChEMBL被用于训练条件循环神经网络,而ExCAPE-DB中靶向多巴胺受体(DRD2)的分子被用于训练基于支持向量机的QSAR分类模型进而检验生成模型能否通过输入条件来生成对DRD2有生物活性的分子。

2.2 SMILES数据增强和向量化

使用同一实体的多个表示形式(数据增强)已被提出作为一种策略,以在少量数据的情况下训练并获得可泛化的模型。作者利用SMILES字符串的非单义性实现数据增强,即利用多个有效的SMILES字符串表示同一个分子,该方法通过从一个分子中不同的非氢原子为起始字符构建不同的SMILES字符串。在每个SMILES字符串的第一个字符前和最后一个字符后分别插入起始符^和终止符$后,将每个SMILES字符串进行one-hot编码。在one-hot编码格式中,每种字符都有一个固定长度(长度大小为SMILES字符串的token表大小)的唯一向量表示,每个SMILES字符串将被转化为一个二维向量,一个维度对应着token表长度,另一个维度对应着该SMILES字符串的长度。

2.3 条件循环神经网络

作者构建了基于不同分子描述符的条件循环神经网络:

(1)基于物理化学分子描述符——PhysChem Based(PCB)模型,如图1(A)所示。该模型将脂水分配系数 log P、拓扑极性表面积 TPSA、分子重量 MW、氢键供体数 HBD、氢键受体数 HBA、类药性评分 QED 和 DRD2 QSAR分类器的评分为输入条件。

(2)基于分子指纹——FingerPrint Based(FPB)模型,如图1(B)所示。该模型以分子的2048位Morgan FingerPrint编码为输入条件。

图1

基于不同条件的条件循环神经网络 (A)基于物理化学性质的模型(PCB)接受由RDKIT Python库计算的六个分子描述符与由QSAR预测的具有生物活性的概率。(B)基于指纹的模型(FPB)接受由RDKIT计算的2048bit Morgan指纹向量。在训练过程中,二者都使用Teacher’s Forcing方法训练,且使用数据增强后的ChEMBL SMILES字符串为训练集。(C)在推理过程,输入条件并以起始符^为起点,反复生成字符直至终止符$被采样。

输入条件向量后,首先使用具有六层全连接层,每层256个神经元,以ReLU为激活函数的神经网络将条件向量转换为循环神经网络中每层网络的hidden state或cell state。随后由三层各自含有256个LSTM神经元组成的单向循环神经网络进行训练和推理。最后一层循环神经网络的输出向量经过一个含有35个神经元的单层神经网络,经过SoftMax激活函数后,得到下一个字符的概率分布。训练时,两种cRNN模型使用Teacher’s Forcing方法进行训练, 即从训练集中选择分子,计算其描述符或指纹作为输入条件;在cRNN训练过程中,将该分子SMILES字符串顺序输入,以最小化下一个字符的预测概率分布和真实值的交叉熵为目标。生成分子时,以目标描述符或指纹作为输入条件;输入起始符^,计算下一个字符的概率分布并采样,将被采样的字符作为下一个输入字符;如此反复,直至采样到终止符$。

3

实验

3.1 基准模型

实验中,作者旨在生成对DRD2具有生物活性的分子,采用两个基准模型进行对比:(1)Prior Model:在ChEMBL上训练的循环神经网络(2)TL Model:采用迁移学习策略,在ChEMBL上进行预训练,随后在对DRD2具有生物活性的分子数据集上训练的循环神经网络。两个基准模型与条件循环神经网络具有相同的网络结构,且将网络的hidden state或cell state置零。

3.2 数据集的负对数似然分布

图2  由Prior model,TL Model,FPB Model和PCB Model采样出每个数据集中所有分子SMILES的负对数似然分布。

作者通过计算负对数似然(NLL)来估计模型生成数据集中某一分子的概率,该值越小说明生成该分子的概率越大。图2表明PFB和PCB模型在四个数据集上分别有最低和第二低的负对数似然分布,这说明在二者与基准模型相比,有更大可能生成数据集中的分子。同时也说明,PFB模型所用的2048-bit Morgan Finger相比PCB模型的7-bit 物理化学性质描述符,输入条件含有更多分子信息,这促使cRNN有更大可能性生成对应结构的分子。

3.3 生成DRD2活性分子

图3 从DRD2测试集中随机挑选两个分子作为conditional seed(中心),以其结构指纹为条件,利用FPB模型生成分子(虚线内);以其物理化学描述符为条件,利用PCB模型生成分子(虚线外)。

图4 (A)由FPB和PCB模型生成的分子与conditional seed分子的骨架相似性分布(B)由FPB和PCB模型生成的分子对DRD2的生物活性分布。

图3展示了从DRD2测试集中随机挑选活性分子作为conditional seed,利用FPB和PCB模型生成的分子。由结果可见,因为Morgan Finger包含了大量的分子结构信息,利用FPB生成的分子与conditional seed在结构上极其相似,大多拥有相同的分子骨架。另一方面,PCB模型的输入条件仅仅为物理化学性质,生成的分子在结构上更具多样性。图4说明PCB模型与FPB模型相比,生成的分子与seed具有较小的骨架相似性;然而,两个模型生成的分子对DRD2的生物活性有相似的分布。

3.4 PCB模型生成特定性质分子

图5 10个conditional seed分子的物化性质(红线)和生成分子的物化性质(蓝点)

PCB模型的一大优势是可以直接操控生成分子的物理化学性质。图5展示了从DRD2测试集中随机选取10个分子作为conditional seed,分别生成256个分子SMILES的物理化学性质分布。可见,除了QED,其他生成分子的属性与目标属性有较小方差。

图6 变化某一性质同时保持其他性质不变。生成分子的性质(蓝点)与目标性质(红线)大体一致。

图6表明PCB模型可以单独改变生成分子的某一性质,而保持其他性质不变。总体上,除了QED,生成分子的性质与目标性质有较小差距。然而,这是可预期的,因为QED是其他五个性质的加权和。若单独改变QED大小,可能无法满足其他目标性质,如图6中箭头所示;若单独改变某一性质,而保持QED不变,则可能导致其他性质也发生改变。

4

总结

作者提出了以分子描述符为输入条件的条件循环神经网络,实验表明该模型与在ChEMBL上训练的循环神经网络和在DRD2上迁移学习的循环神经网络相比,更有可能生成对DRD2有生物活性的分子。由于分子指纹包含分子的结构信息,FPB模型生成的分子与conditional seed有极高的结构相似性。相反,PCB模型可直接生成更多样化的具有目标属性的分子。

参考资料

Kotsias, P., Arús-Pous, J., Chen, H. et al. Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks. Nat Mach Intell 2, 254–265 (2020). https://doi.org/10.1038/s42256-020-0174-5

Nat. Mach. Intell. | 利用条件循环神经网络生成特定性质分子相关推荐

  1. Nat. Mach. Intell. | 深度神经网络中的捷径学习

    今天给大家介绍来自德国蒂宾根大学的Robert Geirhos和加拿大多伦多大学的Claudio Michaelis等人发表在Nature Machine Intelligence的文章"S ...

  2. Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

    今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在<Nature Machine Intelligence>上发表了一篇名为"It ...

  3. Nat.Mach.Intell.|如何改进错义突变致病性预测?使用图注意神经网络试试

    编译 | 杨慧丹 审稿 | 赵宸 本文介绍一篇来自哥伦比亚大学Yufeng Shen的研究团队最近发表在Nature Machine intelligence期刊上的一项研究.作者提出了一种基于图注意 ...

  4. Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

    今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章.该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型.发现该模型可以从更少的例子中学习到健壮的模型.同时,本文还确 ...

  5. Nat. Mach. Intell. | 可解释性人工智能(xAI)遇上药物发现

    今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章"Drug discove ...

  6. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望

    本期给大家介绍悉尼大学Jean Yang教授课题组发表在Nature machine intelligence的文章"Ensemble deep learning in bioinforma ...

  7. Nat. Mach. Intell. | FFPred-GAN:“以假乱真“—基于GAN创建合成特征样本改进蛋白质功能预测...

    今天给大家介绍伦敦大学学院David T. Jones 教授课题组发表在Nature Machine Intelligence 的一篇文章.文章中指出,现存的蛋白质功能预测方法受限于训练样本量的瓶颈, ...

  8. Nat. Mach. Intell. | 基于深度强化学习寻找网络中的关键节点

    今天给大家介绍哈佛大学Yang-Yu Liu课题组和加利福尼亚大学洛杉矶分校Yizhou Sun课题组发表在nature machine intelligence上的一篇文章"Finding ...

  9. Nat. Mach. Intell. | 快速的蛋白质结构从头预测

    今天给大家介绍一篇Nature Machine Intelligence期刊的论文"AmoebaContact and GDFold as a pipeline for rapid de n ...

最新文章

  1. Django celery6.4
  2. 网站静态化处理—动静分离策略(3)
  3. 【微软公有云系列】Hyper-v(WinSer 2012 R2)网络虚拟化(三)租户隔离
  4. SAP Kyma组件一览
  5. IntelliJ IDEA for Mac 如何设置在HTML和XML文件编辑窗口显示浏览器图标
  6. Android 学习笔记【基础扫盲篇】
  7. 解决hibernate向mysql插入中文乱码问题
  8. mysql decimal 上限_关于mysql的decimal类型的外键的一个特殊限制
  9. 飞Young任意路由器连接[破解路由器限制]
  10. matlab gui初始化全局变量,MATLAB GUI 全局变量的定义和使用回调函数的更改
  11. linux定时器改变hz,linux定时器HZ和Jiffies
  12. Mac手动关闭暗黑模式
  13. TcaplusDB君 · 行业新闻汇编(五)
  14. matlab识别中国象棋棋盘,c – 使用OpenCV在棋盘中检测中国象棋棋子
  15. Single Radio Voice Call Continuity (SRVCC)
  16. 转载 | 上汽集团云计算中心的开源之路
  17. linux 内核函数 filp_open、filp_read、IS_ERR、ERR_PTR、PTR_ERR 简介
  18. 设备描述符请求失败解决
  19. 我用 python 做了款可开淘宝店赚钱的工具!
  20. c 语言基础期末考试题及答案,C语言基础题及参考答案

热门文章

  1. 亿级流量架构之服务器扩容思路及问题分析
  2. 某程序员大牛放弃130万年薪,离开北京回老家事业单位!网友:太可惜!何不再忍两年?...
  3. 贝壳大数据OLAP平台架构演进
  4. 喜马拉雅自研网关架构实践
  5. Redis 日志篇:无畏宕机实现高可用的杀手锏
  6. 一个思维习惯,让你成为架构师
  7. 《大型网站技术架构》《K8S进阶实战》等书籍!送45本!读完工资多个0!
  8. 用什么软件可以开在线会议啊?
  9. VO 1 先弄明白在干什么
  10. 一些能说到点子上的课程