今天给大家介绍的是印度理工学院Niloy Ganguly教授课题组在AAAI2019发表的一篇关于分子生成的论文。作者基于VAE提出一种新的分子图生成模型NEVAE,其编码器和解码器经过特殊设计,通过多种技术创新来解决目前生成模型存在的缺点。实验表明,与几种最新模型相比,NEVAE可以更有效地发现合理的、多样的和新颖的分子。比起基于贝叶斯优化和强化学习的几种最新方法,该优化解码器能够识别出高121%属性值的分子。

1

背景

药物设计旨在生成一组具有特定性质的分子,从而对患者的治疗产生作用。然而,药物设计是一个漫长,昂贵,困难和低效的过程,其中候选分子是通过化学合成或生物过程产生的。在计算机辅助药物设计的背景下,人们对开发自动化的机器学习技术非常感兴趣,以发现大量的具有各种所需特性的合理的、多样的和新颖的候选分子和非结构化分子空间。近年来,有大量工作致力于开发用于自动分子设计的深度生成模型。主要遵循两种策略,第一种是用文本序列来表示分子,利用深度生成模型来生成用于分子设计的文本,但是SMILE字符串无法捕获分子之间的结构相似性并且一个分子可以具有多个SMILES表示形式,如此导致生成的分子缺乏多样性和有效性。第二种策略是基于分子图的深度生成模型,但是,当前的分子图生成模型存在一些问题导致其无法发挥模型的所有潜力。

分子图目前存在的问题有:(i)现有模型只能产生(和接受训练)具有相同数量原子的分子,(ii)它们并不是节点标记的排列不变,但是,分子图在其节点标记的排列下仍然是同构的,(iii)训练过程相对于图中的节点数具有二次复杂性,这使得在训练过程中难以利用大量的大分子,(iv)组合小型分子图(或子图)限制了生成分子的多样性,(v)模型不提供它们生成的原子的空间坐标,而在实践中,分子是三维对象,其原子坐标显着影响其化学性。(vi)传统的贝叶斯优化或强化学习无法发现具有较高属性值的大量候选分子,NEVAE的出现解决了前五个问题,针对最后一个问题,作者开发了一种基于梯度的算法来优化模型的解码器以生成面向属性的分子,即优化解码器以使其学习产生使某些特性(例如在水中的溶解度)的值最大化的分子。

2

方法

NEVAE的编码器学习在距给定原子不同hops的情况下聚合信息(例如,键特征,原子及其坐标),然后将该聚合信息映射到连续的潜在空间中,与归纳图表示学习相反,聚合功能是通过变分推理来学习的,因此生成的聚合器功能特别适合使概率解码器能够生成新分子。NEVAE解码器将所有边共同表示为非归一化的对数概率向量,然后馈入单个多项式边分布,先前的工作通常使用伯努利分布对每个潜在边的存在和不存在进行建模,这导致推理算法具有复杂度,其中n是节点数,这不是置换不变的。在边缘分布中通过mask,概率解码器能够保证所生成分子中的一组局部结构和功能特性。另外,概率解码器能够提供其生成的分子原子的空间坐标。为此,它使用高斯分布对每个原子的位置进行建模,该分布的均值和方差取决于其潜在表示以及每个邻域的表示。下图分别为编码器和解码器框架结构。

3

实验

(1)生成分子优秀程度

作者首先通过比较该模型生成的分子与几种性能最佳的方法生成的分子,对模型进行定量分析,即有效性、新颖性和唯一性,使用八个基线进行比较:GraphVAE,GrammarVAE,CVAE,SDVAE,JTVAE,CGVAE,MOLGAN,ORGAN,GCPN。其中,GraphVAE,JTVAE,CGVAE,MOLGAN和GCPN使用分子图,而GrammarVAE,CVAE,SDVAE,JTVAE和ORGAN使用SMILES字符串。

下表1和2在新颖性,唯一性和有效性方面对该模型与上述现有技术方法进行了比较。

上表中,就新颖性而言,除了GraphVAE,NEVAE和其他方法始终生成新分子。尽管GraphVAE,GrammarVAE,CVAE和SDVAE具有几乎完美的新颖性评分,但产生的新颖分子却比NEVAE少得多。就唯一性而言,这是在一组采样分子上定义的,可以看出除了CGVAE(对于ZINC和QM9)和JTVAE(对于ZINC)之外,所有基线方法在两个数据集中的表现都比该方法差很多。在有效性方面,NEVAE明显优于四种竞争方法-GraphVAE,GrammarVAE,CVAE,SDVAE和ORGAN。

(2)贝叶斯优化

与CVAE等类似,作者使用贝叶斯优化(BO)来识别logP,SAS和惩罚logP来发现具有理想特性的新型分子。下图为各个指标的比较结果。

(3)平滑的分子潜在空间

作者定性的证明NEVAE产生出的分子的潜在空间是光滑的。下图是ZINC数据集中一个分子的结果,表明所采样的分子在拓扑上与给定分子相似。

4

总结

作者致力于基于分子图的VAE模型的改进,该分子图具有节点标签的排列不变性,并允许具有不同数量的节点和边以及原子的三维空间坐标,并且开发了一种基于梯度的算法来优化模型的解码器,以便它学习生成使某些特定特性的值最大化的分子。最后与几种最新技术方法相比,NEVAE能够更有效地发现合理的,多样的和新颖的分子。该模型为未来工作提供了一些思路,例如,在VAE设计中可扩展至动态图。此外,该方法可以适用于其他现实世界的图。最后,还可应用于其他与分子设计有关的问题,例如分子逆合成。

参考资料

https://www.aaai.org/ojs/index.php/AAAI/article/view/3903

​​​​​​​

AAAI | 深度生成模型—NEVAE相关推荐

  1. ICLR要搞深度生成模型大讨论,Max Welling和AAAI百万美元大奖得主都来了,Bengio是组织者之一...

    萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 用深度生成模型搞科学发现,是不少AI大牛最近的研究新动向. 就在最新一届ICLR 2022上,包括Max Welling和Regina Barzi ...

  2. 自然语言处理深度生成模型相关资源、会议和论文分享

    本资源整理了自然语言处理相关深度生成模型资源,会议和相关的一些前沿论文,分享给需要的朋友. 本资源整理自:https://github.com/FranxYao/Deep-Generative-Mod ...

  3. Chem. Sci. | 3D深度生成模型进行基于结构的从头药物设计

    本文介绍来自北京大学来鲁华教授课题组发表在Chemical Science上的文章"Structure-based de novo drug design using 3D deep gen ...

  4. 《预训练周刊》第6期:GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计

    No.06 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...

  5. 115页Slides带你领略深度生成模型全貌(附PPT)

    来源:专知 本文多图,建议阅读8分钟. 本文为大家带来了斯坦福大学PH.D Aditya Grover同学的深度生成模型tutorial. [ 导读 ]当地时间 7 月 13 - 19 日,备受关注的 ...

  6. 【阿里云课程】深度生成模型基础,自编码器与变分自编码器

    大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第11课中两节,介绍如下: 第1节:生成模型基础 本次课程是阿里天池联合有三AI推出的深度学习系列课程第11期,深度生成模型 ...

  7. 大规模计算时代:深度生成模型何去何从

    ©PaperWeekly 原创 · 作者|Chunyuan Li 单位|Microsoft Research Researcher 研究方向|深度生成模型 人工智能的核心愿望之一是开发算法和技术,使计 ...

  8. 花书+吴恩达深度学习(二八)深度生成模型之有向生成网络(VAE, GAN, 自回归网络)

    文章目录 0. 前言 1. sigmoid 信念网络 2. 生成器网络 3. 变分自编码器 VAE 4. 生成式对抗网络 GAN 5. 生成矩匹配网络 6. 自回归网络 6.1 线性自回归网络 6.2 ...

  9. 2020-4-20 深度学习笔记20 - 深度生成模型 3 (实值数据上的玻尔兹曼机)

    第二十章 深度生成模型 Deep Generative Models 中文 英文 2020-4-17 深度学习笔记20 - 深度生成模型 1 (玻尔兹曼机,受限玻尔兹曼机RBM) 2020-4-18 ...

最新文章

  1. MIT Graph实践概述
  2. 实战:使用TCP/IP筛选保护服务器安全
  3. python123测试3平方根格式化,【Python3学习】走进Python
  4. 《Android程序设计》一第一部分 工具和基础
  5. 转载 MySQL 性能优化的最佳20多条经验分享 http://www.jb51.net/article/24392.htm
  6. Python GUI编程(Tkinter)笔记
  7. OpenCV 基本绘制Basic Drawing
  8. vue动态切换css文件_vue实现样式之间的切换及vue动态样式的实现方法
  9. 理论基础 —— 查找 —— 斐波那契查找
  10. python语言是一个优秀的面向对象语言_python是面向对象的语言吗
  11. VS2017官方下载链接
  12. Seay源代码审计系统
  13. Java程序员不得不会的124道面试题(含答案)
  14. 鼠标不能动怎么选择计算机,鼠标不动了怎么办解决方案
  15. 景嘉微变更会计师事务所引发投资者担忧
  16. DLP和DMD的区别
  17. Jointly Embedding Knowledge Graphs and Logical Rules
  18. 数字化转型的本质(10个关键词)
  19. 这个社交聊天 App 开源了!
  20. Python实现简易音频播放器

热门文章

  1. SQL Server中自定义函数和游标应用的经典案例
  2. Windows 远程桌面连接数限制
  3. ActiveMQ的消息存储和持久化
  4. CPU深夜狂飙,一帮大佬都傻眼了...
  5. 用户画像从0到100的构建思路
  6. 换种监控姿势:基于深度学习+流处理的时序告警系统
  7. 农村程序员吐槽:虽然挣着2万高薪,但却舍不得吃舍不得穿
  8. 熬夜精心整理的一线大厂大数据、人工智能全套教程下载(含视频+源码)!!...
  9. 物竞天择,适者生存,架构进化之路
  10. 如何确定敏捷是否适合你的团队?