ICML2020 | G2Gs:不依赖模板的的逆合成预测新框架
今天给大家介绍的是来自北京大学计算机系本科生史晨策等发表在ICML2020上的关于逆合成预测的一篇文章。在本文中,作者通过将目标分子图转化为一组反应物分子图,提出一种称为G2Gs的不依赖模板的框架以解决逆合成预测问题,该方法性能优越,排除了对领域知识的需要,并且具有很好的扩展性。
1
背景
计算化学中的一个基本问题是找到一组反应物以合成目标分子,也就是逆合成预测,而这种技术通常用于药物发现。由于所有可能的转换的搜索空间都很大的,所以随着计算机广泛应用于各个领域,这几十年学者们一直也在寻找如何通过计算机辅助逆合成分析,现代计算机的发展让机器学习成为这个时代的标志,很自然的想到利用机器学习进行逆合成预测。用于逆合成分析的机器学习一类是需要基于模板的目标分子与大量反应模板相匹配的方法,可是现有技术水平使得该方法计算量非常大,并且存在在新的目标结构和反应类型上的泛化能力差等问题。而基于无模板的逆合成研究将逆合成预测表述为序列间问题,又存在无法有效反映分子中原子之间的复杂关系等问题。因此,这些方法无法捕获丰富的化学环境及其分子之间的相互作用,从而导致性能不佳。
针对上述问题,作者提出了一种新的无需基于模板的模型——G2Gs(Graph to Graph),将每个分子表示为一个图,并将逆合成预测表述化为一个图到图的翻译问题。利用分子的强大图形表示方法,并通过大量的分子反应数据训练证明G2Gs的性能明显优于现有的无模板基线,具有应用于真实世界的潜力。
2
框架
G2Gs框架由两个关键部分组成:(1)反应中心识别模块,它从目标分子中分离合成子,并将一对多图翻译问题简化为多个一对一翻译过程;(2)变分图翻译模块,其将合成子翻译成最终反应物图。由于合成子可能会在不同的反应环境中转化为不同的反应物,因此引入了低维潜变量来处理反应物预测的不确定性。
作者将逆合成任务表述为一对多的图到图转换问题。具体来说,首先使用图神经网络来估计产物图的所有原子对的反应性分数,并且具有高于阈值的最高反应性分数的原子对将被选择作为反应中心。然后,通过断开反应中心的键,将产物图拆分为合成子。最后,基于获得的合成子,通过一系列图变换生成反应物,其中使用潜向量来鼓励模型捕获变换的不确定性并生成各种预测。框架如图1所示。
图1 所提出方法的总体框架
G2Gs标识的反应中心用红色标记。首先通过断开反应中心将产物图分成合成子。然后,基于所得的合成子通过一系列图转换生成反应物。生成的分子支架由蓝色边界框框柱。
3
实验
作者在从专利数据库中获得的基准数据集USPTO-50k上评估模型,并将其与基于模板和无模板的方法进行比较,通过将预测分子的规范SMILES字符串与基本事实进行匹配来计算准确性,使用top-k精确匹配的准确性作为评估指标。
实验在已知的反应类别和未知的反应类别中评估了所提出方法的top-k精确匹配准确性,结果分别列于表1和表2。
表1 已知反应类别时的Top-k精确匹配度
表2未知反应类别时的Top-k精确匹配度
通过实验表明,G2Gs的性能明显优于现有的无模板方法,当反应类别已知时,top-1的精确匹配准确度相对提高了63%(表1中的第二列),当反应类别未知时,相对提高了29%(表2中的第二列)。
当与基于模板的方法进行比较时,表1和表2的结果表明,G2Gs接近或优于最新方法GLN,尤其是在k较小的情况下。但该方法排除了对领域知识的需要,并且可以很好地扩展到更大的数据集,这使得它在实践中特别有吸引力。
4
案例可视化
图2 成功案例的可视化
图2展示了G2Gs成功识别反应中心并将产物图转化为一组符合基本事实的反应物图的情况。图2所示的合成路线可分为两组,每组对应于图底部所示的反应模板。这些数字表明G2Gs确实从数据集中学习了领域知识。这种特性使其成为解决模板知识有限的实际问题的理想解决方案。
图3 不匹配案例的可视化
在图3中,作者还提出了一种情况,其中没有预测与实际情况相符。但这并不一定意味着G2Gs无法预测目标分子的合成路线。这是因为分子可以通过多种方式合成,而数据集中的基本事实并不是唯一的答案。为了验证这一假设,作者采用了正向反应预测模型,根据G2Gs产生的反应物预测产物分子。如图3底部所示,预测产物与逆向合成问题的目标分子完全匹配,这证实了G2Gs所做的预测确实有潜在的有效性。
参考资料
https://proceedings.icml.cc/static/paper_files/icml/2020/4152-Paper.pdf
ICML2020 | G2Gs:不依赖模板的的逆合成预测新框架相关推荐
- Vs2019创建新项目时,没有任何模板,导致无法创建新项目
Visual Studio创建新项目时,没有任何模板,导致无法创建新项目 问题描述 解决办法 问题描述 Vs2019创建新项目时,没有任何模板,导致无法创建新项目. 之前都是正常的,今天突然发现没法创 ...
- 利用Excel 2010的“图表模板”功能,快速创建新图表
为了让自己制作的数据透视图更具吸引力,小刘费尽心思将图表打扮的十分漂亮.但是,在以后的工作中,如果他需要再创建类似的图表时,是否还要重新对图表进行修饰美化呢?答案是否定的.其实,在Excel 2010 ...
- 【模型复现】逆合成预测/文本分类模型——MeGAN 快速复现
MeGAN 快速复现教程 01 镜像详情 镜像简介: 模型论文2021年5月发表在JCIM上的关于逆合成路线规划一篇文章,标题为<Molecule Edit Graph Attention Ne ...
- J Cheminform.|基于子结构的神经机器翻译用于逆合成预测
随着机器翻译方法的快速改进,神经机器翻译已经开始在逆合成设计中发挥重要作用,为目标分子找到合理的合成路径.以往的研究表明,利用神经机器翻译的序列到序列框架是解决逆合成设计问题的一种有前途的方法.这项工 ...
- 如何运用模板之家做html,Flask框架如何使用HTML模板
首先我们看看如何原始的HTML代码插入Flask应用:from flask import Flask app = Flask(__name__)@app.route('/greet')def gree ...
- 001 spring5框架:java类工程,IOC:实体类表示表关系,AOP,JdbcTemplate模板,事务操作,Spring5 框架新功能:日志,为空注解,函数式风格,juint,Webflux
1. Spring5 框架(Spring5 Framework)介绍 1.1 概念 1.Spring 是轻量级的开源的 JavaEE 框架 2.Spring 可以解决企业应用开发的复杂性 3.Spri ...
- java 实现向pdf模板写入数据。并重新生成一个新文件
引入maven依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf< ...
- easyexcel-1.1.2-beta5.jar实现Excel数据导入及根据模板Excel导出数据(Jfinal框架)
1.接到了一个老项目的项目改造,增加房屋普查信息的功能,主要是下载Excel模板,然后在模板填写数据,在导入.还一个是根据模板写入数据下载到本地. 2.老版本的玩意网上都不好找咋玩. 1.标题第一步看 ...
- ICML2020 | 神经网络的图结构如何影响其预测性能?
作者 | 董靖鑫 审稿 | 程玉 今天给大家介绍的是来自斯坦福大学的Jure Leskovec课题组发表在ICML2020上的文章" Graph Structure of Neural Ne ...
最新文章
- sql语句语法多表关联_SQL Delete语句-如何删除行或表,语法示例
- 英伟达官宣:CUDA 将不再支持 macOS
- matlab 比例谐振控制器,比例谐振控制的一种实现(含代码)
- 【手把手教你Maven】构建过程
- CS Academy Gcd Rebuild
- .Net Core迁移到MSBuild的多平台编译问题
- 程序自删除方法大总结
- 计算机系统操作技师考试题,机关事业单位技术工人计算机操作技师考试题库
- 苹果safari关掉java_如何在Safari,Chrome,Firefox和系统范围内禁用Java | MOS86
- vc java动态库_Java调用已经写好的VC++动态链接库
- python 3.6.0新语法,Python 3.6学习笔记(附2018最新python初学者入门视频教学)
- python之函数(function)
- EXCEL复制可见单元格
- alipay_open_auth_token_app_response“:{“code“:“40002“,“msg“:“Invalid Arguments“,“sub_code“:“isv.inval
- chrome设置默认首页无效
- 我们公司财务不接受电子发票纸质打印报销,这合理吗?
- 操作系统之短作业优先实现代码
- word中图片不显示怎么办
- 三代16S多样性文献导读
- Django 运行报错 Manager isnt accessible via Category instances