作者 | 董靖鑫

审稿 | 程玉

今天给大家介绍的是来自波兰科学院有机化学研究所及韩国蔚山国家科技术大学(UNIST)联合在线发表在Nature上的文章。在本文中,作者对由人工智能驱动的计算机辅助合成软件工具Chematica加以改进,使得进阶版的Chematica可以为复杂的天然产物设计合成路径,并通过类似于人机对比的图灵测试和合成验证来评估其合成能力。结果表明,在反应知识库不断改进和代码进一步优化的情况下,专家级的自动合成规划终将变得可行。

1

背景

利用计算机辅助有机合成设计一直以来都是一项挑战。近年来,尽管已有多个能够完全自主设计的软件平台在该领域取得很大的进展,但这些程序一次只能规划一步,并且到目前为止计算机辅助合成设计还局限在相对简单的目标上,但是化学家们可以无需计算机辅助在几分钟内就设计出一些合成物。迄今为止,还没有一种算法能够为复杂的天然产物设计出可行的合成路径,因为设计这些路径需要能够考虑各种复杂情况及多步合成的能力,而仅仅面向数据的人工智能(AI)方法不足以设计出复杂目标的合成路径,因此作者长期以来一直在开发一种称为Chematica(又称Synthia)的混合专家/ AI系统。尽管已证明Chematica可有效地设计出具有价值高且与医学相关的合成物,但将其扩展至更复杂的天然产物时,需要探索更大的合成空间(图1),这一目标具有挑战性。

在Chematica的早期版本为天然产物设计合成路线时,即使程序知道所有构建可行合成的单个反应,也不会为某些产物设计出合适的合成路径。对Chematica搜索过程中产生的反应网络分析表明,机器不能采纳连贯的路径,其问题在于其中的单步反应很少或根本没有简化结构,但其可以为下游的有效断开创造条件。该程序仅在包含相对较少但选择明智的启发式方法时才有明显的改进,该启发式方法规定了如何在多步设计中“制定策略”,同时考虑到某些反应选择如何暗示其他转换的继承或消除。这些因果关系对所谓的通用人工智能(Artificial Generalized Intelligence,AGI)来说至关重要,而这种因果关系比仅基于数据相关性的模型更能模仿人类的推理能力,主要是受到人类专家经典的合成设计的启发,并且作者将其总结成以下四种类型:

  1. 两步反应(Two-step sequences)。其中第一个反应沿逆合成方向虽然会让结构复杂,但是可以实现断开连接达到结构简化。如果第一个反应与逆合成子匹配,则自动执行第二个反应,从而使Chematica克服结构复杂性的局部最大值,给出优雅且违反直觉的合成策略。

  2. 官能团相互转化(Functional Group Interconversions,FGIs)。天然产物的合成通常是两步或者三步的FGI。一般来说,用于将高反应性基团转化为更稳定的基团,并调节碳的氧化水平。如果一个逆合成子包含潜在FGI官能团模式,只要没有一个单独的步骤引起任何化学不相容性,则整个FGI就被执行。

  3. “旁路”方法(Bypasses)。该方法的提出是为了解决原本很有希望但存在反应冲突的反应的问题。该方法首先检查是否可以执行另一个反应(或FGI序列)来消除冲突,然后重试最初非常有希望的转换。。

  4. 同时反应和串联反应(Simultaneous and tandem reactions)。在给定的反应条件下,应在一个而不是多个反应步骤中应用的反应类型的组合(pairs, triplets, quadruplets)。

图1 Chematica关键的算法改进

有了这些改进后,Chematica变得擅长构建针对具体目标的合理路线,如图2a所示的Callyspongiolide,对于这些目标,Chematica的早期版本和其他人工智能工具都无法构建合理的合成路线。在其许多设计中,Chematica结合了“策略”(1)-(4),这样它可以有效地探测逻辑上连贯的序列,最远到达下游4-5步。作者通过类似于人机对比的图灵测试和合成验证来评估Chematica的合成能力。

2

图灵测试

合成化学版的图灵测试,即相当一部分专家认为机器设计的合成路线是由人类设计的。

2.1数据设置

为验证新版Chematica的合成能力,作者收集了40种反应的合成方法:其中20种来自文献期刊报道,另外20种由Chematica设计。文献选出的路径(以下简称为文献路径)涵盖了1999-2019年这段时期各大期刊的代表路径,期刊包含Org. Lett., J. Org. Chem, Angew. Chem., J. Am. Chem. Soc., Synlett。从Chematica选出的路径(以下简称为Chematica路径)从平均质量、原子数量、立体中心或环各个方面与文献路径具有相似的复杂性。在Chematica的设计中,作者模仿大多数人使用程序,将所有搜索使用其默认的评分功能,对所有目标都是一样。最终,路线设计的停止点要么是商业上可获得的化学物质,要么是其合成路线在文献中已知的简单分子。对于每个目标,在最新版本的Chematica上运行搜索并检索最高得分途径。在搜索过程中,明确执行所有保护/去保护步骤,而不仅仅是像该程序的先前版本那样仅在需要保护的步骤中才建议最合适的保护基团。所有的40种合成方式(无特定顺序)均已在线发布在www.quiz-maker.com测验服务中。

2.2评估标准

作者设计的评估标准有两个。其一为作者要求18位合成专家对给定路径进行人与机器感知可能性的评分(man-vs-machine, 用MVM表示),即判断给定路径是由人设计的还是由机器设计的。评分范围为0-10,MVM=0表示“一定是人设计的”,MVM=10表示“一定是机器设计的”。另一个标准为,判断合成路径的设计精巧度(Elegance,用E表示),E=0表示“毫无新意”,E=10表示“绝妙设计”。另外值得注意的是,MVM与E并不相关。

2.3测试结果及分析

对于机器设计的路线,有144票(占总投票数的42%)投票错误,投给“由人类设计”(MVM<5);有44票(占总投票数的12.8%)投给“我不知道”(MVM=5);有155票(占总投票数的45.2%)投票正确,投给“由机器设计”(MVM>5)。对每条路线进行专家评估的平均结果显示,20种Chematica路径,有10种路径被错误判断为人类设计,有10种路径能正确判断为由Chematica设计;而20种文献路径中,12种被正确判断为由人类设计,8种被错误判断为Chematica设计。从所有路径的MVM得分分析,Chematica比从文献提取到的路径高0.6分,得分为MVMman=4.58,MVMmachine=5.17。而从设计精巧度来说,Chematica设计的路径被认为是更精巧独特,得分为Eman=4.55,Emachine=4.75。

作者还为每个专家构建了所谓的ROC曲线,如图2c所示。在该图中,单个专家的答案对应于细线,而所有专家的平均ROC曲线对应于红色的粗线。在此处标记为黑色虚线的(0,0)-(1,1)对角线,曲线下面积的AUC等于0.5对应于无信息的随机猜测情况。在作者设计的图灵测试中,所有专家的平均ROC和平均AUC = 0.53接近随机猜测场景。并且由图2c中右下角的小图所示,与年轻的科学家相比,经验更丰富的专家并没有取得更好的结果。综上所述,这些结果表明Chematica通过了图灵测试,因为专家们通常无法辨别测试中提供的自然产物合成路径来源于人类还是机器。

图2 合成化学版的图灵测试

3

实验验证

图3  Dauricine的合成路径设计

作者选择了三种复杂程度不同的天然产物作为实验验证对象。首先,最简单的目标是(–)-Dauricine(图3),这是一种有效的自噬阻断剂和抗癌剂,迄今为止仅通过Bischler-Napieralski反应以外消旋形式合成。中间复杂的目标是最近分离的,但尚未合成的称为Tacamonidine的iboga alkaloid(图4)。相对复杂的目标是Lamellodysidine A(图5),这是一种桥接的多环倍半萜,具有独特且复杂的结构,迄今为止仍不能完全合成,这使得对其合成路径的探究具有挑战性和意义。

图4  Tacamonidine的合成路径设计

Chematica为上述三个目标设计了多条路径,并从中选择了最佳路径。由于作者的主要目标是验证计算机的预测,所以不允许对建议的断开进行任何更改。必要时,进行合成的有机化学家可以调整反应条件(如温度、溶剂、特定碱、催化剂等),以便进行优化。最终,Chematica预测的通过实验验证的有16条路径,总共包括超过 70个单独的反应。

图5  Lamellodysidine A的合成路径设计

4

总结

综上所述,计算机终于有能力设计出可靠且可与合成化学家设计的路径相媲美的方案,这让我们相信AI将可以成为合成化学家的有用助手。达到这一水平并不容易,因为专家级的合成设计通常需要大量描述具体反应的精确规则、对生成的合成子进行仔细的结构评估、高效的图形搜索算法、评分函数等。展望未来,作者提出下一个挑战将是教会计算机发现全新的反应类型,并可通过实验验证将其应用到逆合成设计中。

参考资料

Mikulak-Klucznik, B., Gołębiowska, P., Bayly, A.A. et al. Computational planning of the synthesis of complex natural products. Nature (2020).

https://doi.org/10.1038/s41586-020-2855-y

https://www.sigmaaldrich.com/chemistry/chemical-synthesis/synthesis-software.html

maker 预测_Nature | 计算机首次预测天然产物逆合成路线—与人类不相上下!相关推荐

  1. 教授计算机预测,计算机在预测肺癌等方面的客观与准确远超病理学家

    原标题:计算机在预测肺癌等方面的客观与准确远超病理学家 加速会注:很多的时候,当医生评估一个组织活检切片来确定肿瘤的分级和严重程度的时候会带有比重较大的主观因素,如今,斯坦福大学的研究人员发现,电脑可 ...

  2. 预测 未来计算机该是什么样?

    预测 未来计算机该是什么样? 2007-05-11      引:还在为你家里PC产品的笨重模样而不满吗?那么请仔细阅读这篇文章,你会发现和现在相比,未来的个人计算产品充满了奇思妙想. 今后个人电脑将 ...

  3. AI同传最新突破:能预测,低延时,外媒称媲美人类翻译

    本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处. 本文约2500字,建议阅读5分钟. 本文为你介绍了百度于硅谷宣布了最新重大突破--一个名为STACL的同传AI的情况. 同 ...

  4. 探索物流预测珠峰:苏宁智能运输路线技术设计

    本文作者为苏宁云商IT总部技术总监:俞恺.李盛强 责编:何永灿(heyc@csdn.net) 来自物流的挑战 近年来,随着电商增速的放缓,市场对电商企业提供的差异化服务提出更高要求,而物流则首当其冲, ...

  5. R语言构建xgboost模型、预测推理:输出预测概率、预测标签

    R语言构建xgboost模型.预测推理:输出预测概率.预测标签 目录 R

  6. python数据预测模型算法_如何对时间序列预测问题计算基准预测(python)

    例程数据下载 建立基准对于时间序列预测问题是及其重要的. 基准效果会告诉你其他模型在解决你的问题的时候的实际效果有多好. 在这个教程中,你会发现如何制作一个persistence预测,用来对时间序列数 ...

  7. ML之回归预测:利用FSR/RiR/BasisExpand/ Lasso/DT/RF/GB算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测)

    ML之回归预测:利用FSR/RiR/BasisExpand/ Lasso/DT/RF/GB算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测) 目录 输出结果 设计思路 T1.FSR(前 ...

  8. ML之回归预测之Lasso:利用Lasso算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测)

    ML之回归预测之Lasso:利用Lasso算法对红酒品质wine数据集实现红酒口感评分预测(实数值评分预测) 目录 输出结果 设计思路 核心代码 输出结果 设计思路 核心代码 t=3if t==1:X ...

  9. 基于LSTM的序列预测: 飞机月流量预测

    基于LSTM的序列预测: 飞机月流量预测 循环神经网络,如RNN,LSTM等模型,比较适合用于序列预测,下面以一个比较经典的飞机月流量数据集,介绍LSTM的使用方法和训练过程. 完整的项目代码下载:h ...

  10. 机器学习-预测之时间序列分析预测法原理及实战

    时间序列分析预测法 简介 在之前,写了不少关于分类的算法,其中有传统机器学习算法如KNN.SVM,也有深度学习领域的算法如多层感知机,但是可以发现这里的算法核心思路都没有变化,利用一部分已有标签的数据 ...

最新文章

  1. android servlet 登陆,Android Studio+Servlet+MySql实现登录注册
  2. 软件工程 软件的估计为什么这么难
  3. java字符串类型常量拼接与变量拼接的区别
  4. (iOS)sqlcipher和FMDB的使用总结(原创)
  5. 「每日分享」CPU Cache 与缓存行
  6. gis如何加入emf图片_当GIS运用于建筑遗产保护
  7. java z+_Java Z 字形变换
  8. 计算机组成原理简单计算机设计,计算机组成原理课设.doc
  9. Redis, Memcache 基本使用
  10. python桌面程序打开慢_转 : 终于搞清楚了为什么Java桌面程序总是感觉慢的原因...
  11. jmeter获得Response Headers,Response Body里的值
  12. vue项目实现详情页后退缓存之前的数据
  13. [BZOJ] 1619: [Usaco2008 Nov]Guarding the Farm 保卫牧场
  14. 使用linux批量引物设计,【分享】超实用的引物设计操作,一看就学会
  15. 爬虫选用PPTP协议代理ip的必要性
  16. VLAN 划分——基于交换机端口划分VLAN
  17. RNA甲基化修饰种类
  18. ps盖印图层在哪里_PS如何盖印图层?PS盖印图层快捷键
  19. html ico 图片 无效,设置favicon.ico manifest.json无效
  20. ACL 2021 | 基于词依存信息类型映射记忆神经网络的关系抽取

热门文章

  1. JSP 页面 嵌入 google API 地图
  2. WSS 3.0与MOSS 2007重要更新
  3. [算法]用Python实现十大排序算法
  4. java解析多层嵌套json字符串_Redis使用字符串和hash存储JSON,哪个更高效?
  5. 轨迹绕圈算法_算法程序解决如下问题:质点在平面坐标系中运动,每次x或者y坐标增加或减少1,如何判断质点是否顺时针质点的轨迹我们是知道的,当我们已经知道质点在绕圈运动了,那么怎么判断它是在顺时...
  6. python基础 关于制表符号\t的简单理解,为什么使用制表符\t后,字符的位置不一样?制表的空间距离也不一样的简单解答,希望可以帮助各位
  7. python控制台输出_替换Python中的控制台输出
  8. 计算机网络作用范围网络分为,【填空题】从不同作用范围分类,计算机网络可以分为广域网、_______、_________、_________四种...
  9. 3D变形tranform(附实例、图解)
  10. AJAX 跨域访问 — 方法大全