Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性

前言

GIAO 13C NMR计算对于小分子结构归属有很重要的作用,尤其对于需要提高准确性和可信性的复杂有机分子的结构归属。准确度是13C NMR计算的关键问题,每一种计算方法都会存在不可避免的错误,一些错误结构可能对于正确结构与实验数据有更好的吻合,这就有可能推导出错误的结论。为了获得更高的计算精度,本文针对现有计算方法的不足,开发了一种新的GIAO 13C NMR计算策略。这项策略中,碳的类型根据溶剂化半径、杂化类型、取代基进行分类,每种类型的碳分别进行线性回归分析,每组碳的线性参数都是单独校正的。这种分类训练集策略(STS)消除了由于碳原子类型差异而导致的误差。由于碳的数量和类型各不相同,不同类型的碳具有不同的系统误差,因此STS策略可以校正特定类型碳的误差,能够对不同的化合物提供规范统一的统计评价。本文在sDP4+算法的基础上,提出了一种与STS策略性能相适应的概率计算统计模型(P均值/Prel)。本篇文章的通讯作者是中南大学湘雅药学院的王文宣副教授,主要从事微生物天然药物的生物活性成分研究,利用质谱、核磁共振、计算化学、计算机辅助药物设计等多学科的技术交叉融合,研究开发抗肿瘤、抗微生物、免疫抑制等创新药物。

基组和泛函的选择

常用的密度泛函(例如:B3LYP)和常用的基组(如:6-31G*)足以对结构进行几何优化。作者为了讨论哪一种基组和泛函具有更好的适用性,人工构建了一个有机小分子测试集(图1)对密度泛函和基组进行测试。小分子测试集中包括体积大、芳香族、高度共轭和重原子取代结构。由图1可以看出B3LYP/6-31G*理论水平的几何优化计算的屏蔽张量与ωB97X-D/def2-TZVPD理论水平计算的屏蔽张量具有极好的线性关系。B3LYP/6-31G*可以在许多情况下产生与更昂贵的方法相比较的良好结果。如图2所示,对于具有非键相互作用的结构,在某些情况下,这一水平可能无法产生正确的最佳几何形状,导致计算的屏蔽张量与参考值相比存在较大偏差方法(ωB97X-D/def2 TZVPD)。因此,作者采用B3LYP-D3(BJ)/TZVP(IEFPCM)进行几何优化,结合ωB97X-D/6-31G*水平上的GIAO-NMR计算,这是计算成本和对尽可能多的有机结构的适用性之间的折衷。

图1:A: 小分子训练集;B:在ωB97x-D/6-31G*//B3LYP/6-31G*水平(x轴)上计算的这两种结构的屏蔽张量,与ωB97x-D/6-31G*//ωB97x-D/def2 TZVPD水平(y轴)上计算的屏蔽张量进行了回归;C: 在ωB97x-D/6-31G*//B3LYP-D3(BJ)/TZVP水平(x轴)上计算的这两种结构的屏蔽张量与ωB97x-D/6-31G*//ωB97x-D/def2 TZVPD水平(y轴)上计算的屏蔽张量进行了回归。

图2:两种构象优化方法的评价。A:在B3LYP/6-31G*和B3LYP-D3(BJ)/TZVP理论水平(气相)上优化的结构,以ωB97X-D/def2 TZVPD优化几何结构为参考(黄色框架),B:在ωB97X-D/6-31G*//B3LYP/6-31G*水平(x轴)上计算的这两种结构的屏蔽张量,与ωB97X-D/6-31G*//ωB97X-D/def2 TZVPD能级(y轴)上计算的屏蔽张量进行回归,C:在ωB97X-D/6-31G*//B3LYP-D3(BJ)/TZVP能级(x轴)上计算的这两种结构的屏蔽张量与ωB97X-D/6-31G*//ωB97X-D/def2 TZVPD能级(y轴)上计算的屏蔽张量进行了回归。

碳的类型及STS策略评估

本文将碳按其杂化类型、溶剂化腔半径或溶剂相互作用进行分类,碳最终被分为10种类型,分别是sp3-CH3, sp3-CH2/CH/C, sp2-CH2, sp2-CH(羰基除外),sp2-C(羰基除外),X-C=O(除羧基、酮和醛外的羰基),COOH(羧基),C=O(酮还有醛),sp-CH和sp-C。从一组分子获得每组碳的计算屏蔽张量与实验数据之间的线性关系,进而得出线性方程δ=aI+b的参数a和b,据线性参数的相似性用计算得到的屏蔽张量,然后对某些类型碳的化学位移转换。

为了进行比较,作者对B3LYP/6-31G**//B3LYP/6-31G**(gas phase)和RI-MP2/def2 SVP//B3LYP-D3(BJ)/TZVP(gas phase)水平进行了GIAO核磁共振计算,线性参数由该测试集精确得到。由于B3LYP/6-31G**//B3LYP/6-31G**理论水平优于RI-MP2/def2-SVP//B3LYP-D3(BJ)/TZVP,因此采用前一理论水平与GSC相比较。

表1:在B3LYP/qz2p//MP2/tz2p和MP2/qz2p//MP2/tz2p水平上计算的实验屏蔽张量和标度修正屏蔽张量

GIAO 13C NMR方法中,一些“难碳”比其它碳原子(如羧基)的误差大得多。因此,作者制作了一个小分子测试集(表1),包括具有代表性的经典药物、候选药物和具有“难碳”的天然产物,以衡量新提出的STS方法的性能。结果表明,不同碳类型的参数在三种溶剂中显示出或多或少的不同。在CDCl3中,除了COOH的屏蔽张量被显著高估外,各组的线性关系相似。在CD3OD和DMSO中,低估了sp2-CH2屏蔽张量。除此之外,在DMSO中sp2杂化的碳与sp3杂化碳的倾向性差异比另外两种溶剂大。这个现象是由于分子与溶剂之间不同的相互作用造成的,碳原子之间的这种差异是全局标度校正误差的来源。与之相反,STS策略可以消除这种错误,达到更高的计算准确度。对于测试集中的化合物,作者首先使用STS线性参数将计算的屏蔽张量转换为计算的化学位移,然后对它们进行全局标度校正,以生成最终计算的化学位移。STS策略的总体平均绝对误差(MAE)和均方根(RMS)值分别低至1.03和1.35 ppm,远好于GSC(B3LYP/6-31G**//B3LYP/6-31G**(气相)水平),说明STS策略是一种很好的13C NMR计算方法。

图3:红色:GSC, B3LYP/6-31G**//B3LYP/6-31G** level, gas phase;蓝色:STS, ωB97x-D/6-31G*//B3LYP-D3(BJ)/TZVP level, IEFPCM;黑色: 实测值

图4:在三种溶剂(CDCl3,DMSO-d6,CD3OD)中实测化学位移(y轴)与计算的屏蔽张量(x轴)之间的线性回归。

图5:用STS(ωB97x-D/6-31G*//B3LYP-D3(BJ)/TZVP水平,IEFPCM)和GSC(B3LYP/6-31G**//B3LYP/6-31G**水平,气相)对实测化学位移和计算化学位移的线性回归。

此外,STS策略具有可扩展性,能够适应异常情况。如果已知相似结构的实验数据,研究人员可以使用新的训练集来添加/调整某些特殊碳的校正。

首先,在一组已知结构中用于进一步校正的碳的实测化学位移需要通过等式1中相应的线性参数a和b将其逆转换为实验屏蔽张量(I retro),然后用计算的屏蔽张量(Icalcd)进行回归,得到修正线方程(等式2)。

Iretro= (δexptl - b)/a (1)

Iretro= aIcalcd+ b (2)

在数据处理过程中,计算C的屏蔽张量需要用等式2进一步校正,之后转化为化学位移。

表2:用STS策略从三种溶剂中的训练集计算线性方程δ=aI+b的线性参数a和b的值

利用训练集中的实验数据,作者进一步演示了如何添加对氯、溴和含硫碳以及磺酸盐的进一步校正。

图6:需要进一步校正的碳原子的I retro(y轴)和I calcd(x轴)之间的线性关系(红色星号标记)。

结构正确与否的概率计算

有许多方法评估计算C的化学位移和实测值+的吻合程度。但是大多数方法只能说明在一组可能的结构中,哪些计算数据“更好”。原因是不同的化合物有不同类型的碳,用总标准作为阈值,对于含有“难碳”的化合物来说,标准过于严格/宽松。在建议的可能结构中可能没有包含正确的结构的情况下,统一的标准是很重要的。STS策略不仅对不同类型的碳进行了专门的校正,而且对每种碳都给出了专门的统计数据。因此,可以对不同类型的碳原子的误差进行标准化,从而可以计算误差的总体分布,并用统一的标准对大多数化合物的数据进行评估。作者提出了通过计算13C NMR来计算正确结构概率的公式(式3)。es,k为标度修正后每种碳的STS计算的绝对误差,Tʋ是具有ʋ自由度的累积T分布函数,σSTS是用STS策略计算的某组碳(sp3-CH2/CH/C,sp2-CH等)的标准差。Pmean是同一结构中所有碳的1-Tʋ(es,k/σSTS)值的几何平均值的两倍。Pmean提供了一个定量的置信度来评估假设结构被错误地提出的可能性。一般来说,当P均值大于5%,置信区间为95%时,假设结构可以作为一个候选结构,这对于检验指定的结构是否正确,或者验证这种计算策略是否适合目标结构是有用的。

STS策略和概率计算的评估

在此,作者使用xylarichalasin A和6-epi-xylarichalasin A作为案例研究 (如下表所示),以展示STS策略和概率计算的性能(如图7所示)。用STS策略计算出的正确结构的MAE和RMS值远好于文献中采用的方法计算的MAE和RMS值(ωB97X-D/6-31G*//B3LYP/6-31G*,气相,GSC),它使用对GIAO核磁共振计算也采用了相同的水平,并引入了重原子校正。通过更高层次的优化理论和对不同类型碳原子的特殊线性参数的研究,提高了精确度。

图7

表3:用STS方法(化学位移单位为ppm)计算xylarichalasin A和6-epi-xylarichalasin A的GIAO-13C NMR计算

结论

作者开发了一个GIAO 13C NMR计算协议(STS),使计算精确度显著提高。与常用的标度修正法相比,STS法可使总MAE和RMS值降低50%以上,且对含有“难碳”结构的实验数据拟合效果更好。此外,作者还开发了一种基于统计的概率算法来估计结构正确分配的概率,为通过GIAO 13C NMR计算推断未知结构正确率提供了依据。

指导教师:黄肖霄

weka使用训练集分类测试集_Giao 13C NMR计算分类训练集提高结构归属的准确性和可靠性...相关推荐

  1. 我的实践:通过蚂蚁、蜜蜂二分类问题了解如何基于Pytorch构建分类模型

    文章目录 1.数据集准备 2.pytorch Dataset 处理图片数据 3.网络模型设计 4.模型的训练与测试 1.数据集准备 本例采用了pytorch教程提供的蜜蜂.蚂蚁二分类数据集(点击可直接 ...

  2. Python 计算思维训练——输入和错误处理练习(二)

    第1关:读取用户输入的公式参数 任务描述 本关任务:编写一个能读取用户输入的公式参数,并计算公式结果的小程序. 相关知识 本关需要的知识请参考实训项目 "4-1 Python 计算思维训练- ...

  3. weka使用训练集分类测试集_技术分享

    一.实验目的熟悉weka基本功能和使用方法 学习对数据集进行分类训练并测试 比较不同分类算法对本实验测试集预测的准确率 二.实验环境平台:Weka3.8 数据集:将Weka的data文件夹下默认数据集 ...

  4. Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例

    Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例 目录

  5. python尝试不同的随机数进行数据划分、使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征的卡方检验的p值,如果所有p值都大于0.05则训练集和测试集都具有统计显著性、数据划分合理

    python尝试不同的随机数进行数据划分.使用卡方检验依次计算不同随机数划分下训练接和测试集所有分类特征(categorical)的卡方检验的p值,如果所有p值都大于0.05则退出循环.则训练集和测试 ...

  6. 数据集划分,Oxford Flower102花卉分类数据集,分为训练集、测试集、验证集

    数据集划分,Oxford Flower102花卉分类数据集,分为训练集.测试集 Oxford Flower102数据集链接:https://www.robots.ox.ac.uk/~vgg/data/ ...

  7. 102类花卉分类数据集(已划分,有训练集、测试集、验证集标签)

    102类花卉分类数据集(已划分,有训练集.测试集.验证集标签)+完整运行代码 数据集已经经过处理划分好了,并且附带了训练集,测试集,验证集的txt文本标签.配合完整运行代码即可训练. 数据集链接在文章 ...

  8. ML基础 : 训练集,验证集,测试集关系及划分 Relation and Devision among training set, validation set and testing set...

    首先三个概念存在于 有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...

  9. 1. 训练集、开发集、测试集(Train/Dev/Test sets)

    1.在以往的机器学习中 如上图所示,以往机器学习中,对训练集.开发集.测试集的划分比例为60/20/20,如此划分通常可以获得较好的效果. 训练集(training set):训练算法. 开发集(de ...

最新文章

  1. 鼠标键盘唤醒计算机,除了按下电源按钮唤醒计算机,WIN10也可以使用鼠标或键盘来唤醒...
  2. springMVC 与mybatis 整合 demo(maven 工程)
  3. mybatis入门(五)之Java API
  4. mysql索引创建和使用注意事项
  5. MyBatisPlus自动生成代码springboot+mybatis+mysql 以及动态sql生成方法(测试可用版)
  6. [上架] iOS 上架更新版本号建议
  7. js 俩组数据根据id合并
  8. ❤️Spring的静态、动态代理模式
  9. 使用拉普拉斯算子锐化图像
  10. 浙大PAT练习题1010
  11. 车载视频监控怎么安装?《M51H车载及摄像机安装指导》
  12. IOI2020国家集训队集中培训通知及如何进入国家集训队
  13. 【转载】UMTS到LTE的系统架构演进
  14. element ui Descriptions 组件无法显示样式 未渲染
  15. AQS源码解读(六)——从PROPAGATE和setHeadAndPropagate()分析共享锁的传播性
  16. Spring warmth
  17. PPT里面的背景音乐找不到?
  18. ubuntu18批量解压和删除压缩包以及文件夹操作
  19. 使用“快剪辑”软件自定义修改视频尺寸
  20. MVC项目文件夹说明和创建MVC

热门文章

  1. visual foxpro 程序员指南_好程序员云计算培训分享云计算中SOA是什么?
  2. windows下安装mongodb服务
  3. 100 行 Python 代码实现人体肤色检测
  4. Python解决网吧收费系统,远控网吧电脑设备!
  5. 漫步线性代数十二——网络
  6. Spring Boot @Async 简单实践
  7. ResNet 运行在Cifar10 测试集86.38% Tensorflow 2.1 小白从代码实践中 理解
  8. python变量名区分大小写_python变量名要不要区分大小写
  9. java 自动类型转换_彻底理解Java中的基本数据类型转换(自动、强制、提升)
  10. 条件编译#ifdef 和#endif