说来也是惭愧,这是我研一上了半年读的第一篇论文,其中包含做好组会演讲的PPT和翻译文档。以下为翻译文档仅供参考。

AGBT

Algebraic graph-assisted bidirectional transformers for molecular property prediction

题目:将图和双向transformers融合的分子性质预测新工具 简称AGBT

摘要:

分子性质预测对药物开发、人类健康和环境保护具有重要意义,然而各种分子性质的定量预测仍然是一个挑战。本文通过融合代数图和双向Transformer生成的表示,以及各种机器学习算法,包括决策树、多任务学习和深度神经网络,提出了代数图辅助的双向Transformer(AGBT)框架。并在八个涉及定量毒性、物理化学性质和生理性质的分子数据集上验证了该框架。大量的数值实验表明,AGBT是一种先进的分子性质预测框架。实现了基于小样本数据有效地定量预测分子特性。

介绍:

从2019年新冠肺炎疫情爆发至今已有一年多,而世界还没有研发出针对新冠病毒的特效药物,这一事实提醒我们,药物发现仍然是一个巨大的挑战。合理的药物发现涉及到一系列的分子性质,包括结合亲和力、毒性、分配系数、溶解度、药动学、药效学等。分子性质的实验测定非常耗时和昂贵,因此需要不断地发展省时省钱而又兼具准确性的计算机辅助药物设计。其中最流行的方法之一是定量构效关系分析(QSAR),其思想是假定相似的分子具有相似的生物活性和物理化学性质。

目前包括深度学习(DL)在内的机器学习已经成为分子科学数据驱动发现的一种强有力的方法。例如,图形卷积网络(GCNs)、卷积神经网络(CNNs)和递归神经网络(RNNs)已经广泛应用于药物发现和分子分析。生成对抗网络(GANs)与一些机器学习策略(如监督学习和强化学习)相结合也被应用于新分子的生成和药物设计。然而,DL方法需要较大的数据集来确定其大量的权重,在较小的数据集上它的竞争力就小了。

尽管CNN和GANs等DL方法可以从简单的数据(如图像和/或文本)中自动提取特征,,分子结构的复杂性和高维性是设计高效3D指纹的主要障碍早期的分子描述符被设计为以位字符串格式表示的可解释物理属性的配置文件或指纹。在过去的几十年中已经开发了各种指纹,二维(2D)指纹主要有四种类型,即基于子结构密钥的指纹、基于拓扑或路径的指纹、圆形指纹和药效团指纹。然而,二维指纹缺乏分子的三维结构信息,尤其是立体化学描述。

作者介绍了之前的两种分子表示:

第一种分子表示:

为此,研究者们开发了基于3D结构的指纹来捕捉分子的3D模式。然而,分子结构的复杂性和高维性是设计高效3D指纹的主要障碍。最近,基于高等数学的各种三维分子表示被提出,这些方法在蛋白质分类、溶解度、毒性、分配系数等上的预测取得了巨大成功。然而,这种方法依赖于可靠的3D分子结构的可用性。

第二种分子表示:

另一种表示方法是用自监督学习(SSL)策略来预训练编码器模型,在没有3D分子结构的情况下,该编码器模型可以产生潜在空间向量作为分子表示。在SSL策略中使用了未标记的数据,但与无监督学习不同的是,模型输入的数据被部分掩蔽,然后训练模型来预测训练过程中的掩蔽部分,其中原来的掩蔽数据可以用作标签。这种策略允许使用大量的未标记数据。SSL的最初发展是由于需要自然语言处理(NLP)。例如,来自bidirectional encoder representations from transformers(bert)表示被设计用于预训练来自未标记文本的deep bidirectional transformer representations表示。这项技术的发展被用于理解分子的基本结构原理表示为SMILES(simplifified molecular-input line-entry system)(简化分子线性输入规范)。未标记的SMILES字符串可以被看作是基于文本的化学句子,并被用作SSL预训练的输入。值得注意的是,ZINC和ChEMBL等大型公共化学数据库的可用性使SSL成为分子表征生成的可行选择。然而,潜在空间表示忽略了许多立体化学信息,例如二面角和手性。此外,潜在空间表征缺乏关于特定任务性质的特定物理和化学知识。例如,在许多药物相关的性质中,范德华相互作用可以发挥比共价相互作用更大的作用,在描述这些性质时需要加以考虑。

注释:SMILES(用ASCII字符串明确描述分子结构的规范)

SMILES(Simplified molecular input line entry system),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。

SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。

自己的分子表示:

本文用AGBT来构造分子表示,结合了3D特定元素的加权彩色代数图和深度双向transformers(DBT)的优点。特定于元素的加权彩色代数图产生低维分子表示(该代数图将互补的三维分子信息嵌入到图的不变量中),称为基于代数图的指纹(AG-FP),它显著降低了分子结构的复杂性,同时基本上保留了物理/化学信息。DBT利用基于SSL的预训练过程从大量未标记的SIMLES数据中学习基本构成原理,并通过微调,使用特定于任务的数据进一步训练模型。由此产生的分子指纹,称为基于双向transformer的指纹(BT-FP),是DBT的潜在空间向量。将AGBT模型应用于涉及定量毒性和划分系数的8个基准分子数据集,广泛的验证和比较表明,所提出的AGBT模型产生了一些分子性质的最佳预测。

结果

本文介绍了AGBT模型及其在八个数据集LD50、IGC50、LC50、LC50DM、partition coefficient(分配系数)、FreeSolv、Lipophilicity(亲脂性)和BBBP上的分子预测结果。作者在预训练中使用了CheMBL数据集。补充表1列出了这些数据集的基本信息,预训练使用的是CheMBL32数据集。

AGBT

图一的解释:

  • input:对于给定的分子结构及其Smiles的字符串
  • AG-FPs是由特定元素的代数子图模块生成的
  • BT-FPs是由一个深度双向transformer模块生成的
    • 如虚线内的矩阵所示
  • 包含预训练和微调Fine-tune过程
  • 最后以任务特定的SMILES作为输入完成特征提取。然后利用随机森林算法对指纹进行融合、排序和选择,用于机器学习

​ 图1

如图1所示, AGBT由四个主要模块组成:AG-FP生成器(即蓝色矩形)、BT-FP生成器(即橙色矩形)、基于随机森林(RF)的特征融合模块(即绿色矩形)和下游机器学习模块(即粉红色矩形)。对于图指纹的生成,文章使用特定于元素的多尺度加权彩色代数图,将化学和物理相互作用编码为图不变量,并捕获三维分子结构信息。

BT-FP分两个步骤创建:

  • 包含大量未标记的输入数据基于SSL的预训练步骤;
  • 基于特定任务的微调步骤。

微调步骤可以通过两种方式执行

  • 第一种方法仅仅是采用相同的SSL过程,使用特定于任务的数据微调模型并生成它们的BT-FPs
  • 另一种方法是通过SL过程利用特定任务数据中的标签来微调模型

生成特定任务数据的潜在空间向量,记为BTs-FPs(即橙色向量)

利用随机森林算法对融合的AG-FP和BT-PF特征的重要性进行排序,选择固定数量的AGBT-FPs的最优集合。下游机器学习算法被赋予最优特征,以在四个基准毒性数据集上获得最佳性能。

此外,模型融合了随机森林算法来对的AG-FP和BT-PF特征的重要性进行排序,并选择固定组件数量的最佳AGBT-FP集合。

下游的机器学习算法被馈送最优的特征,以在四个基准毒性数据集上获得最佳性能。此外,还使用了梯度增强决策树(GBDT)、随机森林(RF)和深度神经网络(DNN),包括单任务DNN(ST-DNN)和多任务DNN(MT-DNN)来执行最终预测。

评价分类模型性能

我们使用了一些标准的机器学习算法,即梯度增强决策树(GBDT)、随机森林(RF)和深度神经网络(DNN),包括单任务DNN (ST-DNN, Supplementary Fig. 10a)和多任务DNN (MT-DNN, Supplementary Fig. 10b),来进行最终的预测。我们的训练遵循传统的方法。为了消除机器学习模型中的系统性误差,对于每一种机器学习算法,对每个分子取20种不同模型(由不同的随机种子生成)的预测值的一致性。注意,这里的共识值是指每个特定训练测试分裂的每个分子的不同模型预测结果的平均值。

在这项工作中,平方皮尔逊相关系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)被用来评估回归任务的性能,以分类精度和接收端工作特征凸包下面积(AUC-ROC)来评价分类模型的性能。

用平方皮尔逊相关系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)来评价回归任务的性能,用分类精度和AUC-ROC来评价分类模型的性能。

毒性预测

Toxicity prediction

为什么要进行毒性预测

毒性是药物先导优化中需要考虑的一个关键问题,它衡量一种化合物对生物体产生不利影响的程度。

​ 图二 AGBT框架的结果和特征分析

  • a, b分别说明IGC50和LC50DM两种方法对R2的比较。AGBTs-FP意味着对AGBT-FP实施有监督的微调过程。其他结果取自参考文献。

LC50DM集是指可导致50%的大型蚤在48小时后死亡的水中的测试化学物质的浓度。它是相关四个数据集里最小的一个。LC50DM组是四组数据中最小的。在353个分子中,283个作为训练集,其余70个作为测试集。为解决模型规模较小而导致预测模型难以训练的问题(如描述符过多导致过拟合)。本文应用MT-DNN,从具有一定统计分布的数据集中提取信息,有效地提高了模型的预测能力,避免了对小数据集的过度拟合。基于AGBT框架,我们融合了AG-FPs和BT-FPs(即BT-FPs),并对任务特定的数据进行监督微调。MT-DNN模型的性能最佳,其R2R^2R2 = 0.830, RMSE = 0.743。如图2b所示,我们的模型得到了最好的结果,比之前R2R^2R2 = 0.733的最好分数提高了13%以上

结果如图2b所示,在LC50DM集上本文模型的性能最好,R2=0.830,均方误差=0.743。

​ 图2b

IGC50是第二大毒性组,其毒性值从0.334 - log10 mol/L到6.36 - log10 mol/L2。如图所示图2a。对于我们的方法,MT-DNN与AGBT-FP的R2为0.842,超过了现有方法在IGC50数据集上的R2。

​ 图2a

口服大鼠LD50集衡量的是口服时可杀死一半大鼠的化学物质的浓度。这个数据集是相关四个集合中最大的一个集合,导致因为集合中值的跨度大使得预测相对困难。如表1所示,所有现有方法的R2值都在0.392到0.643之间,而本文的方法可以达到0.671。

LC50数据集报告了测试化学物质在水中的浓度,以毫克/升为单位,这些化学物质导致50%的黑头小鱼在96小时后死亡。Wu等人利用包括能量、表面能、电荷等物理信息构建分子描述符。这些物理性质与分子毒性有关,预测精度达到R2 0.771。在这项工作中,我们的AGBT-FPs与MT-DNN提供最好的R2为0.776。我们还测试了我们的BT-FPs的性能,其R2 0.783与MT-DNN。如表1, 在六个数据集上将最佳表现与发表的已知分数进行比较

​ 表1

分配系数预测

分配系数表示为P,是物质在两种相互不溶的溶剂(本文是辛醇和水)中的平衡状态下的浓度之比,可以用于衡量化合物的药物相关性及其对人体的疏水性。该系数的对数表示为logP。用于logP预测的训练集包含8199个分子。用美国食品药品监督局(FDA)批准的一组406个分子作为测试,其logP值从−3.1到7.57。表1列出了FDA分子数据集在不同预测方法上比较。可以看出,本文的R2达到了最高值0.905。

FreeSolv和亲脂性预测

该项预测可以了解分子与溶剂相互作用的基本物理化学性质。FreeSolv和liophilicity数据集分别有643和4200个样本。为了消除下游机器学习模型的系统性误差,更好地比较分子描述符,对于每一种机器学习算法,对于每一个分子,每次数据拆分取20个不同随机种子模型的预测值的一致性。该数据集的最终得分是10个不同数据分割的平均得分。如表2所示,对于FreeSolv和亲脂性数据集,最好的结果都产生在融合的描述符上,这说明代数图确实对分子性质预测有重要影响。

血脑屏障通透性 (BBBP)二元标记物的分类任务

本文采用化合物通透性的二元标记法。为了更好地进行比较,数据集的训练、验证和测试集划分比例为8:1:1。如表1所示,本文的方法获得了最佳AUC-ROC值0.763。

讨论

在本节中,我们将讨论AGBT模型如何为分子特性预测带来深刻的见解,以及基于代数图的指纹和基于深层双向trans的指纹对我们提出的AGBT方法的增强作用.

代数图描述符的影响

过对大量分子进行预训练,深度基于ssl的分子指纹可以达到较高的精度。许多基于深度学习的分子指纹显示出比传统指纹更好的性能。然而,深度学习指纹,包括我们的BT-FPs,很容易丢失分子立体化学信息。这种信息的缺乏往往使“活动悬崖”令人讨厌。补充图16中的一个例子说明了这个缺点。因此,我们建议将代数图理论与我们的AGBT框架相结合,以保留原始BT-FPs的立体化学和物理信息并提高其性能。此外,在本工作中,我们将特征融合后的分子指纹总维数设置为512,因此我们只需要优化一个神经网络架构。我们的AGBT模型是一个有效的分子性质预测框架。

​ 图2 f

图2f显示了AGBT框架下IGC50和LC50DM数据集的最佳预测性能,即R2 =IGC50的0.842,LC50DM的R2 = 0.830。每个点的橙色条形图是20个模型预测毒性的偏差(带有不同的随机种子)。对于LD50、IGC50和LC50DM数据集,代数图辅助MTDNN预测结果最佳。

​ 2c

对于IGC50数据集,GBDT、ST-DNN、MT-DNN三种机器学习算法毒性预测的R2如图. 2c的柱状图所示。很明显,对于IGC50数据集,AGBT-FP在GBDT和MTDNN上表现优于BT-FP,而在STDNN上表现相反。这主要是因为AG-FPs和BT-FPs是由两个不同的分子指纹发生器产生的,尺寸分别为1800和512。融合后的分子指纹图谱AGBT-FPs从AG-FPs和BT-FPs返回512个成分,这些成分信息不均匀,在STDNN方法中容易引起一些异常。

对于IGC50数据集,1434个分子结构用于训练AGBT模型,导致预测出现波动图2f。

在LD50数据集和LC50DM数据集也发现了类似的情况,如图补充图11所示。对于LC50数据集,BT-FPs得到了最好的结果,但AGBTFPs的结果也达到了R2 0.776,超过了其他报道的方法。

如表2和补充表8所示,对于FreeSolv和liophilicity数据集,使用融合描述符得到的结果都是最好的,说明代数图对分子性质预测有重要的影响。在补充表8中,FreeSolv的R2、RMSE和MAE的标准差以及亲脂性预测也表明agbt - fp在大多数情况下可以获得最稳定的性能(5/6)。因此,AG-FPs和BT-FPs的融合提高了大多数数据集预测的准确性和稳定性。基于数学的分子描述符可以补充数据驱动的潜在空间描述符。

微调策略的预测能力

在这项工作中,我们在微调阶段开发了两种策略:使用特定任务数据的SSL和SL。结果发现,SSL策略(见Supplementary Fig. 3)在LD50、IGC50和LC50数据集上表现较好,如图2f和Supplementary Fig. 11所示,而具有任务特定数据的SL策略(见Supplementary Fig. 4)在LC50DM数据集。LC50DM数据集是最小的集合,在它的训练集中只有283个分子。传统的方法无法从如此小的数据集中获取足够的信息来获得满意的结果。在AGBT模型中,利用双向变压器的预训练策略,使模型获得分子的一般知识。在微调阶段,我们进一步向模型提供四个带有标签的毒性数据集,标记的数据指导模型从所有训练数据中具体提取与毒素相关的信息。然后我们补充微调手指。

图2d显示了AGBT-FPs和AGBTs-FPs在LC50DM数据集上使用三种先进的机器学习方法的性能。柱状图显示了三种机器学习算法预测结果的R2。从图中可以看出,agbt - fps在三种机器学习算法中都有很好的性能,R2值为0.822 (GBDT),分别为0.815 (ST-DNN)和0.830 (MT-DNN)。这表明agbt - fps可以在序列微调过程中捕获与毒素相关的一般信息。三种预测结果无显著性差异

​ 2d

表2 AGBT框架在八个数据集上生成的描述符的性能。

以上讨论说明SSL不需要标签的指导就可以获得一般的分子信息和通用的分子描述符。在下游任务中,MTDNN模型还可以帮助从相关数据中提取特定于任务的信息。对于小型数据集,如LC50DM数据集(300个样本),后续使用SL策略进行微调更有前景。

使用AG-FP、BT-FP/ BT-FP和AGBT-FP/ AGBT-FP的8个数据集的结果如表2所示。融合的描述符(AGBT-FP/ AGBT-FP)在5/8的任务中获得了最好的表现。对于LC50数据集,AGBT-FP预测0.776非常接近于BT-FPs获得的最佳性能0.783。对于亲脂性数据集,性能agbt - fp RMSE = 0.579。与RMSE(0.57)接近。对于BBBP数据集,分类性能agbt - fp = AUC-ROC = 0.761,与最佳0.763基本一致

分子表征和结构基因

本节干啥?

对AGBT-FPs的关键维度进行表征,以识别结构基因。

在化学中,分子的性质,如毒性,通常是由某些特定的官能团或片段决定的。与生物基因相似,分子有一些决定其属性的因素,在本研究中被称为结构基因。

对于一些基于路径的指纹,如FP2,一个分子由256个长度向量表示,每个向量对应一个特定的片段。然而,从这样的指纹图谱中很难获得最好的结果,如图2a, b所示。

提出的AGBT-FP是一个512维的指纹图谱,每个维度都是关于分子的各种物理信息的投影。在本节中,我们希望对AGBT-FPs的关键维度进行表征,以识别结构基因。

采用随机森林算法对AGBT-FPs进行特征重要性分析。如补充说明所示图13,对于LD50、IGC50和LC50数据集,特征重要性排序前3位特征均来自基于代数图的描述符。对于毒性数据集,AGBT-FPs中AG-FPs和BT-FPs的成分比例为188:324,如图2g和补充图13所示。为LC50DM数据集,最重要的特征来自BT-FPs,第二和第三个重要特征来自AG-FPs这意味着基于多尺度加权彩色代数图形的分子描述符贡献了关键的分子特征,这些特征是通过将特定的物理和化学信息嵌入到图不变量中而得到的。

g根据IGC50和LC50DM数据集的特征重要性对AGBT-FPs进行排序。对于这两个数据集,188/512的AGBT特性来自AG-FPs,其余的348/512来自BT-FPs。

​ LD50的可视化设置。这些轴是AGBT-FPs最重要的三个特性

图2e显示了LD50的前三个重要特征,每个点代表一个分子,用颜色表示毒性。很容易发现AGBT-FP中最重要的三个维度,记为Feature 1, Feature2和Feature 3将分子分为两组:一组可以通过Feature 3来区分,另一组是Feature 1和Feature 2的线性组合。这意味着分子可以通过三个关键维度(特征)来分类,这表明这三个特征,即结构基因,支配着分子的内在特征。然而,由于预测分子毒性是复杂的,很难通过前三个维度直接区分AGBT-FPs中每个分子的毒性。类似地,IGC50、LC50和LC50DM数据集见补充图14。

采用MT-DNN模型对IGC50组(左)和LC50DM组(右)AGBT-FPs的预测结果。

n = 358(左)和70(右)独立样本的箱图统计R2值检验了20多个独立机器学习实验,详细统计值列于补充表5。

通过主成分分析将AGBT-FPs和AGBT-FPs投影到正交子空间中。如图2h所示,AGBT-FPs的前两个主成分大致可以将数据分成两个簇,而同一簇中的分子具有相似的毒性。同样,agbt - fps的前两个分量如图2h所示。

沿着第一主成分的方向,分子数据可以根据毒性很好地聚类,低毒性分子在左边(绿色),高毒性分子在右边(红色)。这表明这两种分子指纹包含非常不同的信息。如补充图15所示,对于AGBT-FPs,我们需要112个组件来解释90%的方差,而对于AGBTs-FPs,我们只需要48个组件。AGBT-FPs的前两个主成分只解释了方差的9%和8%,这说明,由于没有标记数据来训练模型,生成的AGBT-FPs代表的是关于分子构成的一般信息,而不是特定的分子性质。AGBTs - fps的前两个分量可以分别解释40%和13%的方差,说明通过使用基于sl的微调训练,模型可以有效地捕获特定于任务的信息

AGBTs -FP模型在预测特定属性方面表现得更好,因为标记数据在微调期间用于训练模型。应该注意的是,一些与该特性无关的分子信息可能会以这种方式丢失。对于一些数据量最小的数据集,如LC50DM,其数据量小,不足以在下游任务中有效地获取属性特定的信息,这种策略可以获得更好的结果。然而,如果有更多的下游数据,如LD50、IGC50和LC50,下游机器学习方法也可以从一般的分子信息中获得属性特定的信息。例如,AGBT-FPs在LD50、IGC50和LC50数据集上表现得更好。

尽管在过去的十年里做了许多努力,准确和可靠的预测许多分子性质仍然是一个挑战。近年来,深层双向tranformers因其从大规模SSL中提取分子基本结构信息的能力而成为分子科学领域的一种流行方法。然而,它们忽略了至关重要的立体化学信息。代数图在简化分子结构复杂性方面是有效的,但依赖于三维结构的可用性。提出了一种基于AGBT的分子性质预测框架。具体地说,引入元素特异性的多尺度加权彩色代数子图来表征关键的物理/化学相互作用。此外,对于小型数据集,我们向标准的预训练SSL引入了一个有监督的微调过程,以专注于特定于任务的信息。

这些方法与AGBT中的随机森林、梯度增强决策树、多任务深度学习和深度神经网络算法相结合。结果表明,AGBT框架在LD50、IGC50、LC50、LC50DM和FDA logP数据集上的R2分别为0.671、0.842、0.783、0.830和0.905。在FreeSolv和liophilicity数据集中,我们得到RMSE评分分别为0.994和0.579,在BBBP分类数据集中,我们得到AUC-ROC评分为0.763。我们的模型可以很容易地扩展到其他分子性质的预测。我们的结果表明,提出的AGBT是一个强大的框架,用于研究药物发现和环境科学中的小分子的各种特性。

方法

基于代数图的分子指纹 (AG-FPs)

​ a 2-三氟乙酰的分子结构

​ b, c分别表示传统图形表示和彩色图形表示

​ 共价相互作用力

图论可以将分子结构从高维空间编码为低维表示。一个分子中原子之间的联系可以用图论来表示,如图3a, b所示。然而,在传统的图形中忽略原子之间的定量距离和不同的原子类型,将导致丢失关于分子的关键化学和物理信息。特有元素的多尺度加权彩色图表示可以定量地捕获不同化学方面的模式,例如不同原子之间的范德华相互作用和氢键。图3c演示了一个彩色图形表示,它通过使用彩色顶点捕获元素信息,不同的边对应于分子中不同的成对相互作用。此外,代数图的特征可以很容易地从特定图的拉普拉斯图和/或邻接矩阵的特征值的统计中得到

图示:将彩色图分解为特定于元素的CC、FO和CH子群的过程,其中元素指的是本研究中的化学元素,如H、C、N

step 1 :构建特定元素的有色子图

如图3d所示,对于给定的分子,我们首先使用选定的原子坐标子集作为顶点,构建特定元素的有色子图

是给定数据集的一组常见元素类型。

位置rir_iri​

元素类型αiα_iαi​

而n个原子子集中的第i个原子被标记为元素类型αi和位置ri。

我们用快速衰变径向基函数表示分子中元素类型之间的所有成对相互作用

step 2 :子图中各个原子之间的连接权值矩阵

是分子中第i个和第j个原子之间的欧氏距离,

what is 欧式距离 :

ri和rj是第i个和第j个原子的半径(ri rj不加黑)

σ为数据集中ri和rj的平均标准差(ri rj不加黑)

广义指数函数或广义洛伦兹函数Ψ,它们是图边之间的权值

函数ηk1,k2η_{k1,k2}ηk1,k2​是原子间的特征距离,是一个刻度参数

是给定数据集的一组常见元素类型。

图3e给出了基于加权色子图的拉普拉斯矩阵和邻接矩阵的说明。

对于毒性的预测,van der Waals相互作用比共价相互作用更为关键,因此距离约束被用来排除共价相互作用。

在生物分子中,我们通常选择广义指数函数或广义洛伦兹函数Ψ,它们是图边之间的权值。在这里,函数ηk1,k2η_{k1,k2}ηk1,k2​​是原子间的特征距离,是一个刻度参数。

step 3:因此,我们生成了加权着色子图G(V,W)。

为了构建元素特异性分子描述符,将多尺度加权着色子图刚度定义为

为第i个原子的几何子图中心性

是高斯网络模型的权值子图概化或多尺度柔刚度指数的子图概化。

的总和代表了所选元素类型的总相互作用强度,这提供了特定元素的分子性质的粗粒度描述。

通过选择合适的元素组合k1k_1k1​和k2k_2k2​,其特征距离ηk1,k2η_{k1,k2}ηk1,k2​,以及子图权重Ψ,我们最终构建了一系列元素特定的、可伸缩的(即分子大小无关的)、基于多尺度几何图的分子描述符

为了生成相关的代数图指纹,我们构造了相应的图拉普拉斯矩阵和/或邻接矩阵。对于给定的子图,其矩阵表示可以提供子图元素之间交互的直观描述。为了构造一个拉普拉斯矩阵,我们考虑了每一对元素类型的子图,并定义了一个特定元素的加权彩色拉普拉斯矩阵

数学上,特有元素的加权拉普拉斯矩阵是对称的,对角占优的,正半定的,因此所有的特征值都是非负的。拉普拉斯矩阵的第一个特征值是零因为这个矩阵的每一行或每一列的和都是零。的第一个非零特征值是代数连通性(即Fiedler值)。此外,零维拓扑不变量(表示图中连通分量的个数)的秩等于的零特征值的个数。几何图公式与代数图矩阵之间有一定的联系:

tr is trace,trace即主对角线元素之和。通过对非平凡特征值的统计,即非平凡特征值的总和、最小值、最大值、平均值和标准差,可以直接构造一组基于元素的加权有色拉普拉斯矩阵分子描述符。注意,Fiedler值是作为最小值包含的。

类似地,特定元素的加权邻接矩阵可以定义为

数学上,邻接矩阵是对称的非负矩阵。所提出的元素特异性加权有色邻接矩阵的频谱是实数。通过对,即所有正特征值的总和、最小值、最大值、平均值和标准差的统计,可以得到一组基于元素的加权标记邻接矩阵的分子描述子。为了预测一个分子的性质,图不变量,如上述矩阵的特征值统计,可以捕获关于分子的拓扑和物理信息,这被称为AG-FPs。建议的代数图模型的详细参数见补充注3。

图3a显示的是2-三氟乙酰的分子结构,如图3b所示,分子中原子之间的联系可以用图来表示。元素特定的多尺度加权彩色图表示可以定量地捕捉不同化学方面的模式,例如不同原子之间的范德华相互作用和氢键。图3c显示图通过使用彩色顶点来捕捉元素信息,并且不同的边对应于分子中不同的成对相互作用。对于给定的分子使用所选的原子坐标子集作为顶点来构建元素特定的彩色子图。如图3d所示,将彩色图分解为特定于元素的CC、FO和CH子图的过程,其中元素指的是本研究中的化学元素,例如H、C、N。此外,代数图特征可以从图拉普拉斯和/或邻接矩阵的特征值的统计中获得,如图3e所示。

BT-FPs

Bidirectional transformer fingerprints (BT-FPs)

与基于rnn的模型不同,DBT基于注意机制,具有更强的并行性,可以减少大量数据的训练时间28。基于DBT体系结构,Devlin等27引入了一种表示模型BERT,用于自然语言处理。有两个任务涉及BERT,蒙面语言学习和连续句分类。屏蔽语言学习是利用部分屏蔽句子(即单词)作为输入,使用其他单词来预测被屏蔽的单词。连续句分类是对两个句子是否连续进行分类。在本工作中,深层双向变压器的输入是分子微笑串。与传统BERT中用于自然语言处理的句子不同,不同分子的SMILES串在逻辑上没有连接。然而,我们训练双向编码器从transformer恢复屏蔽原子或官能团。

​ 补充表2

​ Supplementary Figure 2预训练

在基于自我监督学习(self-supervised learning, SSL)的预训练中,输入smile的15%符号需要进行操作。在这15%的符号中,80%的符号被蒙住,10%的符号不变,其余10%随机替换

因为一个分子可以有多个smile表示,所以我们首先将所有输入数据转换为规范的smile字符串,该字符串提供每个分子结构的唯一表示。然后,一个SMILES字符串被分割成符号,例如,C, H, N, O, =, Br等,这些符号通常代表原子,化学键和连接性,更多细节见补充表2。在预训练阶段,我们首先随机选择输入符号的一定百分比,进行掩模、随机改变和不改变三种操作。预训练的目的是利用海量的未标记数据,以SSL的方式学习分子的基本构造原理。为了提高训练过程中蒙面符号的正确预测率,构造了一个损失函数。对于每个SMILES字符串,我们添加两个特殊符号,和<\s>。这里,表示SMILES字符串的开始和<\s>是一种特殊的终止符号。所有符号都被嵌入到固定长度的输入数据中。向每个符号添加位置嵌入,以指示该符号的顺序。嵌入的SMILES字符串被馈送到BERT框架中以进行进一步的操作。图2为预训练过程的详细过程。在我们的工作中,超过190万来自CheMBL32的未标记的smile数据被用于预训练,以便模型学习关于smile字符串的基本语法信息,并捕获分子的全局信息。

​ Supplementary Figure 3

从预先训练的、基于ssl的微调模型生成分子指纹的工作流。三个两个掩模操作,“掩模”和“不改变”,保留在自我监督微调阶段。在基于ssl的微调阶段,任务特定数据的标签将被忽略。在这里,< s >是添加在每个输入SMILES前面的特殊前导符号,而< s >是终止符号。在指纹生成阶段,利用双向编码器的< s >的嵌入向量表示分子指纹(BT-FP)。

BT-FPs和BTs-FPs都是在微调训练步骤中创建的,这将进一步学习特定任务数据的特征。在特定于任务的微调中使用了两种类型的微调过程。第一种类型仍然基于SSL策略,其中使用特定于任务的smile字符串作为训练输入,如补充图3所示。为了准确地识别这些特定于任务的数据,在此微调中只允许掩码,不允许任何更改操作。由此产生的潜在空间表示称为BT-FPs

第二个微调过程基于带有标记任务特定数据的SL策略。如补充图4所示,当与cross-dataset相关性处理多个数据集,如四个毒性数据集在当下研究(补充表4),我们利用四个数据集的所有标签的权重优化模型通过监督学习在生成latent-space表示之前(即BTs-FPs),这大大增强了模型对最小数据集的预测能力。

在我们的DBT中,一个输入SMILES字符串允许的最大长度为256个符号。在训练过程中,256个符号中的每一个都被嵌入到一个512维的向量中,该向量包含了整个SMILES字符串的信息。在这个扩展的256 512表示中,原则上可以选择一个或多个512维向量来表示原始分子。在我们的工作中,我们选择了分子SMILES串的前导符号对应的向量作为分子的双向变压器指纹(BT-FPs或BT-FPs)。在后续任务中,BT-FPs或BT-FPs被用于分子性质预测。具体型号参数见补充说明3。

将图和双向transformers融合的分子性质预测新工具 简称AGBT - 论文阅读相关推荐

  1. 干货!小样本分子性质预测新方法——性质感知的关系网络

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 分子性质预测能够识别具有目标性质的候选分子,在药物发现中发挥着重要作用.由于新药发现研究中已知药理性质的分子(有标签样本)少,分子性质预 ...

  2. AGBT:将代数图和双向transformer用于分子性质预测 | 彩色加权代数图 | transformer的encoder | AG-FP | BT-FP

    最近读了一篇2021.6.10发表在Nature Communications上的文章"Algebraic graph-assisted bidirectional transformers ...

  3. NeurIPS 2020 | MVGNN+:基于多视图图神经网络的分子性质预测

    原文标题:Multi-View Graph Neural Networks for Molecular Property Prediction 论文地址:https://ml4molecules.gi ...

  4. Drug Discov. Today | 简要综述GNNs用于分子性质预测

    分子性质预测是药物发现领域的一项基本任务.对其进行准确预测的计算方法可以大大加快以更快.更便宜的方式找到更好的候选药物的整体过程.传统的预测分子性质的计算方法主要依靠提取指纹或人为设计的特征,然后与机 ...

  5. MGSSLMotif-based Graph Self-Supervised Learning for Molecular Property Prediction|分子性质预测|GNN|自监督|预训练

    近期刚刚在NeurlPS-21上发表了一篇文章,用于分子性质预测的图预训练策略. 本文亮点在于①提出一套分子破裂的方法:②提出构建官能团树的方法:②同时在节点级和官能团级进行预训练,自动分配不同的权重 ...

  6. MG-BERT:利用无监督原子表征学习进行分子性质预测

    MG-BERT:利用无监督原子表征学习进行分子性质预测 MG-BERT: leveraging unsupervised atomic representation learning for mole ...

  7. Auto-sklearn 安装及用于分子性质预测

    简介 Auto-sklearn 是一个自动化机器学习工具包,是 scikit-learn 直接替代品,是建立在sklearn进一步封装的基础上.Auto-sklearn不需要用户进行超参数的调节和模型 ...

  8. 智源抗疫 - 药物研发小分子性质预测赛

    人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点.同时,我们知道,药物研发过程是极为浩大.严谨的科学研究,例如目前正处于临床验证阶段的瑞 ...

  9. Briefings in bioinformatics2022 | 基于神经网络的分子性质预测通用优化策略

    原文标题:A general optimization protocol for molecular property prediction using a deep learning network ...

最新文章

  1. 为啥led灯用一年后暗了很多_有些人日间车灯可以关为啥偏偏不关?是要告诉别人他的车好吗?...
  2. Android 内存管理 amp;Memory Leak amp; OOM 分析
  3. 【数理知识】《随机过程》方兆本老师-第1章-引论
  4. 【dfs】P1036 选数
  5. Android把自己应用加入到系统文件分享中
  6. 空值替换为0_「Excel」是零值还是空值,你可以自由掌控
  7. JAVA异常处理分析(中)
  8. cadence 常见pcb电阻_从理想到现实,从PCB设计到实际产品,生产制造环节不容忽视……...
  9. 公开调用私有Java方法?
  10. css未知尺寸的图片的水平和垂直居中
  11. computational science education project
  12. 使用数组操作解码YOLO Core ML对象检测(三)
  13. 写出一手烂代码的 19 条准则!
  14. 区位码,国标码,交换码,内码,外码
  15. 计算机电子书 2019 BiliDrive 备份
  16. 利用Python切头去尾
  17. 网络流中 InputStream.available() = 0 问题探究
  18. VMware esxi-6.0root密码恢复和数据恢复
  19. 基于人工智能的搜索引擎优化软件-市场现状及未来发展趋势
  20. 前端性能优化的七种方法

热门文章

  1. Squeezenet官方源代码解析
  2. 什么是金融租赁?什么是融资租赁?
  3. [HNOI2005]狡猾的商人(差分约束)
  4. 无名师的Unix心传
  5. 键盘怎么锁定计算机,电脑键盘锁住了怎么解锁 详细方法介绍
  6. 使用Python操作Jenkins(创建,构建,获取Job日志和报告)
  7. 【浏览器直播源抓取】浏览器抓取真实直播源地址(2022/11/16)
  8. 【高等数学笔记】彻底弄懂最小二乘法(Least Squares Method)
  9. bark app在Windows与ios间实现接力
  10. 利用端口,进程,文件,服务和日志信息来排查系统安全