Nat. Mach. Intell. | 少量数据的生成式分子设计

今天介绍苏黎世联邦理工大学Gisbert Schneider团队在nature machine intelligence 2020上发表的论文，该论文利用分子语言模型，结合三种优化方法，可以用少量分子作为数据集训练出一个分子生成模型。

背景

生成式机器学习模型不需要明确的设计规则就可以在化学空间中对分子进行采样，这类模型学习数据的概率分布，生成符合这种分布的新数据(例如，新分子)。近些年来，各种生成式深度学习模型被应用到药物设计领域，生成具有所需属性的新分子，其中一些模型采用了语言建模的方法。在这类方法中，神经网络的目标是根据一个序列中之前出现的所有token(例如，一个单词或一个字符)的分布得到下一个token出现在该序列中的概率。一旦训练完成，这些模型就可以根据训练集的特征分布生成新的序列。这种语言建模方法依赖于基于字符串的分子表示，例如SMILES，它能将分子结构编码为字符序列。作者提出的计算模型由化学语言模型(CLM)组成，用于设计化学空间中指定区域内的新分子。为了进一步扩大CLM在小数据领域的应用范围，作者结合三种优化方法：(1)数据增强，(2)温度采样，(3)迁移学习。

方法

2.1 利用语言模型生成新分子

作者基于分子结构的字符串表示SMILES，利用循环神经网络LSTM生成新分子。该神经网络由4层组成:第1层BatchNormalization;第二层，LSTM, 1024个单元;第3层，LSTM, 256个单元;第四层,BatchNormalization。每个分子表示为one-hot向量的序列，如图1(a)。在one-hot编码格式中，每种token都有一个固定长度(长度大小为SMILES字符串的token表大小，在文章中为71位)的唯一向量表示。在训练过程中，LSTM学习一个token相对于该分子SMILES字符串中所有前面的token的条件概率分布，以最小化每一步预测的token类型与真实token类型的分类交叉熵为目标，即可对模型进行训练，如图1(b)。在生成过程中，由begin token开始，反复利用LSTM生成下一个token的概率分布并对其进行采样，直至采样到end token或者序列长度大于最大序列长度，如图1(c)。

图1 (a)分子的SMILES表示和One-hot向量编码表示,其中G与E分别为begin token与end token (b)LSTM通过从SMILES字符串中的之前的token预测下一个token来学习数据集的概率分布 (c)分子生成过程中，LSTM反复从学习到的概率分布中采样token，直到对end token进行采样，这表示一个新分子已经生成。

2.2 数据增强

训练数据的数量和质量是训练一个生成模型的关键因素。使用同一实体的多个表示形式(数据增强)已被提出作为一种策略，在少量数据的情况下训练并获得可泛化的模型。文章利用SMILES字符串的非单义性实现数据增强，即利用多个有效的SMILES字符串表示同一个分子图，这样的字符串是通过从一个分子中不同的非氢原子为起始token构建的，如图2。

图2 一个10倍数据增强的例子，所有的SMILES字符串都表示相同的分子图。

2.3 温度采样

文章对SoftMax函数施加一个温度参数T，利用该函数计算每个token的概率分布并进行采样，如公式1所示。

其中zi为LSTM对下一个token属于第i类的预测得分，T为温度参数，qi为LSTM预测下一个token属于第i类的概率。

采样温度(T>0)控制序列生成过程中每一步采样token的随机性。当T→0，LSTM会根据预测的概率分布，只采样概率最大的token类型；随着T值的增加，采样最大概率的token类型的机会减少，因此模型可以生成更多样的序列；在T→∞的极端情况下，每个token类型被采样概率相等，如图3。

图3 采样温度(T)对SMILES词汇表中所选token(G, N, C, 1, C, O, E)的条件概率分布的影响。T= 1表示LSTM在训练过程中学习到的概率分布，T < 1锐化概率分布，而T > 1平滑概率分布。

2.4 迁移学习

作者研究了迁移学习在少量数据情况下，生成具有新颖性和多样性的虚拟化合物库的效率。为了使生成的分子具有与药物相关的特征，作者在两个化学空间之间进行迁移学习：由ChEMBL 24数据库中一部分具有生物活性的合成化合物分子(源域)，迁移至MEGx数据库中由植物和微生物合成的天然产物分子 (目标域)。在迁移学习过程中，为了保留源域数据的特征，神经网络第一层的所有参数都保持不变。

数据集

ChEMBL 24数据库中，标注活性值(EC50,IC50,Kd, Ki) < 1µM的化合物作为具有生物活性的化合物分子(源域)。将分子结构编码为canonical SMILES字符串，且只保留SMILES字符串长度不超过140个字符的分子。在去除立体化学信息、盐分子和重复分子后，从ChEMBL 24中筛选出365,063个具有唯一SMILES字符串表示的分子。用于迁移学习的分子从天然产物分子库MEGx中检索，利用子结构过滤方法去除所有存在的糖基，2931个分子被保留。

4.实验结果

4.1 数据增强与温度采样的有效性

作者从三个方面比较了数据增强和温度采样对模型训练的影响：(1)有效性，即生成的分子中，其SMILES字符串可以转化为分子图的百分比 (2)唯一性，即生成的非重复SMILES字符串的百分比；(3) 新颖性，即生成的分子的SMILES字符串未出现在训练集的百分比。高有效性表明该模型已经掌握了生成具有化学意义的SMILES字符串的必要特征，高唯一性表明生成的SMILES字符串是非冗余的，高新颖性表明该模型适合从无到有生成新分子。作者测试了四种数据增强(×1、×3、×10、×20)，以及四种温度采样(T = 0.2、0.7、1.0、1.2)对模型学习概率分布的影响，如表1。

表1 数据增强和温度采样对生成分子的有效性，唯一性和新颖性的影响

可见，与非增强情况相比，除了X1数据增强，其他数据增强对模型训练都是有益的。作者认为在每个SMILES字符串只有一个额外的表示时，token的潜在统计模式很难学习。此外，与10倍的数据增强，20倍的数据增强并没有进一步改善结果。对于温度采样，最高的有效性，唯一性和新颖性在T=0.7的温度下达到。因此，x10数据增强和T=0.7温度采样作为最佳优化参数，被用于后续迁移学习的实验中。

4.2 利用迁移学习生成特定分子

为测试少量数据情况下迁移学习的效果，作者从天然产物分子库MEGx中选择了5个结构相似的分子作为迁移学习的数据集，如图4(a)。

首先，作者计算了Frechet ChemNet距离(FCD)——一种基于化学结构和生物活性来评估两个分子种群之间相似性的距离度量——用于评价迁移学习过程中化学空间的相似程度。FCD值为0表示两个化学空间是相同的，而值越高则表示差异越大。FCD曲线随着训练时间不断变化，如图4(b)，在转移学习的最初阶段，生成的分子到目标域(MEGx)和源域(ChEMBL 24)的距离先减小后增大。在初始训练周期内，生成分子空间与源域空间之间距离的下降可以用迁移学习的初始效应来解释，即此时该模型关注的是源域和目标域之间的共同特征。此后，生成分子空间与目标域空间之间距离的增加与直觉相反，对此的一种可能解释是，用于迁移学习的5个分子的空间与整个目标域空间相比，其大小和多样性有限。

其次，作者选用碳原子的sp3杂化(Fsp3)比例来说明在迁移学习过程中生成分子的物理化学性质的变化。Fsp3已被证明与分子用于药物的几率有关，而在合成化合物和天然产物之间又有所不同。在迁移学习过程中，生成分子的Fsp3分布不断趋近用于迁移学习的5个分子的Fsp3分布，如图4(c)。这证实了利用少量结构相似的化合物进行迁移学习，也可以使模型捕获相关的物理化学性质。为了可视化生成的分子在化学空间中的相对位置，作者利用UMAP方法将数据特征进行降维，如图4(d)。从预训练的LSTM中采样的分子(淡蓝色)接近训练集ChEMBL 24(深蓝色)，而在迁移学习之后，分子向用于迁移学习的5个MEGx分子的位置移动(epoch 40)，这证实了迁移学习在化学空间中从源域引导到迁移学习数据集的有效性。

图4 由5个结构相似分子进行迁移学习 (a)迁移学习数据集由天然产物分子库MEGx的5个结构相似的分子组成 (b)迁移学习过程中生成分子到ChEMBL 24(实线)和MEGx(虚线)的FCD (c)迁移学习过程中，Fsp3分布的变化 (d) UMAP图

最后，通过分析Bemis-Murcko分子骨架，作者进一步评估了化学空间的覆盖范围和生成分子的多样性。作者在迁移学习之前(使用预先训练的LSTM)和迁移学习期间，检查了采样分子中最常见的5种骨架，如图(5)。作者利用香农熵与被研究的骨架数量的比例关系(SSE)作为骨架多样性的一种度量，如公式(2)所示。

其中，公式的分子是香农熵，n是所考虑的唯一骨架的数量，ci是包含第i种骨架的分子数量，P是包含所考虑的n种骨架的分子数量，分母的取值范围为[0,1]。SSE量化了一组给定骨架的结构多样性: SSE=1表示最大多样性，而SSE=0表示只存在一种分子骨架。在迁移学习过程中，生成分子中包含最常见5种骨架的分子数量增加，而多样性不断下降，单例(在一个种群中只出现一次的骨架)的比例也降低了，如表2所示。这一结果表明，用5个结构相似的分子作为迁移学习的训练集会导致大部分生成分子也包含与其类似的分子骨架。

图5 迁移学习过程中，生成分子所包含的最常见的5种分子骨架。百分比表示包含相应分子骨架的分子的比例。SSE定量衡量5种最常见骨架的多样性。

在生成分子的新颖性方面，迁移学习后生成分子的新颖性下降了60%，而新支架的数量仅略有下降。作者用Enamine化合物数据集进一步评价生成分子的新颖性，模型生成的分子有99%都是新的，且在迁移学习过程中，新骨架的比例从75%增加到95%。总而言之，无论从FCD的角度还是从骨架多样性的角度，分子设计过程得益于迁移学习。

表2 生产分子的骨架信息

4.3 利用迁移学习拓展化学空间

在证实利用迁移学习可以用少量数据训练模型并生成特定属性的分子后，作者测试了利用迁移学习拓展生成分子的化学空间源域目标域的能力。实验采用天然产物分子库MEGx中5个结构各不相似的分子作为迁移学习的数据集，如图6(a)。虽然生成分子空间与目标域空间(MEGx)的距离随着epoch的数量增加而不断减小，但与源域空间(ChEMBL 24)的距离在开始时保持稳定，在第五个epoch之后开始增加，如图6(b)。表明，5个不相似分子的结构多样性生成分子的结构特征覆盖一部分目标域空间，如图6(c)。相比之下，使用5个相似分子的迁移学习，生成分子主要具有这5个分子的结构特征。UMAP图表明许多生成分子位于天然产物附近的区域，如图6(d)。总而言之，在epoch 40之后的生成分子分布证实了迁移学习扩展了生成分子化学空间的覆盖范围。

图6 由5个结构不相似分子进行迁移学习 (a)迁移学习数据集由天然产物分子库MEGx的5个不结构相似的分子组成 (b)迁移学习过程中生成分子到ChEMBL 24(实线)和MEGx(虚线)的FCD (c)迁移学习过程中，Fsp3分布的变化 (d) UMAP图

与五种结构类似分子的分析结果相比，该实验中生成分子的五种最常见的分子骨架仅代表所有生成分子的一小部分，且其多样性(SSE)在迁移学习过程中不断下降。新骨架和单例的比例较高，且在迁移学习过程中略有增加，如图7。与源域和目标域相比，大部分生成分子含有新型骨架，如表2。因此，作者得出结论，即具有结构多样化的迁移学习数据集允许生成结构多样化的分子，这些分子包括范围广泛的骨架，并具有源域和目标域的特性。

图7 迁移学习过程中，生成分子所包含的最常见的5种分子骨架。百分比表示包含相应分子骨架的分子的比例。SSE定量衡量5种最常见骨架的多样性。

5总结

文章的结果表明，CLM与数据增强、迁移学习和温度采样相结合，能够在少量数据情况下发现新的分子实体。基于SMILES的模型被证明能够在合成化合物和天然产物的数据集上生成具有特定性质的新分子。

参考资料

Michael Moret , Lukas Friedrich, Francesca Grisoni , Daniel Merk and Gisbert Schneider. Generative molecular design in low data regimes. Nature Machine Intelligence | VOL 2 | March 2020 | 171–180 | https://doi.org/10.1038/s42256-020-0160-y.

Data and Code availability

https://github.com/ETHmodlab/virtual_libraries