J Cheminform2022 | SwinOCSR+：基于Swin Transformer的end-to-end光学化学结构识别

原文标题：SwinOCSR: end-to-end optical chemical structure recognition using a Swin Transformer

代码：GitHub - suanfaxiaohuo/SwinOCSR

2022年7月1日发表，华东理工大学的李洪林团队。使用Swin transformer作为backbone，提取图像特征，并引入Transformer，将提取到的的化学信息转换为DeepSMILES

光学化学结构识别(OCSR)将化合物的化学结构信息转换为机器可读的格式。化学结构通常是图像格式，如JPEG、PNG和GIF。早期方法通常使用基于规则的方法来识别分子图，这些方法有一定缺点（如当分子图包含模糊或不常见的表示时，基于规则的系统将变得难以解释）一个基于规则的系统的各种识别组件是相互依赖的，这使得进一步的改进极其难以实现。

OCSR任务的两个主要挑战是化学结构中复杂的化学模式和长依赖的化学表示。

一、模型

1、Backbone

健壮的backbone对于OCSR任务很重要。

分子图像被分割为不重叠的patches，patch大小为4×4。线性embeddding层将该原始值特征投影到192维，并使用Swin-tranformer基本块提取特征信息（由W-MSA和SW-MSA模块组成）

为了构建一个序列作为编码器输入，强化空间维度的特征，得到一个表示化学结构信息的序列Sb

2、Transformer Encoder

由positional encoding和六个标准的transformer encoder层组成（多头注意力+ MLP+残差结构）

3、Transformer Decoder

由position decoder、六个标准的transformer decoder、MLP层和softmax层组成

二、数据集

850万份的PubChem结构(1-850万份的PubChem索引)，并获得了6,987,630个独特的SMILES。基于这些SMILES，构建了一个包含500万个分子的数据集，它由四类分子数据组成，每种分子数据包含125万个分子。

Token: c, 6,), C,=, O, N, S, l, s, 5, B, r, n,[, H,+,], %, 1, 0, /, \, R, F, #, 4, (, 9, -, @, L, 3, 8, 2, ’, G, a, 7,Z,., P, t, Y, o, A, X, i, J, q, x, Q, m, b, d, E, w, I, V, z, e, M,,,D, K, p, v, h, y, u, g, k, T, W, U, f.

三、训练

每类别以18：1：1的比例随机分训练、验证和测试。

四个指标来定量评估：准确性，Tanimoto、BLEU和ROUGE

batch-size = 256,（224×224像素）。Adam优化器，初始学习率为5e−4，embedding维数为256。backbone网络和transformer网络分别对学习速率调度器使用余弦衰减和step衰减。损失函数采用标准交叉熵(CE)损失

1、backbone对比实验

三种backbone训练CE损失曲线如图9。模型(使用Swin transformer为骨干)的损失值小于ResNet50、EfcientNet-b3，说明模型具有更快的收敛速度。

这里对比Resnet50是Image2SMILES的backbone，EfficientNet是DECIMER1.0的backbone。已经发过，链接如下：

Image2SMILES：Chemistry Methods | Image2SMILES+: Transformer-Based Molecular Optical Recognition Engine_羊飘的博客-CSDN博客

DECIMER1.0：2021J Cheminform | DECIMER 1.0+: deep learning for chemical image recognition using transformers_羊飘的博客-CSDN博客

在所有情况下的准确性和BLEU评分方面仍然优于其他两种（ResNet-50、EfficientNet-B3）模型。

2、损失对比实验

使用CE损失作为损失函数时，token分布影响了模型的性能。因此采用MFL（multi-label focal loss）

在测试集上的性能。显然，使用MFL的损失函数在四个指标上都优于CE。

Token分布：

Multi-label focal loss:

αi为第i类的加权因子，第γ类为focusing parameter。

四、性能实验

1、分析SwinOCSR对不同分子类别的预测性能。分别根据准确性对测试集中的四个数据类别进行了评价：

第1类和第2类低于第3类和第4类。这表明SwinOCSR在有取代基的数据上表现稍好。其原因是取代基将在分子图中被明确地重现。

2、分析DeepSMILES字符串长度的预测性能，将测试集的DeepSMILES字符串划分为以下长度范围：[1,25]、[26,50]、[51,75]、[76,100]分析范围内的精度作为性能指标。

DeepSMILES越长，模型需要解码的时间就越多，而且发生错误的可能性就越大。

SwinOCSR在[1,75]时保持稳定，在[76,100]时略有下降。SwinOCSR适应DeepSMILES字符串长度的变化。即使在最低范围的[76,100]，仍然94.76%的准确率，这表明它具有对具有长DeepSMILES串的大分子的识别能力。

3、真实数据集，构建了一个小的真实出现的test集，并在该测试集上进行了实验。小的真实世界测试包括100张图像及其相应的手动标记的SMILES。结果如表6所示。模型达到了25%的准确率，并且模型在真实世界的测试集上的性能并不令人满意。

在真实测试集上的性能不佳可能是由以下三个因素造成的：

(1)从文献中得到的图像比较模糊，而CDK生成的图像更清晰。

(2)从文献中得到的图像更复杂，而CDK生成的图像更规则。

(3)虽然典型的分子SMILES确保了分子独特的SMILES表征，但对于特定的分子却没有独特的化学结构表征。在通过不同的化学程序生成图像时，有很多种图像样式。一些压缩结构公式，如NH，默认以CDK生成的图像展开，而其他压缩结构公式，如NO、二氧化氮、CF3、甲基等，默认不展开，所以如果改变了相应的样式，图像将会被更改。

五、总结

端到端化学结构图像识别方法，即SwinOCSR，该方法可以直接识别原始的化学结构图，而无需制定人工特征。与现有的以cnn为骨干的方法相比，它获得了98.58%的高准确率、优越的性能和收敛速度快。它在识别长序列方面也表现良好，特别是在识别含有取代基的化学结构方面。实验结果表明，SwinOCSR可以单独提取化学结构的关键特征，并捕获化学结构图与DeepSMILES之间的对应关系。

在未来，将扩展数据集，包括尽可能多的低分辨率和复杂的化学结构风格。