Transformer 和卷积神经网络在跨物种基因组DNA N6甲基腺嘌呤位点识别中的应用

期刊名：《METHODS》
JCR分区：Q2
代码地址：https://github.com/khanhlee/bert-dna
文章地址:https://linkinghub.elsevier.com/retrieve/pii/S1046202321002747
发表时间：21年12月13号

摘要：

作为最常见的转录后表观遗传修饰之一，N6-甲基腺嘌呤（6MA）在各种细胞过程和疾病发病机制中发挥着重要作用。因此，准确识别6 mA修饰对于深入理解细胞过程和其他可能的功能机制是必要的。虽然已经提出了一些计算方法，但它们各自的模型都是使用小的训练数据集开发的。因此，它们在全基因组检测中的实际应用相当有限。为了克服现有的局限性，我们提出了一种基于Transfomer和深度学习的新模型，用于从跨物种基因组中识别DNA的6mA位点。

该模型是在基准数据集上构建的，并探索了从预先训练的变换词嵌入方法中提取的特征。随后，采用卷积神经网络学习生成的特征并生成预测结果。结果，我们的预测器在独立测试中取得了优异的性能，准确度和马修斯相关系数（MCC）为79.3%和0.58。总的来说，它的性能比基线模型取得了更好的准确性，并且显著优于现有的预测因子，这证明了我们提出的混合框架的有效性。此外，我们的模型有望帮助生物学家准确识别6MA，并制定新的可测试生物学假设。我们还免费发布源代码和数据集https://github.com/khanhlee/bert-dna面向前端用户。

介绍：

DNA和mRNA修饰在生命的所有三个领域（如细菌、古细菌和真核生物）都发挥着重要作用。迄今为止，已发现约150个修饰位点，而N6甲基腺嘌呤（6 mA）是最丰富的修饰类型，有助于各种细胞过程[1]。6ma影响RNA的翻译效率和结构稳定性，进一步的研究表明，6ma可以促进mRNA的输出，调节组织分化。此外，一些研究表明6 mA不仅存在于tRNA、rRNA和小核RNA（snRNA）中，而且还存在于一些长的非编码RNA中。在人类中，有报道称6-mA与多种疾病有关，如癌症[1]、胶质母细胞瘤[2]、激素性热应激[3]、高血压[4]等。因此，6-mA的鉴定对于理解DNA修饰过程和揭示表观遗传调控相关疾病至关重要。

由于我们对DNA 6 ma修饰及其在多细胞真核生物中传播的了解尚不完整，因此需要精确确定其在基因组中的位置。最近，进行了几项湿法实验来鉴定DNA 6 ma，包括纳米孔测序[5,6]，酶辅助测序[7]，它提供了更好的碱基分辨率上转录体检测。最近，随着下一代测序（NGS）技术的发展，有助于增加生物数据库的规模，现在提出有效的计算模型以确定DNA水平上的修饰位点是及时和必要的。尽管实验测定的6MA数量不断增加，但DNA 6ma特异性的潜在机制仍不清楚。另一方面，DNA 6 mA的大规模实验鉴定通常是费时费力的，并且其中一些存在问题具有测序质量和信噪比。此外，计算方法可以用来弥补实验方法的不足，并根据我们已知的实验数据，为DNA 6 mA的鉴定提供一种替代方法。

已经发展了多种计算方法来识别不同基因组上的DNA 6 mA位点。在这些方法中，i6mA Pred[8]、iN6甲基化（5步）[9]、Zhou等人[10]、iDNA6mA（5步规则）[11]、SNNRice6mA[12]、Lv等人
13]、Rahman等人[14]专注于水稻基因组。在其他应用中，很少有预测因子被提出用于预测更多基因组上的6mA，即6mA finder[15]、SpineNet-6MA[16]、Meta-i6mA[17]、DeepM6ASeq EL[18]、TS-m6A-DL[19]和HSM6AP[20]。

虽然所有这些方法都表现出了优异的性能，但主要缺点是它们的训练数据集大小、基于单机器学习的模型、单基因组和有限的特征编码。值得注意的是，实验样本的数量呈指数增长，现有的计算模型没有达到令人满意的结果。因此，很明显，为了使这种基于人工智能的预测模型获得更好的性能，应该付出更多的努力。

自然语言处理（NLP）和多模式深度学习模型在其他领域的成功[21]促使我们提出了一种新方法来解决这个问题。
在这项研究中，我们将DNA序列视为自然句子，然后再对其应用深度转换NLP模型。在从预先训练的NLP模型中获取特征向量后，我们将其作为深度学习模型的输入，预测DNA 6 mA位点。结果证明了这种组合在高性能地表示DNA序列和预测6个mA位点方面的有效性。我们还将我们表现最佳的6 mA预测模型的结果与现有最先进的方法进行了比较，以查看显著差异。

材料&方法

2.1数据集
大多数基于生物信息学的预测模型从数据集开始，数据集来自基准数据或手动收集数据。在这项工作中，我们使用6MA Finder工作[15]中的DNA 6MA数据集来评估我们的表示方法。
该数据集是一个非常通用的数据集，因为它是通过组合不同的跨物种数据集检索的。所有序列的长度均为41 bp，中心位置为6 mA，使用CD-HIT软件[26]去除数据集中的冗余序列。
此外，原始文献将数据集分为训练数据集（包括2500个正数据和2500个负数据）和独立数据集（包括268个正数据和216个负数据）。
因为我们使用了基准数据集，所以我们没有应用预处理步骤，也没有修改任何数量的数据。
因此，所有这些数据都用于我们进一步的建模分析。我们还绘制了两个样本徽标（图1），以查看6 mA阳性和阴性数据中核苷酸的分布差异。如图所示，阳性和阴性数据之间的差异主要出现在DNA片段中1和2的位置。
这些差异可能在帮助我们的模型确定6 mA位置与否方面发挥重要作用。

基准数据集的两个示例徽标。第1位和第2位的正面和负面数据表示存在显著差异。

2.2 DNA序列
通常，原始DNA序列以FASTA格式表示，这是所有生物序列的标准格式。为了在NLP模型中使用它们，我们首先将具有特定长度的DNA片段转化为由单核苷酸组成的“DNA句子”。
因此，在我们的NLP模型中，单核苷酸可以作为一个词来处理。所有这些DNA片段的长度都设置为滑动窗口的固定值（即该数据集中的41 bp）。
通常，预先训练的NLP模型建议添加特殊标记，即CLS或SEP，它们代表文本分类任务中的句子分类和分隔。在我们的模型中，我们决定保留没有标记的原始DNA片段，因为这些片段不应该形成类似信息生物学句子因此，我们的预处理序列包含长度为41bps的DNA片段（生物句子中一个核苷酸作为一个单词）。

#将长为41的DNA片段看作为一个单词

S=N1N2⋯N41（N∈ [A，C，G，T]）

2.3 Transformer 的预训练和微调
我们研究的整个架构包括两个不同的阶段：NLP中的Transfomer提取特征和深度卷积神经网络（CNN）学习特征（如图2所示）。
Transformers是一种深度学习模型，它使用注意机制以不同方式衡量输入数据每个部分的重要性。transformer背后的概念是“单词嵌入”，这是一种对文本的学习表示。它使用预定义的密集向量表示来表示单个单词，并已广泛用于语言建模和NLP应用程序函数学习[22]。
单词嵌入方法研究语料库词汇表中预定义的固定大小实值向量中顺序元素之间的关系。它主要用于自然语言处理，特别是用于解决许多高性能的序列建模任务。与自然概念类似，它也可以用于表示先前研究中的生物序列[23,24]。因此，我们还评估了这种结构在我们的DNA序列上的性能。

图2。研究的整体架构。首先将DNA片段（41 bp）插入预先训练好的NLP模型（12层l1、l2、l3、…、l12）中提取其特征。生成的结果是41个向量（v1，v2，v3，…，v41），维度为768，然后我们将中间的一个（我们的目标位置）作为主要特征。然后使用另一个CNN模型学习这些特征并生成预测结果（6 mA或非6 mA）

详细地说，这个想法是为了研究在其他自然语言上训练过的预训练变形金刚模型的潜力，并将其应用于DNA序列。最近，有越来越多的预训练NLP模型发布，具有良好的性能，如GPT、BERT、CodeBERT、ELMo或XLNet。

本研究以其中一种流行的模型BERT[25]为我们的预训练NLP模型，从DNA序列中提取特征。伯特的基本思想是利用变换器来学习文本中单词（甚至子单词）之间的上下文关系。关于变压器和BERT模型的更多详细信息可参考原始技术文件[21,25]。

为了在我们的特定任务中使用Bert模型，我们执行了微调步骤，将一个小核心添加到预先训练的模型中。因为我们的问题是一个分类任务，所以我们决定在BERT层之上添加一个分类层来提取特征。发布了很多BERT预训练模型，我们使用了“BERT-base multilingual cased”，该模型在语料库最大的前104种语言的cased文本上进行训练。在这个微调过程中，由于我们不打算修改原始的预训练模型，所以将Bert模型的所有超参数保留为默认值。在我们的DNA序列通过BERT模型后，提取其相应的特征向量，并可用于进一步的预测目的。
因为这个预先训练好的Bert模型使用了104种语言，12层，768个隐藏，所以它为每个单词生成了一个1×768的向量。因此，我们的DNA序列（41bps）的输出是41×768的矩阵。

2.4卷积神经网络结构
事实证明，深度学习算法比传统的机器学习算法效率更高，传统的机器学习算法可以自动处理复杂的任务。深度神经网络（DNN）是多隐藏网络-人工神经网络（ANN）的扩展，它允许DNN执行多个复杂任务，其中每一层仅从上一层连接，并仅连接到缓存部分的下一层。最常见的DNN结构类型是递归神经网络（RNN）和CNN[26,27]。在某些情况下，RNN和CNN可以结合使用，以利用DNN体系结构的优势。本研究使用CNN学习从伯特模型中提取的特征。

由于BERT层的输出为41×786bps，因此我们决定在本研究中使用中间位置（预测位置）作为CNN的输入。CNN是一种流行的深度学习技术，它试图模仿人脑来学习和解释数据。这是一个受生物启发的神经网络，其神经元可以对周围的覆盖单元做出响应，并在从输入数据中提取特征任务中表现良好。CNN主要由两层组成：池化层和卷积层，如下所示：

卷积层：在该层中，卷积或相关通过滑动滤波器在输入数据上执行。多重卷积过滤器用于从输入数据中学习多个特征。在这项工作中，我们使用一维卷积来利用DNA序列载体上的序列相关性。它可以用数学表示为：

其中Fi是第i层的特征图，Wi是卷积滤波器的权重矩阵，bi是偏移向量。h表示激活函数，h表示激活函数◦表示卷积运算。在CNN中，首选的激活函数是ReLU。

相反，对卷积层的输出执行池操作（也称为子采样）。最大池和平均池是常用的池操作。该图层用于缩小要素地图的尺寸并选择最相关的要素。在这项工作中，我们使用了最大池操作。

在这项研究中，我们进行了超参数调整，以找到CNN模型的最佳结构。
因此，我们最终的架构包括三组卷积层和最大池层。将每个最大池层的输出应用于Dropout层，并将ReLU函数用作卷积层的激活函数。最后一个max pooling层的输出被展平后，通过将完全连接的层应用到该层来获得最终输出。在这一层中，Sigmoid函数被用作激活函数。表1显示了CNN模型的层次结构和参数。

**2.5 模型设置和评价指标 **
在这项工作中，我们使用了一些常见的分类指标来评估模型的有效性，包括准确性、敏感性、特异性、马修斯相关系数（MCC）和曲线下面积（AUC）[28]。这些指标的详细数学公式如下：

最后，我们使用k倍交叉验证（k=5）作为评估模型性能的方法。所有NLP和深度学习模型都是使用NVIDIA GeForce GTX 3080在Python 3中实现的。

3.结果和讨论

1. 基线比较
  对于第一次比较评估，我们希望看到不同基线分类器之间学习伯特特征的潜力。因此，我们评估了DNN与传统机器学习和集成学习算法（如随机森林（RF）、支持向量机（SVM）、自适应Boosting（AdaBoost）和极端梯度Boosting（XGBoost）相比的效率。在此步骤中还执行了超参数调整过程，以确保在不同表示方法之间进行公平比较。现有的优化方法有网格搜索、直接搜索、随机搜索等。网格搜索将花费大量时间尝试每个超参数。随机搜索比网格搜索效率更高，并且能够在较短的计算时间内找到更好的解。在本研究中，由于我们没有太多的超参数组合，我们直接应用网格搜索来搜索所有可能的组合。最终最佳组合的详细信息如表2所示。
  
  为了查看不同分类器之间的比较，我们绘制了交叉验证和独立测试的ROC曲线（分别图3A和3B）。我们的选择（CNN）优于其他算法，AUC达到0。交叉验证中的841和0。805在独立数据集中。高性能表明，我们的CNN能够比其他算法更好地学习伯特特征。这与之前利用CNN学习生物特征的生物信息学工作是一致的[23,27]。此外，交叉验证和独立验证之间的差异较小，这表明我们的模型没有过度拟合。这种非过度拟合问题的一个原因可以解释为在我们的模型中使用了批量标准化和退出值。这些技术已被证明是解决大多数DNN体系结构过拟合问题的有效方法。因此，我们可以使用经过训练的模型有效地预测任何看不见的数据的结果。
1. BERT与常用特征表示法的比较
  . 为了证明任何方法的有效性，一个基本步骤是在同一个检索到的数据集上与以前的方法进行比较。在这一领域中，有许多方法可以提取DNA序列的信息，并且已经证明它们能够有效地实现良好的性能。因此，在这项研究中，我们使用不同的描述符提取我们的DNA序列，以与我们的伯特特征进行比较。选择的特征包括kmer、基于二核苷酸的自协方差（DAC）、基于二核苷酸的交叉协方差（DCC）、二核苷酸-基于自协方差（DACC）、基于三核苷酸的自协方差（TAC）、基于三核苷酸的自协方差（TCC）、基于三核苷酸的自协方差（TACC）、伪二核苷酸组成（PseDNC）和伪k-tupler核苷酸组成（PseKNC）。上述特征在以前的研究中很常见并广泛使用，即使是6 mA预测因子，如6 mA Finder[15]、iDNA6mA-PseKNC[29]、MM-6mAPred[30]。因此，这种比较有助于评估我们的特征，并与同一数据集上的其他预测值进行相对比较。如他们的算法所示，上述特征取决于生物学见解，如基于核苷酸的相关性或组成等。它们可用于表示DNA序列，然而，依赖于生物语言信息的NLP模型在序列学习方面具有潜力。特别是，在本研究中，我们使用了最先进的NLP模型——伯特多语言算法，并在不同领域证明了其有效性。它在基于NLP的生物信息学领域也做出了重大贡献，因为以前的大多数类似研究都集中在其他预训练的NLP模型上，如fastText[9,31]或ELMo[32]。此外，仅使用中间位置有助于我们专注于特定位置，这与之前的BERT用例不同，在站点级预测中更有效。

A.交叉验证

B.独立测试

C.交叉验证

D.独立测试

3.4模型的解释
我们综合了三种具有代表性的特征技术，即t-SNE[35]、UMAP[36]和SHAP[37]分析，以了解我们的deep transformers模型背后的稳健性。先前的研究[35–37]给出了数学公式和详细描述。其中三个在机器学习解释中很有用，并且在计算生物学中也得到了广泛的应用。我们在这里使用了相同的程序并计算了形状计算。

如图5A和5B所示，Transformers特性有助于在t-SNE和UMAP分析中分别清晰地分离6 mA和非6 mA样品。

此外，图5C示出了基于每个模型的形状值及其方向性的20个排名靠前的特征。

因此，正值和负值分别影响对6MA和非6MA的预测。结果表明，我们的deep transformers和CNN模型生成了此处使用的预测概率值，排名从前1位到前5位，在6 mA预测中发挥了重要作用，其余的其他特征作为补充作用。因此，总体而言，本研究中使用的所有编码都有助于最终预测，但每个分类器的概率特征是不同的。最后，SHAP结果表明，在模型框架中加入更多的特征编码可能会提高预测性能。