摘要

DNA/RNA基序挖掘是基因功能研究的基础。DNA/RNA基序挖掘在识别DNA或RNA蛋白结合位点方面起着极其重要的作用,有助于理解基因调控和管理的机制。在过去的几十年里,研究人员一直致力于设计高效、准确的挖掘基序算法。这些算法大致可分为两类:枚举法和概率法。近年来,机器学习方法取得了很大的进步,特别是以深度学习为代表的算法取得了良好的性能。现有的深度学习方法在motif挖掘中大致可以分为三类模型:基于卷积神经网络(convolutional neural network, CNN)的模型、基于递归神经网络(recurtional neural network, RNN)的模型和基于CNN - RNN的混合模型。从数据预处理、现有深度学习架构的特点以及基础深度学习模型之间的差异等方面介绍了深度学习在motif挖掘领域的应用。通过对现有的深度学习方法的分析和比较,我们发现,在数据充足的情况下,越复杂的模型往往比简单的模型表现得更好,与计算机视觉、语言处理(NLP)、计算机游戏等其他领域相比,现有的方法相对简单。因此,有必要对基于深度学习的模体挖掘进行总结,以帮助研究者更好地理解这一领域。

介绍

基序在基因表达调控转录和转录后水平中起着关键作用。DNA/RNA基序涉及许多生物学过程,包括可变剪接、转录和翻译[1-4]。从20世纪90年代末到21世纪初,研究人员通过生物实验逐渐在基因组序列上发现了大量具有结合功能的蛋白质及其相应的结合位点,同一蛋白质的结合位点都是某些保守的短序列作为基序,人们最初用保守序列来描述蛋白质的结合位点[5-8]。随着研究者认识的加深在motif研究中,出现了多种motif挖掘算法[9]。早期母题挖掘方法主要分为两大类:枚举法和概率法:枚举法和概率法。

第一个类基于简单的单词枚举。酵母Motif Finder (YMF)算法使用共识表示来检测Sinha等人开发的[11]酵母基因组中具有少量简并位置的短Motif。YMF主要分为两步:第一步枚举搜索空间的所有motif,第二步计算所有motif的z-score,找出最大的z-score。Bailey提出了判别正则表达式基序引出算法,利用Fisher’s Exact检验计算基序的显著性。

为了加快基于词枚举的motif挖掘方法的运行速度,采用了后缀树、并行处理[13]等特殊方法。此外,LMMO[14]、DirectFS[9]、ABC[15]、DiscMLA[16]、CisFinder[12]、Weeder[17]、Fmotif[18]和MCES[19]等motif挖掘算法也在模型中体现了这一思想。

在基于概率的motif挖掘方法中,需要构造一个只需要几个参数的概率模型[20]。这些方法提供了碱基在结合区每个位点的碱基分布,以区分基序是否存在[21]。这些方法通常由位置特定的评分矩阵(PSSM/PWM)或母题矩阵[22]建立分布。PWM为anmbynsize矩阵(m代表特定蛋白结合位点的长度,n代表核苷酸碱基的类型),用来表示特定蛋白结合基序在每个位置[23]的偏好程度。如图1所示,PWM可以用较少的参数直观地表达某一特定蛋白质的结合偏好,所以如果给出一组特定蛋白质的结合位点数据,就可以从这些结合位点数据中得知PWM的参数。一些方法是基于PWM方法的,如MEME [11], STEME [24], EXTREME [25], AlignACE[26]和BioProspector [27]

ChIP-seq和高通量测序极大地增加了活体[28]的可用数据量,这使得通过深度学习[29]来研究motif挖掘成为可能。在生物信息学中,虽然目前深度学习的方法并不多,但目前正在兴起[30]。已知的应用包括DNA甲基化[31,32]、蛋白质分类[33-35]、剪接调控和基因表达[36-38]以及图像分析任务[39-42]。与我们的工作特别相关的是motif挖掘的应用,如DNA-/ rna -蛋白质结合位点[43],染色质可及性[36,44-46],增强子[47-49],DNA形状[50,51]

DeepBind[43]是第一个将深度学习应用于主题挖掘的研究。正如图2所示,DeepBind试图通过CNN描述这种方法,并以机器学习或基因组学研究人员容易理解的方式预测dna -蛋白质/ rna蛋白质结合位点。它把基因组序列窗口当作一张图片。与一个图像由像素组成的三个颜色通道(R, G, B),它将基因组序列视为一个固定长度的序列窗口组成的四通道(a、C、G、T)或(a、C、G, U)。因此,DNA蛋白质结合位点预测的问题类似于二进制图片分类的问题。

此后,出现了一系列关于主题挖掘中的深度学习的研究。一些研究者关注深度学习中各种参数(如层数)对motif挖掘[52]的影响。一些研究者对深度学习框架做了更多的尝试,在DeepBind中加入长短期记忆(LSTM)层,得到了一个结合CNN和RNN进行motif挖掘的新模型[53]。此外,还有一些方法如结合CNN和RNN以靶向特定RNA结合蛋白(RBP)[54]的iDeepS。RNN和CNN组合模型的优点是,新加入的RNN层可以通过学习CNN层提取的特征来捕捉序列特征之间的长期依赖关系,提高预测的准确性。其他研究人员使用了一种纯粹基于rnn的方法:KEGRU方法[55]通过使用k-mer表示和嵌入层来创建网络的内部状态,并通过结合一层双向门通循环单元(bi-GRUs)来捕获长期依赖。此外,许多研究者基于三种基本模型做了大量的工作,如潘小勇[56]、张钦虎[51,57]、徐文轩[58]、王代伦[59]和余文波[60]。

然而,目前在motif挖掘中有许多深度学习方法。相对于计算机视觉和NLP领域的深度学习方法,如图像域[66,62]、视频域[63]和问答域[64],这些方法也比较原始和简单。因此,有必要通过深度学习对主题挖掘进行总结,以帮助研究者更好地理解该领域。本文介绍了motif挖掘的基本生物学背景知识,分析了深度学习CNN和RNN的基本模型之间的差异,并讨论了深度学习发展的一些新趋势。本文希望能够帮助没有基础深度学习或基础生物学背景知识的研究者快速理解主题挖掘。

本文的其余部分组织如下:第二部分介绍了基本的生物背景知识、几种常用数据库和母题的基本知识。然后,第三部分描述了用于DNA/RNA基序挖掘的不同模型的深度学习算法。最后,在第四部分中,我们进一步讨论了主题挖掘深度学习的一些新进展和挑战以及未来可能的发展方向。

关于模体的基本知识

本节介绍了主题挖掘的一些基本知识。生物序列中的Motif挖掘(或Motif发现)可以定义为寻找一组短的、相似的、保守的序列元素(’ Motif '),这些元素通常是短的、相似的、具有共同生物学功能的核苷酸序列[65]。Motif挖掘是生物信息学中广泛研究的问题之一,如转录因子结合位点(transcription factor binding site, TFBS),因为其生物学意义和生物信息学意义非常重要

如图3所示,它展示了多个序列如何识别同一个转录因子(CREB)。他们的“共识”意味着每个位置都有自己的转录因子更友好的核酸。由于转录因子结合可以耐受近义词,因此所有与共识序列不同的寡聚体,以及核苷酸取代量最大的寡聚体都可以被认为是同一TFBS的有效实例。

在了解了motif的基本概念后,介绍了常用数据库和数据预处理方法。常用的motif挖掘数据库有:TCGA数据库[68]、NCBI数据库[69]和ENCODE数据库[70]。一般来说,两种数据预处理方法如下图4所示,左下角。

最简单的方法是使用一次性编码。One-hot通常用于指示状态机的状态[71]。例如,使用单热编码来编码DNA序列。作为二进制向量:= (1,0,0,0),G = (0, 1, 0, 0), C =(0, 0, 1, 0)和T =(0, 0, 0, 1)。RNA序列也可以通过简单地将T转换成u来进行类似的编码。它很容易设计和修改,也很容易检测到非法状态。然而,它很容易稀疏且与上下文无关。

另一种方法是与k-mers标签vectorize通过嵌入[44].F o r e x m p l e, w e c n t o k e n i z e t h e D n a s e问u e n c e的ATCGCGTACGATCCG k-mers不同,inTable 1所示。使用在NLP领域广泛使用的嵌入方法[72],如word2vec[73],可以对不同的k-mers进行向量化。RNA序列也可以用类似的方法表示。

图1所示。生成PSSM、位置频率矩阵(PFM)和SPI1标志的过程[104]。下面的过程是生成PSSM, PFM和SPI1的logo。首先,根据每一种类型的核苷酸出现在每个比对位置的次数,生成一个PFM。然后,将PFM转换为对数尺度PSSM/PWM。通过添加PSSM相应的核苷酸值,可以计算出与矩阵长度相同的任意一个DNA序列窗口的得分,并绘制成标志图。

模体挖掘的深度学习方法

近年来,深度学习在各种应用场景中取得了巨大的成功,使得研究人员尝试将其应用于DNA或RNA motif的挖掘。接下来,我们将详细介绍这些模型。在主题挖掘中有三种主要类型的深度学习框架:基于cnn的模型(图4,左),基于rnn的模型(图4,中),基于cnn - rnn的混合模型(图4,右)。我们总结了几种经典的主题挖掘深度学习方法,如表2所示。

CNN:

RNN

CNN-RNN混合

序列表示:

DeepBind[43]是第一次尝试使用CNN从原始DNA或RNA序列预测DNA或RNA基序。DeepBind使用单个CNN层,它包括一个卷积层,随后是校正和池操作,以及一个全连通网络(FCN)进行增广,将特征向量转换为标量绑定评分。为深度学习在母题挖掘中的应用开辟了先例,为其他深度学习方法提供了基础框架。将每个基对应四个颜色上类似于RGB通道的通道,采用一次性编码完成矢量化。许多后续方法使用此方法来构建模型。

DeepSEA[38]是一种基于CNN的深度学习方法,使用了3个卷积层,分别含有320、480和960个核。较高层次的卷积层接收来自更大空间范围的输入,而较低层次的卷积网络层可以表示更复杂的特征。DeepSEA在第三层卷积层的基础上增加了FCN层,所有的神经元都从前一层的所有输出中接收输入,从而可以完整的获得整个序列数据的信息。DeepSEA模型的卷积步骤由三个卷积层和两个最大合并层组成,并以交替顺序学习motif。

DeepSNR[74]是一种基于CNN的深度学习方法。DeepSNR模型的卷积部分与DeepBind网络具有相同的结构。但DeepSNR补充说,反卷积网络是卷积网络的镜像版本,可以通过非池化和反卷积操作的组合,减少激活的大小,扩大激活。

Dilated[75]是一种基于膨胀多层CNN的深度学习方法。这种方法从核苷酸序列的DNA区域学习到调控标记在该区域的位置。扩展卷积可以捕获比标准卷积更大的输入空间的层次表示,因此它们可以在序列之前和之后被缩放到更大。

DanQ[53]使用单层CNN,然后是双向LSTM (BLSTM)。DanQ模型的第一层是通过卷积滤波扫描motif在序列中的位置。DanQ模型的卷积步骤比DeepSEA模型简单得多。它包含了一个卷积层和一个最大合并层来学习主题。排在最大池化层之后的是BLSTM层。主题可以跟随由物理约束决定的调整语法,决定了模式组合在体内的空间布局和频率,是与组织特异功能元素(如增强子)相关的一种特征。所以LSTM层在最大池化层之后。DanQ模型的最后两层是精整线性单元和多任务sigmod输出的密集层,类似于DeepSEA模型。RNN和CNN组合模型的优点是,新加入的RNN层可以通过学习CNN层提取的特征来捕捉序列特征之间的长期依赖关系,提高预测的准确性。

BiRen[49]开发了一种基于深度学习的混合架构,将CNN的序列编码和表示能力与双向递归神经网络处理DNA长序列的优异能力相结合。BiRen对增强因子训练进行了有限的实验验证,该训练来自VISTA增强因子浏览器[76],并在转基因小鼠中进行了评估,增强了基因活性。BiRen可以直接从基因组序列中学习调控编码,并证明了良好的识别精度,克服了噪声数据的鲁棒性,并提出了两种基于其他物种序列特征的其他物种的新方法General k-mer增强子预测。BiRen使研究人员对增强子序列的调控密码有了更深入的了解.

KEGRU[55]是一个没有CNN层的纯RNN层模型,采用了GRU层和k-mer嵌入。KEGRU主要利用k-mer和嵌入层来实现其他模型中CNN特征提取任务的目的。这种结构使其在序列关系中表现更好,在RNA motif挖掘中获得了良好的结构。

iDeeps[54]利用卷积神经网络(CNNs)和BLSTM网络同时识别RNA序列的结合序列和结构基序。嵌入在iDeep中的CNN模块也可以自动捕获RBP的可解释的绑定motif。BLSTM网络使iDeep框架不仅在绑定序列上获得了更好的性能,而且易于捕获结构motif。

模型选择可能是深度学习中最具挑战性的一步,因为深度学习算法的性能对不同的参数非常敏感[77]。deepRAM[78]提供了几种现有架构及其变体的实现:DeepBind(单层CNN), DeepBind∗(多层CNN), DeepBind- e∗(多层CNN, kmer包埋),DanQ(单层CNN,双向LSTM), DanQ∗(多层CNN,双向LSTM), Dilated(多层膨胀CNN), KEGRU (k-mer包埋,单层GRU), ECLSTM (k-mer包埋,单层CNN和LSTM), ECBLSTM (k-mer包埋,单层CNN和LSTM),单层CNN和双向LSTM)。他们进行了大量的实验比较,这让研究人员对这些方法有了更深的理解。在介绍deepRAM的实验结果[78]之前,我们先介绍了实验中使用的两组数据集。第一组是DNA数据集,包括来自ENCODE项目的83个ChIP-seq数据[70]。第二组是RNA数据集,包括19个蛋白的31个CLIP-seq数据[79-81]。deepRAM[78]对这两个实验数据集进行了大量的实验,并对上述深度学习模型进行了深入的比较和描述。模型在这些数据集上的实验结果如图5所示.

在所有模型中,ECBLSTM模型表现最好,无论是在ChIP-seq数据上的中值AUC为0.930,还是在CLIP-seq数据上的中值AUC为0.951,所有模型中最简单的DeepBind在这里。两组数据的中位数AUC分别为0.902和0.914。DeepBind是这里考虑的最简单的模型:它使用单个热序列编码和单个卷积层。通过比较ECBLSTM和DeepBindE∗模型的性能,可以看到添加一个LSTM层可以进一步提高性能。因为LSTM层比CNN层更擅长捕捉长期依赖关系。与原始的DeepBind相比,DeepBind∗或DeepBind- e∗都可以提供更好的性能。通过比较DanQ和DanQ∗的性能,进一步发现,比单层CNN更深的模型的性能往往表现得更好。实验结果表明,更深入、更复杂的网络具有性能优势。Zhang[17]发现更简单的模型在这个任务中表现最好,而通过deepRAM的实验发现的结论恰恰相反。根据实验结果和理论分析,模型的复杂性应该与任务和数据有关。参数过多容易导致过拟合[82]。一般来说,任务模型的参数不应该过多地超出数据样本。

讨论

从传统的模体方法到最新的深度学习发展过程,我们可以看到随着排序技术和新算法的发展有了很大的进步。在第三部分,我们分析了现有的模型,以及它们的变体,发现当数据充足时,更复杂的模型往往表现得更好。最近的研究趋势可以发现,模型通常是越来越复杂。例如,研究者尝试将已有模型与新模型相结合,如结合注意单元[83,84]、胶囊网络[85]、多尺度卷积门通循环单元网络[86]、弱监督CNN[87]和多实例学习[88]等。然而,现有的深度学习模型在motif挖掘中过于简单,不超过三层,而在图像领域中的模型通常超过10层。因此,仍有很大的改进空间。

最近,由于神经网络的对抗训练会导致正规化提供更高的性能,这一领域发展迅速,包括涉及敌对的生成网络[89]和瓦瑟斯坦等一系列相关研究氮化镓[90],MolGAN [91] n d n e t G n[92]。在motif挖掘中,GAN可以用来自动生成反例,而不是简单的随机生成或洗牌正序列。此外,从word2vec[73,94]到现在Bert[95]和G P t[96],训练前模型[93]在NLP领域取得了显著的效果。在模态挖掘中,可以通过预训练增强模型的鲁棒性和泛化能力。AlphaGo[97]的巨大成功,使围棋世界发生了前所未有的变化,深度强化学习也为大众所熟知。特别是AlphaGo Zero不需要任何人类象棋历史,只使用深度强化学习[98]。从0到3天的训练,已经远远超过了人类几千年来积累的围棋知识。在母题挖掘中,强化学习可以使人们学习到更多人类知识之外的母题。

随着我们进入大数据时代,无论是在学术领域还是在产业领域,深度学习都已经是一个非常重要的发展方向。在生物信息学中,传统机器学习已经取得了很大的进展,深度学习有望产生令人鼓舞的结果[99]。在本文中,我们对深度学习在motif挖掘领域中的应用进行了综述。希望本文的综述能够帮助研究者更好地理解这一领域,并促进motif挖掘在研究中的应用。

当然,我们也需要认识到深度学习方法的局限性和未来的研究方向。尽管深度学习很有前途,但它不是万灵药。

在motif挖掘的许多应用中,仍然存在许多潜在的挑战,包括数据不平衡或有限,对深度学习结果的解释[71],以及选择合适的架构和超参数。对于不平衡或有限的数据,常用的方法是增强数据集[48]或少拍学习[100]。对于深度学习结果的解释,常用的方法是模型本身的可解释性[101]或预测后的解释[71]。为选择合适的架构和超参数,如Spearmint[102]、Hyperopt[103]和DeepRAM[78]等框架允许自动探索超参数空间。此外,如何充分利用深度学习的能力来加速深度学习的训练过程也需要进一步的研究。因此,我们希望本文讨论的问题将有助于未来的深度学习方法在motif挖掘中的成功。

要点

生物序列中的Motif挖掘(或Motif发现)可以定义为寻找一组短的、相似的、保守的序列元素(motifs),这些元素通常是短的、相似的、具有共同生物学功能的核苷酸序列。基序在基因表达调控转录和转录后水平中起着关键作用。

近年来,深度学习在各种应用场景中取得了巨大的成功,使得研究人员尝试将其应用于DNA或RNA motif的挖掘。基于主题挖掘的深度学习框架主要有三种类型:基于cnn模型、基于rnn模型和基于cnn - rnn的混合模型。

并从数据预处理、现有深度学习体系结构的特点以及基础深度学习模型之间的差异等方面简要介绍了深度学习在motif挖掘领域的应用。

DNA/RNA基序挖掘中的深度学习研究进展(A survey on deep learning in DNA/RNA motif mining)相关推荐

  1. 苹果叶片病害识别中的深度学习研究

    苹果叶片病害识别中的深度学习研究 1.研究内容 基于DenseNet-121深度卷积网络,提出了回归.多标签分类和聚焦损失函数3种苹果叶片病害识别方法. 2.数据集介绍 用于识别的图像数据集来源于Ai ...

  2. 诺亚面向语音语义的深度学习研究进展

    本文来自华为诺亚方舟实验室资深专家刘晓华在携程技术中心主办的深度学习Meetup中的主题演讲,介绍了华为诺亚面向语音语义的深度学习进展. 本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验 ...

  3. Deep Learning(深度学习)之(三)Deep Learning的常用模型或者方法

    转自:http://blog.csdn.net/boon_228/article/details/51700569 Deep Learning(深度学习)之(三)Deep Learning的常用模型或 ...

  4. 2019 到目前为止的深度学习研究进展汇总

    本文为 AI 研习社编译的技术博客,原标题 : Best Deep Learning Research of 2019 So Far 作者 | ODSC - Open Data Science 翻译 ...

  5. 自动驾驶中图像与点云融合的深度学习研究进展综述

    点云PCL免费知识星球,点云论文速读. 文章:Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Revie ...

  6. cvpr 深度估计_干货 | 2019 到目前为止的深度学习研究进展汇总

    本文为 AI 研习社编译的技术博客,原标题 : Best Deep Learning Research of 2019 So Far 作者 | ODSC - Open Data Science 翻译 ...

  7. 脑影像中的深度学习研究:前景与挑战

    深度学习(DL)在应用于自然图像分析时非常成功.相比之下,将其用于神经影像学数据分析时则存在一些独特的挑战,包括更高的维度.更小的样本量.多种异质模态以及有限的真实标签(ground truth).在 ...

  8. 深度学习的搜索应用Searching with Deep Learning

    https://www.toutiao.com/a6682307854994506247/ 2019-04-21 19:27:18 本文由来自 Textkernel 的软件与数据工程师 Eike De ...

  9. 【CIPS 2016】(4-5章)语言认知模型、语言表示以及深度学习(研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息 ...

最新文章

  1. AI已来,更有未来!科大讯飞全球1024开发者节,这场AI盛会你也可以云参与
  2. smarty模板中类似for的功能实现
  3. Ubuntu9.10 安装试水
  4. vue本地下载文件,解决ie浏览器本地下载文件无反应(已解决);vue-cli2本地下载文件,vue-cli3本地下载文件
  5. 在要求或期待别人做到某事的时候,先反思下自己是否值得。就好比我常会期望有很多人会记住我生日是哪天,但......
  6. 【强连通分量·Tarjan】bzoj1179: [Apio2009]Atm
  7. Viewflipper
  8. chrome 迅雷下载 支持插件, 让chrome支持迅雷
  9. 动态图snapshot构建
  10. mysql rownum写法_mysql类似oracle rownum写法实例详解
  11. php 网络留言系统总结心的,留言板_感谢您的留言_代潇瑞博客-专注于PHP学习,PHP源码分享...
  12. Clion 报错 Cannot save file ... [Failed to reload]
  13. Linux下开启FTP的21端口
  14. PiaPik网盘 2023.2
  15. shell in find exclude
  16. Elasticsearch Ingest Pipeline
  17. 微信公众平台从入门到精通二
  18. 序数是什么意思_vlookup 列序数是什么意思
  19. 23种设计模式——代理模式
  20. 小米K20pro刷international版

热门文章

  1. Android学习笔记之——手机中几种自带传感器的应用
  2. Linux系统编程--守护进程、线程
  3. Java正则校验密码至少包含:字母数字特殊符号中的2种
  4. 大数据技术之_23_Python核心基础学习_01_计算机基础知识 + Python 入门 (9.5小时)...
  5. 新奥新智面试(部分)
  6. VMware虚拟机基于CentOS镜像下安装Linux系统教程
  7. 公众号如何让更多人看到?这三种方法超有效!
  8. AS3,MXML,Flex,Flex Builder,Flash Builder,Flash,AIR,Flash Player之关系
  9. 云区域(region),可用区(AZ),跨区域数据复制(Cross-region replication)与灾备(Disaster Recovery)(部分2)
  10. CAD-VBA中对椭圆的定义