Motivation:长链非编码RNA ( lncRNA )通常以组织特异性的方式表达,lncRNA的亚细胞定位取决于它们表达的组织或细胞系。 <特色>
以前用于预测lncRNA亚细胞定位的计算方法没有考虑到这一特性,它们为来自所有可用细胞系的混合lncRNA训练统一的机器学习模型。开发一种细胞系特异性的计算方法来预测lncRNA在不同细胞系中的位置是非常重要的。

结果 在这项研究中,我们提出了一个更新的细胞系特异性预测器 lncLocator 2.0,它训练每个细胞系的端到端深度模型,用于从序列预测 lncRNA 亚细胞定位。我们首先为 15 个细胞系构建了 lncRNA 亚细胞定位的基准数据集。

然后我们使用自然语言模型学习词嵌入,并将这些学习到的嵌入输入到卷积神经网络、长短期记忆和多层感知器中,以对亚细胞定位进行分类。 lncLocator 2.0 对不同的细胞系实现了不同的效果,并证明了训练细胞系特异性模型的必要性。此外,我们采用集成梯度来解释 lncLocator 2.0 中提出的模型,并发现了一些确定 lncRNA 亚细胞定位的潜在模式,表明 lncRNA 的亚细胞定位与一些特定的核苷酸有关。

可用性和实现:lncLocator 2.0可以在http://www.csbio.sjtu.edu.cn/bioinf/lncLocator2/上找到,源代码可以在https://github.com/Yang-J-LIN/lncLocator2上找到。

介绍

长链非编码RNA ( long non-coding RNA,lncRNA )发现于20世纪80年代的( Pachnis et al , 1984),当时被认为是垃圾RNA ( Kung et al . , 2013)。随后的研究表明,这种新的RNA缺乏长而保守的开放阅读框,表明它不是典型的RNA(布兰南等人, 1990年)。后来,更多类似的RNA被发现,它们被归类为lncRNA,它被定义为长度超过200个核苷酸的转录物,而这些转录物不会被翻译成蛋白质。

LncRNAs对许多细胞功能至关重要,如RNA剪接、信号传导、蛋白质调节和基因调控( Li et al , 2014 ; Tsai等, 2010)。一些研究还发现lncRNA与人类疾病密切相关,如癌症( Yang et al . , 2014)。这些发现,再加上人类可能有超过270,000个lncRNA转录本,但其中只有一小部分是很好的特征,促使研究人员更深入地研究lncRNA ( Ma等人, 2019年)的功能。

与蛋白质相似,lncRNA的分子功能通常由它们在细胞(卡莱瓦罗- Fita和Johnson , 2019年; Chen , 2016年)内的亚细胞定位决定。到目前为止,蛋白质的亚细胞定位已经被广泛研究了几十年(阿尔马格罗阿门特罗斯等人, 2017年; Driks等人, 1994年)。然而,关于RNA的亚细胞定位的研究,特别是对lncRNA的研究,才刚刚开始。

有许多实验方法来确定lncRNA的亚细胞定位,如原位杂交( ISH ),最古老和最广泛使用的一种和生化细胞分离,一个更准确的(卡莱瓦罗-Fita & Johnson , 2019)。然而,在潮湿实验室中的实验方法成本高、效率低、耗时长。有许多实验方法来确定lncRNA的亚细胞定位,如原位杂交( ISH ),最古老和最广泛使用的一种和生化细胞分离,一个更准确的(卡莱瓦罗-Fita & Johnson , 2019)。然而,在潮湿实验室中的实验方法成本高、效率低、耗时长。

为了促进关于这项任务的计算方法,已经构建了一些lncRNA亚细胞定位的相关数据库,这些数据库可以作为机器学习模型的基准集。例如,RNALocate将编码和非编码RNA的亚细胞定位分布在65个物种(张杰等, 2017)中,lnc ATLAS在15个细胞系( Mas - Ponte等人, 2017年)中收集lncRNA的不同分区,并使用相对浓度来测量定位。在15个细胞系中,只有K562有7个lncRNA的定位,其余细胞系均只有细胞质和细胞核2个定位。据观察,lncRNA的位置取决于它们表达的组织/细胞系,同一lncRNA在不同的细胞系或组织中可能位于不同的位置。例如,LINC00476在lncATLAS中有12个细胞系的定位信息,在6个细胞系中定位于细胞质,而在其他细胞系中定位于细胞核

迄今为止,lncRNA 的亚细胞定位预测因子已经建立在 lncRNA 在组织/细胞系中的汇集定位之上。曹等人。 (2018) 提出了一个预测器 lncLocator,它建立在 RNALocate 数据库之上,采用 k-mer 频率来提取特征,并采用随机森林、支持向量机 (SVM) 和自动编码器来确定五个定位。考虑到五个位置存在数据不平衡,SMOTE (Synthetic Minority Over-sampling Technique) (Chawla et al., 2002) 被用来创建少数族定位的合成样本来构建一个平衡的训练集。 DeepLncRNA 提取 k-mer 频率、RNA 结合基序和基因组位点以提取特征,并使用深度神经网络对两个定位进行分类(Gudenas 和 Wang,2018 年)。 iLoc-lncRNA 将 8 元组核苷酸特征整合到通用 PseKNC 中,并采用 SVM 构建四个定位的分类器(Su et al., 2018)。 Locate-R 提取 k-mer 特征和深度局部支持向量机以对四个位置进行分类(Ahmad 等人,2020)。所有这些预测器都遵循由特征提取、特征选择或特征压缩和分类器设计组成的过程。比较如图1所示。上述方法使用手工设计的特征为跨组织/细胞系的lncRNAs训练了一个统一的模型,它们没有考虑lncRNAs的组织特异性。


正如著名的隐喻" DNA是生命的语言"所暗示的那样,由于生物序列和文本之间的相似性,将自然语言处理( NLP )中的计算方法转移到生物学领域是很直观的。

一条RNA序列由鸟嘌呤(G)、尿嘧啶(U)、腺嘌呤(A)和胞嘧啶(C)四个碱基组成的核苷酸链组成,可视为由G的四个字符组成的“句子”, U、A 和 C,表示结构和形式与文本的相似性。结合基于深度学习的模型在 NLP 中盛行的事实,这些模型,如 GloVe (Pennington et al., 2014)、长短期记忆 (LSTM) (Hochreiter and Schmidhuber, 1997)、Transformer (Vaswani et al., ., 2017) 和注意力机制,可用于提取 RNA 序列的判别特征。

在这项研究中,我们提出了一个更新的预测器 lncLocator 2.0,它为每个细胞系训练一个端到端的深度模型,以预测来自序列的 lncRNA 定位。 lncLocator 2.0 首先使用 NLP 模型将核苷酸序列编码为嵌入,然后将这些嵌入进一步输入由卷积神经网络 (CNN)、LSTM 和多层感知器 (MLP) 组成的回归器,以对亚细胞定位进行评分。最后,Integrated Gradients 用于解释所提出的深度模型,并发现了一些确定 lncRNA 亚细胞位置的潜在模式。

Datasets

从序列中分类lncRNA定位需要lncRNA的核苷酸序列和相应的定位。我们从通用代码项目( Harrow et al , 2006)中获得核苷酸序列,从lnc ATLAS中获得定位信息,两者均以Ensembl基因诠释( Cunningham等人, 2019年)定义的基因ID为索引。

2 . 1 亚细胞定位
由于lnc ATLAS具有定量和细胞系特异性的标签,我们选择lnc ATLAS作为数据集。现有的lncRNA亚细胞定位数据库,例如。RNALocate,往往提供离散的标签。与这些数据库不同,lncATLAS定义了相对浓度指数( relative concentration index,RCI ),一种用于亚细胞定位的定量指标,这意味着我们可以在这个数据集上建立回归模型。RCI定义为两个样品中每千克碱基对( FPKM )测得的浓度之间的对数比率:

RCI是在15个细胞系和2或5个亚细胞位置上计算的。在所有15种细胞系中计算了细胞质/细胞核RCI ( CNRCI ),而小室RCI,即染色质/细胞核RCI、核仁/细胞核RCI、核质/细胞核RCI、细胞膜/细胞质RCI和不溶性组分/细胞质RCI,仅在K562中计算。

以往的研究往往将来自不同细胞系的数据合并到一个基准集中,为每个lncRNA获得单一的标签。然而,最近关于lncATLAS的统计数字表明,lncRNA在不同细胞系中的定位可能不同。我们对每个lncRNA的细胞质定位细胞系和细胞核定位细胞系进行计数。热图如图2a所示。

图2 .不同细胞系间CNRCI的统计学分析。( a )每个lncRNA的细胞质定位细胞系和细胞核定位细胞系计数的热图。

这表明在所有细胞系中,大多数lncRNA并不位于特定的位置。我们还计算了每个lncRNA在不同细胞系中的CNRCI的方差,然后制作了一个直方图,如图2b所示。它显示了lncRNA在不同细胞系中定位的明显多样性。这些统计数据促使我们进一步开发一种细胞系特异性模型。

( b )每种长链非编码RNA在不同细胞系中的CNRCI方差直方图

2.1 核苷酸序列

一个Ensembl基因诠释基因可能包括许多具有重叠编码序列的剪接转录本。因此,样本可以是基因水平或转录本水平。在基因水平上,RCI被唯一地分配给每个基因序列。在转录本水平上,RCI被分配到一个或多个对应于唯一基因的转录本序列。基因序列通常比转录本序列长得多,这给深度模型的处理带来了困难。无论是循环神经网络还是自注意力模型都存在处理长序列的困难。前者无法通过反向传播学习长期依赖;虽然LSTM对其进行了改进,但LSTM复杂的计算图意味着即通过优化很难达到最优点。转录本水平的数据集由于一对多的映射而大于基因水平的数据集,而基因水平的数据集由于转录本序列之间广泛的重叠而小于转录本水平的数据集。表1总结了基因水平和转录水平数据集的优缺点。在本研究中,我们选择lncLocator 2.0的转录本级数据集。

见表1。基因水平数据集和转录水平数据集的优劣

2 . 2数据预处理
我们通过 CNRCI 的值和序列的长度来筛选数据集。 CNRCI 值表示两个样品中浓度之间的对数比,0 表示两个样品中的浓度相等,这意味着 RNA 在任何位置都不显着。为了便于分类,我们在 1⁄2 1 中用 CNRCI 过滤掉数据; 1.因此,CNRCI 大于 1 或小于 -1 的保留数据显着位于细胞质或细胞核中。核苷酸序列的长度可以从数百到数百万不等。种类繁多可能会导致深度模型出现故障。考虑到序列的长尾分布,我们剪掉了数据集的尾部——只保留长度小于 20 000 的数据。

我们通过 Ensembl 基因 ID 而不是 Ensembl 转录 ID 划分数据集,以减少冗余。我们首先将收集到的 Ensembl 基因 ID 随机分成比例为 8/1/1 的训练/开发/测试集。这三组从同一分布中采样,分别用于训练、调整超参数和评估性能。然后我们将它们与 Ensembl 转录 ID 以及之后的核苷酸序列进行匹配。在不同的集合中,我们确保不存在来自相同基因的转录本。 CDHIT (Fu et al., 2012) 用于分别在开发集和测试集中针对训练集删除具有 80% 相似性截止值(核苷酸序列的最小截止值)的冗余序列。根据基因进行划分,使用 CD-HIT 和两种方法基于不同的相似性截止值减少序列冗余结合起来在我们的测试中没有显着差异。数据详情如表2所示。

2 . 3 lnc Location 2.0中的预测引擎
预测引擎由三个模块组成。
第一个模块是序列表示,它以核苷酸序列为输入,以向量形式输出表示。
第二个模块是抽象,它将可变长度的序列转换为固定长度的特征向量。
第三个模块是分类,将特征向量分类为细胞质或细胞核。我们在 2.3.2 节中将后两部分放在一起。整体结构如图3所示。

图 3 lncLocator 2.0 的整体结构首先,输入序列被标记化并由词向量表示。然后应用几个卷积核来提取高级特征,然后是一个双向长短期记忆,以输出一个固定长度的矩阵。最后,多层感知器输出预测的 CNRCI 值

2.3 . 1序列表示将核苷酸序列表示为矩阵。对于不同长度的序列,矩阵的长度也不同。以前的模型,如 lncLocator 和 DeepLncRNA 从序列中提取 k-mer 频率特征。 k-mer 频率特征的优点是它们是固定长度的特征向量。但是,也存在一些问题:

  1. k-mer 频率特征会丢失很多信息。例如,k-mer 频率特征会丢失所有位置信息。 2. 它们的手工制作性质会限制其可扩展性。

因此,我们使用词嵌入对核苷酸序列进行编码,将特征提取留给神经网络自动学习每个分配任务的抽象特征。第一步是标记化,我们需要选择合适的标记大小和步幅。考虑到翻译中每个三核苷酸子序列都匹配一个氨基酸,我们将token的长度设置为3,导致词汇量为4^ 3=64,对于学习词嵌入来说太小了。当 token 的长度设置为 9 时,词汇表的大小为 4^9=262 144,接近自然语言的词汇表。然而,我们的训练数据集中只有 260 995 个核苷酸“单词”。此外,其中 66 622 次出现不到 50 次。非常低的频率也使得词嵌入没有意义。最后,我们将token的长度设置为6,词汇量为4 ^6 4096。在token化中大于1的步幅可以减少序列的长度,有利于神经网络的训练。因此,我们将步幅设置为 3。

其次,我们需要在标记化的序列上应用词嵌入方法。 Word2vec (Mikolov et al., 2013)、GloVe 和 BERT (Devlin et al., 2019) 是自然语言处理中流行的方法。 word2vec 的想法是在滑动窗口中预测中心词及其上下文,反之亦然。这两种方法分别被命名为 CBOW 和 skip-gram。潜在的缺点是它只利用了局部信息而忽略了全局信息。 GloVe 是 word2vec 的修改版本,它考虑了全局信息。 BERT 是自然语言处理领域的明星方法,既可以作为模型的一部分进行预训练,也可以生成静态词向量。但是,它在非常大的数据集上效果更好,并且计算密集型。在我们的测试中,BERT 没有收敛到我们的数据集上。因此,我们最终选择 word2vec 和 GloVe 来生成词向量。

为了确保词向量能够学习到足够的信息并且深度模型不会太大,我们将词向量的大小设置为 16 或 32。我们使用 word2vec 和 GloVe 的默认设置来训练词向量。在对数据集进行训练后,我们获得了下游任务的词向量。

2.3. 2分类器构建
卷积神经网络(CNN)广泛应用于计算机视觉和计算生物学领域。 CNN 定义了一组卷积核,它们在输入图像或序列上滑动并进行点积,输出一组新的图像或序列。 LSTM 是一种特殊的循环神经网络。 Schmidhuber (2001) 发现循环神经网络难以学习长期依赖,因为长序列可能导致梯度消失,而 LSTM 是一种解决方案。在这里,CNN 被置于词嵌入和 LSTM 之间有两个原因。首先,CNN 能够提取和整合隐藏在序列中的信息。其次,CNN 可以通过 stride 减少序列的长度,从而降低 LSTM 的计算复杂度。

CNN和Bi-LSTM结构以序列为输入,得到一个固定长度的特征向量。
在此之后,遵循 MLP 分类器。由于 lncATLAS 提供了由 CNRCI 值而不是离散类标签测量的连续定位值,因此 MLP 实际上作为回归量来预测 CNRCI 值。

2.3.3 模型训练
在模型训练期间,我们选择了 AdamW 优化器,其强正则化在小数据集上表现良好。对于每个细胞系,网格搜索用于在每个细胞系的 Dev 集上选择超参数。学习率设置为 0.001,权重衰减设置为 0.01。

训练数据集中的CNRCI值以0为中心呈正态分布。优化过程中,模型的预测值趋于0 .为了避免这种情况,我们对损失函数应用高斯权重:

其中l和r分别为CNRCI在训练数据集上的均值和方差。

2.3.4评价标准
我们采用AUROC,即受试者工作特征曲线下面积,来评价分类模型的性能。ROC曲线显示预测CNRCI值的真阳性率( TPR )和假阳性率( FPR )在不同决策阈值之间的权衡。

2 . 4模型解释
为了深入了解设计的深度模型的推理过程,我们采用了解释方法。由于大多数解释深度模型的方法都是为卷积神经网络设计的,因此我们选择集成梯度 (Sundararajan et al., 2017) 来解释其简洁的思想和广泛的适用性。首先,我们的目标是解释每一个结果。其次,我们做一个总结,从我们的解释中获得普遍的规则。

( 2.4.1 )单个样本的解释
当输入从基线值变为实际值时,Integrated Gradients 对每个输入特征的输出梯度进行积分。定义如下:

其中x是当前输入,F是模型函数,x’是基线输入,表示特征输入的"缺失"。下标i表示第i个特征的索引。

集成渐变可以直接应用于 lncLocator 2.0。每个词向量的每个特征都分配有一个贡献分数,并将一个词向量的特征的贡献分数相加,以表示核苷酸组合的贡献分数。

正如 Sundararajan 等人。 (2017) 建议,对于每个输入序列,我们选择一个与基线大小相同的全零序列,也称为参考输入。在我们的模型中,不同长度的全零序列的预测 CNRCI 都在 0 左右。因此,正贡献分数意味着输入对预测的贡献为细胞质而不是细胞核,而负贡献分数意味着输入对预测的贡献更大预测为细胞核而不是细胞质。

最后,我们计算了每个核苷酸的贡献分数。每个核苷酸包含在一个或多个子序列中,我们对子序列的贡献进行平均,得到每个核苷酸的贡献分数。

(2.4.2)元解释:
对单个样本的解释指出哪个部分对预测结果的贡献最大。元解释旨在从单个样本的一系列解释中提取一般规则。在这里,我们期望通过两种方式来理解我们模型的决策过程:
1 .哪个核苷酸组合对结果贡献最大
2 .在哪个位置核苷酸组合对结果贡献最大

为了回答上述问题,我们设计了两个评价向量。第一个是k - mer贡献向量,长度为43= 64 .一个长度为3的窗口在不重叠的核苷酸序列上滑动,为k - mer贡献向量中对应的特征添加相应的贡献分数。
第二是位置贡献向量。就像调整图像的大小一样,我们将序列的大小调整为64。

由于集成梯度的效率低,我们从测试数据集中随机选择标记为细胞质和细胞核的 1000 和 1000 个核苷酸序列分别进行分析。然后使用 lncLocator 2.0 中的设计模型将集成梯度应用于 2000 个序列,获得分配分数的序列。接下来,为每个具有贡献分数的序列计算两个评估向量。最后,在数据集中对向量求和。

2 . 5基线方法

在这项研究中,我们专注于预测lncRNA的亚细胞定位。为了证明lncLocator 2.0 ( GloVe+CNN+BiLSTM+MLP)的能力,我们将其与从lncRNA序列预测细胞质中细胞核位置的基线方法进行比较。

1 . lncLocator,它是一种基于机器学习的lncRNA位置预测方法。lncLocator训练一个集成模型,从lncRNA序列预测5个位置。为了与lncLocator 2.0进行比较,我们对原始的lncLocator进行了修改以预测CNRCI值。
2 . k - mer + MLP,它提取k - mer频率特征,这些特征被输入MLP以输出CNRCI值。
3 . Glove +BiLSTM +MLP首先将序列转换为Glove学习的词嵌入,然后通过BiLSTM层和MLP层预测CNRCI值。
4 . Deep LncRNA,我们直接采用现有的跨细胞系训练的Deep LncRNA模型,在测试集上进行评估,无需重新训练。
5 .带有多任务学习的lncLocator 2.0。不同细胞系中的亚细胞定位可能具有相似的模式。因此,我们构建了15个分类器来预测15个细胞系中的CNRCI值,它们具有相同的CNN和Bi - LSTM结构和参数。
6 .带有预训练的lncLocator 2.0。一些lncRNA的亚细胞定位与mRNA相似。因此,我们使用mRNA数据集预训练模型,该数据集源于相同的lncRNA处理流程,包含61030个mRNA,然后使用lncRNA数据集继续训练预训练模型。

在本研究中,我们没有将lncLocator 2.0与图1中所示的其他基线方法进行比较,因为iLoc-lncRNA和定位仪[器]不是细胞特异性的,其目的是预测四个亚细胞定位,并且没有源代码可供我们调整它们以适应我们的回归任务。

3结果

3.1序列表示
当 word2vec 处理一个序列时,word2vec 不知道核苷酸组合的内部结构。例如,word2vec 不知道 CTCACT 与 ACTGTA 相邻,也不知道 AAAAAA 和 AAAAAT 仅在最后一个核苷酸不同。因此,我们使用== GloVe 来学习嵌入,它能够理解核苷酸组合的内部结构==。我们首先选择TTTTTT进行分析,它在词汇表中频率第二高,具有明显的对称结构。我们计算 TTTTTT 和所有其他词向量之间的余弦距离。表 3 列出了具有最高相似性的前 10 个核苷酸组合。

通过表3,我们发现与TTTTTT相似度最高的核苷酸组合在结构上都是对称的。
然后我们选择TTTTTG来分析没有对称结构的词向量。与TTTTTG相似度最高的前10个核苷酸组合如表3所示。相似度最高的词向量都包括TTT或TTG。这在一定程度上是由符号化造成的。这也说明word2vec能够很好地学习周围的核苷酸组合。此外,对于TTTTTT,其前10个相似核苷酸组合在嵌入空间中没有5个T,表明word2vec学习到了与纯序列相似性的一些差异。

(3. 2 ) lnc Location 2.0的有效性
在本实验中,我们研究了 lncLocator 2.0(GloVe + CNN + BiLSTM + MLP)对细胞系 H1.hESC 的 lncRNA 亚细胞定位的有效性。 lncLocator 2.0和其他baseline模型得到的AUROCs如表4所示。lncLocator 2.0优于老版本lncLocator,AUROC达到0.8472,相对lncLocator的AUROC为0.794,相对提升6.7%。我们还研究了具有不同组件的其他变体方法,证明模型的所有组件都有助于预测性能。

在我们的任务中,我们观察到预训练和多任务学习在提高预测有效性方面是无效的。这可能是由于以下原因:
(i)mRNA定位模式与lncRNA定位模式不同,对mRNA数据进行预训练无法获得更好的lncRNA数据初始参数;
(ii) 来自不同细胞系的 lncRNA 定位存在一定的特异性,通过多任务学习学习到的细胞系之间的共享参数可能会为某些细胞系引入​​一些噪声。

此外,我们将 lncLocator 2.0 与另一种基于深度学习的方法 DeepLncRNA 进行了比较,用于从细胞核中对细胞质进行分类。如表 4 所示,DeepLncRNA 的 AUC 为 0.559,低于 lncLocator 2.0。结果表明,跨细胞系训练的 DeepLncRNA 不能直接用于预测一种特定细胞系的 lncRNA 定位,这表明训练细胞系特异性模型的必要性。

此外,我们研究了 lncLocator 2.0 在来自其他 14 个细胞系的基准数据集上的有效性。我们对其他 14 种细胞系进行了与 H1.hESC 相同的模型优化。如表 5 所示,lncLocator 2.0 在 15 个细胞系中实现了不同的 AUROC,AUROC 值范围从最高的 0.8499 到A549 到 K562 中的最低值 0.6095。 K562、NCI.H460和SK.MEL.5的故障除了数据集中的噪声外,还有可能是数据集数量少、数据不平衡造成的。结果表明,有必要针对lncRNA定位预测器实施细胞系特异性方法,并且不同细胞系存在不同的定位模式。

3.3 lncLocator 2.0能够检测与亚细胞定位相关的模式
我们首先做一个预测lncLocator 2.0的案例研究。我们从测试数据集中随机选择一个具有适当长度的lncRNA序列来演示解释结果ENST00000623312,其CNRCI为- 3.248,长度为492。lnc Localator 2.0的预测CNRCI值为- 1.2075。集成梯度法结合lncLocator 2.0生成的热图如图Figure 4所示

图4 .根据lncLocator 2.0对ENST00000623312的亚细胞定位的预测,由Integrated Gradients生成的贡献热图。背景色表示贡献强度-绿色为细胞核,红色为细胞质,白色为中性。(该图的彩色版本可在生物信息学在线获取。)

绿色核苷酸代表分类为细胞质的贡献,红色核苷酸代表分类为细胞核的贡献。颜色越深,贡献度越大。

我们进一步对整个测试数据集进行分析以获得元解释,得到的结果如图 5 所示。对于图 5a 和 c,x
轴是核苷酸组合的索引,其中 AAA 以 0 和GGG以63为索引,y轴为核苷酸组合的位置,其中0代表30端,63代表50端。比较细胞质序列和核序列的结果,我们观察到细胞质序列的正贡献大于核序列,核序列的负贡献大于细胞质序列。我们可以看到统计结果与预测一致。

图5 .对测试数据集的贡献热图进行统计分析。( a )位于细胞质中的lncRNA的k - mer贡献向量的统计。( b )位于细胞质中的lncRNA的位置贡献向量的统计。( c )核内lncRNA的k - mer贡献向量的统计。( d )核内lncRNA位置贡献向量的统计

对k - mer贡献向量的统计表明,几乎所有的核苷酸组合都有正贡献或负贡献。位置贡献向量的统计表明,每个位置上的正贡献和负贡献没有显著差异。因此,我们建议该决定lncLocator 2.0主要基于一些特定的核苷酸组合,与它们的位置无关。lncLocator 2.0的优势在于相同的核苷酸组合并不像基于k - mer的模型那样具有同等的贡献。

为了进一步研究k - mer贡献向量,分别按照正贡献得分和负贡献得分对核苷酸组合进行排序。
正贡献得分最高的前10个核苷酸组合为TTT、AAA、TTG、TTA、GTT、ATT、TAA、GAA、AAT和AAG。
负贡献得分最高的前10个核苷酸组合为CCT、CCC、CTC、CCA、GCC、CTG、CAC、CAG、TCC和ACC。我们发现前10个组合不含胞嘧啶,多由腺嘌呤和胸腺嘧啶组成,而后10个组合多由胞嘧啶组成。

因此,我们发现一些具有高比例腺嘌呤和胸腺嘧啶的核苷酸组合会决定lncRNAs的细胞质定位,而一些具有高比例胞嘧啶的核苷酸组合会决定lncRNAs的细胞核定位。

为了验证发现的潜在规律,我们生成一个由长度为400的胸腺嘧啶组成的随机核苷酸序列,以及另一个由长度为400的胞嘧啶组成的随机核苷酸序列。然后我们使用lncLocator 2.0来预测它们的CNRCI。得到的CNRCI值分别为2.0716和2.3291,表明这两个序列在细胞质和细胞核中都有显著性。

我们的发现与之前的一些工作( Lubelsky和Ulitsky , 2018年; Shukla等人, 2018年;张杰等, 2014)是一致的,它发现了一些具有C - rich模式的序列负责细胞核定位。例如,Zhang等鉴定了一个富含C的AGCCC基序,负责BORG (张杰等, 2014)的细胞核定位。一些具有共同15 - nt C - rich模式的lncRNA倾向于定位于细胞核( Shukla等人, 2018年)。此外,卡莱瓦罗-Fita et al ( 2019 )的研究表明,在不同的细胞系中,这种模式存在差异。以前的研究以及我们的计算发现表明,未来应该以细胞系特定的方式进行详细的研究。

4.讨论

在这项研究中,我们比较了核苷酸序列的各种编码方法,包括onehot、word2vec、GloVe和BERT,并研究了核苷酸序列的词向量的有效性。我们计算了不同词向量之间的余弦距离,并观察到word2vec和GloVe可以学习核苷酸组合的对称结构,具有相似成分的核苷酸组合具有相似的词向量。结果表明,词嵌入能够理解核苷酸组合的内部结构。然而,BERT在我们的数据集中并不收敛,这可能是由于数据集的稀缺性。

与先前在跨细胞系的混合数据上训练的lncRNA位置预测器不同,本文提出了一种基于深度学习的细胞系专用预测器lncLocator 2.0。lncLocator 2.0在15种细胞系中实现了不同的AUROC,展示了lncRNA在不同细胞系中定位的模式多样性。我们进一步研究了两种训练策略,预训练和多任务学习,发现它们在提高有效性方面是无效的。该结果进一步表明,针对不同细胞系训练细胞系特定模型的必要性。lncLocator 2.0在某些细胞系上的性能相对较差。K562和NCI。H460,未来应该投入更多的努力来提高他们的预测性能。一个潜在的方向是预训练,首先在性能较好的细胞系数据上训练模型,然后使用K562或NCI数据对训练好的模型进行微调。H460。

我们使用集成梯度在lncLocator 2.0中展开深度模型的隐藏决策过程,结果表明我们的模型以类似于k - mer频率特征的方式执行,但包含了更多的上下文信息。在集成梯度生成的热图中进行了统计研究,显示有或没有胞嘧啶的一些核苷酸组合可能是lncRNA亚细胞定位的潜在决定因素之一。与其他现有方法相比,lncLocator 2.0的一个优势是能够发现一些潜在的与定位相关的序列模式。

5.结论

在这项研究中,我们提出了一种具有可解释深度学习的lncRNA细胞特异性亚细胞定位预测因子lncLocator 2.0。lncLocator 2.0在每个细胞系中的lncRNA位置上进行训练,并允许对15个细胞系进行定位预测。此外,我们利用==整合梯度( Integrated Gradients )==对黑箱深度模型进行解释,发现一些胞嘧啶或胸腺嘧啶和腺嘌呤比例较高的核苷酸子序列在H1.hESC的lncRNA亚细胞定位中起关键作用,表明lncRNA的亚细胞定位与一些特定的模式相关联,并得到了文献的支持。

LncLocator 2.0:具有可解释深度学习的长链非编码RNA的细胞特异性亚细胞定位预测器相关推荐

  1. 一种基于子序列的亚细胞定位预测的深度学习框架(DeepLncLoc: a deep learning frame work for long non-coding RNA subcellular)

    一种基于长链非编码RNA子序列的亚细胞定位预测的深度学习框架 期刊:biorxiv 文章地址:https://www.biorxiv.org/content/10.1101/2021.03.13.43 ...

  2. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  3. 一文探讨可解释深度学习技术在医疗图像诊断中的应用

    2020-10-20 14:39:24 机器之心分析师网络 作者:仵冀颖 编辑:Joni 本文依托于综述性文章,首先回顾了可解释性方法的主要分类以及可解释深度学习在医疗图像诊断领域中应用的主要方法.然 ...

  4. 解释深度学习的新角度,来自光学的启发

    来源:网络大数据 摘要:谷歌技术人员.MIT博士Ali Rahimi受光学的启发,从功能模块化和层级的角度讨论了一种解释深度学习的新思路. 深度学习已经成熟到可以教给高中生了么? 我思考的这个问题,源 ...

  5. Win10+CUDA11.0+RTX 3060ti GPU深度学习主机 pytorch 环境

    Win10+CUDA11.0+RTX 3060ti GPU深度学习主机 pytorch 环境 0. 前言 1. 安装Anaconda ***** 新建环境 ***** 2. 安装CUDA和cuDNN ...

  6. 深度学习实战6-卷积神经网络(Pytorch)+聚类分析实现空气质量与天气预测

    文章目录 一.前期工作 导入库包 导入数据 主成分分析(PCA) 聚类分析(K-means) 二.神经网络模型建立 三.检验模型 大家好,我是微学AI,今天给大家带来一个利用卷积神经网络(pytorc ...

  7. 深度学习模型的准备和使用教程,LSTM用于锂电池SOH预测(第一节)(附Python的jypter源代码)

    本Python笔记本显示和分析了如何处理NASA获得的电池充电/放电数据集. 对于这个模型的训练阶段,需要安装Python 3.x以及以下库: Tensorflow 2.0 Numpy Pandas ...

  8. DDos攻击,使用深度学习中 栈式自编码的算法

    转自:http://www.airghc.top/2016/11/10/Dection-DDos/ 最近研究了一篇论文,关于检测DDos攻击,使用了深度学习中 栈式自编码的算法,现在简要介绍一下内容 ...

  9. 易基因|深度综述:表观遗传机制在慢性疼痛中的作用(DNA甲基化+组蛋白修饰+非编码RNA)

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2022年8月22日,德国海德堡大学Daniela Mauceri在<Cells>杂志发表了"Role of Ep ...

最新文章

  1. 官宣!英雄联盟、王者荣耀、街霸……这些电子竞技入选杭州亚运会
  2. 1载波把32个信道按_「防疫」截至8月27日,单日确诊新增32例,张文宏带来1个坏消息...
  3. 05 ORA系列:ORA-01013 报错用户请求取消当前的操作
  4. 【20120517】【早晨】
  5. MongoDB的默认用户名和密码是什么?
  6. python动态图形_利用matplotlib实现根据实时数据动态更新图形
  7. 库存成本计算方法简介
  8. HTML之基本布局设计之三栏式、两栏式设计
  9. 关于宽哥英语课,本人的遭遇
  10. 筱筱笔记:npm发包流程
  11. 三相PFC程序30KW充电桩 30KW三相PFC程序
  12. 计算机网络路由器和交换机之间该如何配置,交换机怎么配置?交换机和路由器有什么区别?...
  13. Java开发短连接分享功能
  14. grasp设计模式应用场景_设计模式 GRASP GoF
  15. 使用frp进行内网穿透
  16. 湖南工业大学教务系统爬虫(课表获取篇)
  17. 关于定制开发ERP的哪些事,5分钟看懂ERP定制开发关键节点
  18. 老人与海好词100英文带翻译_《老人与海》英文读后感带翻译
  19. 如何独立设置Mac触摸板方向和鼠标滚轮方向
  20. matlab fromstream,matlab安装问题求助

热门文章

  1. 游戏——TextOut函数
  2. ShuffleNet V2 论文阅读笔记
  3. 在Linux上将U盘格式化为ntfs
  4. 网摘精灵教程:网摘精灵软件包里都有什么东西
  5. java lrucache 使用_LRUCache 具体解释
  6. SlimDX.dll安装之后所在位置
  7. flamegraph No stack counts found. 问题
  8. linux-ubuntu终端切换桌面方法
  9. 如何实现安卓二维码扫码功能
  10. 关于Win10英文版安装中文语言包后,新用户登录还是英文界面的问题的解决方法