目录

摘要

结果:

可用性:

1.介绍

2.方法

2.1数据集

2.2仅使用 k-mer 特征编码 rna 序列的局限性

2.3. 随后嵌入

2.4. 网络架构

2.5评估指标

2.6实施细节

3.结果

3.1 deeplncloc 的超参数优化

3.2与具有不同 k-mer 特征的传统机器学习分类器的比较

3.3与当前预测值的比较

3.4不同物种的影响

3.5 DeepLncLoc Web服务器


动机:长非编码RNA(lncRNAs)是一类含有200多个核苷酸的RNA分子。越来越多的证据表明,lncRNAs的亚细胞定位可以为其生物学功能提供有价值的见解。现有预测lncRNA亚细胞定位的计算方法使用k-mer特征编码lncRNA序列。但是,仅使用k-mer特征会丢失序列顺序信息。

结果:

我们提出了一个深度学习框架DeepLncLoc,用于预测lncRNA亚细胞定位。在DeepLncLoc中,我们引入了一种新的子序列嵌入方法,该方法保留了lncRNA序列的顺序信息。子序列嵌入方法首先将一个序列划分为若干连续的子序列,然后提取每个子序列的模式,最后将这些模式结合起来,得到lncRNA序列的完整表示。然后,采用文本卷积神经网络学习高层特征并执行预测任务。与具有k-mer特征和现有预测因子的传统机器学习模型相比,DeepLncLoc取得了更好的性能,这表明DeepLncLoc能够有效地预测lncRNA的亚细胞定位。我们的研究不仅提出了一种新的预测lncRNA亚细胞定位的计算模型,而且提供了一种新的子序列嵌入方法,有望应用于其他基于序列的预测任务。

可用性:

DeepLncLoc web服务器、源代码和数据集可在http://bioinformatics.csu.edu.cn/DeepLncLoc/, and https://github.com/CSUBioGroup/DeepLncLoc.

1.介绍

长非编码 rna (lncrnas)是一种大型 rna 分子(超过200个核苷酸) ,从 dna 转录而不转换成蛋白质(consortium,2007; lu 等人,2018)。Lncrnas 在许多生物过程中扮演着重要的角色,包括调节基因表达、选择性剪接、核组织和基因铭印(moran et al. ,2012)。例如,incrnas 可以与 dna、 rna 和蛋白质结合,然后通过这些相互作用执行它们的功能(esteller,2011)。Lncrnas 可以作为“ mirna 海绵”来调节 mirna 的水平,然后影响 mirna 目标的表达(distefano,2018)。Lncrnas 可以调节特定刺激下的转录活性或通路(wang and chang,2011)。由于分子功能的复杂性,与 lncrnas 相关的研究受到了很多关注(lu 等人,2019)。越来越多的证据表明,lncrnas 的亚细胞定位能够为研究其功能提供有价值的见解(carlevaro-fita and johnson,2019)。例如,位于细胞核内的 lncrna“ xist”,与核矩阵因子 hnrnpu 相互作用,并调节核结构和跨染色体相互作用(hacisleyman 等人,2014)。Incrna“ lincrna-p21”位于细胞质中,调节 junb 和 ctnnb1在 hela 细胞中的翻译(yoon 等人,2012)。Incrna“ zfas1”位于核糖体中,调节核糖体复合体中 mrnas 编码的蛋白质(hansji 等人,2016)。因此,识别 lncrna 亚细胞定位对于理解 lncrna 函数非常重要(voit 等人,2015)。

最近,一些 rna 相关亚细胞定位的大型数据库被公布。张等人发表了一个数据库,rnalocate (张等人,2016年) ,收集不同种类 rnas 的亚细胞定位,其中包含超过23,100个 rnas 和65个物种的42个亚细胞定位。Mas ponte 等人开发了一个名为 lncatlas 的数据库来显示 lncrnas 的亚细胞定位(mas-ponte 等人,2017)。Wen 等人建立了一个称为 lncsldb (wen 等人,2018)的 lncrna 亚细胞定位数据库,收集了来自3个物种(人类,老鼠和果蝇)的14973个 lncrnas 亚细胞定位信息。

然而,只有少数的计算预测 lncrna 亚细胞定位已被提出。据我们所知,第一个预测者是分离者(cao et al. 2018)。信息定位器利用堆叠式自动编码器提取的4-mer 特征和高级特征,将这两种特征分别输入到支持向量机和随机森林两种分类器中。然后使用集成策略将不同分类器的结果进行组合,得到最终的预测结果。在他们的训练过程中,分析者利用一个有监督的过采样算法来平衡不同类别的比例。第二个预测者是 iloc-lncrna (su 等人,2018) 。Iloc-lncrna 使用8mer 特征编码 lncrna 序列。考虑到8-mer 特征的维数太大,iloc-lncrna 采用了一种基于二项分布的特征选择方法来选择最优特征。然后,iloc-lncrna 将最优特征输入到支持向量机(svm)中,以得到预测结果。第三个预测器是 deeprncrna (gudenas and wang,2018)。Deeplncrna 使用2,3,4,5-mer 特征来编码 lncrna 序列,并增加了额外的特征(rna 结合序列和基因座)。然后将组合特征输入神经网络以获得最终的预测。虽然这些计算预测器获得了不错的性能,但仍然可以进行一些改进。将原始序列编码为鉴别特征是建立机器学习模型的一个重要步骤。这些预测器的缺陷是只使用 k-mer 特征来编码原始的 lncrna 序列。显然,仅仅使用 k-mer 特征不能保持原始序列的序列顺序信息。

为了克服这一缺陷,我们开发了一种新的基于深度学习的亚细胞定位预测器 deeplncloc。在预测器中,我们提出了一种新的特征嵌入方法,保留了 lncrna 序列的顺序信息(详见“2.3节”)。这种新的特征嵌入方法的主要思想是利用其子序列嵌入的方法对一个完整的 rna 序列进行编码。在 deeplncloc 中,我们将一个序列划分为若干个连续的子序列,然后利用一个平均池层提取每个子序列的模式,最后将这些模式结合起来,得到一个完整的 lncrna 序列表示。

在获得完整的表示之后,应用文本卷积神经网络(textcnn)学习高级特征并执行预测任务。与传统的具有 k-mer 特征的机器学习模型不同的是,深度抽取算法具有两个优点: 1)采用新的子序列嵌入方法,输入序列保持序列顺序信息; 2)文本细胞神经网络具有更强大的高级特征提取能力。我们进行了广泛的实验,以评估 deeplncloc 的性能。通过与具有不同 k-mer 特征的传统机器学习模型的比较,证明了利用子序列嵌入对整个 lncrna 序列进行编码而不仅仅利用 k-mer 特征的优越性。与现有的独立测试集上的预测器比较,显示了 deeplinclocc 预测 lncrnas 亚细胞定位的能力。

2.方法

2.1数据集

类似于先前的研究,我们从 rnalocate 数据库中获得已知的 lncrna 亚细胞定位信息(zhang,et al. ,2016)。目前版本的 rnalocate 收集了42,190个手工筛选的 rna 相关亚细胞定位条目,并提供了实验证据。它包含了超过23,100个 rna 和65个物种中的42个亚细胞定位。我们生成了一个基准数据集来训练和测试我们的模型。

1.所有42,190人工筛选的 rna 相关亚细胞定位条目均从 rnalocate 数据库下载;。

2.从42,190份手工筛选的 rna 相关亚细胞定位条目中,共筛选出2,383份手工筛选的 lncrna 相关亚细胞定位条目;。

3.一些 lncrnas 有多个条目,在提取条目,我们合并这些条目与相同的基因名称。然后我们移除了 ncbi 和 ensemble 中,没有序列信息的分支。

4.因为大多数lncrna只有一个亚细胞定位,我们选择了位于一个位置的lncrna,在研究中用于模型建造。

5.过滤后的数据集覆盖了七种不同的亚细胞定位。七个亚细胞定位系统中的两个只有很少数量的样本(小于10个)。因此我们移除了这些位于两个亚细胞定位系统中的印记。

表1. 所构建的基准数据集的分布。

最后,我们构建了857个 lncrnas 的基准数据集,包括5个亚细胞定位,包括细胞核、细胞质、核糖体、细胞质和外生体(见附图)。1).表1列出了构建的基准数据集的分布情况。

2.2仅使用 k-mer 特征编码 rna 序列的局限性

在把原始 rna 序列放入机器学习或深度学习模型之前,rna 序列需要被编码为数字向量。有两种广泛应用的 rna 序列嵌入方法。第一个是把每个核苷酸编码成一个四维的一维热载体。A,c,g 和 u 分别用(1,0,0,0) ,(0,1,0,0) ,(0,0,1,0)和(0,0,0,0,1)的one-hot 编码(pan 等人,2019)。然后这四种载体被用来编码 rna 序列。然而,使用one hot编码在实践中有两个缺点。第一个缺点是one hot是稀疏的,也就是说,只有一小部分特征对预测任务有贡献。第二个缺点是,使用one hot编码很难准确地表示不同核苷酸之间的相似性。第二种方法是利用 k-mer 特征对 rna 序列进行编码。方法的实现非常简单,它将长度可变的 lncrna 序列映射到一个维数固定的向量上。因此,k-mer 特征编码方法是目前应用最广泛的亚细胞定位预测方法。之前的方法(lnclocator (cao et al. ,2018) ,iloc-lncrna (su et al. ,2018)和 deeplncrna (gudenas and wang,2018))使用 k-mer 特性嵌入 lncrna。形式上,我们假设一个 lncrna 序列表示为:

其中 l 表示 lncrna 的长度,ni 是 lncrna 序列 i 位置的四个核苷酸碱基(a,c,g 和 u)之一。

对于一个给定的 k,k-mer 特征代表了 lncrna 序列中单个 k - mer 的频率。我们以3-mer 为例,每个位置可以有4个核苷酸碱基(a,c,g 和 u) ,因此我们有四的三次方个,即,64个3-mer 特征(aaa,aac,... ,uu)。然后我们可以用一个64维向量来表示一个 lncrna 序列,每个维度用来记录某个3-mer 的出现时间。图1示出单个 rna 序列的 k-mer 编码方法。K-mer 特征编码方法易于理解和实现。但是使用 k-mer 特征有一个缺点。即 k-mer 特征编码方法丢失原始 lncrna 序列的顺序信息。K-mer 特征编码方法只关注 k-mer 的出现,忽略了 k-mer 在原始序列中的位置。例如,rna a 是“ acaccccgc”,rna a 的3-mer 特征是{ aca,cac,aca,cac,acg,cgc,gcg,cgc } ; 我们逆转 rna 序列以获得 rna b“ cgccacaca”,rna b 的3-mer 特征是{ cgc,gcg,cgc,gca,cac,aca,cac,aca,aca }。可以看出,这两个 rna 序列的顺序是颠倒的,但它们的3-mer 特征非常相似。这两个3mer 特征之间的区别只有一个3mer (rna a 中的“ acg”和 rna b 中的“ gca”)。当使用64维3-mer 向量对两个 lncrna 序列进行编码时,只有两个维度是不同的。

图一。对单个 rna 序列的 k-mer 编码方法进行了说明,其中 k 设置为3。例如 rna 序列是“ accguuccga”。

2.3. 随后嵌入

为了克服这一缺陷,我们提出了一种有效的子序列嵌入方法来保持信息的序列顺序信息。其主要思想是将一个 lncrna 序列分割成若干个连续的子序列,子序列之间不重叠,然后提取每个子序列的模式,最后将这些模式组合成获得 lncrna 序列的完整表示。这样,我们就可以保存序列顺序信息。这个想法的动机是空间金字塔池-网(他等人,2015年) 他等人提出的空间金字塔池-网,以获得特征从任意子图像生成固定长度的表示为整个图像。我们转移并修改了他们的想法,编码 lncrna 序列。

我们把一个 lncrna 序列分成 m 个连续的子序列,这样我们就表示一个 lncrna 序列:

其中 si 是子序列。我们表示 lsi 是 si 的长度。将一个 incrna 序列划分为 m 个子序列后,下一步是对这些子序列进行编码。嵌入词技术在自然语言处理领域中的应用前景广阔,包括文本分类、情感分析和词性标注。我们使用了一种文字嵌入技术来编码子序列。具体来说,我们在我们的数据集中预先训练 lncrna 序列,利用 word2vec 技术获得 k-mer 的分布表,然后利用 k-mer 特征的分布表示来表示子序列。Word2vec 是一种流行的文字嵌入技术(mikolov 等人,2013)。它的目的是自动学习一个密集向量为每个词在语料库。Word2vec 技术有两种模式:  skip-gram跳过格拉姆模式和contin-uous bag of words (CBOW) model连续包装词模式。跳过格拉姆模型使用中心词来预测上下文词。在训练过程中,我们最大化了中心词和相应上下文词的共现似然函数。在我们的研究中,我们使用 gensim 库来学习 lncrna 序列的 kmer 特征(rehurek 和 sojka,2010)。参数 k 是从{1,2,3,4,5,6}中选取的,用来寻找最佳值。

子序列嵌入的步骤(见图2中的子序列嵌入部分)描述如下:

1.我们使用 gensim 库来学习数据库中所有 lncrna 序列的 k-mer (d-dimension)表示向量。

2.对于一个给定的子序列,我们把它分成 m 个子序列,每个子序列的长度是 lsi。

3.根据步骤1中的 k 值,对于每个子序列,使用 kmer 特征对其进行编码。

4.找到每个 k-mer 的预训练向量,然后将这些向量组合成一个矩阵作为子序列的表示。最后,我们将每个子序列转换为一个维数为(lsi-2) * d (lsi 是每个子序列的长度)的矩阵,这是我们深度学习模型的实际输入。

图二。深层神经网络结构的例子。这个数字只是一个例子。该网络结构由三部分组成: 后续嵌入、平均池层和文本/cnn。输入是一个长度为400的 lncrna 序列。Lncrna 序列被分成4个子序列。序列嵌入部分有四个步骤。在后续嵌入之后,我们使用一个平均池层来提取每个子序列的模式。然后我们把这些模式组合在一起,得到一个矩阵,作为整个 lncrna 序列的表示。最后,使用 textcnn 学习高级特性并执行预测任务。

2.4. 网络架构

到目前为止,我们已经得到了每个子序列的表示。于是问题出现了: 我们如何通过子序列的表示来预测亚细胞的定位。我们有 m 个子序列,每个子序列的表示是一个维数为 d * (lsi-2)的矩阵。如果我们直接把它们放在一起,尺寸是 n * d * (lsi2) ,这有两个缺点。首先,不同序列中不同子序列 lsi 的长度不相同。如果我们直接把它们放在一起,我们必须把它们放到同样的长度。这意味着我们必须在原始序列的末尾填充许多零,这样子序列和向量之间就会有许多无意义的零。其次,直接把它们放在一起后,尺寸太大,造成了大量的计算浪费。为了解决这两个限制,我们使用一个平均池层来提取子序列的每个通道中的模式。利用平均池层,将序列的维数由 d * (lsi-2)降为 d,可以看出 d 是 k-mer 的预训练向量的维数,与 lsi 的长度无关。使用这种方法,我们不需要填充零点和降低维数。

在利用平均池化层获得每个子序列的表示后,将它们组合在一起,得到整个 lncrna 序列的完整表示。然后下一步是预测亚细胞定位。文本 cnn 是一种用于文本分类的强大的深度学习网络结构。传统的 cnns 是二维 cnns,用于处理二维图像数据。实际上,文本可以被当作一维图像,所以我们可以用一维 cnn 来提取文本的特征。Textcnn 使用一维卷积层和最大池层来提取序列的特征(kim,2014)。受其在生物信息学领域的成功启发(zeng et al,2019) ,我们使用 textcnn 提取完整表示的特征。具体来说,我们有 m 个子序列,每个子序列的表示为 d,我们将它们组合在一起形成一个维数为 n * d 的矩阵来表示整个序列。将 lncrna 序列表示为一维图像,宽度为 n,高度为1,通道为 d,用三个卷积核函数(尺寸 = 1,3,5)捕获相邻核苷酸的相关性。然后 textcnn 在所有通道上执行 maxpooling 层,以获得最显著的特征,并降低输出向量的维数。最后,将 max-pooling 层的输出向量连接在一起,作为一个完全连接的层的输入,并用一个柔性最大激活函数进行最终的预测。图2给出了整个网络结构的示意图。

2.5评估指标

与之前的研究相似(cao 等人,2018; gudenas and wang,2018; su 等人,2018) ,我们使用精确度(acc) ,宏观 f 测量,以及接收器特征曲线(auc)下的面积作为评价指标来评价 deeplnclo 和研究中的其他方法。

其中 tp (i)、 fp (i)和 fn (i)分别表示类 i 的真正正、假正和假负的数目。

2.6实施细节

使用 pytorch 实现 deeplncloc (paszke 等人,2017)。Deeplncloc 中使用的损失函数是非 α- 平衡形式的焦点损失focal loss(lin 等人,2017)。这个目标检测是用来解决类别不平衡的问题。它的定义如下:

其中 n 是训练样本的数量,y 是真实的标签,y pred 是预测的标签,r 是聚焦参数(根据 lin 的论文,我们将 r 设置为2)。

跳过格拉姆模型skip-gram(mikolov 等人,2013)用于预先训练 k-mer 的矢量以便嵌入。在文本相关网络(textcnn)中,使用三个卷积核(尺寸 = 1,3,5,过滤数 = 128)提取相邻核苷酸的高级特征。分类部分的完全连接层有384个神经元。为了避免过拟合,嵌入层和完全连接层分别采用0.3和0.5的漏失率。最后,我们使用自适应动量优化器Adaptive Mo-mentum optimizer,训练 deeplinclocc,初始学习率设置为0.001。

3.结果

3.1 deeplncloc 的超参数优化

我们使用5倍的交叉验证(5倍的 cv)来调整 deeplncloc 的超参数,基于宏 f-measure 的值。在本模型中,许多超参数影响计算结果,如参数 k、子序列个数、预训练向量 k-mer 的维数、初始学习率和核大小。在研究中,我们最关心的是子序列嵌入对计算结果的影响。因此,我们将参数 k、子序列个数 m 和预训练向量的维数作为主要的调整超参数。采用网格搜索策略寻找三个超参数的最佳组合。参数 k 选自{1,2,3,4,5,6} ,子序列个数 m 选自{16,32,64,128,256} ,预训练向量维数 d 选自{64,128}。我们调整了这些超参数,以查找最终的模型参数(参见补充表 s1)。从表 s1中,很难直接确定参数。我们分析发现,当 k 和 m 过高或过低时,性能是不稳定的。为了确保 deeplncloc 的泛化,k、 m 和 d 分别设置为3、64和64。在此条件下,deeplncloc 得到的 acc、 macro f-measure 和 auc 分别为0.548、0.421和0.820。

3.2与具有不同 k-mer 特征的传统机器学习分类器的比较

针对传统 k-mer 特征的机器学习分类器在 lncrna 亚细胞定位预测中的广泛应用,将 deeplncloc 与传统的 svm、随机森林(rf)和 Logit模型(lr)三种机器学习模型进行了比较。这些机器学习模型的参数 k 选自{3,4,5,6}。我们没有考虑低 k 和高 k,因为低 k 或高 k 会增加不合适或过合适的风险。例如,2-mer 特征的维数是四的二次方,即16,这几乎不能编码数据库中所有序列的多样性。在这种情况下,模型有很高的不合适的风险。7-mer 有限元的尺寸是四的七次方,也就是16,384,远远超过了所有样品的数量。在这种情况下,模型有很高的风险,过度拟合。结果载于表二。

表2. 不同机器学习模型和不同 k-mer 特性的 deeplincloc 的性能,注意: 最佳性能值用粗体突出显示。

从表2,首先注意到,性能的每个机器学习模型与不同的 k-mer 特征是不同的。我们可以看到,支持向量机的最佳性能,rf 是当 k = 5,4,分别实现。对于 lr,当 k = 3,6,3时,获得最高的 acc,macro f-measure,auc。其次,DeepLncLoc所有的评价指标都高于其他机器学习分类器。结果表明,DeepLncLoc的acc和宏观f-measure指标明显高于其他两组的学习方法。与其他机器学习方法相比,深度学习方法的自适应能力稍高。图3绘制了具有最高逼真度的 deplncloc 和其他机器学习方法的 roc 曲线。很明显 deeplinclocc 的每个类别的 auc 值最高。这表明,我们提出的计算方法优于传统的 k-mer 特征机器学习模型。

图3。对于每个类,分别给出 deeprncloc、 svm (k = 5)、 rf (k = 4)和 lr (k = 3)的 roc 曲线。(a)细胞质,(b)核,(c)外生体,(d)核糖体,(e)胞质溶胶。

3.3与当前预测值的比较

5倍的 cv 在我们之前的实验中得到了应用。为了进一步评估 deeplncloc 在预测 lncrnas 亚细胞定位方面的性能,我们使用一个独立的测试集比较了 deeplncloc 和当前的预测因子。

我们选择当前的预测者遵循这些标准: i)网络服务器或独立版本的可用性; ii)只需要 lncrna 序列的输入; iii)输出包括亚细胞定位的预测得分。因此,lnclocator (曹等人,2018年)和 iloclncrna (苏等人,2018年)满足这些标准。lnclocator可以预测分子的5个亚细胞定位,包括细胞核、细胞质、胞质、核糖体和外生体。Iloc-lncrna 可以预测 lncrnas 的4个亚细胞定位,包括细胞核、细胞质、核糖体和外泌体。我们使用了 inclocator 的 web 服务器(可在 http://www.csbio.sjtu.edu.cn/bioinf/lnclocator/上找到)和 iloc-lncrna (可在 http://lin-group.cn/server/iloc-lncrna/download.php 上找到)进行比较。

我们使用一个独立的测试集对两个预测器(inclocator 和 iloc-lncrna)进行了比较。测试集是从另一个 lncrna 亚细胞定位数据库 lncsldb 和最近的文献中创建的。由于 lncsldb 数据库只收集了细胞核、染色体、细胞质、核质、核糖体等5个亚细胞定位,没有细胞质和外体亚细胞定位的记录。因此,我们从 lncsldb 数据库中随机选取了3个亚细胞定位(细胞核、细胞质和核糖体)样本。为了从胞浆和胞外体的亚细胞定位中获得其他样本,我们在 pubmed 数据库中搜索了一些最新的文献,使用以下关键词: lncrna 和每个亚细胞定位,然后从 ncbi 数据库中获得 lncrna 序列。我们用 cd 点击工具删除了90% 的冗余序列。最后,测试集包括20个细胞质样本,20个细胞核样本,10个核糖体样本,10个细胞质样本,7个外生体样本(见补充表 s2)。独立测试集中的所有 lncrna 序列都不用于构造 deeplncloc。独立测试集可以在 https://github.com/csubiogroup/deeplncloc/tree/master/independent 测试集中访问。

表 s2. 独立测试数据集的分布

DeepLncLoc和LncLocator的混淆矩阵如附图所示。S2。由于iLoc-lncRNA将细胞质和胞浆视为一个类别,因此它只能预测四种类型(细胞核、细胞质、核糖体和外体)。为了公平起见,在比较DeepLncLoc和iLoclncRNA时,我们将细胞质和胞浆视为一个类别。DeepLncLoc和iLoc-lncRNA的混淆矩阵如补充图所示。S3.。在补充图中。S2和S3,每行表示真实类,而每列表示预测类。对角线元素表示正确预测的样本数。在68个lncRNA中,我们的方法预测了其中36个的正确亚细胞定位,远远高于lncLocator(25个),略高于iLoc-lncRNA(34个)。DeepLncLoc、LncLocator和iLoc-lncRNA的检测结果如表3所示。显然,DeepLncLoc的准确性高于LncLocator和iLoc-lncRNA。DeepLncLoc(5类)的宏精度、宏召回率、宏测度分别为0.702、0.524和0.563,显著高于IncLocator的0.282、0.310和0.283。当我们将DeepLncLoc(4类)与iLoc-lncRNA进行比较时,也观察到了类似的结果。以上结果提示,DeepLncloc可作为预测lncRNAs亚细胞定位的有用工具。我们给出了DeepLncLoc、LncLocator和iLoc-lncRNA在测试集上的详细预测结果(见补充表S3)。表4和表5报告了测试集上每一类DeepLncLoc、LncLocator和iLoc-lncRNA的精确度、召回率、F度量。我们观察到,DeepLncLoc对细胞核、核糖体、胞质和外切体的F度量高于IncLocator,而对细胞质的F度量低于IncLocator。当我们将DeepLncLoc与iLoc-lncRNA进行比较时,已经观察到了这种现象。此外,我们还注意到,InncLocator没有正确识别外切体中的样本,这导致了对外切体的预测结果很差。一种可能的解释是,在lncLocator和iLoc-lncRNA的训练集中有太多的细胞质样本。机器学习模型自然会偏向细胞质,导致其他班级表现不佳。因此,lncLocator和iLoclncRNA倾向于将其他亚细胞定位归于细胞质。

S2.测试集上带有分配器的 deeprncloc 的混淆矩阵。(a)lncLocator,(b)DeepLncLoc。每行代表真正的类,而每列代表预测的类。

S3.测试集上与 iloc-lncrna 的 deeplincloc 的混淆矩阵。(a) iloc-lncrna (b) deeplncloc.每行代表真正的类,而每列代表预测的类

表3. 测试装置上DeepLncLoc与lncLocator和 iloc-lncrna 的预测性能比较。

表4.测试集上每个类别的DeepLncLoc和LncLocator的精度、召回率、F度量

表5.测试集上每个类别的DeepLncLoc和iLoc-lncRNA的精确度、召回率、F度量。

3.4不同物种的影响

此外,我们还调查了物种是否对分类结果有影响。数据集涵盖六个不同的物种,LncRNAs的物种分布见补充表S5。四个物种只有一个或两个LncRNA,因此我们只使用了两个物种(智人和小鼠)进行分析。智人组包含461个LncRNA,小鼠组包含391个样本。补充图。S4绘制了DeepLncLoc在这两个物种上的性能曲线图。如图所示,智人组的ACC值和AUC值分别为0.547和0.823,略高于小家鼠组(0.503和0.774)。

表S5。InncRNA的种类分布

。S4.。不同物种的ACC和AUC

3.5 DeepLncLoc Web服务器

实现DeepLncLoc的Web服务器可在http://bioinformatics.csu.edu.cn/DeepLncLoc/.免费获得。DeepLncLoc需要一个大于200个核苷酸小于100,000个核苷酸的lncRNA序列作为输入。然后单击Submit(提交)按钮查看预测结果。结果有一张表和一句话,并将显示在您的计算机屏幕上。该表有五列,每列表示亚蜂窝定位的名称和相应的概率。最后,最终预测的亚细胞定位被标记为红色以示。通常,DeepLncLoc预测lncRNA序列的亚细胞定位所需时间不到5秒。

预测lncRNA的亚细胞定位有助于理解lncRNA复杂的生物学功能。然而,现有的所有计算工具都使用k-mer特征对lncRNA序列进行编码,从而丢失了序列顺序信息。在本文中,我们提出了一个开源的深度学习模型DeepLncLoc,用于预测lncRNAs的亚细胞定位。DeepLncLoc采用一种新颖的子序列嵌入方法对LncRNA序列进行编码,然后应用textCNN进行分类。与以往的研究相比,DeepLncLoc有两个新颖的设计思想:(1)通过子序列嵌入可以保持LncRNA序列的序列顺序信息;(2)文本CNN可以自动从各子序列的模式组合中获取高层特征。

与其他传统机器学习方法相比,DeepLncLoc在准确率、宏观F度量和AUC方面都优于所有具有不同k-mer特征的传统机器学习模型。这意味着我们提出的子序列嵌入方法可能比传统的k-mer特征更好。通过使用独立测试集进一步将DeepLncLoc与现有预测器进行比较,DeepLncLoc在分类精度和宏观F度量方面优于现有预测器。这表明DeepLncLoc可以作为预测lncRNAs亚细胞定位的有用工具。

虽然我们的结果是有希望的,但仍有几个方面可以改进。我们想指出DeepLncLoc的以下限制:

1.由于RNALocate数据库中的大多数lncRNAs只有一个亚细胞定位,因此本研究只选择了只有一个亚细胞定位的lncRNAs进行训练和测试。然而,在现实中,许多lncRNA具有多种亚细胞定位。因此,在未来的工作中,如果我们能够收集到更多具有多个亚细胞定位的标记LncRNA,我们就可以扩展数据集来训练更强大的模型。

2.在我们的模型中,我们只使用了基于lncRNA序列的特征进行训练,没有考虑其他生物信息。有一些有用的特征可以集成起来,以便更好地预测亚细胞定位(曾等人,2019年;张等人,2019年)。例如,Gudenas等人。利用K-mer特征、RNA结合基序和基因组位点预测lncRNAs的亚细胞定位。因此,在未来,我们计划将其他生物信息整合到深度神经网络中。

3.为了减少计算量和运行时间,我们没有使用非常复杂的深度学习模型来提取特征和执行分类任务。随着深度学习技术的发展,将会提出越来越强大的网络结构。因此,利用更强大的网络结构来预测亚细胞定位是一个很有前途的发展方向。

4.亚细胞定位的少数类(如核糖体)的分类是一个具有挑战性的问题。这可能是由于两个原因。首先,少数类的样本太少,导致我们的模型不能很好地反映少数类的模式。第二,类别分布不平衡,分类器倾向于偏向多数类别(例如核),从而导致对少数类别的预测性能的损失(He和Garcia,2008)。

在现有的大多数计算方法中,LncRNA序列的可变长度是很难解决的。尽管我们的分析仅限于预测lncRNAs的亚细胞定位,我们还是获得了令人振奋的结果。我们认为,DeepLncLoc中的子序列嵌入方法可以作为RNA和DNA序列的通用表示方法。它有望应用于其他相关的可变长度序列问题,如mRNA亚细胞定位的预测(严氏等人,2019年),DNA N4-甲基胞嘧啶位点的预测(魏等人,2018年),RNA形状预测(Mautner等人,2019年)。

DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架相关推荐

  1. 一种基于子序列的亚细胞定位预测的深度学习框架(DeepLncLoc: a deep learning frame work for long non-coding RNA subcellular)

    一种基于长链非编码RNA子序列的亚细胞定位预测的深度学习框架 期刊:biorxiv 文章地址:https://www.biorxiv.org/content/10.1101/2021.03.13.43 ...

  2. TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法

    <TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法> <TACOS: a novel approach for accurate prediction of ...

  3. 人类长非编码RNA表达数据库,整合9种重要生物学场景(发育、癌症、病毒侵染等)...

    近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)表达数据库正式上线.该研究成果以`LncE ...

  4. Nature Reviews Cancer综述:长非编码RNA在肿瘤转移中的作用

    近年来,虽然癌症的诊断和治疗取得了长足进步,但转移性癌症患者的预后仍然很差,转移性疾病占癌症相关死亡的绝大多数.癌细胞从原发性肿瘤向远处器官的扩散是一个有序的.多步骤过程,称为侵袭转移级联反应.在过去 ...

  5. Cell | 大规模多组织转录组学研究揭示长非编码RNA与人类复杂疾病的联系

    长非编码RNA(long noncoding RNA, lncRNA)是一类普遍存在的异质RNA.与蛋白质编码基因不同,lncRNA的表达较低,组织特异性强,个体间的表达差异较大,因此,其表观遗传标记 ...

  6. Nucleic Acids Research | NONCODE数据库V6版发布,涵盖全面的动植物长非编码RNA注释

    长非编码RNA(long non-coding RNA,lncRNA)是一类长度大于200nt的非编码RNA.大量研究表明,lncRNA具有重要的调控功能,在植物和动物的各种生物学过程中起着重要作用. ...

  7. 平地起高楼之漫谈长非编码RNA

    平地起高楼之漫谈长非编码RNA  关于长非编码,我还记得当时在生物化学课上,刘老师专门拿出了半节课向我们介绍长非编码RNA.正好当时也做了笔记,于是结合笔记和网上查阅的资料,简要的写写长非编码RNA. ...

  8. Brain:一种用于阿尔兹海默症(AD)分类的可解释的深度学习框架

    <本文同步发布于"脑之说"微信公众号,欢迎搜索关注~~> 阿尔茨海默病是全球范围内痴呆症的主要原因,随着人口老龄化,其发病率负担日益加重,可能超过诊断和管理能力.目前的 ...

  9. NAR再版 | 人类长非编码RNA知识库LncRNAWiki 2.0

    LncRNA在哺乳动物中大量转录,通过复杂多样的分子机制在多种生物学过程发挥重要功能,与人类疾病的发生发展密切相关.近些年,lncRNA成为基因组学与生物信息学领域的研究热点,涌现出大量研究成果.然而 ...

最新文章

  1. “华为云杯”2020深圳开放数据应用创新大赛线上推介会成功举办,让深圳大数据在全球“跑”起来...
  2. 概要设计和详细设计区别_一体化工程设计:打破前期工程设计与详细设计之间的藩篱...
  3. excel python插件_利用 Python 插件 xlwings 读写 Excel
  4. 83998 连接服务器出错_服务端 TCP 连接的 TIME_WAIT 问题分析与解决
  5. 数据可视化的图表实现
  6. 使用dd工具对磁盘RAID5和10进行I/O性能测试
  7. 【Tomcat】Tomcat 系统架构与设计模式,第 2 部分: 设计模式分析
  8. php get请求_JWT+PHP实现登录认证+令牌分发的修改
  9. Ubuntu系统中docker本地镜像的位置
  10. 搭建GOOGLE企业邮箱以及域名解析全攻略
  11. 激活函数:双曲正切函数 tanh(x)
  12. 计算机网络的产生与发展可分为哪四个阶段,计算机网络形成与发展大致分为如下4个阶段...
  13. 照片宽高比怎么设置_【经验分享】照片处理
  14. 数字电路基础:如何提高电路工作频率
  15. Android触摸屏校对,android实现触摸屏校准
  16. 热评云厂商:网易数帆8.5亿元,企业数字化服务带来差异化
  17. elasticsearch.exceptions.SSLError: ConnectionError([SSL: CERTIFICATE_VERIFY_FAILED] certificate veri
  18. 综合能源服务认证的定义,综合能源服务认证意义
  19. Ubuntu桌面版以太网无法设置IP
  20. iOS苹果个人开发者账号购买流程 2018 版

热门文章

  1. 【nodejs】用户随机不重复抽奖码生成
  2. 实例:Qt | 百度语音识别
  3. DirectPlay学习笔记[1]
  4. Linux As4 u4 oracle10R2 安装
  5. QT 4.7.6 驱动 罗技C720摄像头
  6. mybatis之二级缓存
  7. DO280管理应用部署--管理image 、IS、Templates与章节实验
  8. 知识点拾遗二(下载视频)
  9. 【转】手机锁屏收不到消息推送解决方案
  10. 当代青年消费报告:年轻人的钱花哪去了?