一种基于长链非编码RNA子序列的亚细胞定位预测的深度学习框架

期刊:biorxiv
文章地址:https://www.biorxiv.org/content/10.1101/2021.03.13.435245v1.abstract

摘要

长链非编码RNA (lncrna)是一类含有200多个核苷酸的RNA分子。越来越多的证据表明,lncrna的亚细胞定位可以为其生物学功能提供有价值的见解。现有的预测lncRNA亚细胞定位的计算方法使用k-mer特征编码lncRNA序列。然而,仅使用k-mer特征会丢失序列顺序信息。因此,:我们提出了一个深度学习框架DeepLncLoc来预测lncRNA亚细胞定位。在DeepLncLoc中,我们引入了一种新的子序列嵌入方法,它保留了lncRNA序列的顺序信息。子序列嵌入方法首先将序列划分为一些连续的子序列,然后提取每个子序列的模式,最后将这些模式进行组合,得到lncRNA序列的完整表示。然后,利用文本卷积神经网络学习高级特征并执行预测任务。与传统具有k-mer特征的机器学习模型和现有预测器相比,DeepLncLoc取得了更好的性能,说明DeepLncLoc可以有效预测lncRNA亚细胞定位。我们的研究不仅为预测lncRNA亚细胞定位提供了一种新的计算模型,而且提供了一种新的子序列嵌入方法,有望应用于其他基于序列的预测任务

介绍

长链非编码RNA (lncrna)是一种大分子RNA(超过200个核苷酸),从DNA转录但不翻译成蛋白质(Consortium, 2007;陆等,2018)。lncrna在基因表达调控、可变剪接、核组织、基因组印迹等多种生物过程中发挥着重要作用(Moran, et al., 2012)。例如,lncrna可以与dna、rna和蛋白质结合,然后通过这些相互作用来执行其功能(Esteller, 2011)。lncrna可以作为“miRNA海绵”,调节miRNA水平,进而影响miRNA靶蛋白的表达(DiStefano, 2018)。lncrna可以在特定刺激下调控转录活性或通路(Wang and Chang, 2011)。由于分子功能的复杂性,lncrna相关研究受到了广泛关注(Lu, et al., 2019)。

越来越多的证据表明,lncrna的亚细胞定位可以为其功能提供有价值的见解(Carlevaro-Fita和Johnson, 2019)。例如,位于细胞核中的lncRNA“XIST”与核基质因子hnRNPU相互作用,调节核结构和反染色体相互作用(Hacisuleyman, et al., 2014)。LncRNA“lincRNA-p21”位于细胞质中,在HeLa细胞中调控JUNB和CTNNB1的翻译(Yoon, et al., 2012)。LncRNA“ZFAS1”位于核糖体,调控来自核糖体复合体的蛋白质的mrna编码(Hansji, et al., 2016)。因此,lncRNA亚细胞定位的识别对于了解lncRNA的功能非常重要(Voit, et al., 2015)。

最近,一些大型的rna相关亚细胞定位数据库被发布。Zhang等人发布了数据库rnallocator (Zhang, et al., 2016),收集不同种类rna的亚细胞定位,其中包含65个物种的超过23100个rna,有42个亚细胞定位。Mas Ponte等开发了一个名为LncATLAS的数据库,用于显示lncrna的亚细胞定位(Mas-Ponte, et al., 2017)。Wen等创建了lncRNA亚细胞定位数据库lncSLdb (Wen, et al., 2018),收集了来自3个物种(人、小鼠和果蝇)的14973个lncRNA亚细胞定位信息。

然而,目前对lncRNA亚细胞定位的计算预测因子还很少。据我们所知,
第一个预测器是lncLocator (Cao, et al., 2018)。LncLocator使用堆叠式自动编码器提取的4 mer特征和高级特征,将这两种特征分别送入两种分类器(支持向量机和随机森林)。然后lncLocator使用集成策略将不同分类器的结果组合起来,得到最终的预测结果。在他们的训练过程中,lncLocator使用了一种监督过采样算法来平衡不同类的比例。

第二个预测工具是iLoc-lncRNA (Su, et al., 2018)。iLoc-lncRNA 使用8mer特征编码lncRNA序列。考虑到8-mer特征维度过大,iLoc-lncRNA采用基于二项分布的特征选择方法来选择最优的特征。然后iLoc-lncRNA将最优特征输入支持向量机(SVM),得到预测结果。

第三个预测因子是DeepLncRNA (Gudenas和Wang, 2018)。DeepLncRNA使用2,3,4,5 -mer特征编码lncRNA序列,并添加额外的特征RNA–binding motifs and genomic loci**(rna结合基序**和基因组位点)。然后将组合特征输入神经网络,得到最终的预测结果。尽管这些计算预测器实现了不错的性能,但仍然可以进行一些改进。将原始lncRNA序列编码成鉴别特征在开发机器学习模型中非常重要。这些预测因子的缺陷在于仅使用k-mer特征来编码原始lncRNA序列。显然,仅使用k-mer特征无法保持原始lncRNA序列的序列顺序信息。

为了克服这一局限性,我们开发了DeepLncLoc,一种新的基于深度学习的lncrna亚细胞定位预测器。在预测器中,我们提出了一种新的特征嵌入方法,保留了lncRNA序列的顺序信息(详见“2.3节”)。新的特征嵌入方法的主要思想是利用RNA的子序列嵌入组合来编码完整的RNA序列。在DeepLncLoc中,我们将序列分成若干连续的子序列,然后利用平均池化层提取每个子序列的模式;last结合这些模式,获得了lncRNA序列的完整表示。在获得完整表征后,利用文本卷积神经网络(textCNN)学习高级特征并执行预测任务。与以往研究中传统的具有k-mer特征的机器学习模型不同,DeepLncLoc具有两个优势==:
1)利用新的子序列嵌入方法,输入的lncRNA序列保留了序列顺序信息;
2)textCNN具有更强大的高级特征提取能力==。

我们进行了大量的实验来评估DeepLncLoc的性能。通过与具有不同k-mer特征的传统机器学习模型的比较,我们可以看出,使用子序列嵌入编码整个lncRNA序列比仅使用k-mer特征编码更有优势。与独立测试集上现有的预测因子进行比较,表明DeepLncLoc具有预测lncrna亚细胞定位的能力。此外,我们还研究了不同物种的影响。最后,我们开发了一个用户友好的web服务器。

方法

在DeepLncLoc中,我们将序列分成若干连续的子序列,然后利用平均池化层提取每个子序列的模式;last结合这些模式,获得了lncRNA序列的完整表示。在获得完整表征后,利用文本卷积神经网络(textCNN)学习高级特征并执行预测任务。与以往研究中传统的具有k-mer特征的机器学习模型不同,DeepLncLoc具有两个优势 :1)利用新的子序列嵌入方法,输入的lncRNA序列保留了序列顺序信息== 2)textCNN具有更强大的高级特征提取能力。

我们进行了大量的实验来评估DeepLncLoc的性能。通过与具有不同k-mer特征的传统机器学习模型的比较,我们可以看出,使用子序列嵌入编码整个lncRNA序列比仅使用k-mer特征编码更有优势。与独立测试集上现有的预测因子进行比较,表明DeepLncLoc具有预测lncrna亚细胞定位的能力。此外,我们还研究了不同物种的影响。最后,我们开发了一个用户友好的web服务器。

数据集

与之前的研究类似,我们从rnallocator数据库中检索已知的lncRNA亚细胞定位信息(Zhang, et al., 2016)。目前版本的rnallocator收集了42,190个手工整理的rna相关亚细胞定位条目,有实验证据。它包含超过23100个rna,在65个物种中有42个亚细胞定位。我们生成了一个基准数据集来训练和测试我们的模型,步骤如下:

  1. 所有42,190个手工策划的rna相关亚细胞定位条目从rnallocator数据库下载;
  2. 从42,190个手工筛选的rna相关亚细胞定位条目中,共选择了2,383个手工筛选的lncrna相关亚细胞定位条目;
  3. 有些lncrna在提取的条目中有多个条目,我们将这些条目用相同的基因名合并。然后我们删除了NCBI和Ensembl中没有序列信息的lncrna。
  4. 由于大多数lncrna只有一个亚细胞定位,所以我们在本研究中选择了位于一个位置的lncrna进行模型构建。
  5. 过滤后的数据集涵盖七个不同的亚细胞定位。7个亚细胞定位中有2个样本数量非常少(少于10个)。因此,我们移除了这些位于这两个亚细胞位置的lncrna

最后,我们构建了一个包含857个lncrna的基准数据集,涵盖了5个亚细胞定位,包括细胞核、胞质、核糖体、细胞质和外泌体(见补充图S1)。表1列出了构造的基准数据集的分布

仅适用k-mer编码的局限性

在将原始RNA序列放入机器学习或深度学习模型之前,需要将RNA序列编码为数字向量。目前应用广泛的RNA序列包埋方法有两种。第一个是将每个核苷酸编码成一个四维一维热载体。A、C、G和U分别用一个one-hot(1,0,0,0)、(0,1,0,0)、(0,0,1,0)和(0,0,0,1)进行编码(Pan, et al., 2019)。然后用这四种载体编码RNA序列。然而,使用一次性编码在实践中有两个缺点。第一个缺点是单热点向量稀疏,即只有一小部分特征参与预测任务。第二个缺点是使用单热编码很难准确地表示不同核苷酸之间的相似性。第二种方法是利用k-mer特征编码RNA序列。k-mer特征编码方法实现非常简单,它将变长lncRNA序列映射到一个固定维数的向量。因此,k-mer特征编码方法是预测lncRNA亚细胞定位中应用最广泛的方法。之前的方法(LncLocator (Cao, et al., 2018), iLoc-lncRNA (Su, et al., 2018)和DeepLncRNA (Gudenas和Wang, 2018))使用k-mer特征进行lncRNA嵌入。形式上,我们假设一个lncRNA序列表示为:lncRNA = N1, N2, N3,…,NL(1),其中L表示lncRNA的长度,Ni是lncRNA序列i位的四个碱基之一(a, C, G, U)。对于给定的k, k-mer特征表示lncRNA序列中单个kmer的频率。我们以3-mer为例,每个位置可以有4个核苷酸碱基(A、C、G和U),因此我们有43个,即64个3-mer特征(AAA、AAC、…、UUU)。然后我们可以用一个64维的向量来表示一个lncRNA序列,每个维度都用来记录某个3-mer的出现时间。图1绘制了单个RNA序列的k-mer编码方法。k-mer特征编码方法易于理解和实现。但是使用k-mer特性有一个缺点。即k-mer特征编码方法丢失了原始lncRNA序列的顺序信息。K-mer特征编码方法只考虑K-mer的出现,忽略了K-mer在原始lncRNA序列中的位置。如RNA A为“ACACACGCGC”,RNA A的3-mer特征为{ACA, CAC, ACA, CAC, ACG, CGC, GCG, CGC};我们将RNA序列倒置得到RNA B“CGCGCACACA”,RNA B的3-mer特征为{CGC, GCG, CGC, GCA, CAC, ACA, CAC, ACA}。可以看出,这两个RNA序列的顺序是颠倒的,但它们的3-mer特征是非常相似的。这两个3-mer特征的区别只是一个3-mer (RNA A中的“ACG”与RNA B中的“GCA”),当使用64维3-mer载体编码两个lncRNA序列时,只有两个维度是不同的。

Illustration of the k-mer encoding method for single RNA
sequence, where k is set to 3. The example RNA sequence is
“ACCGUUCCGA”.

2.3子序列嵌入

为了克服这种局限性,我们提出了一种有效的子序列嵌入方法来保持lncrna的序列顺序信息。主要思想是我们将一个lncRNA序列****分割一些序列之间不重叠的连续子序列,然后提取每个子序列的(特征基因组)(#模式);最后,我们将这些特征基因组(#模式)结合起来,以获得lncRNA序列的完整表示。这样,我们可以保持序列的顺序信息。该思想来源于空间金字塔池网(SPP)(He, et al., 2015), He等人提出了空间金字塔池网,从任意子图像中获取特征,生成整幅图像的固定长度表示。我们转移并修改了他们的想法来编码lncRNA序列。

**我们将一个lncRNA序列分成m个连续的子序列,表示为一个lncRNA序列:lncRNA = S1, S2, S3,…,Sm(2)其中Si为第i个子序列。Lsi是Si的长度。将一个lncRNA序列分成m个子序列后,下一步就是对这些子序列进行编码。**词嵌入技术在许多自然语言处理应用中显示出前景,包括文本分类、情感分析和词性标注。我们使用单词嵌入技术对子序列进行编码。具体来说,我们在我们的数据集中预先训练lncRNA序列,利用word2vec技术获取k-mer的分布表示,然后利用k-mer特征的分布表示来表示子序列。Word2vec是一种流行的词嵌入技术(Mikolov等,2013)。它的目标是自动学习语料库中每个单词的密集向量。word2vec技术有两种模型:跳跃图模型和连续词袋模型。跳跃图模型使用中心词来预测上下文词汇。在训练过程中,我们最大化了中心词和对应上下文词的同现似然函数。在我们的研究中,我们使用gensim库来学习lncRNA序列的kmer特征(Rehurek and Sojka, 2010)。从{1,2,3,4,5,6}中选择参数k,寻找最优值.

子序列嵌入的步骤(见图2中的子序列嵌入部分)描述如下:
1. 我们使用gensim库来学习数据库中所有lncRNA序列的k-mer (d维)表示向量。
2. 对于给定的lncRNA,我们把它分成m个子序列,每个子序列的长度为Lsi.
3. 根据步骤1中的k值,对每个子序列使用kmer特征进行编码。
4. 找到每个k-mer的预先训练的向量,然后将这些向量组合成一个矩阵作为子序列的表示。
最后,我们将每个lncRNA子序列转换为一个维数为(Lsi-2) * D (Lsi为每个子序列的长度)的矩阵,这就是我们深度学习模型的实际输入。

2.4网络体系结构

至此,我们已经得到了每个子序列的表示。那么问题就来了:我们如何利用子序列的表示来预测亚细胞定位呢?我们有m个子序列,每个子序列的表示是一个维数为D (Lsi-2)的矩阵。如果我们把它们直接放在一起,尺寸是NxD* (Lsi-2),这有两个缺点。

首先,不同lncRNA序列中不同子序列Lsi的长度是不一样的=如果我们直接把它们放在一起,我们必须把它们垫成相同的长度。这意味着我们必须在原始序列的末尾填充很多0,这就在子序列和全是0的向量之间带来了很多无意义的东西==。

第二,直接把它们放在一起后,维数太大,造成了大量的计算浪费。(此文中是864*(Lsi-2) 基本上rna长度超过3000 则维数为864*(3000+) )

r

为了解决这两个限制,我们使用平均池化层来提取子序列的每个通道中的子序列。

通过使用平均池化层,每个序列的维数由D x(Lsi-2)降为D(从864*(3000+)降到了864)。可以看出,D是k-mer预训练向量的维数,与lncRNA子序列Lsi的长度无关。使用这种方法,我们不需要填充零和降维。

图2所示。深度神经网络结构说明。这个数字只是一个例子。网络结构由三部分组成:子序列嵌入、平均池化层和Textcnn。

输入的是长度为400的lncRNA序列。lncRNA序列被分成4个子序列。序列嵌入部分有四个步骤。在子序列嵌入之后,我们使用平均池化层来提取每个子序列的模式。然后我们将这些模式组合在一起,得到一个矩阵作为整个lncRNA序列的表示。最后,利用文本cnn学习高级特征并执行预测任务.

在使用平均池化层获得每个子序列的表示后,我们将它们组合在一起,得到整个lncRNA序列的完整表示。

下一步是预测亚细胞定位。TextCNN是一种用于文本分类的功能强大的深度学习网络结构。传统的cnn是用于处理二维图像数据的二维cnn。实际上,文本可以被看作是一维的图像,所以我们可以使用一维的CNN来提取文本的特征。TextCNN使用一维卷积层和最大池化层提取序列特征(Kim, 2014)。受其在生物信息学上的成功启发(Zeng, et al., 2019),我们使用textCNN提取完整表征的特征。

具体来说,我们有m个子序列,每个子序列的表示是D。我们将它们组合在一起,形成一个维数为N*D的矩阵来表示整个序列。lncRNA序列的表示可以看作是一维图像,宽度为N,高度为1,通道为d。textCNN利用三个卷积核(size = 1,3,5)来提取高阶特征,捕捉相邻核苷酸的相关性。然后textCNN在所有通道上执行一个最大池化层,以获得最显著的特征,并降低输出向量的维数。最后,利用softmax函数将max-pooling层的输出向量连接在一起作为全连接层的输入,进行最终的预测。图2给出了整个网络结构的示意图。

1.softmax函数:https://blog.csdn.net/lz_peter/article/details/84574716

实现细节

DeepLncLoc是用PyTorch实现的(Paszke等人,2017)。DeepLncLoc中使用的损失函数是非α平衡形式的焦损失(Lin, et al., 2017)。它用于对象检测来解决这个类不平衡的问题。定义如下:

n:训练样本
y:真实标记
yperd:预测标记
γ(gamma):集中参数

跳跃图模型(Mikolov, et al., 2013)用于预先训练k-mer向量进行嵌入。textCNN中使用三个卷积核(size = 1,3,5, filter number=128)提取相邻核苷酸的高级特征。分类部分的全连接层有384个神经元。为避免过拟合,在嵌入层和全连接层分别采用0.3和0.5的丢失率。最后,我们使用自适应动量优化器训练DeepLncLoc,初始学习率设置为0.001。

结果

3.1 DeepLncLoc超参数优化
我们使用5倍交叉验证(5倍CV)基于Macro F-measure值对DeepLncLoc超参数进行优化。在我们的模型中,很多超参数都会影响计算结果,如参数k、子序列个数、k-mer预训练向量的维数、初始学习率、核大小等。在本研究中,我们最关心的是子序列嵌入对计算结果的影响。因此,我们认为参数k、子序列数m和k-mer d的预训练向量维数是主要的调优超参数。采用网格搜索策略,找出三个超参数的最佳组合。参数k从{1,2,3,4,5,6}中选取,子序列个数m从{16,32,64,128,256}中选取,预训练向量d的维数从{64,128}中选取。我们对这些超参数进行了调整,以找到最终的模型参数(见补充表S1)。从表S1中可以看出,很难直接确定参数。我们分析发现,当k和m过高或过低时,性能都不稳定。为了保证DeepLncloc的泛化,将k、m、d分别设置为3、64、64。在此设置下,DeepLncLoc获得的ACC、Macro F-measure和AUC分别为0.548、0.421和0.820。

3.2与不同k-mer特征的传统机器学习分类器的比较
考虑到具有k-mer特征的传统机器学习分类器广泛应用于lncRNA亚细胞定位的预测,我们将DeepLncLoc与支持向量机、随机森林(RF)和logistic回归(LR)三种传统机器学习模型进行了比较。这些机器学习模型中的参数k从{3,4,5,6}中选取。我们没有考虑k的高低,因为k的高低会增加欠拟合或过拟合的风险。例如,2-mer特征的维数为42,即16,这几乎无法编码数据库中所有序列的多样性。在这种情况下,模型有很高的欠拟合风险。7-mer feature的尺寸是47,即16,384,远远超出了所有样本的数量。在这种情况下,模型有很高的过拟合风险。结果如表2所示。

表2。DeepLncLoc和不同k-mer特征的机器学习模型的性能。

从表2中,首先注意到不同k-mer特征的每种机器学习模型的性能是不同的。可以看出,当k分别为5、4时,SVM、RF的性能最好。对于LR,最高的ACC,宏f测量,AUC分别达到k=3, 6, 3。其次,DeepLncLoc获得的所有评价指标都高于其他机器学习分类器。DeepLncLoc的ACC和Macro F-measure明显高于其他机器学习方法。DeepLncLoc的AUC略高于其他机器学习方法。图3绘制了DeepLncLoc等机器学习方法AUC最高的ROC曲线。很明显,DeepLncLoc在每个类上都有最高的AUC值。这表明我们提出的计算方法优于传统的具有k-mer特征的机器学习模型。

3.3与当前预测指标的比较

我们在之前的实验中使用了5倍CV。为了进一步评估DeepLncLoc在预测lncrna亚细胞定位方面的性能,我们使用独立测试集将DeepLncLoc与当前的预测因子进行了比较。

我们根据以下标准选择当前预测因素:i)网络服务器或独立版本的可用性;ii)只需要lncRNA序列的输入;iii)输出包括亚细胞定位的预测评分。因此,lncLocator (Cao, et al., 2018)和iLoclncRNA (Su, et al., 2018)满足这些标准。LncLocator可以预测lncrna的5个亚细胞定位,包括细胞核、细胞质、胞质、核糖体和外泌体。iLoc-lncRNA可以预测lncrna的4个亚细胞定位,包括细胞核、细胞质、核糖体和外泌体。我们使用lncLocator (http://www.csbio.sjtu.edu.cn/bioinf/lncLocator/)和iLoc-lncRNA (http://lin-group.cn/server/iLoc-LncRNA/download.php)的web服务器进行比较。

我们使用一个独立的测试集将DeepLncLoc与两个预测因子(lncLocator和iLoc-lncRNA)进行比较。测试集由另一个lncRNA亚细胞定位数据库lncSLdb和最近的文献创建。由于lncSLdb数据库只收集了5个亚细胞定位:细胞核、染色体、细胞质、核质和核糖体,而胞质和外泌体的亚细胞定位没有记录。因此,我们从lncSLdb数据库中的3个亚细胞定位(细胞核、细胞质和核糖体)中随机选取一些样本。为了从胞质和外泌体的亚细胞定位中获取其他样本,我们使用以下关键词:lncRNA和各亚细胞定位,在PubMed数据库中搜索一些近期的文献,然后从NCBI数据库中获得lncRNA序列。我们使用cd-hit工具去除冗余序列,截断率为90%。最后,检测组包含20份细胞质样本,20份细胞核样本,10份核糖体样本,10份胞质样本,7份外泌体样本(见补充表S2)。独立测试集中的所有lncRNA序列不用于DeepLncLoc的构建。独立测试集可以通过https://github.com/CSUBioGroup/DeepLncLoc/tree/master/Independent _test_set访问。

表3。对比DeepLncLoc与lncLocator、iLoc-lncRNA在测试集上的预测性能。

DeepLncLoc和lncLocator的混淆矩阵见补充图S2。由于iLoc-lncRNA将细胞质和细胞质视为一类,所以它只能预测四类(核、细胞质、核糖体和外泌体)。为了使比较公平,我们在比较DeepLncLoc和iLoclncRNA时,将细胞质和细胞质作为一个类别。DeepLncLoc与iLoc-lncRNA的混淆矩阵见补充图S3。在补充无花果。S2和S3,每一行代表真正的类,每一列代表预测的类。对角线元素表示正确预测的样本数量。在68个lncrna中,我们的方法预测了36个正确的亚细胞定位,远高于lncLocator(25个),略高于iLoc-lncRNA(34个)。DeepLncLoc、lncLocator、iLoc-lncRNA的检测结果见表3。显然,DeepLncLoc的准确率高于lncLocator和iLoc-lncRNA。DeepLncLoc(5类)的Macro Precision、Macro Recall、Macro Fmeasure分别为0.702、0.524、0.563,显著高于lncLocator(0.282、0.310、0.283)。当我们将DeepLncLoc(4类)与iLoc-lncRNA进行比较时,也观察到类似的结果。所有结果表明,DeepLncloc可能是预测lncrna亚细胞定位的有用工具。我们给出了测试集中DeepLncLoc、lncLocator、iLoc-lncRNA的详细预测结果(参见补充表S3)。表4和表5中报告了测试集中每个类的DeepLncLoc、lncLocator和iLoc-lncRNA的精度、召回率和F-measure。我们观察到DeepLncLoc对细胞核、核糖体、胞质和外泌体的f -measure均高于lncLocator,而对细胞质的f -measure则低于lncLocator。我们在比较DeepLncLoc和iLoc-lncRNA时也观察到这种现象。此外,我们还注意到lncLocator没有正确识别出外泌体中的样本,这导致了外泌体预测结果非常糟糕。一种可能的解释是lncLocator和iLoc-lncRNA训练集中细胞质样本过多。机器学习模型自然会更倾向于细胞质,导致其他类的表现较差。因此lncLocator和iLoclncRNA倾向于将其他亚细胞定位归为细胞质。

不同物种的影响

此外,我们还研究了物种是否对分类结果有影响。数据集涵盖了6个不同的物种,lncrna的物种分布见Supplementary Table S5。有4个物种只有1个或2个lncrna,因此我们只使用了2个物种(智人和小家鼠)进行分析。智人组有461个lncrna,小家鼠组有391个样本。补充图S4描绘了DeepLncLoc在两个物种上的表现。如图所示,智人组的ACC和AUC分别为0.547和0.823,略高于小家鼠组(0.503和0.774)。

总结和思考

预测lncRNA亚细胞定位有助于了解lncRNA复杂的生物学功能。然而,现有的计算工具都使用k-mer特征对lncRNA序列进行编码,从而丢失了序列顺序信息。在本文中,我们提出了一个开源的深度学习模型DeepLncLoc,用于预测lncrna的亚细胞定位。DeepLncLoc使用一种新颖的子序列嵌入方法对lncRNA序列进行编码,然后应用文本cnn执行分类任务。与以往的研究相比,DeepLncLoc有两个新的设计思路:1)通过子序列嵌入,可以保持lncRNA序列的顺序信息;ii) textCNN可以自动从所有子序列的模式组合中获取高级特征。

将DeepLncLoc与其他传统机器学习方法进行比较,DeepLncLoc在精度、Macro F-measure和AUC方面优于所有具有不同k-mer特征的传统机器学习模型。这意味着我们提出的子序列嵌入方法可能比传统的k-mer特征更好。通过使用独立测试集将DeepLncLoc与现有预测器进行进一步比较,DeepLncLoc在分类准确率和Macro F-measure方面优于现有预测器。这表明DeepLncLoc可能是预测lncrna亚细胞定位的有用工具。

虽然我们的结果是有前途的,但仍然可以做一些改进。我们想指出DeepLncLoc的以下局限性:

  1. 由于rnallocator数据库中的大部分lncrna都只有一个亚细胞定位,所以我们在本研究中只选择了只有一个亚细胞定位的lncrna进行训练和测试。然而,在现实中,许多lncrna具有多个亚细胞定位。因此,在未来的工作中,如果我们能够收集到更多具有多个亚细胞定位的标记lncrna,我们就可以扩展数据集,训练出更强大的模型
  2. 我们在模型中只使用基于lncRNA序列的特征进行训练,没有考虑其他生物学信息。有一些有用的特征可以整合起来更好地预测亚细胞定位(Zeng, et al., 2019;Zhang等,2019)。例如,Gudenas等人利用k-mer特征、RNA结合基元和基因组位点来预测lncrna的亚细胞定位。因此,在未来,我们计划将其他生物信息整合到深度神经网络中。
  3. 为了降低计算成本和运行时间,我们没有使用非常复杂的深度学习模型来提取特征和执行分类任务。随着深度学习技术的发展,将会提出越来越强大的网络体系结构。因此,利用更强大的网络结构来预测亚细胞定位是一个很有前景的发展方向。
  4. 亚细胞定位的少数分类(如核糖体)是一个具有挑战性的问题。这可能有两个原因。首先,少数族裔的样本太少,导致我们的模型无法捕捉到少数族裔的模式。第二,类分布不均衡,分类器倾向于偏向多数类(如nucleus),从而导致对少数类的预测性能损失(He和Garcia, 2008)。

lncRNA序列长度的变化在现有的计算方法中很难解决。尽管我们的分析仅限于预测lncrna的亚细胞定位,但我们获得了有希望的结果。我们认为DeepLncLoc中的子序列嵌入方法可以作为RNA和DNA序列的一般表示方法。有望应用于其他相关的变长序列问题,如预测mRNA亚细胞定位(Yan, et al., 2019)、预测DNA n4 -甲基胞嘧啶位点(Wei, et al., 2018)、预测RNA形状(mauner, et al., 2019)。

一种基于子序列的亚细胞定位预测的深度学习框架(DeepLncLoc: a deep learning frame work for long non-coding RNA subcellular)相关推荐

  1. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  2. AI大事件 | 谷歌的计算引擎鸟枪换炮用上了更快的GPU,基于Python的亚马逊AWS深度学习AMI

    大数据文摘作品 编译 | 宁云州 呜啦啦啦啦啦大家好呀,又到了本周的AI大事件时间了.过去的一周中AI圈都发生了什么?大佬们互撕了哪些问题?研究者们发布了哪些值得一读的论文?又有哪些开源的代码和数据库 ...

  3. 论文解读:《多层肽 - 蛋白质相互作用预测的深度学习框架》

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

  4. STGCN时空图卷积网络:用于交通预测的深度学习框架

    时空图卷积网络:用于交通预测的深度学习框架 及时准确的交通预测对城市交通控制和引导至关重要.由于交通流的高度非线性和复杂性,传统的方法不能满足中长期预测任务的要求,往往忽略了空间和时间的相关性.本文提 ...

  5. 【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架](1)

    [论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...

  6. 论文解读:多层肽 - 蛋白质相互作用预测的深度学习框架

    Title:A deep-learning framework for multi-level peptide–protein interaction prediction 期刊:nature com ...

  7. 论文解读:Sadeepcry:使用自我注意和自动编码器网络的蛋白质结晶倾向预测的深度学习框架

    SADeepcry: a deep learning framework for protein crystallization propensity prediction using self-at ...

  8. DeepFunc:一种深度学习框架,可根据蛋白质序列和相互作用准确预测蛋白质功能

    摘要 蛋白质功能的诠释对于从分子水平理解生命具有重要作用.高通量测序产生了大量的原始蛋白质序列,只有大约1%的蛋白质序列被人工标注了功能.函数的实验性注释是昂贵的.耗时的,并且跟不上序列号的快速增长. ...

  9. 基于岭回归的数据增强与深度学习模型

    作者:禅与计算机程序设计艺术 <基于岭回归的数据增强与深度学习模型>技术博客文章 <基于岭回归的数据增强与深度学习模型> 引言 随着深度学习技术的快速发展,模型压缩.数据增强成 ...

最新文章

  1. 科大星云诗社动态20210225
  2. C语言二叉树的逆向有序遍历(附完整源码)
  3. CF1516E. Baby Ehab Plays with Permutations(组合数学)
  4. android startanimation 回调,ScheduledThreadPoolExecutor执行莫名停止问题Android几个动画回调运行线程...
  5. 一秒带你穿越!AI 修复百年前北京影像,路边摊、剃头匠太真实了
  6. atcoder 2017Code festival C ——D题 Yet Another Palindrome Partitioning(思维+dp)
  7. FlowNet: Learning Optical Flow with Convolutional Networks
  8. 【转】伪O2O已死?2016年实体零售将迎来真正的O2O
  9. 英雄联盟大乱斗一个队出现两个杰斯-多线程死锁
  10. php upload 上传类,发布一个PHP的文件上传类——Uploader
  11. hash冲突的4种解决方案
  12. Excel怎么求和?5大常用的Excel求和公式
  13. cocos2dx报错OpenGL error 0x0501
  14. 计算机与宽带路由的连接步骤,宽带拨号和设置路由器步骤【图】
  15. 靶基因高通量测序建库流程介绍
  16. LeetCode.No5——最长回文子串
  17. ssr pac_全新回馈丨购金币三日礼,获取主线SSR羁绊
  18. 关于微信小程序与Java后台交互数据中中文乱码问题的讨论
  19. 2017年营销行业八大趋势预测,H5居然...
  20. 二维码的扫描和生成二维码

热门文章

  1. No qualifying bean of type [com.*.*.dao.InfoDao] found for :错误!
  2. HDOJ 2080 数学
  3. PPT的一些技巧和工具
  4. 准备你的应用(Android免安装应用)
  5. WORD设置标题格式
  6. 如何打开已经 force-push 的 PR (branch was force-pushed or recreated)
  7. 说一说ADI公司的DSP发展历程
  8. 2021年Bootstrap实用手册和最强总结以及工具
  9. ionic+vue+capacitor系列笔记--capacitor3.X和2.X+android自定义capacitor的JSbridge插件注册与使用(不同版本注册方式不同,返回值格式也不同,使用
  10. TYPE1码本 一【5G笔记】