LncMirNet: Predicting LncRNA miRNA Interaction Based on Deep Learning of Ribonucleic Acid Sequences

  • 摘要
  • 1 介绍
  • 2 材料与方法
    • 2.1 材料
      • 2.1.1 数据集
      • 2.1.2 构建正样本和负样本
    • 2.2 方法
      • 2.2.1 总体工作流程
      • 2.2.2 构造特征
        • RNA序列的k-mer特征
        • 组成/转换(过渡)/分布(CTD)特性
        • 通过doc2vec得到RNA序列的分布式表示特征
        • 图嵌入方法表示RNA序列
        • 利用直方图- dd构造矩阵特征
      • 2.2.3 基于卷积神经网络的预测模型
    • 2.3 实现LncMirNet
    • 2.4 评估标准(Evaluation Criteria)
  • 3 结果
    • 3.1 实验设置
    • 3.2 特征组合的效果
    • 3.3 所有数据与其他六种方法的比较
    • 3.4 负样本分析
  • 4 讨论
  • 5 结论

摘要

长链非编码RNA (Long non-coding RNA, LncRNA)和microRNA (miRNA)都是非编码RNA,在许多生命过程中发挥着重要的调控作用。越来越多的证据表明,lncRNAs和miRNAs之间的相互作用模式与癌症的发生、基因调控、细胞代谢过程等高度相关。同时,随着RNA序列技术的快速发展,大量新的lncrna和mirna被发现,这可能有助于探索新的调控模式。然而,lncRNAs和miRNAs之间越来越多的未知相互作用可能会阻碍发现新的调控模式,而通过湿法实验来识别潜在的相互作用是昂贵和耗时的。此外,很少有计算工具可以基于顺序水平预测lncRNA miRNA相互作用。在本文中,我们提出了一种基于序列特征的混合模型LncMirNet (lncRNA miRNA interaction network),通过深度卷积神经网络(deep convolutional neural networks, CNN)来预测lncRNA miRNA的相互作用。首先,引入k-mer (k = 1,2,3,4)、组成过渡分布 (CTD)、doc2vec和图嵌入特征四类序列特征编码lncRNA/miRNA序列。然后,为了适应CNN的学习模式,采用直方图-dd方法将多种类型的特征融合到一个矩阵中。最后,通过五倍交叉验证,LncMirNet在从lncRNASNP2采集的真实数据集上与其他六种最先进的方法相比,获得了优异的性能。与其他工具相比,LncMirNet的精度和曲线下面积(area under curve, AUC)分别提高了3%以上,Matthews相关系数(MCC)提高了6%以上。这些结果表明LncMirNet在预测lncRNAs和miRNAs之间潜在的相互作用方面具有较高的可信度。

1 介绍

虽然非编码rna (ncRNAs)[1]不能编码蛋白质,但它们在许多生命过程中发挥着不可或缺的作用[2 7]。积累的研究表明,许多ncrna参与各种生命调控过程[8,9]。LncRNA和miRNA是两种典型的ncrna,是与癌症发生、基因调控、细胞代谢过程等相关的证据。miRNA是一种小的ncRNA,具有20 ~ 25个nt与lncRNA黏附(超过200个nt),间接调节基因表达[5],调节lncRNA功能,并与lncRNA合作完成调控过程。越来越多的证据表明,lncRNA和miRNA之间的相互作用有助于发现一些潜在的调控关系。因此,探索lncRNA与miRNA的相互作用可以帮助我们理解lncRNA与miRNA之间的一些复杂功能。在早期的研究中,研究者主要通过实验室实验探索未知的lncRNA miRNA相互作用。然而,通过生物实验室寻找lncRNAs和miRNAs之间潜在的相互作用是劳动密集型、耗时和昂贵的。同时,随着RNA测序技术的快速发展,已经发现了相当数量的新型lncrna和mirna。因此,人们提出了许多预测lncRNA miRNA相互作用的计算方法。2018年,Huang等人提出了一种群体偏好贝叶斯协同过滤模型(GBCF),基于已知的miRNA lncRNA相互作用网络[10],提取单个miRNA或lncRNA的topk概率排名表。同年,Huang等人采用基于图的预测方法(基于表达谱的lncRNA - miRNA相互作用预测模型,EPLMI),根据已知的lncRNA相互作用网络、lncRNA相互作用相似度和miRNA相互作用相似度[11]推断出最有潜力的lncRNA miRNA相互作用。2019年Huang等人提出了一种图卷积自编码网络方法,结合节点属性的原始数据和交互网络的拓扑结构,预测lncRNA与miRNA[12]之间的联系。图嵌入技术的快速发展,在2019年,周等人提出了一个图嵌入方法(GEEL)[13],使用线性社区相似(LNS)方法和已知的相互作用构建lncRNA microrna的交互图,然后介绍了四种图形嵌入方法(拉普拉斯特征映射,GraRep,高阶接近保留嵌入,DeepWalk)和图汽车编码器模型代表lncRNA / microrna的节点。根据嵌入结果,GEEL使用随机森林分类器预测lncRNAs和miRNAs之间潜在的相互作用。2020年,Kang等人利用原始RNA序列和110个序列特征分别喂食BiGRU模型和随机森林模型,训练一个混合模型(PmliPred)来预测lncRNAs和miRNAs[14]之间潜在的相互作用。以上方法虽然可以缓解一些问题,但也存在一定的局限性。例如,EPLMI需要lncRNAs和miRNAs的表达作为输入,但大多数情况下很难获得lncRNAs和miRNAs的特殊表达。此外,lncRNAs和miRNAs的表达具有组织特异性,不同定量方法之间的表达不一致。另一种流行的方法是GBCF,它可以预测已知lncRNA和miRNA之间潜在的相互作用,但是很难预测新的lncRNA和miRNA之间的相互作用。此外,PmliPred在植物中是预测lncRNAs和miRNAs相互作用的专家,而在动物中则表现不佳。

为了解决这些局限性,我们提出了一种基于序列特征的LncMirNet模型。**LncMirNet引入了基于RNA序列的特征,包括k-mer特征和基于成分转移分布(CTD)的特征[15],以及基于深度学习的特征,包括doc2vec和图嵌入作为输入属性。LncMirNet利用卷积神经网络(CNN)模型预测lncRNAs和miRNAs之间潜在的相互作用。主要包括三个步骤:(1)构造k-mer、CTD、doc2vec和图嵌入特征;(2)用直方图-dd法将构建的lncRNA/miRNA序列特征分别转化为相应的矩阵;(3)利用CNN模型重新学习上述构造矩阵特征,预测lncRNAs与miRNAs之间潜在的相互作用。**对于公共基准数据集(lncRNASNP2) [16], LncMirNet成功预测了lncRNAs和miRNAs之间潜在的相互作用,并具有较高的评价性能。

通过5倍验证,LncMirNet与其他6种最先进的方法相比,分别提高了3%以上的准确性和AUC。具体来说,在MCC方面,LncMirNet比其他方法提高了6%以上。此外,LncMirNet在其他指标上优于所有竞争方法。从实验结果中,我们可以得出结论,LncMirNet对于预测lncRNAs和miRNAs之间潜在的相互作用是一个可靠的、高可信度的工具,仅凭RNA序列特征。

2 材料与方法

2.1 材料

2.1.1 数据集

正训练数据来自于lncRNASNP2数据库(2018年1月版)[16],该数据库可在http://bioinfo.life.hust.edu.cn/上获得。在lncRNASNP2数据库中,通过实验室检查与研究文献证实了真实的交互作用。lncRNASNP2中的lncRNA以Ensemble ID表示,我们从GENCODE (https://www.gencodegenes.org/)[17]下载了相应的人类lncRNA序列。我们还从miRbase数据库(http://www.mirbase.org/)[18]中提取了人类miRNA序列。为了过滤掉真实的相互作用,当lncRNASNP2中的记录同时出现hsa-miR和ENST时,我们选择了阳性的lncRNA-miRNA对。最后,我们获得了258个miRNA, 1663个lncRNA,以及15386个验证lncRNA-miRNA相互作用及其对应序列。

2.1.2 构建正样本和负样本

在lncRNASNP2数据库中,有15386个验证的lncRNA-miRNA相互作用被视为阳性样本。对于负性交互作用,我们采用了之前研究中广泛使用的策略构建了GEEL、SG-LSTM[19]和GCLMI。首先,我们使用Knuth Durstenfeld shuffle算法[20]分别对lncRNA set和miRNA set进行10次shuffle,然后分别从lncRNA set和miRNA set中随机选取lncRNA (as lncRN1)和miRNA (as miRNA1)。其次,如果lncRNA1-miRNA1对在正相互作用和负相互作用中都没有出现,则认为lncRNA1 miRNA1相互作用为负样本。最后,为了平衡真样本和阴性样本,我们重复洗牌和选择过程,得到了15386个阴性样本。

2.2 方法

2.2.1 总体工作流程

在我们的方法中,首先计算lncRNA/miRNA序列的k-mer[21]、CTD[15]和doc2vec[22]特征。然后,基于这些特征,应用线性邻域相似性测度(LNS)[13]构建lncRNA/miRNA邻域图。然后,采用role2vec[23]图嵌入方法嵌入每个节点。Role2vec结合了图结构和节点属性信息来学习每个节点的表示。依次将lncRNAs/miRNAs的k-mer、CTD、doc2ve和图嵌入特征融合到一个矩阵中,通过直线图-dd拟合CNN学习模式。直方图-dd可以将多个向量融合成一个直方图矩阵。最后,将直方图矩阵输入到CNN模型中。CNN模型使用过滤器提取深层特征,学习如何预测lncRNAs和miRNAs之间潜在的相互作用。LncMirNet的总体工作流程如图1所示。



图1.LncMirNet的总体工作流程。(A)分别从0、1、2号位置开始的lncRNA/miRNA的子序列;(B)构造k-mer、CTD、doc2vec和图嵌入特征的过程;©将lncRNA/miRNA载体转化为矩阵的过程;(D)通过CNN模型预测lncRNA和miRNA之间潜在的相互作用过程。

2.2.2 构造特征

RNA序列的k-mer特征

RNA序列由腺嘌呤(A)、尿嘧啶(U)、胞嘧啶©和鸟嘌呤(G)组成。本文将RNA序列中的尿嘧啶(U)替换为T(胸腺嘧啶)。对于RNA序列来说,k-mer频率分布是一个基本且不可缺少的特征,可以用k-mer频率来表示。介绍了1-mer、2-mer、3-mer和4-mer四种k-mer特征,其中1-mer记录了A、T、C、G的计数;2-mer保存了AA, AT,…GG序列;3-mer持有AAA, AAT,…GGG个数?;4-mer存储了AAAA, AAAT,…GGGG的个数。最后,将四种k-mer特征合并成一个共340维(41 + 42 + 43 + 44 = 340)的向量。值得注意的是,在本文中,对于一个miRNA序列,我们只计算了1-mer、2-mer和3-mer特征,因为miRNA序列通常很短(平均长度小于30 nt),而miRNA的4-mer特征通常很稀疏。

组成/转换(过渡)/分布(CTD)特性

组成转移分布[1]是由Dubchak的著作[24]建立的一种全局的蛋白质序列描述子,主要用于预测蛋白质折叠类。近来,人们发现CTD特征与RNA结构相关,很少用于预测lncRNAs与miRNAs之间的相互作用。因此,在本文中,我们使用CTD特征来表示RNA的结构信息。30维的CTD特征来源于组成、转换和分布,其中组成特征是特定性质的氨基酸的数量除以氨基酸的总数,转换特征表征了一种特定性质的氨基酸之后紧跟着另一种不同性质的氨基酸的频率百分比,而分布特征表征了一种特定性质的第一个、25%、50%、75%和100%氨基酸所在的链长。

例如,我们使用一个玩具RNA序列ATACGTACTGCT GACGTAGC来展示如何计算CTD特征。玩具RNA序列包含5a, 5t, 5g, 5c,所以组成是5/20 = 0.25,5/20 = 0.25,5/20 = 0.25,5/20 = 0.25。转换包括AT、AC、AG、TG、TC和GC,这六个特征描述了四个核苷酸在相邻位置之间转换的百分比频率。AT表示A相邻T或T相邻A的频率百分比。AC、AG、TG、TC和GC是AT的相同公式。因此,玩具 RNA序列的转换值为2/19 = 0.105,3/19 = 0.158,2/19 = 0.105,4/19 = 0.211,2/19 = 0.105,4/19 = 0.211。分布是沿每个核苷酸转录序列的5个相对位置,分别为0(第一个节点)、25、50、75和100%(最后一个节点)来测量核苷酸的分布。 如A,0%位于玩具 RNA序列的第1位,25、50、75位,100%位于第三、第七、第十四、第十八位。因此,1/20 = 0.05,3/20 = 0.15,7/20 = 0.35,14/20 = 0.7,18/20 = 0.9。Ts、Gs、Cs分别为0.1、0.3、0.45、0.6、0.85、0.25、0.5、0.65、0.8、0.95、0.2、0.4、0.55、0.75、1。我们用A0、A1、A2、A3、A4、T0、T1、T2、T3、T4、G0、G1、G2、G3、G4、C0、C1、C2、C3、C4来表示这20个特征[1]。

通过doc2vec得到RNA序列的分布式表示特征

一个RNA序列可以看作是一个句子。因此,可以引入神经语言处理(NLP)[25]中的句子编码方法来表示RNA序列。本文推荐doc2vec[22]构建RNA序列的分布式表示特征。Doc2vec使用局部上下文和句子全局信息来学习句子表示。首先,利用3-mer窗口对一个连续的RNA序列进行分段,并转步骤1。其次,用分段的3-mers训练一个doc2vec模型。最后,根据训练好的doc2vec,任何RNA序列都可以编码到固定大小的向量中。doc2vec编码的RNA序列的流水线如图2所示,其中序列全局信息记录了序列索引,该索引将推断为一个固定大小的向量来表示RNA序列。

图2.doc2vec的训练和推理流水线。 (A) 3-mer分割过程;(B) doc2vec模型的训练过程;©推断doc2vec编码RNA序列到固定大小载体的过程。

图嵌入方法表示RNA序列

lncRNA-lncRNA/miRNA-miRNA相互作用图包含图形结构信息。这些图信息有助于lncRNA/miRNA序列的编码。图中的每个节点表示一个lncRNA/miRNA,每条边表示它们之间的相互作用。为了构建lncRNA/miRNA相互作用图,我们将lncRNA/miRNA序列的k-mer计数、CTD和doc2vec编码特征合并到并载体中。然后,通过LNS(线性邻域相似性测度)利用并集向量构建lncRNA的lncRNA相似度矩阵。例如,一个lncRNA (as lnc1),其相似度权重大于0的前15个近距离lncRNA被认为是已经存在的连接。基于此策略,将紧密同源的lncRNA与Lnc1相连,构建lncRNA的相互作用图。对于miRNA-miRNA相互作用图,构建过程类似于lncRNA的相互作用图的构建。最后,由于role2vec能够充分利用图结构和节点属性,采用role2vec嵌入方法对每个节点进行编码。本文根据作者的建议,将嵌入维数设为128,随机游走序设为1,其余参数设为值。图嵌入后,lncRNA和miRNA都用128维向量融合序列和几何信息来表示。

利用直方图- dd构造矩阵特征

多分类特征的融合策略可以提高分类器的性能。因此,我们使用直方图-dd方法将lncRNA/miRNA向量转化为对应的矩阵,这恰好符合CNN的学习模式。与[26]的方法一样,lncRNA/miRNA序列可以分别从0、1、2三个位置开始分解为三个子序列。对于这些lncRNA/miRNA的子序列,我们使用每个子序列计算其对应的k-mer、CTD、doc2vec和图嵌入特征。最后,直方图-dd将lncRNA/miRNA的这四类特征整合到相应的大小分别为20 × 20 × 4的矩阵中。将lncRNA/miRNA向量转化为矩阵的优点在于,转化后的矩阵不仅保存了一维特征的原始信息,而且符合支持lncRNA与miRNA相互作用预测的CNN学习模式。

2.2.3 基于卷积神经网络的预测模型

深度学习技术在生物信息学的诸多应用中取得了众多成就。CNN作为重要的深度学习模型之一,利用卷积核函数从原始输入数据矩阵中自动提取潜在特征。许多成功的生物信息学应用证明,CNN是一种解决分类和监管问题的强大算法。因此,我们使用CNN来预测lncRNAs与miRNAs之间的相互作用。CNN预测器模型由多个卷积层、密实层(全连通层)、批处理归一化层、dropout层等组成。首先,CNN模型的输入是两个大小为20204的张量,分别对应lncRNA和miRNA。在穿越多个CNN层后,分别将lncRNA张量和miRNA张量合并为一个融合张量,用于连接密集层。每个卷积层由多个3*3核大小的滤波器、步幅和规则激活函数组成。将Dropout层嵌入到卷积层中,增强CNN的鲁棒性。采用批处理归一化层对中间数据进行归一化,提高训练速度。我们在输出层上选择了一个sigmoid激活函数。当预测结果大于0.5时,我们认为候选lncRNA miRNA对存在相互作用。LncMirNet的详细结构和参数见补充图S1。

这里Conv2d(D, N, K, S) 表示一个二维卷积层,其内核大小为KxK,步幅S,输入深度D和输出深度(即该层中的卷积内核数)为N。
Conv2d(3, 64, 3, 1) 输入深度为3,内核大小为3x3,步幅= 1,并且有64个内核,结果输出深度为64。
Conv(64,(3,3),1)内核大小为3x3,步幅为1,64个内核

2.3 实现LncMirNet

LncMirNet由Keras 2.3.1和后端Tensorflow 1.15.0实现,所有脚本由Python 3.6编写。LncMirNet在一个开放的Linux操作系统下,运行在一台4.3 GHz、8核CPU、16gb RAM的PC上。

2.4 评估标准(Evaluation Criteria)

采用广泛使用的标准性能指标对LncMirNet进行评价,包括敏感性(SN)、特异性(SP)、准确性(ACC)、F1-score (F1)和Matthews相关系数(MCC)。这些评估指标的定义如下

其中TP、FP、TN、FN分别表示真阳性、假阳性、真阴性、假阴性。我们还绘制了受试者工作特征曲线(ROC),并计算了曲线下面积(AUC),以精确地显示每个模型的不同性能。

3 结果

3.1 实验设置

构建k-mer特性时,我们使用了转发第一步的1模(41 = 4), 2模(42 = 16),3模(43 = 64),和4模(44 = 256)与转发第一步,所以总共生成了340个特征来代表lncRNA序列,而由于miRNA的长度较短,对于miRNA序列我们只使用了1-mer、2-mer和3-mer。CTD方法产生一个30维的特征来编码一个lncRNA/miRNA序列。Doc2vec是一种无监督的方法,它结合了RNA序列的局部上下文信息和序列全局信息,将任何RNA长度序列指示到一个固定大小的载体。在训练doc2vec模型之前,lncRNA/miRNA序列将被分割成3-mer项目。基于lncRNA/miRNA序列的分段3-mer项,采用分布式记忆(PV-DM)[27]策略训练doc2vec模型。我们分别设置了一个128维向量和一个64维向量来保存lncRNA序列和miRNA序列的序列全局信息。图嵌入方法采用role2vec方法。利用Role2vec生成同时关注网络结构和邻居信息的嵌入表达式。lncRNA/miRNA图中的每个节点都嵌入到一个128维向量中。功能建设的过程后,我们获得340 -维k-mer向量,30-dimensional CTD向量,128 -维doc2vec向量,和128维邻居图嵌入向量lncRNA序列以及一个84 -维k-mer向量,30-dimensional CTD向量,64 -维doc2vec向量,和128维邻居图嵌入向量microrna的序列。由于CNN的学习模式,对输入的矩阵数据比较友好,我们采用直方图-dd方法将lncRNA/miRNA向量分别转换成一个20 20 4矩阵,并将这些矩阵输入到CNN模型中进行训练。

3.2 特征组合的效果

为探究四种类型特征(k-mer特征、CTD特征、doc2vec特征、图嵌入特征)不同组合的表现,对所有数据进行五倍交叉验证实验。如表1所示,在训练和测试数据集上,使用各种特征训练的LncMirNet在单独使用k-mer特征时取得了更好的性能和最低的精度。结果表明,整合四种特征是预测lncRNAs和miRNAs之间潜在相互作用的有力组合。表1记录了五倍交叉验证结果。

3.3 所有数据与其他六种方法的比较

为了评价LncMirNet的性能,我们将LncMirNet与其他6种最先进的方法(gel、PmliPred、BiLSTM、SEAL、SVD、Katz)进行比较。GEEL利用5-mer特征,采用线性邻域相似度法计算lncRNA lncRNA/miRNA miRNA相似性矩阵,构建lncRNA/miRNA相互作用异构网络。GEEL使用多种图嵌入方法和图自动编码器[28]来表示每个lncRNA/miRNA序列,并训练一个随机森林分类器来预测可行的交互作用。PmliPred是基于植物lncRNA miRNA相互作用预测的混合模型和模糊决策。PmliPred批准了110个特征,包括lncRNA/miRNA序列的k-mer频率、GC含量、碱基对数量和最小自由能,以形成特征并训练随机森林模型。PmliPred还通过one-hot对RNA序列进行编码,训练出CNN-BiGRU模型。PmliPred根据随机森林模型和CNN-BiGRU模型的预测结果,采用模糊决策对最终结果进行预测。LncRNA miRNA相互作用问题可以看作是一个图链预测问题。在本文中,我们还介绍了一种链接预测模型,即子图、嵌入和链接预测属性(SEAL),作为比较方法。SEAL使用图形神经网络(GNN)从局部子图中学习启发式,使其能够获得更好的图特征学习能力。由于RNA序列是一种时间序列数据结构,我们也引入了时间序列深度学习模型BiLSTM作为比较方法。BiLSTM由RNA序列的单热嵌入矩阵输入,输出预测的相互作用概率。此外,我们还选择了传统的矩阵分解方法奇异值分解(Singular Value Decomposition, SVD)作为比较方法,它使用邻接矩阵的分解方法来表示lncRNA和miRNA。基于SVD的表示,我们使用随机森林模型对lncRNA和miRNA之间的相互作用进行分类。Katz通常用于链接预测问题,可以区分不同邻居节点的影响,得到每个节点的影响值。Katz基于节点的影响,利用随机森林模型预测lncRNAs和miRNAs之间潜在的相互作用。

采用5次交叉验证方法对7种模型的性能进行评价。所有的lncRNA miRNA相互作用被随机分为5个大小相等的亚群。采用敏感性、特异性、F1-score、准确性和MCC作为评价指标,计算auc并绘制roc图来区分各预测模型的性能。如表2所示,LncMirNet MCC得分为0.7124,AUC得分为0.9381,优于gel (MCC得分:0.6445;AUC得分:0.8982),PmliPred (MCC得分:0.6004;AUC得分:0.9030),BiLSTM (MCC得分:0.4359;AUC分数:0.7876),SEAL (MCC分数:0.5754;AUC得分:0.8658),SVD (MCC得分:0.3142;AUC得分:0.7156)和Katz (MCC得分:0.1930;AUC得分:0.6459)。在灵敏度、特异性、F1-score和准确性等其他指标上,LncMirNet的表现大多优于比较方法。LncMirNet的优异性能有两个原因。一方面,LncMirNet通过图嵌入的方法充分利用lncRNA lncRNA/miRNA miRNA图的结构信息,整合了k-mer、CTD、doc2vec等多种RNA序列特征。另一方面,LncMirNet通过直方图-dd将lncRNA/miRNA向量转换为矩阵,并使用强大的CNN模型重新学习潜在特征,以提高LncMirNet的性能。基于这些优势,LncMirNet获得了比其他最新方法更好的性能。此外,LncMirNet并不局限于预测已知lncrna与已知mirna之间的相互作用。LncMirNet的学习模式也适用于其他交互问题。我们还绘制了七种方法的ROC曲线,进一步显示了不同的性能。图3显示了7条ROC曲线,我们可以看到LncMirNet曲线在所有比较方法中都在上面。


图3。通过五倍交叉验证七种方法对所有数据的接收者工作特征曲线。

3.4 负样本分析

本文将无相互作用的lncRNAs和miRNAs配对作为阴性样本。我们生成与已知阳性样本相同数量的阴性样本,以获得一个平衡的数据集。然而,在大多数情况下,正数据集和负数据集并不平衡。因此,我们尝试探索LncMirNet在不同样本比例下的性能。β记录在0.25、0.5、1.0、2.0 ~ 4.0范围内的阴性样品和阳性样品的不同比例。表3为实验结果。虽然数据集不平衡,LncMirNet仍然可以获得很好的结果。当β为1.0时,LncMirNet具有较高的AUC值。不平衡数据集实验表明,LncMirNet是预测lncRNAs和miRNAs之间潜在相互作用的稳健且可靠的模型。

4 讨论

深度学习技术在许多生物信息学问题上取得了令人鼓舞的成就。由于训练数据的增加和网络结构的相对复杂,识别lncRNA miRNA相互作用的问题是探索lncRNA和miRNA之间功能的重要而不可缺少的步骤。随着RNA序列技术的不断发展,许多新的lncRNA和miRNA被发现。如何轻松地确定他们之间的互动是当务之急。提出了一种基于混合特征的深度学习模型。首先,利用k-mer、CTD和doc2vec特征来表示lncRNA/miRNA序列。然后,根据lncRNAs/miRNAs的序列特征,LNS生成lncRNA-lncRNA图和miRNA miRNA图。为了充分提取图信息,我们引入了role2vec图嵌入方法来表示每个节点(lncRNA/miRNA)。这些杂交特征可以从不同角度完全编码一个lncRNA/miRNA序列。依次,lncRNA/miRNA的特征通过直方图-dd转换为对应的矩阵,用于输入CNN模型。这些转换后的矩阵不仅保存了原始信息,而且符合CNN的学习模式。这些管道与具有两次特征学习的级联学习是同源的。此外,该学习模式还可以推广到其他类似的问题,如蛋白质蛋白相互作用、基因miRNA相互作用等。因此,LncMirNet由于混合特征嵌入和CNN学习模式,取得了较好的性能。

5 结论

在本文中,我们提出了一种基于k-mer、CTD、doc2vec和图嵌入特征的混合序列特征和一个CNN模型LncMirNet来预测lncRNA miRNA相互作用的新方法。LncMirNet是一种仅依赖RNA序列特征的有效方法。在lncRNASNP2上的对比实验表明,LncMirNet在AUC和MCC方面分别提高了3%以上,提高了6%,在不平衡数据集上具有很好的泛化能力。LncMirNet的预测结果可能为未来lncRNA miRNA相互作用数据库的构建奠定基础。LncMirNet也可为其他相互作用预测研究提供有价值的参考。总之,LncMirNet仅通过序列特征成功地识别了lncRNA miRNA的相互作用,这可能有助于其他相互作用研究。

LncMirNet:基于核糖核酸序列深度学习预测LncRNA miRNA相互作用相关推荐

  1. HyperAttentionDTI:基于注意机制的序列深度学习改进药物-蛋白质相互作用预测

    题目: HyperAttentionDTI: improving drug–protein interaction prediction by sequence-based deep learning ...

  2. 基于阈值和深度学习的玉米常见锈病严重程度自动模糊逻辑预测(工具+综述+玉米锈病严重程度数据集)

    基于阈值和深度学习的玉米常见锈病严重程度自动模糊逻辑预测 Abstract 人工智能(AI)的发展使植物病理学的许多应用成为可能.例如,许多研究人员使用了预先训练的卷积神经网络(CNNs),如VGG- ...

  3. 基于机器学习与深度学习的金融风控贷款违约预测

    基于机器学习与深度学习的金融风控贷款违约预测 目录 一.赛题分析 1. 任务分析 2. 数据属性 3. 评价指标 4. 问题归类 5. 整体思路 二.数据可视化分析 1. 总体数据分析 2. 数值型数 ...

  4. 基于python的深度学习框架有_《用Python实现深度学习框架》上市

    朋友们,<用Python实现深度学习框架>已经由人民邮电出版社出版上市了.在这本书中,我们带领读者仅用Python+Numpy实现一个基于计算图的深度学习框架MatrixSlow.本书讲解 ...

  5. 综述:如何构建交通领域的基于图的深度学习架构

    How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey 论文简介 摘要 本文贡献 相关工作 问 ...

  6. AI技术在气象领域应用方法:GFS数值模式的风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、深度学习预测浅水方程模式、LSTM方法预测ENSO、深度学习convLSTM

    查看原文>>>Python人工智能在气象中的应用 Python是功能强大.免费.开源,实现面向对象的编程语言,在数据处理.科学计算.数学建模.数据挖掘和数据可视化方面具备优异的性能, ...

  7. 人脸识别学习一(Keras: 基于 Python 的深度学习库)

    只是把一些文字部分复制出来方便看,完整还是参考源地址,参考文章https://keras.io/zh/ 写在前面: 第一次接触Keras,用自己的话简单概括一下什么事Keras,(不准确之处欢迎批评指 ...

  8. 一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

    编辑 | 萝卜皮 通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间. 韩国首尔大学的研究人员提出了 Chromoforme ...

  9. 从Theano到Lasagne:基于Python的深度学习的框架和库

    从Theano到Lasagne:基于Python的深度学习的框架和库 [日期:2015-08-03] 来源:http://creative-punch.net/  作者:Creative Punch ...

  10. 基于AI的计算机视觉识别在Java项目中的使用(三) —— 搭建基于Docker的深度学习训练环境

    深度学习在哪里? 我们已然生活在数字时代,一天24小时我们被数字包围.我们生活中的方方面面都在使用数字来表达.传递.存储.我们无时无刻不在接收数字信息,而又无时无刻不在生产数字信息. 在数字世界中,可 ...

最新文章

  1. 别让低效努力,毁了你
  2. 二代测序数据统计分析中为什么是负二项分布?
  3. java excel开元_开元表格框架extremeTable
  4. 高等数学-微分方程知识点
  5. Codeforces Round #345 (Div. 2)
  6. 【C++】Visual Studio教程(四) - Visual Studio其它功能
  7. 人才是培养的吗? (转)
  8. jsp页面中JSTL/EL标签引用java后台静态static字段的方法总结
  9. [深入React] 1. 开发环境搭建
  10. ping,python实现批量ping包工具--小案例
  11. SQL教程数据库视频数据分析教程Sql Server|MySQL|Oracle视频教程
  12. python用四个圆画成花_秘籍:学画牡丹技法要领,不轻易外传...
  13. docker卸载提示Device or resource busy
  14. 解决Win10更新后无法开启移动热点的问题
  15. 写给20岁读者的一些人生建议
  16. 速腾 RS-Bpearl 显示点云
  17. 【DL】第 6 章:语言建模
  18. 谈一谈我心中的世界杯
  19. 免安装Oracleclient和PL/SQL
  20. ASP.NET调用HTML模板

热门文章

  1. x3650服务器引导盘制作,IBM X System ServerGuide 8.41 服务器 系统安装 引导盘图文教程...
  2. Linux 系统 /var/log/journal/ 垃圾日志清理
  3. Python爬虫-bug处理办法(持续更新)
  4. 学生表mysql查询语句
  5. C++中#define宏定义的min与max函数
  6. 民生银行香港卡的办理经历,和踩过的那些坑····
  7. 网络分层流转---从浏览器请求到服务端响应究竟经历了什么?
  8. 经典GIF表情包怎么做
  9. 【科普】一读就懂:CPU到底是怎么识别代码的?
  10. ecshop mysql 标题表_ECSHOP商城全站自定义TITLE标题设置