摘要:

新的研究表明,环状RNA(CircRNA)广泛参与人类疾病的进展。由于其特殊的稳定结构,CircRNA是很有前途的疾病诊断和预后生物标志物。然而,circRNA-疾病关联的实验验证成本高昂,且仅限于小规模。有效的计算方法预测潜在的循环RNA-疾病关联被视为当务之急。尽管已经提出了几种模型,但过度依赖已知的关联和缺乏生物功能特征使得精确预测仍然具有挑战性.

**结果:**在这项研究中,我们提出了一种基于序列和本体表示的循环RNA-疾病关联预测方法,称为CDASOR,使用卷积和递归神经网络。对于circRNAs序列,我们用连续k-mers编码,得到k-mers的低维向量,用一维CNN提取其局部特征向量,并用双向长-短期记忆学习其长期相关性。对于疾病,我们将疾病本体序列化为包含本体层次结构的句子,获得疾病本体术语的低维向量,并获得术语的依赖关系。此外,我们从已知的circRNA-与神经网络的疾病关联中获得circRNA与疾病的关联模式。经过以上步骤,我们得到了CircRNA和疾病的高级表示,这些表示为改进预测提供了信息。实验结果表明,CDASOR提供了准确的预测。CDASOR引入了生物功能的特征,在德诺沃试验中实现了令人印象深刻的预测。此外,前10名预测结果中有6个得到案例研究中已发表文献的验证。

介绍

环状RNA(CircRNA)是通过共价连接源自前体mRNA的单链RNA末端而形成的。近年来,它成为研究者关注的焦点。具有闭环结构的CircRNA缺少50个cap和30个多聚腺苷酸化尾。追溯到1976年,circRNA首次在基于电子显微镜的植物类病毒研究中被发现(Sangeret al.,1976)。由于其低水平表达和测序技术的限制,circRNA曾被认为是由异常RNA剪接产生的“垃圾”。随着高通量RNA测序技术的发展,在各种人体组织中检测到了大量的环状RNA。根据其位置,CircRNA可分为四类:外显子CircRNA、外显子-内含子CircRNA、基因间CircRNA和内含子CircRNA。由于缺少游离的30和50末端,它们对核糖核酸酶具有抗性,并且容易逃避RNA降解。因此,结构特异性、生物稳定性和进化对话确保至少有一些CircRNA发挥重要的生物学作用。事实上,越来越多的证据表明,CircRNA具有多种生物学功能,如microRNA海绵和翻译调节。更具体地说,依赖于miR-7,具有70多个miRNA靶点的ciRS-7作为miRNA海绵与Argonaute蛋白相关(Hansenet al.,2013)。与RNA聚合酶II相关的外显子-内含子环状RNA与U1 snRNP相互作用并促进其亲本基因的转录。

由于每个硬币都有两面性,CircRNA的突变或功能失调可能导致各种疾病。由EML4-ALK融合基因产生的F-circEA是诊断EML4-ALK阳性非小细胞肺癌的潜在生物标记物(Tanet al.,2018)。CircRNA CDR1在新皮质神经元和海绵miR7中表达,表明它与神经元疾病有关(Errichelli等人,2017年)。由于其特殊的结构、进化特征和生物学作用,CircRNA被称为有前途的诊断生物标记物(Liet al.,2015b)。因此,发现新的关联可以提供疾病的治疗靶点。然而,有限的circRNA相关知识和很少的已知关联限制了实验方法。因此,计算方法为大规模预测关联提供了机会。

到目前为止,现有的用于识别关联的计算方法可分为三类。第一类利用了基于网络的算法。Fan等人(2018a)构建了一个由CircRNA和疾病的疾病表型相似性、高斯相互作用谱核相似性(GIPKS)组成的异质网络,并利用KATZ测度预测关联。Lei等人(2018年)提出了一个网络模型,用于根据异质网络中的路径连接计算关联分数,该网络由疾病网络、circRNA网络和circRNA–疾病网络组成。Zhaoet al.(2019)设计了一个基于CircRNA和疾病GIPK的异构网络模型,然后使用KATZ计算关联的可能性。Lei和Bian(2020)提出了一种基于异构网络的带重启的随机游动学习加权特征的模型,并利用DK最近邻作为分类器。构建的异构网络和手工特征权重的确定限制了此类模型的能力。第二类应用机器学习模型。Yanet et al.(2018)根据已知关联计算了环状RNA和疾病的疾病语义相似性和GIPK,然后通过Kronecker乘积核的正则化最小二乘预测了它们的关联。Wei和Liu(2019)提出了一个矩阵分解模型,以根据已知的circRNA-基因、基因-疾病和circRNA-疾病关联推断潜在关联。Lei和Fang(2019)使用了基于circRNA表达相似性、circRNA序列相似性、疾病功能相似性和疾病语义相似性的梯度推进决策树回归模型。Xiao等人(2019)开发了一种具有双重流形正则化的矩阵分解,以推断潜在关联。Lei等人(2019年)利用协作过滤模型,根据circRNA-基因、基因go、circRNA的GIPK和疾病推断出有希望的关联。Wanget al.(2019c)基于circRNA表达相似性、circRNA功能相似性、疾病相似性设计了一种基于图的推荐算法。Zheng等人(2020年)提出了一种基于支持向量机的分类模型,使用cirRNA基因、cirRNA序列、已知的cirRNA-疾病关联。Liet al.(2020)提出了一个矩阵完成模型,以推荐基于cicrRNA序列、疾病语义信息和CircRNA和疾病的GIPK的候选关联。根据经验法则精心设计的功能与模型不太兼容。第三类基于深度学习方法。Zenget al.(2019)基于构建的异构生物网络,集成了用于预测的深林和正未标记学习模型。Wanget al.(2019a)利用卷积神经网络(CNN)从循环RNA和疾病的疾病语义相似性和GIPKS的融合中提取特征,然后使用极端学习机分类器。Wanget al.(2019b)提出了一个模型,该模型使用生成性对抗网络从循环RNA和疾病的疾病语义相似性和GIPK中提取特征,并通过逻辑模型树对关联进行分类。Wanget al.(2020)开发了一个模型,该模型基于图卷积网络从循环RNA和疾病的疾病语义相似性和GIPK中提取特征,并通过决策林对关联进行分类。过度依赖已知的循环RNA-疾病关联限制了这种方法的推广。对关联的产生、CircRNA在一级序列上的功能特征以及疾病的本体特征的研究,不仅带来了更多的生物学信息,而且提高了准确性。

在这项研究中,我们提出了一个基于卷积和递归神经网络的序列和本体表示(CDASOR)预测循环RNA-疾病关联的深度学习模型。对于CircRNA序列,我们用连续的K-mers编码以记录其特征,基于无监督学习模型获得低维向量,用1D CNN提取其局部特征,并用双向长短时记忆(BiLSTM)学习长期相关性。对于疾病,我们将疾病本体(DO)序列化为句子,获取DO术语的低维向量,并学习术语的依赖性。关联模式是从已知的循环RNA——与神经网络的疾病关联中学习的。所有学习到的表征都被输入神经网络以预测循环RNA-疾病关联。CDASOR不仅利用了关联模式,还考虑了循环RNA和疾病的生物学特性。所有的实验结果表明,CDASOR超越了art模型的起点,并且表现出良好的性能。

资料和方法

在本节中,我们将介绍我们的基于深度学习的模型CDASOR,用于通过卷积和递归神经网络的序列和本体表示来预测circRNA-疾病关联。从基准数据库中,我们收集circRNA–疾病关联、circRNA序列和疾病本体数据,以训练和评估模型。以下部分解释了我们的动机并介绍了我们的模型。有关计划的详情,请参阅图一:

图1。CDASOR方案。步骤1:学习序列表示法。通过K-mer编码序列,得到单词嵌入,并通过BiLSTM获得表示。步骤2:学习关联模式表示。提取和投影关联向量以获取隐藏特征。第三步:学习本体表示。从疾病的表型本体中获取本体嵌入,并通过BiLSTM进行表示。步骤4:连接表示并对预测进行分类


LncRNAdisease-2。0(Bao等人,2019年)和循环疾病(Fan等人,2018b)。在大约2种疾病中,237种CircRNA和54种疾病之间有273种联系。在circAtlas中,848个CircRNA和110种疾病之间有930个连接。在LncRNAdisease2中。0,736个CircRNA与97种疾病之间存在909个连接。我们从MNDR v3收集数据。0(Ninget al.,2020)形成一个独立的测试数据集。在MNDR v3中。0,2392个CircRNA与166种疾病之间存在3222个连接。缺乏标准的命名法,而不同的数据库用不同的名称命名相同的循环(疾病)。对于CircRNA,我们根据circBase统一命名CircRNA(Glazaret al.,2014)。对于疾病,我们根据UMLS(Bodenreider,2004)和OMIM(Hamosh等人,2005)统一命名疾病。在统一了循环和疾病的名称之后,我们删除了所有重复的关联,以防止先验知识溢出。结果,我们得到的数据集1包含630个CircRNA和87种疾病之间的754个关联,数据集2包含1998个CircRNA和150种疾病之间的2723个关联。从circBase中,我们获得了140 797个CircRNA序列。从DO(Schrimlet al.,2019)中,我们得到11652个表型本体

2.2k-mer embedding
CircRNA通过短序列基序与其他分子相互作用发挥生物学作用。序列长度的子序列,k-mers,e。G3-mers是AAA,AAC。UUU已被证明是非编码RNA的功能特征(Kirket al.,2018)。在本演示文稿中,我们利用continuousk-mers对CircRNA序列进行编码。更具体地说,我们使用带跨步的滑动窗口将每个长度序列划分为重叠的k-mers,然后用BL?kþ1覆盖重叠的k-mers表示。通过将RNA序列作为一种生物语言,每一个功能模式都可以看作一个单词。然后,每个RNA序列在自然语言处理(NLP)中扮演一个句子的生物学角色。与NLP相似,我们收集了CircRNA序列,形成了一个具有4k片段的序列语料库。我们使用手套算法学习在整个语料库中嵌入的NK mers(Penningtonet al.,2014)。让我们来学习单词共现矩阵。在k meri的上下文窗口中,我们使用xijas表示k merj的出现次数。然后,我们最小化成本函数,如下所示:
式中,V是词汇的大小,w是期望向量,w tidle(w波浪)是单独的上下文向量,B是偏差。fis非递减加权函数,定义为:

其中xmaxis是一个截止点,其默认值为100。A控制分数幂的比例及其默认值为0.75。

2.3本体嵌入
人类疾病通常指导致功能障碍、疾病或死亡的任何异常情况。它太复杂了,不能用简单的符号来描述。DO被提议作为标准的开放源码,以提供疾病表型、医学词汇和病因学的可持续和一致的定义(Schrimlet al.,2019)。DO将生物医学数据存储在有向无环图中,例如。G每个节点表示一个疾病术语,每个边表示两个节点之间的关系。每个DO项的层次结构是从它到根的路径。一种疾病对应一个术语。受NLP的启发,这种结构被认为是描述疾病特征的语言。每个Do术语被视为一个单词。我们将每个疾病术语从下到上展开成一个句子,即。G对于术语DO1,我们记录从它到根术语doroo的路径,并得到一个句子do1do2。多鲁特。所有的句子都是由语料库组成的。我们利用手套算法来获得每个本体项的本体嵌入。

2.4关联模式
基于表型相似的疾病倾向于与功能相似的CircRNA相关的假设,疾病或CircRNA的关联意味着疾病或CircRNA的功能特征(Luet al.,2020)。让我们把CircRNA和疾病之间的关联矩阵表示出来,其中CircRNA的数量和疾病的数量分别表示出来。第i行载体记录了循环与所有疾病的关联。它被认为是circRNAi的关联向量,包括关联模式。对于diseasej,第j列向量被视为其关联向量v。因此,我们提取循环RNA或疾病的行向量或列向量,并将其投影到密集向量以学习隐藏的关联模式。

其中,Ou和Ov分别是表示循环RNA和疾病的输出。Wu和Wvare是相应的权重矩阵。BU和BV是相应的偏差项。

2.5卷积神经网络
CNN在计算机视觉和语音识别方面取得了重大突破,通过卷积滤波器生成特征图。CNN能够胜任自然语言处理中的序列级特征提取(Kim,2014)。我们利用1D CNN并将其过滤器滑动到预先训练的K-mers嵌入上,以获得circRNA序列的局部特征。让V0Kmeri2RDB是对应于第四个元素的维度表示。然后,Lengthl的circRNA序列显示为:

卷积滤波器RF2RZD在V0上滑动以获得高级特征,其中Z是滤波器的字数。卷积特征定义为:b为偏差

2.6双向长短时记忆
如前所述,CircRNA通过与其他生物分子的相互作用发挥作用。circRNA-疾病关联的产生受到各种因素的影响,不仅包括局部序列基序,还包括长期依赖性。在该模型中,我们利用CNN从原始序列中获取局部特征。为了抓住长期依赖关系,我们应用了BiLSTM(Schuster和Paliwal,1997)。BiLSTM训练两个LSTM而不是一个LSTM来利用向后和向前上下文信息。第一次训练是关于输入的,第二次训练是关于输入的尊重序列。这种独特的结构允许学习本地功能之间的长期依赖关系。设qt为第t步的输入向量,sft和sbt分别为第t步正向和反向计算的隐藏状态。在前方训练中,SFTF依靠tþ1。在后向训练中,sbtrelies在btþ1上。


其中,uf和wf分别是正向中输入和隐藏状态的权重矩阵。UBA和WB分别是反向输入和隐藏状态的权重矩阵。然后,我们得到第三步的输出,如下所示:

其中vf和vb分别是前向传递和后向传递中的权重矩阵。

2.7CircRNA–基于序列和本体表示的疾病关联
从生物学角度来看,circRNA与疾病的关联与circRNA的功能障碍和疾病的表型本体有关。众所周知,圆环RNA的序列基序决定了它在生物过程中的作用。序列的子序列,A。KA.k-mer已被证明是非编码RNA的功能特征(Kirket al.,2018)。为了得到k-mer嵌入,我们使用连续k-mers编码circRNAs序列,并使用手套算法获得低维表示。然后利用一维CNN获取局部特征。为了抓住长期依赖性,我们将BiLSTM应用于序列表示OSEQ。对于疾病,我们将DO序列化为一个句子,这是从对应项到根项的路径。然后,我们得到本体嵌入并将其提供给BiLSTM进行本体表示。从已知的关联中,我们分别得到了CircRNA和疾病的关联模式。我们将学习到的表示连接起来,并将它们提供给一个完全连接的层。最后,我们利用以下二元交叉熵作为损失函数:

式中,I为真实标签,I为预测标签,^I为正则化系数。

此外,我们使用RMSProp作为带有默认值的优化算法。从关联矩阵中提取原始关联向量时,真实标签包含在ANDV中。为了防止先验知识的泄漏,我们用0来屏蔽u和vw的交集。此外,所有已知关联都被视为正样本,而所有未知关联都被视为负样本。不平衡的数据误导了模型学习。然后,我们随机选择一些阳性样本,在每轮训练中选择相同数量的阴性样本。为了避免0的过拟合问题,采用了退出策略。5作为其默认设置。

结果和讨论

为了评估所提出模型的有效性和稳定性,我们进行了5倍测试,同时将其与其他方法进行了比较。我们随机选择一些阴性样本和相同数量的阳性样本来平衡数据并将它们放在一起。所有样本随机分为五部分。其中四个被视为训练样本来训练模型。左一个被视为测试样本来验证模型。整个过程重复五次,直到每个零件测试一次。五个实验的平均结果作为最终结果。为了评估该模型,我们采用了四种通用的测量方法:准确度、精密度、召回率和灵敏度,其定义如下:


式中,TP表示正确分类的阳性样本数量,TN表示正确分类的阴性样本数量,FP表示错误分类的阴性样本数量,FN表示错误分类的阳性样本数量。此外,我们绘制了接收机工作特性(ROC)曲线,并计算ROC曲线下的面积(AUC),作为比较标准.

3.2结果
3.2.1.k-mer嵌入的分析
在这一部分中,我们首先使用三种不同的编码方法进行实验,以评估K-mer嵌入的有效性。为了记录序列的位置知识,我们使用带有Kmerem1标记的continuousk-mer方法对主序列进行编码(Pan和Shen,2018)。一种常见的序列编码方法是热编码。它用二元矩阵对每个核苷酸的位置进行编码,其列对应于a、C、G或U。另一种用Kmerem2标记的编码方法用K-mer频率对序列进行编码(Cao等人,2018)。详细结果如表1所示,从中我们可以看出,continuousk-mer比其他编码方法具有更精确的预测。这表明continuousk-mer编码方法可以学习序列的上下文。然后,我们分析了图2所示的学习k-mer嵌入。通过与经典序列比对方法的比较,我们评估了k-mer嵌入的有效性。我们计算k-mer嵌入的余弦相似性,并将其与全局Needlman–Wunsch相似性进行比较(图2a)

本体的余弦相似度和路径长度的箱线图。

。两个序列越相似,Needlman–Wunsch相似性越高。学习的k-mer嵌入的余弦相似性与Needlman–Wunsch相似性密切相关,这表明k-mer嵌入与序列比对方法是一致的。此外,我们用t-SNE将K-mer嵌入在2D图中可视化(Maaten和Hinton,2008)(图2b)。

基于SNE的二维k-mer嵌入图

可以看出,k-mer嵌入分为几个簇。这与序列相似的情况是一致的。

3.2.2本体嵌入分析
在本节中,我们首先使用不同的编码方法进行实验。一种是我们用OntoEncode标记的编码方法,它序列化DO并用手套学习向量表示。另一种是热编码方法。详细的结果如表2所示,从中我们可以看出本体嵌入优于一种热门的编码方法。这意味着我们的编码方法编码DO的结构。其次,通过与经典本体距离方法的比较,评估了本体嵌入的有效性。我们计算了本体嵌入的余弦相似度,并将其与DO中两个疾病项之间的路径长度进行了比较。路径越长,相关性越小。从图3a中,我们可以看到余弦相似性和路径长度正相关。本体嵌入表示疾病本体之间的关系。此外,我们还使用t-SNE将本体嵌入可视化到2D图中(图3b)。根据两个本体之间的路径长度,存在更多类型的成对相似性。可以看出,图中分布了更多分散的簇

3.2.3分析CircRNA特征和疾病特征的影响
为了能够整合循环RNA和疾病的特征,我们使用了一种成功且广泛使用的特征拼接方法,并将合并后的向量馈送到模型中。优化模型时,为每个零件分配一个权重,表示负面、正面或零影响。为了分析哪一部分更重要,我们首先计算模型优化时每个部分的学习权重的绝对和。然后,我们比较它们的值以确定哪个部分更重要。结果如表3所示。可以看出,部分疾病特征被赋予了学习权重的较大绝对和,这意味着疾病特征对结果的影响较大.

3.2.4参数
在本节中,我们将讨论模型中几个超参数的影响。首先,正则化参数用于平衡方程(10)中的正则化项和二元交叉熵损失。我们进行交叉验证和网格搜索,从0中获得最佳值。1比0。1

从表4可以看出,该模型在值为0时表现最佳。001和0。001设置为k的默认值。第三,一维CNN的滤波器尺寸对于局部特征提取非常重要。我们进行交叉验证和网格搜索,以获得从3到8的最佳尺寸。

从表5中可以看出,当尺寸为6时,模型的性能最好,因此将6设置为过滤器的默认尺寸

3.2.5收敛性
非线性模型的二元交叉损失函数的优化是一个非凸问题。我们使用基于梯度的RMSProp算法来优化模型。RMSProp通过重新训练过去梯度平方的移动平均值来规范化梯度,从而控制全局学习速率。随机RMSProp收敛到临界点,这保证了RMSProp在参考文献(Deet al.,2018)中证明的非凸优化问题中的收敛性。图4显示了带有历元的训练损失和测试损失的结果。可以看出,RMSProp使训练损失和验证损失都降低,这意味着RMSProp算法可以快速学习模型中的主导因素。训练损失从第十纪元开始收敛。虽然存在一些小的波动,但总体验证损失仍然是收敛的。验证损失的值大于训练损失的值,这是由五分之四数据的训练和五分之一数据的测试造成的。培训损失和验证损失之间的值差是可以接受的。

3.2.6比较
为了验证所提出模型的有效性,我们将其与四种最先进的方法进行比较,即iCircDA MF(Weiet al.,2019)、DeepDCR(Zenget al.,2019)、Wang的方法(Wanget al.,2019b)和GCNCDA(Wanget al.,2020)。从表6中可以看出,CDASOR优于其他方法,精确度为0。870,精度为0。846件,召回0件。821,灵敏度为0。828此外,我们使用图5所示的5倍交叉验证绘制了计算方法的ROC曲线和正确检索关联百分比的直方图。图5A显示了AUC值为0的CDASOR。875超过其他人(iCircDAMF 0.807,DeepDCR 0.819,王的0.832和GCNCDA 0.855)。图5B显示,CDASOR在前5名、前10名、前20名、前30名和前40名中提供了更准确的检索关联。结果表明,序列和本体表示提高了关联的预测能力,提供了更实用的指导。

3.2.7 创新性实验
为了减少对已知circRNA-疾病关联的过度依赖,我们的CDASOR模型考虑了circRNA序列和DO的特征。在这一部分中,我们进行了从头实验来测量CDASOR的性能。在新发试验中,我们首先删除了所有已知的circRNA-与circRNAi相关的疾病。然后利用CDASOR预测其潜力关联并计算测试结果的准确性。Wang的方法和GCNCDA都需要已知的circRNA-circRNA相似性关联,因此无法在本测试中对其进行评估。我们绘制了计算方法的ROC曲线和正确检索关联百分比的直方图,如图6所示。从图6a中,我们得到AUC值为0的CDASOR。820的表现优于其他公司(iCircDA MF 0.775和DeepDCR 0.798)。从图6b中,我们可以看到CDASOR实现了更准确的预测。总之,CDASOR即使在没有已知关联的情况下也能给出更准确的预测。

3.2.8独立数据集上的性能
为了研究它们的性能,我们在一个独立的数据集上测试了这些模型。我们从MNDR v3中收集circRNA–疾病关联。01998年的CircRNA与150种疾病之间有2722种关联。我们在dataset1上训练模型,并在这个独立的dataset上获得其测试性能。结果如表7所示。从表中可以看出,由于在看不见的样本上测试模型,所有模型的测试性能都有所下降。然而,CDASOR提供了比其他模型更可靠的总体预测。

3.3案例研究
在本节中,我们实施了案例研究,以验证CDASOR的能力。所有已知的关联都被输入到模型中进行优化。然后,通过训练的模型从未知关联中预测circRNA-疾病对的概率。然后,我们对所有预测概率进行降序排序,并根据已发表的文献验证排名前十的结果。我们提供了相关的参考资料,同时在文献中验证了预测结果;在前10名中,有6名得到验证。详情见表8。通过hsa_circ_0001946/miR-7-5p途径,冠心病患者的hsa_circ_0001946表达水平上调(Sun等人,2019年)。hsa_circ_0001821的靶向miRNA与结直肠癌的KEGG途径有关,其异常表达在结直肠癌组织中显著(Liet al.,2018)。circTADA2A(hsa_circ_0006220)的表达水平在不同的乳腺癌亚型中差异很大(Xu等人,2019年)。比较hsa_circ_u0000026在肝癌组织和配对非肿瘤组织中的表达水平,其在肝细胞癌中的表达显著增加(Yuet al.,2020)。CircRNA hsa_circ_0000326为miR-338-3p提供海绵并影响其表达,从而上调肺腺癌细胞中下游靶基因RAB14的表达(Xuet al.,2020)。circFAM114A2(hsa_circ_0001546)通过分泌miR-762增加DNP63的表达,从而抑制膀胱癌的进展(Liu等人,2020年)。

4.结论

越来越多的研究表明,CircRNA的功能失调与多种疾病有关。由于其特殊的结构,CircRNA是很有希望的疾病诊断生物标志物。然而,现有的计算模型过于依赖已知的关联,而缺乏对生物学机制的考虑。在本研究中,我们利用卷积和递归神经网络设计了一个基于序列和本体表示的深度学习模型。根据序列的特点,利用连续k-mers编码序列,通过手套模型得到低维向量。然后,利用一维CNN获取局部特征,并通过BiLSTM捕捉长期相关性。我们把DO连载成句子。然后,我们得到本体嵌入并将其提供给BiLSTM进行本体表示。从已知的关联中,我们分别得到了CircRNA和疾病的关联模式。最后,我们将学习到的表示连接起来,并用神经网络预测循环RNA-疾病关联。实验结果表明,CDASOR的性能优于现有的方法。特别是,它在德诺沃测试中提供了令人印象深刻的预测。此外,排名前10位的预测结果中有6个得到了已发表文献的支持。这意味着我们提出的模型可以提供准确的预测。

然而,在未来仍有一些改进可以改进。首先,circRNA序列的功能不仅取决于固定长度的mer,还取决于具有可变长度的不同mer。其次,本研究没有考虑CircRNA的后分裂连接位点。这些特定结构可以提供具有代表性的特征并改进预测。第三,并非所有长期依赖性都扮演着同样重要的角色。未来,我们将解决这些问题,以提高模型的能力。

使用卷积和递归神经网络通过序列和本体表示改进circRNA-疾病关联预测相关推荐

  1. 基于多源信息的深度卷积神经网络预测CircRNA疾病关联的有效方法

    An Efficient Approach based on Multi-sources Information to Predict CircRNA-disease Associations Usi ...

  2. Paper:RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读

    Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读 目录 Generating Sequences With ...

  3. 长短记忆型递归神经网络LSTM

    原文链接http://www.csdn.NET/article/2015-11-25/2826323?ref=myread scrolling="no" src="htt ...

  4. 基因疾病关联的图卷积神经网络

    基因疾病关联的图卷积神经网络 本文要介绍的是沙特阿卜杜拉国家科技大学高兴副教授课题组发表的一篇关于图卷积神经网络的基因疾病关联预测的论文.对候选基因排序对于遗传疾病基于基因的诊断是至关重要的.然而,由 ...

  5. 基于注意力机制的图卷积网络预测药物-疾病关联

    BIB | 基于注意力机制的图卷积网络预测药物-疾病关联 智能生信 人工智能×生物医药 ​关注 科学求真 赢 10 万奖金 · 院士面对面 9 人赞同了该文章 今天给大家介绍华中农业大学章文教授团队在 ...

  6. 生物信息学|利用层注意图卷积网络预测药物-疾病关联

    本篇推文引自:Predicting drug–disease associations through layer attention graph convolutional network 1. 摘 ...

  7. 双向卷积神经网络_一个用于精细动作检测的多路双向递归神经网络

    文章标题:A Multi-Stream Bi-Directional Recurrent Neural Network for Fine-Grained Action Detection引用:Sing ...

  8. DCRNN:扩散卷积递归神经网络

    1.文章信息 <DIFFUSION CONVOLUTIONAL RECURRENT NEURAL NETWORK: DATA-DRIVEN TRAFFIC FORECASTING>,作为2 ...

  9. 基于卷积神经网络的序列特异性预测研究--云南大学范航恺硕士论文

    基于卷积神经网络的序列特异性预测研究--云南大学范航恺硕士论文 摘要 研究背景 研究现状 研究意义与所作工作: 第二章 生物学应用背景 模体的概念 模体的表示方法 模体序列特异性的评价方法 第三章 深 ...

最新文章

  1. Java内置函数的理解和加减乘除四个函数的学习
  2. Redis【第二篇】集群搭建
  3. a股用计算机模拟走势,咬牙跺脚!A股牛市不改的铁证!
  4. 使用Spring 3 MVC处理表单
  5. 的控制台主题_【12.11最新版】芯片机/大气层主题软件NXThemesInstaller
  6. 求10000以内n的阶乘(信息学奥赛一本通-T1172)
  7. python之(re)正则表达式下
  8. linux怎么进入windows系统安装目录下,windows下Linux子系统的安装配置
  9. 数据库左连接、右连接、内连接、全连接笔记
  10. paxos算法java实现_Paxos算法——前世
  11. linux飞信机器人,在Nagios使用飞信机器人发送警报
  12. Win7-64位系统安装vs2003
  13. JS设计模式与开发实践
  14. Ubuntu系统下的实用软件推荐
  15. 《因子投资 - 方法与实践》新书上市
  16. MacBook Pro出现kernel_task占用CPU非常高问题
  17. 初中高中生用计算机,中学生如何科学的使用计算器?
  18. android游戏开发实例-可局域网对战的飞行棋(二)
  19. 闲置台式机+文件服务器,卖不出闲置台式机再利用之我的nas!
  20. 提权学习:第三方软件提权(Radmin 提权) 4899

热门文章

  1. 【测开基础之计算机网络】一: 计算机网络概述
  2. 甲类功率放大器的简介
  3. AVR Mega16的熔丝位用法总结
  4. esxi时区设置 +8_Shopify篇:Goolge Analystic申请及设置
  5. 分享一下身边朋友自学android开发及找工作的那些事!【不足勿喷】 1
  6. 什么叫计算机编程语言,什么叫计算机编程语言?
  7. 专访 Zipkin 项目 Leader:如何用 Zipkin 做好分布式追踪?
  8. 基于bitshares的身份认证系统设计思路
  9. 饭局上领导劝你喝酒,别说“我不能喝”,高手都用这4种拒酒话术
  10. 2021年全球压电弯曲机收入大约7083.8百万美元,预计2028年达到11580百万美元