摘要

长非编码RNA(lncRNA)参与多种生物学过程,因此其突变和疾病在多种人类疾病的发病机制中起着重要作用。识别与疾病相关的lncRNAs对于疾病的诊断、预防和治疗至关重要。尽管已经开发了大量计算方法,但有效整合多组学数据并准确预测潜在的lncRNA疾病相关性仍然是一个挑战,尤其是对于新的lncRNA和新疾病。在这项工作中,我们提出了一种新的深度多网络嵌入方法,称为DeepMNE,以发现潜在的lncRNA-疾病关联,尤其是对于新疾病和lncRNAs。DeepMNE提取多组学数据来描述疾病和lncrna,并提出了一种基于深度学习的网络融合方法来整合多源信息。
此外,DeepMNE补充了稀疏关联网络,并使用核邻域相似度构建疾病相似度和lncRNA相似度网络。
此外,采用图嵌入方法预测潜在关联。实验结果表明,与其他最先进的方法相比,DeepMNE对新关联、新lncRNAs和新疾病具有更高的预测性能。
此外,DeepMNE在扰动数据集上也具有相当好的预测性能。此外,两种不同类型的案例研究结果表明,DeepMNE可以作为疾病相关lncRNA预测的有效工具。DeepMNE的代码可在https://github.com/Mayingjun20179/ DeepMNE 上获得。

索引项深度网络融合核邻域相似性lncRNA疾病关联多网络嵌入

Introduction

蛋白质编码基因在遗传信息的存储中起着重要作用,但长期以来,RNA被认为只是一种转录介质。随着RNA分析、细胞类型分离和培养技术的不断改进,我们对RNA众多生物学功能的理解不断发展[1]。RNA代表基因组编码基因的直接输出 信息。
细胞的调节能力很大一部分高度依赖于RNA的合成、加工、运输、修饰和翻译[2]。最近的研究已经证明,约74.7%的人类基因组被转录,但这些基因中只有约1.5%编码蛋白质[3]。这表明绝大多数RNA转录本是非编码的,大量人类基因通过非编码RNA(ncRNA)发挥其功能。因此,非编码RNA(ncRNA)在各种生命过程中起着至关重要的作用,如基因转录和编译等。ncRNA的缺失将导致相邻蛋白质编码基因的特异性显著降低[5]。长链非编码RNA(lncrna)是非编码RNA中最大的部分,由至少200个核苷酸组成,到目前为止,还没有从这些RNA分子中观察到蛋白质编码潜力[6]。lncRNA具有广泛的作用,从胚胎发育、细胞命运决定到维持细胞的生理稳态。在生命的各个阶段,lncRNA甚至参与许多正常生理过程,包括渗透和摄取[7]。越来越多的研究报道,影响lncRNA的突变和疾病与几种人类疾病有关。lncRNA的一级结构、二级结构、表达水平和同源结合蛋白的变化可导致各种疾病,从神经病变到癌症【8】。例如,Dey等人进行的一项研究表明,在成肌细胞中沉默lncRNA H19并敲除H19基因可以显著减少骨骼肌分化[9]。Xin yu等人证明lncRNA MALAT1可以通过miR-101和miR-217实现食管鳞状细胞癌(ESCC)的转录后调节[10]。Gao等人的研究表明,lncRNA 91H通过抑制IGF2的表达参与ESCC的发病机制【11】。因此,确定潜在的lncRNA与疾病的相关性有助于确定lncRNA的确切功能,并从细胞水平深入了解疾病的潜在发病机制。
LncRNA是阐明疾病发生机制的关键。研究人员越来越多地参与lncRNA的研究,并建立了lncRNA疾病相关性数据库,如LncRNADisease【12】、LncRNAdb【13】、Lnc2Cancer【14】、MNDR【15】等。
然而,经实验验证的lncRNA疾病相关性的比例仍然很低。通过实验手段检测lncRNA疾病相关性不仅需要大量的人力和物力成本,而且需要长时间的投资。因此,计算模型已成为首选的调查手段。计算模型不仅节省时间,而且更便于获得候选关联的排名。这些排名可以作为实验验证的指南,这大大减少了寻找新的lncRNA疾病关联所需的成本和时间。由于所有现有数据库仅提供关联证据,因此没有明确证据表明lncRNA与疾病之间缺乏相关性。

因此,如果所有经实验验证的关联都被视为正例,那么lncRNA疾病关联推理问题可以被视为PU学习问题(基于正例和未标记样本的学习)。随后,根据产生负样本的必要性,现有的计算模型可分为两步技术和基于网络的模型。其中,两步技术主要包括两个步骤:产生负样本和建立训练模型。Zhao等人【16】提取了多组学数据,如lncRNA的基因组特征、调节因子特征和转录组特征,拼接这些特征数据,并使用朴素贝叶斯分类器识别疾病相关的lncRNA。Lan等人[17]利用多源信息计算lncRNAs的多个相似度和疾病的多个相似度,利用矩阵的几何平均值来整合这些相似度网络,然后使用bagging SVM建立分类。
基于网络的模型不需要构建负样本,可以有效利用未标记样本信息和网络结构。基于这些事实,人们提出了大量的网络模型。Qingfeng Chen等人[18]使用lncRNA基因关联、疾病DAG网络和lncRNA疾病关联网络计算lncRNA与疾病之间的多重相似性,并采用SVM进行预测,同时使用bagging方法处理类差异平衡问题。Wei Lan等人【19】利用自动编码器来缓解lncRNA(或疾病)特征信息中的噪声,并利用矩阵分解和隐式反馈来预测潜在的lncRNA疾病关联。Lu等人[20]使用疾病GO关联信息计算疾病的Jaccard相似性,从已知lncRNA疾病关联网络中挖掘特征信息,并使用归纳矩阵完成预测潜在关联。Li等人[21]利用疾病的语义相似性和已知的lncRNA疾病关联计算lncRNAs的功能相似性,然后利用网络一致性投影进行推理。Wang等人[22]使用加权K近邻来完成相互作用网络,并使用图正则化非负矩阵分解来预测潜在的lncRNA疾病关联。Xie等人【23】提出了加权矩阵lncRNA疾病关联预测模型(WLDAP)。与其他方法不同,WLDAP仅使用已知的lncRNA疾病关联进行预测。Yue等人[24]回顾了图嵌入方法在生物医学网络中的应用,并将11种图嵌入表示方法应用于3种生物医学链接预测任务。研究发现,图嵌入方法在不使用任何生物特征识别的情况下取得了有竞争力的性能。Zhang等人[25]应用多模态深层自动编码器从多个生物网络中学习统一表示,并结合随机森林分类器实现生物链接预测,取得了良好的预测结果。
尽管基于网络的方法在lncRNA疾病关联的推断方面取得了巨大成功,但其应用仍存在一些局限性。首先,许多模型仅利用已知的关联网络和单一疾病信息进行预测,未能充分利用多源信息。
其次,对于多个相似网络,许多模型仅采用线性方法进行融合,无法适当挖掘不同网络之间的非线性结构。
第三,大多数模型在预测新的lncRNAs或新疾病方面较弱。
基于此,本文提出了一种深度多网络嵌入模型(DeepMNE)来推断潜在的lncRNA疾病关联,该模型也适用于新的lncRNA和新的疾病。为了全面、客观地描述lncRNA和疾病,DeepMNE采用疾病的有向无环图、疾病GO注释和疾病基因关联构建疾病相似网络,并实现lncRNA的序列特征和表达谱特征构建lncRNA相似网络。为了挖掘不同网络之间的非线性关系,DeepMNE提出了一种基于深度学习的网络融合方法,以整合多个网络信息。此外,为了消除网络稀疏性以获得更准确的特征信息,DeepMNE对稀疏关联网络进行了补充,并使用核邻域相似度来挖掘lncRNA(disease)的关联相似度。实验结果表明,与其他模型相比,DeepMNE对新的关联、新的疾病和新的lncRNAs具有良好的预测能力。

材料和方法

A.方法回顾

为了计算lncRNA疾病的潜在关联,我们在此介绍DeepMNE模型,该模型包含以下三个步骤,如图1所示。

Fig 1 DeepMNE预测潜在lncRNA疾病相关性的框架

B. 疾病相似性

1) 疾病的语义相似性

d disease TA 代表着疾病d的集合和他的祖先 Ed代表DAG中的一条疾病和其edge

根据疾病网格描述符,所有疾病都可以投影到有向无环图directed acyclic graph (DAG)中。

DAG中的每个节点对应一种疾病,DAG的任何有向边都指向从一般疾病项到更具体疾病项的方向。

如果有任何疾病

DeepMNE:用于lncRNA疾病关联预测的深度多网络嵌入相关推荐

  1. HGANMDA:用于miRNA与疾病关联预测的分层图注意力网络(Molecular Therapy)

    HGANMDA:Hierarchical graph attention network for miRNA-disease association prediction https://www.sc ...

  2. 论文解读《DeepCPP:一种基于核苷酸偏差信息和最小分布相似性特征选择的用于RNA编码潜力预测的深度神经网络》

    摘要 深度测序技术的发展导致了新转录本的发现.已经开发了许多计算机方法来评估这些转录本的编码潜力,以进一步研究它们的功能.现有方法在区分大多数长非编码 RNA (lncRNA) 和编码 RNA (mR ...

  3. 生物信息学|利用层注意图卷积网络预测药物-疾病关联

    本篇推文引自:Predicting drug–disease associations through layer attention graph convolutional network 1. 摘 ...

  4. MKGAT:基于图注意网络和双拉普拉斯正则化最小二乘的 miRNA-疾病关联预测(Briefings in Bioinformatics)

    Predicting miRNA-disease associations based on graph attention networks and dual Laplacian regulariz ...

  5. 基于注意力机制的图卷积网络预测药物-疾病关联

    BIB | 基于注意力机制的图卷积网络预测药物-疾病关联 智能生信 人工智能×生物医药 ​关注 科学求真 赢 10 万奖金 · 院士面对面 9 人赞同了该文章 今天给大家介绍华中农业大学章文教授团队在 ...

  6. 基因疾病关联的图卷积神经网络

    基因疾病关联的图卷积神经网络 本文要介绍的是沙特阿卜杜拉国家科技大学高兴副教授课题组发表的一篇关于图卷积神经网络的基因疾病关联预测的论文.对候选基因排序对于遗传疾病基于基因的诊断是至关重要的.然而,由 ...

  7. SGAEMDA:基于堆叠图自动编码器的 miRNA-疾病关联预测(cells)

    SGAEMDA: Predicting miRNA-Disease Associations Based on Stacked Graph Autoencoder 源代码:GitHub - Lynn0 ...

  8. 【深度分解网络:显著性分析:IVIF】

    Infrared and Visible Image Fusion Based on Deep Decomposition Network and Saliency Analysis (基于深度分解网 ...

  9. MAGCN:基于lncRNA与miRNA相互作用和图卷积网络预测miRNA与疾病的关联(Briefings in Bioinformatics)

    Predicting miRNA-disease associations based on lncRNA–miRNA interactions and graph convolution netwo ...

最新文章

  1. 2019秋第三周学习总结
  2. 【c#】关于c#中data控件的简单用法介绍
  3. C++跨平台IDE之CodeBlocks
  4. python将csv装入mysql_python 从csv读数据到mysql的实例
  5. React Ant Design UI 表格时间列格式化 代码片段
  6. mysql then_mysql语法之case when then与列转行
  7. [转] Optimizely:在线网站A/B测试平台
  8. Linux自动解压部署WEB项目脚本
  9. 单用户模式 启动 mysql_单用户模式连接以及故障排除
  10. php5d,php挖洞基础知识篇以及防范方法
  11. mach-O文件结构分析
  12. Nature:人类癌细胞系转移图谱
  13. 本地怎么传文件到服务器,本地传输文件到服务器
  14. 最常见的管理误区,你中招了吗?
  15. java咖啡机如何清洗_这样清洗咖啡机最简单有效
  16. linux 运行eve,EVE-NG简单入门介绍
  17. 洛谷 T6476 涂色游戏
  18. phpmailer的使用方法
  19. 火车头linux,火车头采集器 能在linux系统上使用吗?
  20. P3386二分图最大匹配模版

热门文章

  1. 在阿里云上安装mysql后,无法远程登陆
  2. How To Turn Up Logging on the Siebel Web Server Extension in Siebel Versions 7.x and 8.x? [ID 477185
  3. 常用开发语言及相应框架
  4. python中import matplotlib.pyplot as plt解决办法
  5. C# / VB / LabVIEW / VC / Python 上位机使用S7-TCP协议与西门子PLC进行网口通信的教程 (Win/Linux)
  6. 京东开放平台应用申请?京东开放平台API申请?
  7. Ganglia是什么
  8. Gen8 ESXi 6.5 硬盘RDM 直通
  9. html怎么使两张照片重叠,css怎么让图片覆盖图片?
  10. imac mysql导入sql_iPhone 12 和全新 iMac 出现在数据库中