引用:
Fan W, Shang J, Li F, Sun Y, Yuan S, Liu JX. IDSSIM: an lncRNA functional similarity calculation model based on an improved disease semantic similarity method. BMC Bioinformatics. 2020 Jul 31;21(1):339.

  • 在一种改进的疾病语义相似度计算方法的基础上,提出了一种LncRNA功能相似度计算模型IDSSIM,其突出特点是在语义值计算中引入了信息量贡献因子,既考虑了疾病有向无环图的层次结构,又考虑了疾病的特异性。IDSSIM和LNCSIM1、LNCSIM2和ILNCSIM三种最新模型通过应用疾病语义相似度矩阵和lncRNA度功能相似矩阵,以及来自lncRNADisease数据库或MNDR数据库的人类lncRNA-疾病关联的对应矩阵,应用于用于lncRNA-疾病关联预测的关联预测方法WKNKN,对IDSSIM和三个最新模型(LNCSIM1、LNCSIM2和ILNCSIM)进行了评估。IDSSIM码、所有实验数据和预测结果都可以在https://github.com/CDMB-LAB/IDSSIM网站上找到。

**

关键词

**
lncRNA功能相似性、疾病语义相似性、lncRNA-疾病相关性

背景

  • 对于推测lncRNA的功能,一种简单而有效的方法是建立功能相似性计算模型,利用已知的功能和与特定疾病的关联来推断lncRNA-lncRNA的功能相似性。
    lncRNA功能相似性计算模型分为四类:
    (1)基于lncRNA表达谱
    (2)基于基因本体论(GO)术语
    (3)基于lncRNA与其他生物分子的相互作用
    (4)基于lncRNA-疾病关联

  • 提出了一种基于改进的疾病语义相似度方法的lncRNA功能相似度计算模型IDSSIM。改进的疾病语义相似度方法的亮点是在语义值计算中引入IC贡献因子,既考虑了DAG的层次结构,又考虑了疾病的特异性。使用受试者工作特征(ROC)曲线和曲线下面积(AUC)值的评价指标,在LNCSIM1、LNCSIM2和ILNCSIM三个最新模型上进行了IDSSIM实验,并与LNCSIM1、LNCSIM2和ILNCSIM三种最新模型进行了比较。结果表明,IDSSIM模型优于比较模型,能有效提高疾病语义相似度的准确性,从而提高模型的关联预测能力。

方法

LncRNA与疾病的关联

收集了两个包含人类lncRNA-疾病关联的矩阵,用于计算lncRNA功能相似性。在这两个矩阵中,每行代表一个lncRNA,每列代表一种疾病。如果lncRNA与疾病相关,则其相应的矩阵元素设置为1,否则设置为0。

疾病语义相似度
两种疾病之间的疾病语义相似度可以使用它们的DAG来计算,DAG是通过将两种疾病的名称映射到MeSH描述符来构建的。对于疾病A,其DAG可表示为DAGA={TA,EA},其中TA是A包括其自身的祖先节点的集合,EA是DAG中所有边的集合。DAGA中的疾病术语t∈TA对疾病A具有语义贡献,其被定义为t对疾病A的语义值
,并且可以通过以下公式在LNCSIM1中计算:

其中C(t)是t的子集,Δ是EA中连接t和t‘的边的语义贡献因子,通常设置为0.5。
LNCSIM2使用另一个公式来计算DAGA中的疾病术语t∈TA对疾病A的语义值的贡献。
其中D是MeSH中的疾病数量,Dags(t)是包含t的DAG的数量。
在IDSSIM模型中,我们利用LNCSIM1和LNCSIM2的优点,将DAGA中的疾病术语t∈TA对疾病A的语义值的贡献定义为,
其中Pt为IC贡献因子,定义为,
其中K是MeSH中所有疾病的集合。需要注意的是,对于疾病,其Pt值随不断更新的Mesh版本而变化。
然后,IDSSIM中疾病A的语义值的计算方法与LNCSIM1中的相同,即它是DAGA中所有疾病术语对疾病A的贡献之和。
此外,基于两个疾病A和B在DAG中共享的疾病术语,以类似于LNCSIM1的方式定义了两个疾病A和B之间的疾病语义相似度,
为了更好地理解疾病语义相似度的计算过程,在图1中给出了一个例子。首先,利用MeSH描述符构建胰腺肿瘤和肝脏肿瘤两种疾病的DAG图。胰腺肿瘤的DAG有4层8个病名,肝脏肿瘤的DAG有4层6个病名,其中4个病名是这两种疾病共有的。其次,使用所有疾病DAG计算D、DAG(t)和
,并且语义贡献因子Δ也被设置为0.5[16,22]。我们可以看到,同一层中的疾病词语具有不同的贡献因子Δ+Pt,因此在每个DAG中对疾病的语义贡献
是不同的。第三,利用上述公式计算这两种疾病的语义值及其疾病语义相似度。从示例中我们可以看到,IDSSIM模型既考虑了DAG的层次结构,又考虑了疾病的特殊性。
IncRNA功能相似性
在IDSSIM模型中,计算lncRNA功能相似性的方法与文献[11,13,16]中描述的相同。文中举例说明了计算过程,如图2所示。
假设DG(u)和DG(v)分别是从人类lncRNA-疾病关联矩阵中收集的lncRNA
u和v的疾病组,则可以利用DG(u)和DG(v)中出现的疾病的语义相似性来计算u和v之间的lncRNA功能相似性。更具体地说,首先构建了疾病语义相似性子矩阵,其中行和列都表示DG(u)∪DG(v)中出现的疾病,每个元素都是对应疾病之间的疾病语义相似度。然后,将一个疾病组的疾病与另一个疾病组的疾病之间的相似度定义为,
其中du和dv分别代表DG(u)和DG(v)中的一种疾病。接下来,将两个疾病组之间的相似性定义为,
最后将u和v之间的lncRNA功能相似性定义为,
其中|⋅|表示对应病种组中的病种数。
图1 IDSSIM中疾病语义相似度计算示例 结果和讨论 性能评价
为了评估IDSSIM的性能,我们使用五倍交叉验证策略生成的ROC曲线和AUC值的评估指标,在lncRNADisease数据库和MNDR数据库上将其与LNCSIM1、LNCSIM2和ILNCSIM这三种最先进的模型进行了比较[13],并将其与LNCSIM1、LNCSIM2和ILNCSIM这三种最先进的模型在IncRNADisease数据库和MNDR数据库上进行了比较。

图2 IDSSIM中计算lncRNA功能相似度的示例

  • 具体地说,对于每个数据库,人类LncRNA-疾病关联的原始矩阵被随机分为五组,其中一项被改成0分,其他的保持不变。这五个变化的关联矩阵,以及每个比较模型的结果,即疾病语义相似矩阵和lncRNA功能相似矩阵,依次应用于关联预测方法WKNKN[23],得到五个人类lncRNA-疾病关联的预测矩阵。这里使用了WKNKN,因为它是最近提出的,声称可以促进关联预测,它的软件包可以在网上获得。对于人类lncRNA-疾病关联的原始矩阵中的改变组,其得分等于1的关联被认为是观察到的阳性,否则被认为是观察到的阴性。对于人类LncRNA-疾病关联的每个预测矩阵中的变化组,其得分高于阈值的关联被认为是预测阳性,否则被认为是预测阴性,其中阈值被设置为变化组中的预测得分,并按降序排列。因此,对于每个预测的人类lncRNA疾病关联矩阵,可以用不同的阈值获得它们的真阳性率(TPR)和假阳性率(FPR)。为减少随机分组带来的误差,每个对照模型重复5次交叉验证10次,用TPR和FPR的平均值绘制ROC曲线,计算AUC值。

  • 比较模型在LncRNA疾病数据库和MNDR数据库上的ROC曲线和AUC值如图3所示。可以看出,在ROC曲线和AUC值方面,IDSSIM在这两个数据库上的所有比较模型中表现最好。对于lncRNADisease数据库,IDSSIM的AUC值为0.8966,分别比LNCSIM1、LNCSIM2、ILNCSIM的AUC值高0.74、0.85、1.00%。同样,对于MNDR数据库,IDSSIM的AUC值为0.9302,分别比LNCSIM1、LNCSIM2和ILNCSIM的AUC值提高了0.51、0.22和0.35个百分点。实验结果表明,IDSSIM能够提供更准确的疾病语义相似度矩阵和lncRNA功能相似度矩阵。因此,基于这两个矩阵,可以进一步提高WKNKN等关联预测方法的性能。

  • 我们将IDSSIM生成的两个相似度矩阵,即疾病语义相似度矩阵和lncRNA功能相似度矩阵,以及它们对应的从lncRNADisease数据库或MNDR数据库下载的人类lncRNA-疾病关联矩阵,应用于关联预测方法WKNKN[23],得到了两个人类lncRNA-疾病关联预测矩阵。在这两个预测矩阵中,确定了几个潜在的lncRNA与疾病的关联,这可能有助于揭示疾病的潜在遗传机制,尽管它们还需要进一步的生物信息学研究和生物实验证实。在图4中,IDSSIM捕获的重要潜在的lncRNA-疾病关联被显示为网络。在每个网络中,蓝色和红色节点分别代表LncRNA和疾病,连接LncRNA和疾病的每条边代表捕获的显著潜在的LncRNA-疾病关联,其得分高于阈值m(LDA)+2⋅sd(LDA),其中LDA表示IDSSIM捕获的所有潜在的lncRNA疾病关联的分数,m(⋅)和sd(⋅)是它们的平均值和标准差。我们认为这两个网络可以为探索疾病的致病生物标志物提供重要线索。

案例研究

  • 基于LncRNADisease数据库中的人类LncRNA-疾病关联预测矩阵,使用另一种被关联预测模型广泛采用的常规案例研究评估方法[23,24]来验证IDSSIM的有效性。本研究以乳腺癌和腺癌两种疾病为研究对象。对于每种疾病,前20个预测的潜在lncRNA被记录下来,分别如表1和表2所示。在表格中,使用LncRNADisease(v2.0)数据库[25]、Lnc2Cancer数据库[26]和最近发表的文献逐一检查LncRNA以确认其是否与疾病有关。

表1预测的与乳腺癌相关的前20个潜在LncRNA

表2 Top20预测的与腺癌相关的潜在LncRNA
  1. 乳腺癌是威胁女性健康的最常见的恶性肿瘤之一,全世界每年约有50万人死于乳腺癌[27]。最近的进展表明,lncRNAs的失调与乳腺癌有关[28,29]。除了在lncRNADisease数据库中已知的lncRNAs与乳腺癌之间的关系外,我们还在表1中进一步预测了可能与乳腺癌相关的20个潜在的lncRNAs。其中8个已被LncRNADisease(v2.0)数据库和Lnc2
    Cancer数据库证实,4个已被文献报道与乳腺癌相关。Sarrafzadeh等人证明,仅在一小部分乳腺癌中检测到PCAT1的显著上调,并得出结论,PCAT1可能与部分乳腺癌的发病机制有关[30]。Ma等人宣布SNHG3通过miR-384/肝癌衍生生长因子轴在乳腺癌中促进细胞增殖和侵袭[31]。Wang等人发现MIR100HG是三阴性乳腺癌进展的原癌基因,它通过与p27位点的三链形成促进细胞增殖[32]。Silwal-Pandit等人研究表明,WRAP53蛋白的亚细胞定位对乳腺癌存活率有显著影响,因此有可能成为诊断和治疗的临床标记物[33]。
  2. 腺癌是一种恶性肿瘤,出现在人体的许多器官,如肺[34]、前列腺[35]、胃[36]、结肠[37]等。在表2预测的前20个潜在的lncRNAs中,有11个文献报道与腺癌相关。董等人研究表明,Gas5在肺腺癌组织中表达显著下调,可能成为诊断肺腺癌的潜在生物标志物[38]。Lee等人。发现HOTAIR参与了抑制细胞凋亡和促进侵袭的作用,支持HOTAIR在胃腺癌的发生和侵袭中的作用[39]。Tano等人的研究成果提示MALAT1通过影响运动相关基因的表达来增强肺腺癌细胞的运动能力[40]。Li等人证实MEG3通过AKT途径在肺腺癌细胞的增殖、侵袭和血管生成中起促进作用[41]。刘等人推测H19通过靶向miR-29b-3p和修饰STAT3促进肺腺癌细胞的存活和上皮-间充质转化[42]。林等人结论:CCAT1的过表达促进了肺腺癌从上皮到间质的转移[43]。蒋等人研究发现,PANDAR的表达增加促进了胰腺导管腺癌细胞的增殖,抑制了细胞的凋亡[44]。Xu等人提供了强有力的证据表明PVT1赋予食管腺癌侵袭性表型[45]。刘等人提示UCA1轴在胰腺导管腺癌的进展中起关键作用,可能成为新治疗的靶点[46]。Hu等人提示CCAT2可能通过竞争性结合miR-23b-5p在肺腺癌中作为竞争性内源性RNA调节FOXC1的表达[47]。卢等人提示DANCR可能是一种通过与miR-496直接结合来调节mTOR表达的致癌lncRNA,因此可作为肺腺癌的生物标志物或治疗靶点[48]。
  • 虽然还需要进一步的研究来证实上述发现,但根据案例研究,我们认为IDSSIM是一种很有前途的lncRNA功能预测模型,根据IDSSIM提供的线索进行生物学实验可以显著减少时间和成本。

  • 为了进一步验证IDSSIM的有效性,图5显示了四个比较模型的维恩图,每个元素可以写成|Lcon|/|Lall|,其中Lall表示所有相应模型预测的潜在的疾病相关的LncRNA,Lcon表示Lall中可以被数据库和文献证实与疾病相关的LncRNA,|⋅|表示Lall或Lcon的数量。可以看出,IDSSIM和WKNKN的组合比比较模型和WKNKN的其他组合可以预测更多已证实的疾病相关LncRNA。对于乳腺癌,IDSSIM预测总共有35个潜在的与疾病相关的LncRNA,其中16个已经得到确认。LNCSIM1、LNCSIM2和ILNCSIM的比例分别为15/35、14/30和14/34。同样,在腺癌中,IDSSIM、LNCSIM1、LNCSIM2和ILNCSIM的比例分别为18/33、18/33、16/30和6/13。

结论

  • LncRNA功能相似性计算模型在预测lncRNA功能和识别潜在的lncRNA与疾病的相关性方面起着重要作用。本文在一种改进的疾病语义相似度计算方法的基础上,提出了一种新的lncRNA功能相似度计算模型IDSSIM,其重点是在语义值计算中引入IC贡献因子,既考虑了DAG的层次结构,又考虑了疾病的特异性。为了评价IDSSIM的性能,采用ROC曲线和AUC值的评价指标,在lncRNADisease数据库和MNDR数据库上对三种最新模型LNCSIM1、LNCSIM2和ILNCSIM进行了对比实验。结果表明,IDSSIM模型优于比较模型,能有效提高疾病语义相似度的准确性,从而提高模型的关联预测能力。此外,还采用了乳腺癌和腺癌的案例研究。结果表明,IDSSIM预测的大多数潜在的与疾病相关的LncRNA都可以被数据库和文献证实,这意味着IDSSIM可以作为预测LncRNA的功能、识别潜在的LncRNA与疾病的关联以及预先筛选候选LncRNA进行生物学实验的一种很有前途的工具,这意味着IDSSIM可以作为一种有前景的工具来预测LncRNA的功能,识别潜在的LncRNA与疾病的关联,并对候选LncRNA进行生物学实验。
  • 然而,IDSSIM仍然有几个局限性,这激励着我们在未来继续工作。首先,数据库中疾病和/或lncRNA的信息偏差通常是由其研究热度造成的,有时会导致lncRNA疾病关联得分不准确。其次,IDSSIM应综合考虑lncRNAs的先验知识及其与其他生物分子的相互作用,以进一步提高其预测精度。第三,以后应提供IDSSIM软件包或Web应用程序。

缩写

  1. lncRNA:长非编码RNA
  2. ncRNAs:非编码RNA
  3. GO:基因本体论
  4. MESH:医学主题标题
  5. MNDR:哺乳动物ncRNA-疾病存储库
  6. DAGS:有向无环图
  7. IC:信息内容
  8. AUC:曲线下面积
  9. WKNKN:加权K近邻
  10. TPR:真阳性率
  11. FPR:假阳性率
  12. ROC:受试者操作特征

《IDSSIM:基于改进的疾病语义相似度方法的lncRNA功能相似度计算模型》论文梳理相关推荐

  1. 基于中文语义词典的语义相关度量方法比较研究

    摘要:词语语义相关度的计算,一种比较常用的方法是使用分类体系的语义词典,而国内外学者已经提出了多种基于语义相关的度量方法.这些方法对于词典和语言环境的依赖性是一个值得研究的问题.本文汇总了多种基于语义 ...

  2. 基于DPCA的线性监督分类的故障诊断方法-T2和SPE统计量的计算

    基于DPCA的线性监督分类的故障诊断方法 数据预处理 标签问题 归一化问题 剩余步骤同[PCA方法](https://blog.csdn.net/And_ZJ/article/details/9057 ...

  3. 什么是非抢占式和抢占式调度方式?抢占式调度方法和非抢占式调度方法有哪些?

    非抢占式方式:在采用这种调度方式时,一旦把处理机分配给某进程后,就一直让它运行下去,决不会因为时钟中断或任何其它原因去抢占当前正在运行进程的处理机,直至该进程完成,或发生某事件而被阻塞时,才把处理机分 ...

  4. 【深度学习】SETR:基于视觉 Transformer 的语义分割模型

    Visual Transformer Author:louwill Machine Learning Lab 自从Transformer在视觉领域大火之后,一系列下游视觉任务应用研究也随之多了起来.基 ...

  5. matlab tdoa aoa,基于改进最小二乘算法的TDOA/AOA定位方法.PDF

    闫雷兵,陆音,张业荣 基于改进最小二乘算法的 / 定位方法[] 电波科学学报, , ( ): : / . TDOA AOA J. 2016 31 2 394400.DOI 10.13443 .cors ...

  6. 基于改进的K-means算法在共享交通行业客户细分中的应用

    摘要:信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题.准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一 ...

  7. 风电功率预测优化算法MATLAB程序基于改进神经网络

    风电功率预测优化算法MATLAB程序基于改进神经网络 (1) 该程序为基于改进神经网络的风电功率预测优化算法程序,风电预测程序,期刊论文源程序,配有该论文. (2) 该程序所用的ICA-BP 神经网络 ...

  8. 一种基于改进的LeNet-5 CNN模型通过图像监控雾度的方法

    一.介绍 近年来,空气污染不仅困扰发达国家,也有许多发展中国家,尤其是快速发展中的国家,例如中国和印度.在阴霾天气条件下,空气中有害颗粒物的浓度会升高,这对人民的健康构成了巨大威胁,对社会和经济发展构 ...

  9. SuMa++: 基于激光雷达的高效语义SLAM

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 编辑丨当SLAM遇见小王同学 摘要 可靠.准确的定位和建图是大多数自动驾驶系统的关键组件.除了关于环境 ...

  10. 基于多源信息的深度卷积神经网络预测CircRNA疾病关联的有效方法

    An Efficient Approach based on Multi-sources Information to Predict CircRNA-disease Associations Usi ...

最新文章

  1. 【正则表达式】值匹配汉字的正字表达式
  2. 纪中B组模拟赛总结(2020.2.7)
  3. 前端学习(2365):图片的预览
  4. 《剑指Offer》24:反转链表
  5. Java 笔记——在 IDEA 中使用 Maven 配置和使用 MyBatis
  6. 11.8 Ext.util.Event.fire(): Attempting to fire “click“ event on destroyed 问题分析与解决
  7. 数组的属性、foreach遍历、交错数组与矩形数组的区别
  8. jQuery-JS在iframe中获取父页面的值
  9. 基于STM32F4实现FOC(磁场定向控制)一:电流采样和波形产生
  10. 《IT项目经理成长手记》读后有所思
  11. Ubuntu软件包升级失败的终极修复方法
  12. ESP8266-01s MQTT固件烧录
  13. WebBrowser打开Word文档的一些注意事项
  14. judgement_mna_2016(32位fmt)
  15. 微信小程序--跃动方块
  16. 天空之城 单音版
  17. 与 Oh My Zsh 不可错过的邂逅:如何离线安装 Oh My Zsh
  18. 行内元素、块元素、行内块
  19. 代码检查工具Sonar
  20. pyltp 安装教程

热门文章

  1. mysql identity属性_Mysql中Identity 详细介绍
  2. 黑群晖frp内网穿透配置
  3. UVA 12304 计算几何+圆模板
  4. hp-unix操作系统root账号被锁定的两种解决方法:
  5. 搭载网站的云服务器需要空间备案,网站空间要备案吗
  6. 笔记本怎么自己装系统?u盘装系统windows7教程图解
  7. 服务器sni协议,关于 https 的 SNI(Sever Name Indication) 问题记录
  8. everedit选择_文本编辑器软件EverEdit怎么样?EverEdit相关功能介绍
  9. C++(数据结构与算法):56---无权图与有权图的编码实现
  10. webstorm加载webpack