1. 摘要

    由于长链非编码RNA (lncRNAs)与多种人类疾病相关,近年来倍受关注。利用lncRNAs数据建立基于人工智能的疾病预测模型,这将有助于疾病的诊断和治疗。本研究提出了一种名为MLCDForest(Multi-Label classification with deep Forest)的深度学习模型,用于解决对给定lncRNA进行疾病预测时的多标签分类问题,可以看作是深度森林模型在多标签分类中的一种实现。MLCDForest是一种顺序的多标签粒度扫描方法,该模型考虑了标签间的相关性,与标准的深度森林模型有所区别。

2. 介绍

    长链非编码RNA (lncRNAs)在许多生物过程中非常重要,与多种人类疾病有关。了解疾病相关的lncrna将为解读疾病机制、新药物开发和个性化药物[9]提供一个新的视角。

    多标签分类作为监督学习算法的一种,用于解决样本与一个或多个标签关联的问题。目前,多标签分类算法主要可以分为两大类:问题转换和算法自适应。问题转换方法将问题转化为一系列单标签单类或单标签多类分类任务。在算法自适应方法中,具有代表性的是多标记k-最近邻(ML-kNN)和反向传播多标记学习(BPMLL)算法。

    本文提出的算法MLCDForest,将标签相关性作为先验信息,用于预测lncRNA-tissue 的相关性。在每一层,估计的类分布被用于每个森林的训练。最后利用多个弱分类器的投票结果来确定一个测试样本应该属于哪个类。实验结果表明,该方法在数据集上的性能优于其他机器学习方法。

3. 方法

多标签分类

    作为多标签分类数据集(X,Y)的基本信息,n为样本数,X为属性,Y为标签。给定标签空间Y = {Y1,Y2,··,Ym},一个具有k个lncRNA特征的xi样本由标签空间Y中的一个子集y赋值。

标签相关性和并发性

标签相关性

    本文使用克莱姆相关系数来评价两个标签间的相关性。

标签并发性

    不同标签之间的不平衡程度可以通过不平衡比来衡量。SCUMBLE是另一种考虑到标签的不平衡比例和稀疏度的测量方法。SCUMBLE的公式如下:


    在多标签分类的数据中,这些标签大多是不平衡的。在大多数常见的做法中,不平衡比率用来衡量不平衡。而这些标签的整体不平衡量用MeanIR来衡量,它是根据y中所有标签不平衡比例的平均值来衡量的,标准变异系数CV用来衡量MeanIR的显著性。mean和标准的检验公式如下:

提出方法的框架

    深度森林尝试利用多粒度扫描和级联森林的类分布特征来替代深度神经网络 (DNN)。

多粒度扫描

    第一步是基于滑动窗口的多粒度扫描,即根据生成的低维特征向量得到类分布。实践证明,该方法是一种有效的局部特征识别方法。多粒度扫描,如图1A和B所示,假设有n个样本,每个样本有100个原始特性,训练数据有4个标签,执行多粒度扫描,扫描窗口大小为50。考虑到不同标签之间的相关性,在输入特征和其他三个标签的基础上对第一个标签进行多粒度扫描,得到54个特征向量。其余三个标签分别生成53个特征向量。将提取的样本分别用完全随机树森林和随机森林进行训练,生成类向量,得到经过变换的特征向量852((54+53+53+53)×2×2)维变换后的特征向量。

    如图1B所示,在预测阶段,首先使用传统的随机森林对每个标签进行概率预测,并将其拼接到原始特征上。

级联森林

    在分层级联森林中,每一层都集成了强大的随机森林分类器。在对每个标签进行分类时,考虑特征的重要性,区分度大的特征的权重较高。在相关度最高的标签中,这一特征也可能有助于其他标签的分类。Boost类分布向量是由两个随机森林(一个是完全随机森林,另一个是部分随机森林)在多粒度扫描和级联森林期间生成的。通过K折交叉验证来评估每一层的性能,以克服过拟合的风险。在级联森林中,当验证集上整个级联的性能没有显著提高时,传播将终止。

MLCDForest的总体程序

    作为gcForest,在MLCDForest框架中有两个主要组件。在多粒度扫描部分,根据不同的森林对对应的变换特征表示进行分类。而在级联森林中,分层随机森林是为了得到更有区别的特征。图2中的第一个标签说明了MLCDForest的示例。两个窗口大小(50,80)用于100维数据的多粒度扫描。得到窗口大小为50和80时的(54+53+53+53)×2×2和(24 + 23 + 23 + 23)×2×2维特征向量。将这些特征向量组合到不同的标签上,再结合相关统计,如果只有4个标签,就得到了经过1224维变换的特征向量。在级联森林中,通过这样的1224维特征向量学习级联随机森林,当验证集的性能没有显著提高时,这个过程将终止。

    在任何一个测试实例中,通过多粒度扫描生成的1224维表示向量是级联森林的输入数据,根据最大聚合值取其类,最终对每个标签进行预测。


由于文章在服务器上,全文详见:
http://bbit.vip/service/main.php?version=1&type=article&id=84

原论文名称:MLCDForest: multi-label classification with deep forest in disease prediction for long non-coding RNAs

MLCDForest:用深度森林对长链非编码RNA进行疾病预测的多标签分类模型相关推荐

  1. LncLocator 2.0:具有可解释深度学习的长链非编码RNA的细胞特异性亚细胞定位预测器

    Motivation:长链非编码RNA ( lncRNA )通常以组织特异性的方式表达,lncRNA的亚细胞定位取决于它们表达的组织或细胞系. <特色> 以前用于预测lncRNA亚细胞定位 ...

  2. 陈畅组和陈润生组合作揭示长链非编码 RNA调控细胞氧化还原及衰老新机制

    细胞氧化还原反应是生命活动最基本的反应,细胞氧化还原调控广泛参与细胞信号转导及生理和病理过程,因此,揭示细胞氧化还原调控机制具有重要意义.目前对氧化还原调控机制的认识多为编码基因和蛋白,大量的非编码基 ...

  3. 长链非编码RNA(lncRNA)

    长链非编码RNA(lncRNA) 转自:http://blog.sina.com.cn/s/blog_909da11301010bkz.html     长链非编码RNA(lncRNA)是一类转录本长 ...

  4. 权威发布:长链非编码RNA命名规则

    转自:http://blog.sina.com.cn/s/blog_8088f3700101pab7.html 权威发布:长链非编码RNA命名规则 对于人类基因命名标准的制定而言,雨果基因命名委员会( ...

  5. TCGA系列--TCGA长链非编码RNA的可视化工具TANRIC

    http://ibl.mdanderson.org/tanric/_design/basic/index.html 转载于:https://www.cnblogs.com/nkwy2012/p/808 ...

  6. TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法

    <TACOS:一种用于准确预测细胞特异性长的非编码RNA亚细胞定位的新方法> <TACOS: a novel approach for accurate prediction of ...

  7. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  8. 基因调控分析之非编码RNA

    ​​非编码RNA简介 非编码 RNA (ncRNA) 是由基因组转录而成的不编码蛋白质的 RNA 分子.非编码 RNA 除了在转录和转录后水平上发挥作用外,还在基因表达的表观遗传学调控中发挥重要作用. ...

  9. 易基因|深度综述:表观遗传机制在慢性疼痛中的作用(DNA甲基化+组蛋白修饰+非编码RNA)

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 2022年8月22日,德国海德堡大学Daniela Mauceri在<Cells>杂志发表了"Role of Ep ...

  10. Nature Reviews Cancer综述:长非编码RNA在肿瘤转移中的作用

    近年来,虽然癌症的诊断和治疗取得了长足进步,但转移性癌症患者的预后仍然很差,转移性疾病占癌症相关死亡的绝大多数.癌细胞从原发性肿瘤向远处器官的扩散是一个有序的.多步骤过程,称为侵袭转移级联反应.在过去 ...

最新文章

  1. 文章标题对网站优化有什么影响?
  2. python爬虫应用实战-如何爬取表情进行斗图?丰富你的表情库
  3. Python编程基础:第二十五节 args参数*args
  4. Spring Cloud综合实战 - 基于TCC补偿模式的分布式事务
  5. eclipse和myeclipse的差别问题
  6. html 头尾代码自动,HTML Head Generator - 纯 CSS 实现的头部元标签代码生成器 - 钉子の次元...
  7. 永久更改打开matlab时工作目录
  8. 运用mysql实现工资管理系统_企业工资管理系统的设计与实现(MySQL)
  9. C++(18)——温度表达转化
  10. Shiro源码-创建subject
  11. 微信在教育行业的营销
  12. Explicit 关键字
  13. 浅谈游戏中BOSS设计的思路
  14. mysql中数据表null什么意思_MySQL 中NULL和空值的区别是什么?
  15. 深度强化学习控制六足机器人移动个人学习笔记(一)
  16. Voronoi入门1
  17. 各大常见应用场景中Redis的使用方法
  18. dede简略标题调用标签
  19. Donald Trump’s takeover of his party is near complete
  20. IOS 分享相册里面的视频文件

热门文章

  1. eos java调用命名sql_普元 EOS Platform 7.6 开发命名SQL缓存示例
  2. 【动态任务-七】Spring整合Cron在线生成表达式(基于bootstrap3自适应样式)
  3. Kindle fire 刷机
  4. Axure 9.0.0.3704 授权码
  5. 单片机学习(四)——ESP8266(最全教程和说明)
  6. 怎么用8uftp上传网站,利用8Uftp上传自己的网页只需8步
  7. Python学习笔记之蓝牙模块通讯-Pybluez
  8. 22道接口测试面试题答案。
  9. 来了 | Python 官方发布整套中文PDF文档(共27本)
  10. javascript设置cookie高级篇可跨域访问