论文标题:Similarity network fusion for aggregating data types on a genomic scale.

  • 论文下载地址

论文总结

  • 论文以计算机视觉多视图方式为启发,设计了一种图融合网络用于解决基因数据不能综合处理的困难。现有的基因数据非常丰富,有各种类型的基因数据可以利用。但现有的基因数据处理方式大多数是只利用一种基因数据,例如只使用DNA或者是只使用mRNA,不能综合所有的基因数据,得到一个既有共享信息又有互补信息的处理结果。本文考虑将患同一种癌症的病人组成一个群体,利用群体里面每个病人个体的不同基因数据分别构建不同的图,并设计了一个图融合方式,将不同的图融合成一个最终的图,最终的图包括了所有的基因信息数据,因此是一个综合的结果,利用该综合的结果进行聚类,可以将癌症分为不同的亚型,利用该综合结果进行回归任务,可以对病人的生存风险进行预测。论文的框架和模型的结构如下:

问题陈述

  • 现有的科技可以获得各种基因数据,但是将各种基因数据综合起来处理还存在一些问题:

    • 病人较少但是测量的基因数据非常多;
    • 各种基因数据不统一,且各个数据上都存在噪声;
    • 如何提取各种基因数据上的互补信息。
  • 已经有一些方法可以综合使用所有种类的基因数据,但是存在各种问题:
    • 基于拼接的方式:存在低信噪比的问题;
    • 独立分析后拼接:数据独立,容易产生不同的输出结果,不能统一;
    • 基因预先选择:聚焦公共信息,缺失了互补信息;
    • 机器学习聚类:对于预先选择的基因数量特别敏感。
  • 本文提出SNF:Similarity network fusion:
    • 为每一类构建一个相似度网络;
    • 用非线性方法融合所有的相似度网络得到一个单一的输出网络。
  • SNF的优势:
    • 同时包含不同基因类型的公共信息和互补信息,提取的信息比较全面;
    • 可以综合处理多种基因数据,对噪声鲁棒,可用于样本少的情况;
    • 迭代融合的过程可以去除弱连接,增强强连接。

方法


  • 上图以融合两种基因数据为例,原始的数据是一批患有同一种癌症的病人,分别提取每一个病人的DNA甲基化数据和mRNA基因数据。a图展示了每一个病人的两种基因数据,纵轴表示每个病人,横轴表示一条基因数据。b图展示了病人之间两两相似度计算后的相似度矩阵,c图是根据相似度矩阵画出的图,节点表示病人,连接的边表示了相似度的大小,即权值。c图中边只有一种颜色,此时边是纯净的,即每一条边都是由单一数据计算出来的。d图表示了图融合的 过程。通过融合迭代公式的不断迭代,两个图逐渐融合,互相学习得到各自的“长处”,最终达到收敛条件时,得到最终的融合图,即e,此时边不是纯净的,每条边都是由两种数据综合计算出来的。



  • 论文以一个细胞瘤数据集进行了分析,展示了SNF的具体过程,这里使用了三种基因数据,首先也是根据这三种基因数据分别进行构图,构图后对三个图进行融合。利用融合之后的图进行聚类和生存预测。使用谱聚类的方式将病人聚类成不同的癌症亚型,并将网络作为一个正则化项,加入到回归任务中,得到病人的生存风险预测。

  • 相似度计算公式:


  • 图融合迭代公式:

  • 谱聚类损失函数:

  • 回归系数更新公式:

评估

  • 指标1:P值,表示样本检查结果有显著意义的最低水平;
  • 指标2:轮廓分数,用于评估聚类,同类靠近,异类远离;
  • 指标3:运行时间,测试网络的伸缩性的方法。

结论

  • 本文使用了一个相似度融合的网络,可以综合处理各种基因数据,得到丰富全面的特征,用于后续的聚类和回归任务。

笔记

  • 本文来源于多视图,但也可以返回应用于多视图;
  • 聚类的评估指标可以借鉴。

参考文献

  • Bayesian correlated clustering to integrate multiple datasets.
  • On spectral clustering: analysis and an algorithm.
  • A tutorial on spectral clustering.

相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale相关推荐

  1. DSPE-PEG-N3,磷脂-聚乙二醇-叠氮 点击化学PEG试剂,可用于药物传递、基因转染和生物分子修饰

    中文名称      叠氮聚乙二醇磷脂.磷脂聚乙二醇叠氮 简称             N3-PEG-DSPE.DSPE-PEG-N3 物理性质:米白色/白色固体或粘性液体取决于分子量. 溶剂: 溶于大 ...

  2. RYF-Net: 深度融合网络用于单幅图像去雾(Deep Fusion Network for Single ImageHaze Removal-IEEE_TIP-2020)

    概述 在本文中提出了一种基于卷积神经网络的体系结构来估计模糊场景的场景传输图(TrMap).本文提出的网络以雾图像为输入,利用本文提出的RNet和YNet分别通过RGB和YCbCr颜色空间提取雾霾相关 ...

  3. 多分支融合网络用于12导联ECG图像心肌梗死筛查

    Multi-branch fusion network for Myocardial infarction screening from 12-lead ECG images 1.摘要 背景与目的:心 ...

  4. 一个用于Allen脑图谱基因数据的工具箱|abagen详细使用教程-获取基于脑区的基因表达矩阵(脑区*gene)

    艾伦人类脑图谱(Allen Human Brain Atlas) 艾伦人类脑图谱是一个由艾伦脑科学研究所(Allen Institute for Brain Science)开发的在线基因表达图谱数据 ...

  5. 易基因:多组学关联分析及组学分子实验验证方法(表观组+转录组+微生物组)|干货系列

    大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因. 生物过程具有复杂性和整体性,单组学数据难以系统全面解析复杂生理过程的分子调控机制.而多组学(Multi-omics)联合分析可同时实现从 ...

  6. 【研究计划书】基于人工智能算法的肿瘤代谢问题研究

    基于人工智能算法的肿瘤代谢问题研究 基于人工智能算法的肿瘤代谢问题研究 一.研究概述 1.1 研究背景 1.2 研究现状 1.3 研究方法 二.研究内容 2.1 肿瘤代谢过程和生物标志物识别 2.2 ...

  7. 学习SQL:SQL Server日期和时间函数

    So far, we haven't talked about SQL Server date and time functions. Today we'll change that. We'll t ...

  8. 【 rbx1翻译 第七章、控制移动基座】第八节、使用里程计进行往返运动

    7.8 Out and Back Using Odometry (使用里程计进行往返运动) 现在,我们了解了里程表信息是如何在ROS中表示的,我们可以更精确地在往返过程中移动机器人. 下一个脚本将监视 ...

  9. bigquery数据类型_bigquery解释了查询您的数据

    bigquery数据类型 Previously in BigQuery Explained, we reviewed BigQuery architecture, storage management ...

  10. Hibernate中文参考文档(JFIS)

    HIBERNATE - 符合Java习惯的关系数据库持久化      下一页 HIBERNATE - 符合Java习惯的关系数据库持久化 Hibernate参考文档 3.0.4 目录 前言 1. 翻译 ...

最新文章

  1. JavaScript、jQuery、HTML5、Node.js实例大全-读书笔记3
  2. oracle删除建分区索引,Oracle分区表之创建维护分区表索引的详细步骤
  3. 笨笨图片批量下载器 V0.3 beta[C# | WinForm | 正则表达式 | HttpWebRequest | Async异步编程] new...
  4. dbnetlib sqlserver不存在或拒绝访问_部署IIS+PHP+SQL server环境
  5. PuTTY/PSCP、PSFTP介绍及使用
  6. play framework 在 IDEA 11中debug
  7. 极化SAR数据超像素分割和密度峰值聚类
  8. uniapp引入阿里图标库
  9. Python 批量爬取猫咪图片实现千图成像
  10. flowplayer播放需求
  11. java 风能玫瑰图,施用java awt画风向玫瑰图及风能玫瑰图程序
  12. Python编程之求字符串长度
  13. 求解会议安排问题A - RJ501求解会议安排问题
  14. python中英文古风排版_古风排版 - Calculus9 - 博客园
  15. 软考-中级-网络工程师-笔记-第1章-计算机网络概论
  16. 【组合数学】递推方程 ( 常系数线性齐次递推方程 | 常系数、线性、齐次 概念说明 | 常系数线性齐次递推方程公式解法 | 特征根 | 通解 | 特解 )
  17. 不在B中的A的子串数量 HDU - 4416 (后缀自动机模板题目)
  18. matlab函数merge_MATLAB数据合并方法
  19. Java从接触到放弃(二十一)--网络编程
  20. CRM系统有哪些类型?

热门文章

  1. 基于深度学习的多目标跟踪(MOT)技术一览
  2. 视频教程-C# 实战项目——快递单打印软件-C#
  3. Element UI中的Descriptions描述列表
  4. Ant-design 源码分析之数据展示(八)Descriptions
  5. mysql批量抽取数据_批量从数据库是提取数据,并显示出来。
  6. MATLAB APP Designer设计之图片处理
  7. 用计算机和电视机组成家庭影院,家庭影院怎么连接电脑_家庭影院连接电脑详解【图文】-太平洋IT百科...
  8. (转帖)微服务拆分的原则和方法(2)
  9. Specification for the Lab VIEW Measurement File
  10. 昭阳E43G/K43G升级T9600失败,蓝屏