聚类分析-K-means clustering 在生物信息学中的应用

聚类是一种涉及数据点分组的机器学习技术。给定一组数据点,可以使用聚类算法将每个数据点到分类到图像中的特定组中。理论上,同一组中的数据点应具有相似的属性和特征,而不同组中的数据点的属性和特征则应高度不同。聚类是无监督学习的一种方法,是用于多领域统计数据分析的常用技术。在生物学领域, 有效地将不同的基因序列集进行有效的分类、功能基因识别、对蛋白质物理化学性质进行聚类可以预测其功能,推导植物和动物的分类,推断出物种的系统发育树,获得对种群固有的结构认识等,成为后基因组时代功能基因研究的重要工具。由于聚类分析应用的广泛性,出现了大量可用的聚类分析软件。常见的聚类分析方法有 K-means clustering, 以及Hierarchical Clustering (层次聚类)。

K-means clustering 简介

K-means由于其简单,好理解,运算速度快的优点,是一种非常常见并且应用很广泛的聚类分析方法。k-means的分析原理如下:首先任取k(分析人员自己设定)个样本点作为k个簇的初始中心,也就是数据集经过聚类得到k个分组;然后对每一个样本点,计算它们与k个中心的距离,把它归入距离最小的中心所在的簇;等到所有的样本点归类完毕,重新计算k个簇的中心;重复以上过程直至样本点归入的簇不再变动(收敛)。这样就将所有的样本划分成了k个组。

K-means聚类分析方法已被成功地应用于生命科学中各领域的研究,如在生物信息学分析中,K-means聚类分析常用于聚类基因表达数据、聚类蛋白质序列、构建系统发育树等。 如蛋白质序列聚类最基本的方法是计算每两个蛋白质序列的比对相似度,然后使用层次聚类方法来计算求得结果。因为生物功能的相关性通常伴随表达行为的相似性 (反之亦然),或所研究的过程可能设计多个基因或者蛋白质,因此有可能依据表 达谱相似程度(即根据某种距离函数,一些表达矢量相互间足够接近)找出特定的亚群或簇。具有相似表达谱的基因被称为共表达基因。反之,观察到基因共表达现象对推断这些基因的生物学功能有重要意义。

应用举例

图解:

  1. 左侧的第一个彩色侧边栏表示聚类数(k = 20),第二个彩色侧边代表聚类内变量的相对重要性(较深的蓝色表示较高的重要性)。
  2. 顶部栏第一横栏表示示风险组(从左到右代表低,中,高),第二栏代表复发状态(红色代表复发;黄色代表没有复发)。
  3. 右侧轴代表基因,以黄色突出显示的基因代表模型中的主要基因(每个簇中的最佳基因),未突出显示的基因代表每个簇中主要基因的替代物。 粉红色突出显示的基因表示由于探针集序列的歧义性或作为假定蛋白,已从模型中排除的基因。

参考文献

  1. Griffith O L, et al. A robust prognostic signature for hormone-positive node-negative breast cancer[J]. Genome Medicine,5,10(2013-10-11), 2013, 5(10):92.

聚类分析-K-means clustering 在生物信息学中的应用相关推荐

  1. python 聚类分析 k means

    Kmeans 是一种动态聚类方法,其基本思想是:首先随机选取 K 个点作为初始凝聚点,按照距离最近原则划分为 K 类:然后重新计算 K 个类的重心作为新的凝聚点,再按照距离最近原则重新分类:重复这一过 ...

  2. 聚类分析-层次聚类(Hierarchical Clustering)在生物信息学中的应用

    聚类分析-层次聚类(Hierarchical Clustering)解析 层次聚类 层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一 ...

  3. 文献记录(part89)--I-k-means-+:An iterative clustering algorithm based on an enhanced k -means

    学习笔记,仅供参考,有错必究 关键词:k均值:解决方案改进:准确的k均值:迭代改进 I-k-means-+:An iterative clustering algorithm based on an ...

  4. kmeans改进 matlab,基于距离函数的改进k―means 算法

    摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...

  5. 为了联盟还是为了部落 | K means

    1. 问题 人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体.好像我们很擅长寻找和自己气质接近的同类.其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意 ...

  6. OpenCV官方文档 理解k - means聚类

    理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...

  7. matlab中-psi_建议收藏 | 生物信息学中的可变剪切,这些内容你了解吗?

    聊点学术 声明:非常感谢Carina投稿至公众号,全文由Carina撰写,主要对生信的可变剪切相关内容作了一定的梳理. 检索TCGA中可变剪切的相关文献,虽然总数量并不多,但是其在2019年猛增为49 ...

  8. K means 图片压缩

    k-means的基本原理较为清晰,这里不多赘述,本次博客主要通过基础的k means算法进行图像的压缩处理. 原理分析 在彩色图像中,每个像素的大小为3字节(RGB),可以表示的颜色总数为256 * ...

  9. k均值聚类算法(K Means)及其实战案例

    算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...

  10. Nat. Mach. Intell. | 集成深度学习在生物信息学中的发展与展望

    本期给大家介绍悉尼大学Jean Yang教授课题组发表在Nature machine intelligence的文章"Ensemble deep learning in bioinforma ...

最新文章

  1. pycharm中报错:Error: failed to send plot to http://127.0.0.1:63342
  2. 写给初学者的Tensorflow介绍
  3. Scala数组元素的修改update
  4. 五十八、2020美赛C题的思路以及个人Python的解法
  5. js(Dom+Bom)第五天(1)
  6. 精选15个国外CSS框架
  7. 连接驱动_在jdbc中完成对于jdbc参数、jdbc变量,加载驱动,创建连接的封装
  8. Cow Contest【最短路-floyd】
  9. Windows下架设Apache并支持ASP-Win+Apache+ASP
  10. 【Elasticsearch】搜索类型 SearchType
  11. 2019女性开发者报告:3成16岁就会编程、JS/Python成女性掌握最多语言
  12. UVA 557 Burger
  13. 面向资源的权限体系设计随想
  14. PHP:错误控制运算符
  15. 上海二手房8月排名:链家、悟空找房、中原、太平洋、我爱我家、易居、房天下、iwjw、房多多、房好多、q房网、、、...
  16. Windows Server 2008打印服务器安装与配置
  17. 做华为外包一年的总结
  18. JS 数组 按个数进行分组
  19. 通俗易懂的讲解 网关是什么
  20. 无人机基础知识:多旋翼无人机各模式控制框图

热门文章

  1. 将Imagenet2012比赛数据解析为图像
  2. 机器视觉:远心镜头使用规则
  3. 水果忍者 java_水果忍者v1.7.2
  4. 博途/S7-1200 PLC 仿真时线圈得电却不能构成自锁回路解决方法
  5. Python菜鸟起飞day2--数据类型(元组,字典,字符串)
  6. java计算机毕业设计医疗器械销售电子商城源码+系统+mysql数据库+lw文档
  7. SEGGER Embedded Studio 缺少 mergehex工具
  8. VirtualBox Linux网络配置
  9. java联机对战五子棋游戏(SWT版)
  10. LU分解、LDLT分解和Cholesky分解