【机器学习-西瓜书】九、K-means;聚类算法划分
推荐阅读: 原型聚类;聚类划分;K-means
9.4 原型聚类
原型聚类亦称基于原型聚类(prototype-based clustering),原型指的是样本空间中具有代表性的点。基于原型的定义是每个对象到该簇的原型的距离比到其他簇的原型的距离更近。在K-means中,聚类中心就是原型,就是具有代表性的点,一个样本距离哪一个原型近,就划分为哪一簇。
常见的原型聚类算法有: K-means;LVQ(learning vector quantization,学习向量量化);高斯混合聚类
9.4.1 K均值算法(K-means)
K-menas算法中的K表示划分为K个簇,K是需要认为预先设定的,这个K和KNN里的K是完全不同的意思,以前刚接触ML,经常混淆KNN和K-means的K。K-means是通过 最小化平方误差:E=∑ki=1∑x∈ci∥∥x−μi∥∥2E=\sum _{i=1}^{k}\sum _{x\in c_{i}}\left \| x-\mu _{i} \right \|^{2} 来划分样本。其中k就表示k个簇,μi\mu _{i} 表示第i个簇的聚类中心(第i簇的原型)。E就表示所有样本到各自簇的聚类中心的距离之和,要这个聚类最小,其实就是使得各个簇最紧密。
K-means的算法流程:
Step 1. 给定K,随机初始化每个簇的聚类中心
Step 2.按照欧氏距离,计算每个样本到所有聚类中心距离,样本离哪个聚类中心近,就划分为哪一类。
Step 3. 更新聚类中心:针对每个簇, 利用簇中的样本,求取均值向量,得到新的聚类中心
Step 4. 检查 当前平方误差: “` E=∑ki=1∑x∈ci∥∥x−μi∥∥2E=\sum _{i=1}^{k}\sum _{x\in c_{i}}\left \| x-\mu _{i} \right \|^{2} 是否小于上一次的平方误差,是的话,停止,否则重复 。
通常情况下是设定一定的迭代次数让算法停止。
9.4.2 学习向量量化(LVQ)
LVQ属于神经网络模型
9.4.3 高斯混合聚类
高斯混合聚类(Mixture-of-Gaussian)采用概率模型来表达聚类原型
9.5 密度聚类
密度聚类也称为基于密度聚类(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。
DBSCAN(Density-Based Spatial Clustering of Appplication with Noise)是著名的密度聚类算法,它基于一组领域参数来刻画样本的紧密程度(neighborhood)
9.6 层次聚类
层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。
AGNES(agglomerative nesting)是一种自底向上聚类策略的层次聚类算法。它先将每个样本看作一个簇,再将相近的两个簇进行合并,直到达到预设的聚类簇个数.
计算两个簇(集合)的距离有:最小距离,最大距离,平均距离。
聚类划分:
(1)原型聚类 k-means ;LVQ; 高斯混合聚类
(2)密度聚类 DBSCAN;OPTICS;DENCLUE
(3)层次聚类 AGENS、DIANA、BIRCH、ROCK
【机器学习-西瓜书】九、K-means;聚类算法划分相关推荐
- 机器学习之无监督学习-K均值聚类算法
机器学习之无监督学习-K均值聚类算法 对于无监督学习,有两类重要的应用,一个是聚类,一个是降维.我们今天主要学习聚类中的K均值聚类. 我们先看看下图,图a为原始的数据点,我们想要对图a的数据点进行分类 ...
- k means聚类算法_一文读懂K-means聚类算法
1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...
- k means聚类算法_K-Means 聚类算法 20210108
说到聚类,应先理解聚类和分类的区别 聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则不一样,聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来. K-Means 聚类算法有很多种 ...
- OpenCV官方文档 理解k - means聚类
理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...
- k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
- 机器学习实战-61:K均值聚类算法(K-Means)
K均值聚类算法(K-Means) 深度学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读! 机器学习分为监督学习.无监督学习和半监督学习(强化学习).无监督学习最常应用的场景是聚类(clust ...
- 机器学习西瓜书-1-2章
学习目标: 概览机器学习西瓜书 1.2章 学习内容: 第一章 绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...
- 机器学习西瓜书南瓜书 神经网络
机器学习西瓜书&南瓜书 神经网络 1. 神经元模型 神经网络:由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实事件物体所做出的交互反应. 神经网络最基本的成分 ...
- K-Means(K均值聚类算法)
K-Means(K均值聚类算法) 1.前言 要学习聚类算法就要知道聚类学习算法是什么,为什么要学习聚类学习聚类学习算法,有什么用途,下面就简单的做一下介绍,并且详细的说明k-means均值聚类学习算法 ...
最新文章
- [译] PHP7 数组:HashTable
- MVC专题研究(三)——数据绑定和传送
- 并发编程-26 高并发处理手段之服务降级与服务熔断 + 数据库切库分库分表
- Dubbo框架设计原理
- Host key verification failed. fatal: Could not read from remote repository.Please make sure you have
- c语言中规定的标准文件,标准C语言
- MiniFrameworkPHP开源框架
- 你还在抱怨开发工具,为什么不动手优化? | 人物志
- 数据说大数据分析师吴女士观点:大数据是回暖的计算机行业中绩增速最高的子行业...
- 计算机动画专业哪个大学排名,哪些大学院校数字媒体艺术、动画专业比较排名...
- s2结业项目营业网点查询_论文发表完成科研项目的材料
- centos7之关于时间和日期以及时间同步的应用
- unix文件中i节点
- MTK驱动增加支持扫描显示中文SSID
- 机器学习(七):贝叶斯之新闻分类器
- div 背景色设置_DIV背景颜色设置
- 用java制作扑克牌_java实现简单扑克牌游戏
- 2021年全新UI界面1:1仿皮皮虾APP段子
- 我的理想计算机作文800字,我的理想作文800字(精选五篇)
- e4e反演框架:Designing an Encoder for StyleGAN Image Manipulation