数据挖掘算法和实践(八):K-means 聚类(西瓜数据集)
之前章节讲到的算法都是有监督学习方法, 在建模之前需要训练(样本)数据集,模型根据样本数据集的结果,训练得到某些参数,形成分类器。无监督学习没有训练数据集,在数据集上根据某种规则完成模型建立;
所谓物以类聚-人以群分,“类”指的是具有相似性的集合,聚类是指将数据集划分为若干类,使得各个类之内的数据最为相似,而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分,属于无监督学习。
K-Means是最常用且简单的聚类算法,最大特点是好理解,运算速度快,时间复杂度近于线性,适合挖掘大规模数据集。但是只能应用于连续型的数据,并且一定要在聚类前需要手工指定要分成几类;
K-Means采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有数值的均值得到的,每个类的中心用聚类中心来描述。对于给定的一个(包含n个一维以及一维以上的数据点的)数据集X以及要得到的类别数量K,选取欧式距离作为相似度指标,聚类目标实施的个类的聚类平反和最小,即最小化:
K-Means算法流程:
1、随机
数据挖掘算法和实践(八):K-means 聚类(西瓜数据集)相关推荐
- OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...
- OpenCV官方文档 理解k - means聚类
理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...
- 机器学习算法与Python实践之k均值聚类(k-means)
机器学习算法与Python实践之(五)k均值聚类(k-means) zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是 ...
- 机器学习算法与Python实践之 k均值聚类(k-means)
文章来源:http://blog.csdn.net/zouxy09/article/details/17589329 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书 ...
- k means聚类算法_一文读懂K-means聚类算法
1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...
- k means聚类算法_K-Means 聚类算法 20210108
说到聚类,应先理解聚类和分类的区别 聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则不一样,聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来. K-Means 聚类算法有很多种 ...
- 数据挖掘算法和实践(十六):聚类算法
之前写算法太侧重于理解和推导,后面的算法将更侧重于在sklearn中使用和官方数据集测试,本篇讲聚类,聚类是一类算法的统称,属经典的无监督学习,无需样本训练得到模型后再适用于新数据,直接对数据进行聚类 ...
- 机器学习算法之K-means(K均值聚类)算法
聚类 聚类,简单来说,就是将一个庞杂数据集中具有相似特征的数据自动归类到一起,称为一个簇,簇内的对象越相似,聚类的效果越好.它是一种无监督的学习(Unsupervised Learning)方法,不需 ...
- k均值聚类算法优缺点_Grasshopper实现K均值聚类算法
本文很长很长,有很多很多图,包含以下部分: 1.算法简介 2.如何分类平面点 3.如何分类空间点 4.如何分类多维数据 5.后记 提醒:以下内容包括:智障操作,无中生友,重复造轮子 等 1.算法简介 ...
- 【ML算法学习】核K均值聚类Kernel K-Means Clustering(KKMC)
核K均值聚类Kernel K-Means Clustering(KKMC) 1. 理论基础回顾 (1)核函数定义(统计学习方法定义7.6) 定义内容:假设有输入空间 X \mathcal{X} X( ...
最新文章
- html css bootstrap,CSS Bootstrap是什么?
- gdb debug memory address
- 零基础python入门书籍-零基础如何学好python?推荐6本入门书籍,帮你打基础
- Hibernate开发中常见错误总结
- 阻塞队列和ArrayBlockingQueue源码解析
- Matplotlib 可视化之多图层叠加
- Open Flash Chart 初体验
- Java面向对象(21)--内部类
- 列表使用与内部实现原理
- 核心期刊投稿经验(遥感信息)
- C#进行Visio开发的事件处理
- 开源方案搭建可离线的精美矢量切片地图服务-6.Mapbox之.pbf字体库
- 生成token和获取token
- java实体类生成mysql表_自己简单写的JDBCUtils,可以根据当前数据库下面的表生成java实体类。...
- js开源框架最新版下载
- c#登陆qq空间无视JS加密
- python搭建下载/上传服务器
- 小程序这6个坑绝对不能踩
- weed-fs 压力测试
- 如果微软狠心鸿蒙系统,微软强制用户升级华为鸿蒙系统出来你会放弃windows使用鸿蒙吗...