用scikit-learn学习K-Means聚类
本文转载自刘建平
建立数据
import numpy as np
import matplotlib.pyplot as plt
#%matplotlib inline
from sklearn.datasets.samples_generator import make_blobs
# X为样本特征,Y为样本簇类别, 共1000个样本,每个样本4个特征,共4个簇,簇中心在[-1,-1], [0,0],[1,1], [2,2], 簇方差分别为[0.4, 0.2, 0.2]
X, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]], cluster_std=[0.4, 0.2, 0.2, 0.2], random_state =9)
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.show()
分2类
from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=2, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
Calinski-Harabasz Index评估的聚类分数
from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)Out[52]: 3116.1706763322227
分3类
from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
Calinski-Harabasz Index评估的聚类分数
from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)Out[54]: 2931.625030199556
分4类
from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=4, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
Calinski-Harabasz Index评估的聚类分数
metrics.calinski_harabaz_score(X, y_pred)
Out[56]: 5924.050613480169
用scikit-learn学习K-Means聚类相关推荐
- OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...
- OpenCV官方文档 理解k - means聚类
理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...
- 机器学习与Scikit Learn学习库
摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...
- k means聚类算法_K-Means 聚类算法 20210108
说到聚类,应先理解聚类和分类的区别 聚类和分类最大的不同在于:分类的目标是事先已知的,而聚类则不一样,聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来. K-Means 聚类算法有很多种 ...
- k means聚类算法_一文读懂K-means聚类算法
1.引言 什么是聚类?我们通常说,机器学习任务可以分为两类,一类是监督学习,一类是无监督学习.监督学习:训练集有明确标签,监督学习就是寻找问题(又称输入.特征.自变量)与标签(又称输出.目标.因变量) ...
- 机器学习(十四):K均值聚类(kmeans)
k均值聚类方法是一种无监督机器学习技术,用于识别数据集中的数据对象集群.有许多不同类型的聚类方法,但k -means是最古老和最平易近人的方法之一.这些特性使得在 Python 中实现k -means ...
- k均值聚类算法(K Means)及其实战案例
算法说明 K均值聚类算法其实就是根据距离来看属性,近朱者赤近墨者黑.其中K表示要聚类的数量,就是说样本要被划分成几个类别.而均值则是因为需要求得每个类别的中心点,比如一维样本的中心点一般就是求这些样本 ...
- 人工智障学习笔记——机器学习(8)K均值聚类
一.概念 K均值聚类(K-means)是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则.K-means算 ...
- k均值聚类算法考试例题_k means聚类算法实例
所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高.其中每个子集叫做一个簇. ...
- OpenCV学习笔记(十七)——K均值聚类
当我们要预测的是一个离散值时,做的工作就是"分类".机器学习模型还可以将训练集中的数据划分为若干个组,每个组被称为一个"簇(cluster)".它的重要特点是在 ...
最新文章
- Python+OpenCV 图像处理系列(8)—— Numpy 对象及图像对象创建与赋值
- MySQL8.0 - 新特性 - Instant Add Column
- JavaScript数据类型检测总结
- JavaScript获取iframe中form表单中元素的值
- zz让你成功的九个心理定律
- java严格模式_“use strict” 严格模式使用(前端基础系列)
- .NET也内卷了,BAT大厂近日上演抢人大战!
- python的concat用法_python的concat等多种用法详解
- 关于android隐式启动activity的分析和说明,Android学习之Intent中显示意图和隐式意图的用法实例分析...
- 某车企笔试题解答(1)
- java编码规范试题_java编码规范考试题答案完整版.doc
- 4个最受欢迎的大数据可视化工具
- Excel·VBA单元格内容拆分
- 个人总结:Mysql知识图谱
- 如何遍历一个二叉树——非递归实现
- 使用BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重
- 利用LSTM进行空气指数预测
- Python实现亚马逊网站图书满减信息的微信通知
- 2022中国互联网公司100强排名
- 微信和QQ如何互传文件?其实方法很简单,手把手教你操作
热门文章
- js中对于数据类型的一些理解
- 如何在Linux中恢复一个删除了的文件
- jq实现div移入与移出以及获得与失去焦点
- c++中构造函数 、析构函数的作用域详解
- ubuntu安装五笔输入法(ibus-table-wubi)
- Asp.NET获取文件及其路径
- [票据打印]打印走纸控制(1) - 设置纸型
- mongodb java crud_MongoDB用Java,简单的CRUD操作,两种方法,附源码下载。
- 计算机三级 偏软,计算机三级偏软说明
- python corrwith_python – pandas.DataFrame corrwith()方法