一,鸢尾花Iris数据集解析

二,绘制Iris数据集散点图,数据集已经给出具体类别

from sklearn import datasets
import matplotlib.pyplot as plt#加载数据集,是一个字典类似Java中的map
lris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴,你也可以选择其他维度
x_axis = lris_df.data[:,0]
y_axis = lris_df.data[:,2]#c指定点的颜色,当c赋值为数值时,会根据值的不同自动着色
plt.scatter(x_axis, y_axis, c=lris_df.target)
plt.show()

三,Python使用kmeans聚类,并绘制新的聚类散点图。

from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans#加载数据集,是一个字典类似Java中的map
lris_df = datasets.load_iris()#挑选出前两个维度作为x轴和y轴,你也可以选择其他维度
x_axis = lris_df.data[:,0]
y_axis = lris_df.data[:,2]#这里已经知道了分3类,其他分类这里的参数需要调试
model = KMeans(n_clusters=3)#训练模型
model.fit(lris_df.data)#选取行标为100的那条数据,进行预测
prddicted_label= model.predict([[6.3, 3.3, 6, 2.5]])#预测全部150条数据
all_predictions = model.predict(lris_df.data)#打印出来对150条数据的聚类散点图
plt.scatter(x_axis, y_axis, c=all_predictions)
plt.show()

四,也可以聚成两类:

#将类别参数改成2
model = KMeans(n_clusters=2)

五,kmeans算法流程

1)随机选取k个点作为种子点(这k个点不一定属于数据集,k个点就代表有k类)

2)分别计算每个数据点到k个种子点的距离,离哪个种子点最近,就属于哪类

3)重新计算k个种子点的坐标(简单常用的方法是求坐标值的平均值作为新的坐标值)

4)重复2、3步,直到种子点坐标不变或者循环次数完成

六,kmeans的不足

1)初始分类数目k值很难估计,不确定应该分成多少类才最合适(ISODATA算法通过类的自动合并和分裂,得到较为合理的类型数目k)(meanshift也可以不用提前知道分多少类别,参考博文:https://blog.csdn.net/u010916338/article/details/86495308)

2)不同的随机种子会得到完全不同的结果(K-Means++算法可以用来解决这个问题,其可以有效地选择初始点)

Python实现Iris数据集(鸢尾花卉数据集)kmeans聚类相关推荐

  1. Iris鸢尾花卉数据集算法练习——PCA和K近邻分类器

    本文章主要以sklearn中的Iris鸢尾花数据集为训练对象,练习了PCA和K-近邻算法的使用,以下为笔记内容: Iris数据集也叫安德森鸢尾花卉数据集,通过测量了三种不同花卉(山鸢尾.变色鸢尾和维吉 ...

  2. Python构建基于elkan优化算法的K-Means聚类模型

    Python构建基于elkan优化算法的K-Means聚类模型 目录 Python构建基于elkan优化算法的K-Means聚类模型 #elkan优化算法

  3. [Python图像处理] 十九.图像分割之基于K-Means聚类的区域分割

    该系列文章是讲解Python OpenCV图像处理知识,前期主要讲解图像入门.OpenCV基础用法,中期讲解图像处理的各种算法,包括图像锐化算子.图像增强技术.图像分割等,后期结合深度学习研究图像识别 ...

  4. python numpy 对西瓜数据小样进行 k-means 聚类

    西瓜数据集,样本数 30,特征维度 2,聚类选择 3 类,未特殊指定距离计算方法. import numpy as np import time''' data = [[0.697, 0.460], ...

  5. 通过K-means对iris数据集进行处理 Kmeans聚类算法实例

    Python from sklearn import datasets import matplotlib.pyplot as plt from sklearn.cluster import KMea ...

  6. 数据分析(Python)入门—鸢尾植物数据集处理

    专栏文章目录 一.数据分析(Python)入门--鸢尾植物数据集处理 文章目录 专栏文章目录 一.背景解析-数据集介绍 二.快速进入任务 1.导入模型库 2.读取鸢尾植物数据集(iris.csv)为d ...

  7. python 数据挖掘_Python数据挖掘框架scikit数据集之iris

    一.iris数据集简介 iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson's Iris data set.iris包含150个样本,对应数据集的每行数据.每行数据包含每个样本的 ...

  8. Python机器学习iris数据集预处理和模型训练

    机器学习模型训练 一.iris数据集简介 二.基本数据操作和模型训练 一.iris数据集简介 iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson`s Iris data set. ...

  9. python决策树画图_利用python用iris做一个决策树的可视化更好的理解机器学习!...

    先来看看说说主要步骤. 1.引入数据 2.训练模型 3.预测 1.引入数据,采用经典的iris数据 Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理.Iris也称鸢尾花卉数据集 ...

  10. 基于MATLAB的K-means聚类算法

    实验数据说明 Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集.通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),V ...

最新文章

  1. Xamarin Android组件篇教程RecylerView动画组件RecylerViewAnimators(1)
  2. django 之 session
  3. PHP 字符串替换 substr_replace 与 str_replace 函数
  4. 玩转Google开源C++单元测试框架Google Test系列(gtest)之七 - 深入解析gtest
  5. Apache Shiro第2部分–领域,数据库和PGP证书
  6. JobDataMap传递参数_02
  7. 绝了,几款主流的 JSON 库性能对比!
  8. 剑指offer——23.反转链表
  9. CentOS 7中 rsync 备份数据使用实例
  10. nginx防盗链功能
  11. 在 chrome 中使用 coap 调试插件 copper
  12. Crtmpserver编译
  13. python while函数_Python:无法在while循环中调用函数
  14. python爬取同花顺_python 同花顺
  15. Arduino教程 初体验之点亮自带LED灯(含管脚图)
  16. 冒险岛079单机/小范围联机游戏搭建
  17. 层间距离对ct图像的影响_CT图像影响因素
  18. Win 7 安装office visio
  19. 思考篇|姜子牙观影后感
  20. 计算机一直重启无法进入系统怎么办,电脑无限蓝屏重启 电脑一直不断的重启怎么办...

热门文章

  1. rainmeter频谱动效和动态挂件
  2. Wait for me和waitting for me有什么区别?
  3. 矩形微带贴片天线设计
  4. LittleVGL学习笔记(1)---获取源码实现仿真并移植到STM32
  5. 机房收费系统心得总结
  6. 【题解】P3939数颜色
  7. 如何读取通用配置文件conf?
  8. 缓存架构技术:开课吧java高级架构师第七期笔记
  9. Sorting 2D Vector in C++ | Set 2 (In descending order by row and column)
  10. 关于GPIO的内部结构及编程步骤