前言

前两篇介绍了利用RapidMiner利用决策树算法、贝叶斯分类器对golf数据进行简单的预测分析,当然由于数据集的有限,模型预测结果就是各种惨不忍睹,所以……今天更多是关注于K-Means算法在rapidminer中如何实践。

K-Means算法基本理解

K-Means又称K-平均数,计算标准为距离平均数。计算过程如下。

之前,非常机缘巧合看到有关K-Means算法可视化的程序。感觉对算法的理解有所帮助。可以浏览:K-means可视化 byGeorge
可能不是很方便浏览可以直接看代码,即https://github.com/silverme/KMeans/blob/master/index.html

利用RapidMiner实践K-Means

数据:Sample>data>iris

直接双击iris数据可以浏览到:数据内容及相关可视化分析

依据标记好数据,可以将数据分为三类,在可视化过程中,其实可以看到有两类是处于一种比较接近的状态,如果没有颜色区分,就像是一类一样,所以可以留意之后的分类结果。

检索如下图所示的算子进行流程构建。
rename算子主要是因为rapidminer中提供的关于iris数据集属性都是a_1这样的形式,不知道实际代表的结果,所以在网上了解数据集收集内容后,直接对将属性进行改名。
select attribute算子功能主要是选择所要的属性内容。
**注意:**算子相连过程中上个算子输出与下个算子的输入是要对应的,不然就会存在流程不通过的结果,下图注意”Clustering“与”cluster distance performance “之间相连。

rename算子参数设置:


select attribute算子参数设置:

cluster distance performance算子参数设置:
Davies Bouldin标准用于判断分类效果,数值越小效果越好。用于判断k值到底取多少合适。

结果输出:

当K设置为3时,Davies Bouldin衡量结果为-0.422


当k为5时,Davies Bouldin衡量结果为-0.211,结果比k为三时大,效果没有那么好。

但当k为2时,Davies Bouldin衡量结果为-0.879,更小结果更好。
这也是算法本身性质(根据距离分类)导致的分类结果。

暂时关于RapidMiner的实践介绍就先到这里,网上也有一些关于apriori关联分析的rapidminer实践,所以就不写类似的重复内容了。其实,也是因为自己对这个软件理解还有很多不足,还是需要继续取学习,希望有一日能够继续更新这个系列的文章吧。就酱~

RapidMiner介绍与实践(一)决策树
RapidMiner介绍与实践(二)贝叶斯分类器
RapidMiner介绍与实践(三)K-Means

RapidMiner介绍与实践(三)K-Means相关推荐

  1. RabbitMQ系列(三)RabbitMQ交换器Exchange介绍与实践

    RabbitMQ交换器Exchange介绍与实践 RabbitMQ系列文章 RabbitMQ在Ubuntu上的环境搭建 深入了解RabbitMQ工作原理及简单使用 RabbitMQ交换器Exchang ...

  2. Python内置四大数据结构之字典的介绍及实践案例

    Python字典的介绍及实践案例 一.字典(Dict)介绍 字典是Python内置的四大数据结构之一,是一种可变的容器模型,该容器中存放的对象是一系列以(key:value)构成的键值对.其中键值对的 ...

  3. 基于Python的岭回归与LASSO回归模型介绍及实践

    基于Python的岭回归与LASSO回归模型介绍及实践 这是一篇学习的总结笔记 参考自<从零开始学数据分析与挖掘> [中]刘顺祥 著 完整代码及实践所用数据集等资料放置于:Github 岭 ...

  4. MPI介绍与实践——理论介绍

    MPI介绍与实践--理论介绍 一.MPI介绍 1.什么是MPI Message Passing Interface Specification(消息传递接口规范) MPI是由一组来自学术界和工业界的研 ...

  5. 为了联盟还是为了部落 | K means

    1. 问题 人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体.好像我们很擅长寻找和自己气质接近的同类.其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意 ...

  6. 基于Python的Kmeans聚类分析介绍及实践

    基于Python的Kmeans聚类分析介绍及实践 这是一篇学习的总结笔记 参考自<从零开始学数据分析与挖掘> [中]刘顺祥 著 完整代码及实践所用数据集等资料放置于:Github 聚类算法 ...

  7. OpenCV的k - means聚类 -对图片进行颜色量化

    OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...

  8. OpenCV官方文档 理解k - means聚类

    理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...

  9. OWIN的理解和实践(三) –Middleware开发入门

    原文:OWIN的理解和实践(三) –Middleware开发入门 上篇我们谈了Host和Server的建立,但Host和Server无法产出任何有实际意义的内容,真正的内容来自于加载于Server的M ...

  10. kmeans改进 matlab,基于距离函数的改进k―means 算法

    摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...

最新文章

  1. blktrace 工具集使用 及其实现原理
  2. 耗时很长的程序忘加nohup就运行了怎么办?
  3. php $表达式,Notepad++
  4. Linux下的TCP Wrapper机制
  5. IDEA配置SVN并实现代码版本控制
  6. esxi虚拟化集群_ProxmoxVE 之集群安装(V5.2)
  7. oracle虚拟机导入表,在Linux虚拟机上安装Oracle数据库超完整版!)
  8. vbs运算符号和函数
  9. php orm教程,Laravel ORM 数据model操作教程
  10. STM32嵌入式基础开发04-PS2手柄SPI通讯数据输出(4_SPI)
  11. 微信小程序位置授权被取消再授权
  12. 称“开启千元机快充时代” 魅蓝5s将于15日发布
  13. kaggle入门之Digital Recognition(数字识别)
  14. qq复读机java脚本分享蓝奏云_蓝奏云资源,各种软件分享链接,干货
  15. 并发模型第肆讲-pre threaded模型
  16. python入门小项目 | 开发一个《小猫抓鱼》小游戏
  17. 如何安装My SQL
  18. 支付宝SDK接入详细指南(附官方支付demo)
  19. Android Zenmode/DND(勿扰模式) 实现原理剖析
  20. 红楼梦java_蒋勋细说红楼梦——缘分告别时的淡淡哀伤

热门文章

  1. 3D打印树莓派4B外壳—内置UPS和统计显示信息
  2. 您好,我想请问为什么地理空间数据云下载解压后只有一个文件格式,不是说有七八个段波样子的文件嘛,你们是怎么解决的呢,感谢回复
  3. CLodop云打印服务(localhost本地)未安装启动
  4. 三星note10 android q,【极光ROM】-【三星NOTE10/NOTE10+/5G N97XX-855】-【V6.0 Android-Q-TE1】...
  5. vux移动端UI组件库
  6. ArcGIS之图斑净面积计算工具(支持二调,三调)
  7. 通过ssh远程连接Ubuntu主机
  8. python 离线安装paramiko_离线安装 Python 2.7, paramiko 和 tornado
  9. 电脑上怎么彻底卸载一个软件--Geek Uninstaller
  10. matlab实现混沌系统最大李雅普诺夫指数