RapidMiner介绍与实践(三)K-Means
前言
前两篇介绍了利用RapidMiner利用决策树算法、贝叶斯分类器对golf数据进行简单的预测分析,当然由于数据集的有限,模型预测结果就是各种惨不忍睹,所以……今天更多是关注于K-Means算法在rapidminer中如何实践。
K-Means算法基本理解
K-Means又称K-平均数,计算标准为距离平均数。计算过程如下。
之前,非常机缘巧合看到有关K-Means算法可视化的程序。感觉对算法的理解有所帮助。可以浏览:K-means可视化 byGeorge
可能不是很方便浏览可以直接看代码,即https://github.com/silverme/KMeans/blob/master/index.html
利用RapidMiner实践K-Means
数据:Sample>data>iris
直接双击iris数据可以浏览到:数据内容及相关可视化分析
依据标记好数据,可以将数据分为三类,在可视化过程中,其实可以看到有两类是处于一种比较接近的状态,如果没有颜色区分,就像是一类一样,所以可以留意之后的分类结果。
检索如下图所示的算子进行流程构建。
rename算子主要是因为rapidminer中提供的关于iris数据集属性都是a_1这样的形式,不知道实际代表的结果,所以在网上了解数据集收集内容后,直接对将属性进行改名。
select attribute算子功能主要是选择所要的属性内容。
**注意:**算子相连过程中上个算子输出与下个算子的输入是要对应的,不然就会存在流程不通过的结果,如下图注意”Clustering“与”cluster distance performance “之间相连。
rename算子参数设置:
select attribute算子参数设置:
cluster distance performance算子参数设置:
Davies Bouldin标准用于判断分类效果,数值越小效果越好。用于判断k值到底取多少合适。
结果输出:
当K设置为3时,Davies Bouldin衡量结果为-0.422
当k为5时,Davies Bouldin衡量结果为-0.211,结果比k为三时大,效果没有那么好。
但当k为2时,Davies Bouldin衡量结果为-0.879,更小结果更好。
这也是算法本身性质(根据距离分类)导致的分类结果。
暂时关于RapidMiner的实践介绍就先到这里,网上也有一些关于apriori关联分析的rapidminer实践,所以就不写类似的重复内容了。其实,也是因为自己对这个软件理解还有很多不足,还是需要继续取学习,希望有一日能够继续更新这个系列的文章吧。就酱~
RapidMiner介绍与实践(一)决策树
RapidMiner介绍与实践(二)贝叶斯分类器
RapidMiner介绍与实践(三)K-Means
RapidMiner介绍与实践(三)K-Means相关推荐
- RabbitMQ系列(三)RabbitMQ交换器Exchange介绍与实践
RabbitMQ交换器Exchange介绍与实践 RabbitMQ系列文章 RabbitMQ在Ubuntu上的环境搭建 深入了解RabbitMQ工作原理及简单使用 RabbitMQ交换器Exchang ...
- Python内置四大数据结构之字典的介绍及实践案例
Python字典的介绍及实践案例 一.字典(Dict)介绍 字典是Python内置的四大数据结构之一,是一种可变的容器模型,该容器中存放的对象是一系列以(key:value)构成的键值对.其中键值对的 ...
- 基于Python的岭回归与LASSO回归模型介绍及实践
基于Python的岭回归与LASSO回归模型介绍及实践 这是一篇学习的总结笔记 参考自<从零开始学数据分析与挖掘> [中]刘顺祥 著 完整代码及实践所用数据集等资料放置于:Github 岭 ...
- MPI介绍与实践——理论介绍
MPI介绍与实践--理论介绍 一.MPI介绍 1.什么是MPI Message Passing Interface Specification(消息传递接口规范) MPI是由一组来自学术界和工业界的研 ...
- 为了联盟还是为了部落 | K means
1. 问题 人类有个很有趣的现象,一群人在一起,过一段时间就会自发的形成一个个的小团体.好像我们很擅长寻找和自己气质接近的同类.其实不只是人类,数据也有类似情况,这就是聚类(Clustering)的意 ...
- 基于Python的Kmeans聚类分析介绍及实践
基于Python的Kmeans聚类分析介绍及实践 这是一篇学习的总结笔记 参考自<从零开始学数据分析与挖掘> [中]刘顺祥 著 完整代码及实践所用数据集等资料放置于:Github 聚类算法 ...
- OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列. ...
- OpenCV官方文档 理解k - means聚类
理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等. 理论 我们将这个处理是常用的一个例子. t恤尺寸问题 考虑一个公司要发布一个新模型的t恤. 显然 ...
- OWIN的理解和实践(三) –Middleware开发入门
原文:OWIN的理解和实践(三) –Middleware开发入门 上篇我们谈了Host和Server的建立,但Host和Server无法产出任何有实际意义的内容,真正的内容来自于加载于Server的M ...
- kmeans改进 matlab,基于距离函数的改进k―means 算法
摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一.但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有 ...
最新文章
- blktrace 工具集使用 及其实现原理
- 耗时很长的程序忘加nohup就运行了怎么办?
- php $表达式,Notepad++
- Linux下的TCP Wrapper机制
- IDEA配置SVN并实现代码版本控制
- esxi虚拟化集群_ProxmoxVE 之集群安装(V5.2)
- oracle虚拟机导入表,在Linux虚拟机上安装Oracle数据库超完整版!)
- vbs运算符号和函数
- php orm教程,Laravel ORM 数据model操作教程
- STM32嵌入式基础开发04-PS2手柄SPI通讯数据输出(4_SPI)
- 微信小程序位置授权被取消再授权
- 称“开启千元机快充时代” 魅蓝5s将于15日发布
- kaggle入门之Digital Recognition(数字识别)
- qq复读机java脚本分享蓝奏云_蓝奏云资源,各种软件分享链接,干货
- 并发模型第肆讲-pre threaded模型
- python入门小项目 | 开发一个《小猫抓鱼》小游戏
- 如何安装My SQL
- 支付宝SDK接入详细指南(附官方支付demo)
- Android Zenmode/DND(勿扰模式) 实现原理剖析
- 红楼梦java_蒋勋细说红楼梦——缘分告别时的淡淡哀伤
热门文章
- 3D打印树莓派4B外壳—内置UPS和统计显示信息
- 您好,我想请问为什么地理空间数据云下载解压后只有一个文件格式,不是说有七八个段波样子的文件嘛,你们是怎么解决的呢,感谢回复
- CLodop云打印服务(localhost本地)未安装启动
- 三星note10 android q,【极光ROM】-【三星NOTE10/NOTE10+/5G N97XX-855】-【V6.0 Android-Q-TE1】...
- vux移动端UI组件库
- ArcGIS之图斑净面积计算工具(支持二调,三调)
- 通过ssh远程连接Ubuntu主机
- python 离线安装paramiko_离线安装 Python 2.7, paramiko 和 tornado
- 电脑上怎么彻底卸载一个软件--Geek Uninstaller
- matlab实现混沌系统最大李雅普诺夫指数