数据挖掘::实验一 WEKA分类
目录
一、实验目的
二、实验环境
三、实验要求
四、实验过程及结果
(1)KNN分类器:
(2)C4.5决策树分类器:
(3)朴素贝叶斯分类器:
五、实验总结
一、实验目的
使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。
二、实验环境
实验采用Weka 3.8 平台,数据使用给定的鸢尾花xls格式的数据集iris.xls。 对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。
实验所需的训练集和测试集均为iris.arff。
数据集下载地址:wake数据挖掘鸢尾花数据集iris.zip-数据库文档类资源-CSDN下载
三、实验要求
1、将iris.xls转化为iris.arff。
2、应用iris数据集,分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。
3、使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。
四、实验过程及结果
1、先将数据集iris.arff放入Weka 3.8 平台中
第一步:将原始Excel文件另存为CSV文件
第二步:在weka中打开iris数据集.csv文件,另save为.arrf文件,然后在weka中打开iris数据集.arrf文件即可。
2、在waka中应用iris数据集,分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价。
打开iris数据集remove(移除)无关数据,本次试验中去掉原数据中的序号:
(1)KNN分类器:
关于K的取值,从1开始,逐次增1选取产生最小误差率的K,一般来说不超过20。先将数据作为训练集检测,在进行交叉验证。
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。
(2)C4.5决策树分类器:
C4.5算法是ID3算法的改进,C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。
由实验数据可得,鸢尾花花瓣宽度小于等于0.6cm的均为setosa类的鸢尾花;花瓣宽度大于0.6cm且花瓣长度小于等于1.7cm的有48株为versicolor种类的鸢尾花;花瓣宽度大于0.6cm且花瓣长度大于1.7cm的有46株为virginica种类的鸢尾花。
(3)朴素贝叶斯分类器:
贝叶斯方法提供了推理的一种概率手段。它假定待考查的变量遵循某种概率分布,且可根据这些概率及己观察到的数据进行推理,从而作出最优的决策。
本次实验利用朴素贝叶斯算法分类结果如图所示:
五、实验总结
应用iris数据集分别利用实验中的算法分析预测,最终结果选用C4.5算法准确率最高,准确分类率为98%。通过实验,也让我更深刻的学习到这三种算法的应用数据集和其优缺点,基本掌握weka平台操作。
关于KNN算法是最简单有效的分类算法,简单且容易实现。当训练数据集很大时,需要大量的存储空间,而且需要计算待测样本和训练数据集中所有样本的距离,所以非常耗时。KNN对于随机分布的数据集分类效果较差,对于类内间距小,类间间距大的数据集分类效果好,而且对于边界不规则的数据效果好于线性分类器。KNN对于样本不均衡的数据效果不好,需要进行改进。改进的方法时对k个近邻数据赋予权重,比如距离测试样本越近,权重越大。KNN很耗时,时间复杂度为O(n),一般适用于样本数较少的数据集,当数据量大时,可以将数据以树的形式呈现,能提高速度,常用的有kd-tree和ball-tree。
关于C4.5算法:
优点:产生的分类规则易于理解,准确率较高。
缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
关于朴素贝叶斯算法,贝叶斯方法不仅能够计算显式的假设概率,还能为理解多数其他方法提供一种有效的手段。贝叶斯方法的特点主要包括:增量式学习的特点;先验知识可以与观察到的实例一起决定假设的最终概率的特点;允许假设做出不确定性预测的特点;对新实例的分类可由多个假设以它们的概率为权重一起作出预测的特点等等。算法处理里的数据集特征之间互不相关,主要应用于文本分类、性别分类。
数据挖掘::实验一 WEKA分类相关推荐
- 河北工业大学数据挖掘实验四 贝叶斯决策分类算法
贝叶斯决策分类算法 一.实验目的 二.实验原理 1.先验概率和类条件概率 2.贝叶斯决策 三.实验内容和步骤 1.实验内容 2.实验步骤 3.程序框图 4.实验样本 5.实验代码 四.实验结果 五.实 ...
- 复杂高维医学数据挖掘与疾病风险分类研究
摘 要 以大数据为代表的新一代信息技术浪潮渗透在包括医疗卫生.健康管理在内的诸多领域,有力地改变着传统医学的统计分类方法和思维模式,并可能为人类提供高效准确的数据挖掘和疾病风险分类评估能力.然而,医学 ...
- 【机器学习】实战系列五——天文数据挖掘实验(天池比赛)
系列文章目录 学习笔记: [机器学习]第一章--机器学习分类和性能度量 [机器学习]第二章--EM(期望最大化)算法 [机器学习]第六章--概率无向图模型 实战系列: [机器学习]实战系列一--波士顿 ...
- 二分链路预测(数据挖掘实验一)
二分链路预测(数据挖掘实验一) 一.实验要求 二.简要分析 三.部分细节 源码链接 转载注明出处长门yuki,本文代码见末尾github链接. 本文参考一下博客及代码仓库,感谢网上的这些分享者: 1. ...
- 数据挖掘 —— 有监督学习(分类)
数据挖掘 -- 有监督学习(分类) 1. KNN分类算法 2. 决策树分类算法 3. SVM算法简介 4. 分类--集成算法 4.1 随机森林参数介绍 4.2 Adaboost算法参数介绍 5 总结 ...
- 数据挖掘实验二结果(构建cube的三个维度,即三个txt,然后做各种查询)C++实现(代码调试环境为Windows下的CLion使用WSL的Linux)
数据挖掘实验二结果(构建cube的三个维度,即三个txt,然后做各种查询)C++实现(代码调试环境为Windows下的CLion使用WSL的Linux) 构建cube的三个维度,查询三家店七天四物的销 ...
- HBU-NNDL 实验四 线性分类
第3章 线性分类 线性回归和线性分类之间有着很大的联系,从某种意义上来说,线性分类就是线性回归函数使用激活函数的结果.同时也可以看成是线性回归降维的结果.对于一个线性回归函数,我们可以通过添加全局函数 ...
- 河北工业大学数据挖掘实验一 数据预处理
河北工业大学数据挖掘实验一 数据预处理 一.实验目的 二.实验原理 1.数据预处理 2.数据清理 3.数据集成 4.数据变换 5.数据归约 三.实验内容和步骤 1.实验内容 2.实验步骤 3.程序框图 ...
- 人工智能实验——猫狗分类MindSpore
人工智能实验--猫狗分类 在本次的实验,主要目的是利用已有的模型算法,进行猫狗图片进行训练.最后实现能够分辨猫狗图片的功能.本次实验利用的是华为的MindSpore框架,这是华为于19年推出的框架,与 ...
最新文章
- HDU 5612 Baby Ming and Matrix games
- 雷林鹏分享:CSS 链接
- sulime text 常用快捷键总结
- 【2018.3.10】模拟赛之四-ssl2133 腾讯大战360【SPAF,图论,最短路径】
- JFreeChart(七)之气泡图表​​​​​​​
- win10 uwp 改变鼠标
- SAP License:市场需要双重SAP顾问
- 微软Silverlight 3正式版
- MAC 安装caffe 教程 排坑
- antd-vue表格实现单击或者双击
- IDEA创建类注释模板和方法注释模板
- VLAN(虚拟局域网)
- 陈春花:创造价值 做好产品
- win10默认壁纸_仅4M!微软出品的壁纸软件,让桌面每天都不一样!
- php去除字符串中的HTML标签
- 111111111111
- 【ChatGPT】多国“围堵”,万人抵制,AI发展的红线到底在哪?
- “耀星计划”之华为信用钱包,覆盖HMS生态多领域
- Lambda表达式和Stream类的使用
- OSI七层网络参考模型详解
热门文章
- 神码ai人工智能写作机器人_AI启动协变量AI为机器人构建通用AI
- 扫描二维码如何实现从微信内直接跳转外部浏览器打开指定页面
- 视频教程-数字图像处理实战-算法基础
- 苹果手机计算机按键会想关掉哪里,苹果手机,你不知道的隐藏功能
- ARCGIS导入数据后,属性表为空
- 学计算机课业压力,关于学习负担、学业负担及课业负担的一段解释
- 可视对讲系统服务器连接失败,可视对讲系统呼叫分机、门口机不通是什么问题?...
- [万字长文] 人脸识别初步调研报告
- 判断点集与多边形的位置关系
- 1+1≠2 |A/B 测试中的赢者诅咒