一、数据格式

理解数据格式后,就可以完全控制数据预处理过程。

1.1 ARFF格式

样例

说明

%整行注释

@relation person

@attribute name string %半行注释

@attribute age numeric

@attribute sex {male,female}

@attribute birthday date "yyyy-MM-dd HH:mm:ss"

@data

"Zhang San",85,male,'2011-06-10 00:00:00'

Lisi,?,male,"2011-06-11 00:00:00"

……

关系名,在Explorer界面显示

String 类型(文本挖掘使用)

数值类型(integer,real完全同义)

枚举类型(花括号枚举全部值)

日期类型(日期格式默认)

数据开始标志

(逗号分割数据)

说明:

  1. relation, string, data这些内置关键字无所谓大小写,使用string.equalsIgnoreCase()方法匹配字符串。但数据值严格区分大小写。

  2. weka只解析4中数据类型:字符串、数值、枚举、日期。

  3. 数值型标志numeric、integer、real完全同义。

  4. 枚举类型无关键字,直接花括号扩住所有枚举值。

  5. 日期类型的格式字符串不指定,则默认使用 "yyyy-MM-dd'T'HH:mm:ss" (2011-06-10T00:00:00)。

  6. 缺失值用半角问号表示 ? ,不认识 NULL。

  7. 解析arff过程并非逐行读取数据,而是使用java.io.StreamTokenizer 。所以 string,nominal 如果值内没有空格,则不需要用引号包括。空行随便加。

1.2 CSV格式

  1. weka对待csv格式的文件比较粗暴,对第一行指定的属性,假定是数值型,然后在后续读取对应的数据时,尝试解析数值,如果某一个解析失败,就将该属性重新标记为枚举型(无string、date);如果全部数据都能解析成数值,就认为该属性是数值型。

1.3 Arff Viewer

界面:GUI Chooser > Tools > Arff Viewer

[界面截图略]

作用:以表格形式显示数据。并可对数据初步处理。

点击表头对数据排序(单击正序排列、shift+单击逆序排列),然后处理噪声值。对特别大或特别小的数据,手动改为均值(右键表头> get mean)或缺失值(将值删除为空)。

注:csv格式的解析方式是内置的,属性被认为是数值还是枚举,在这里不能更改。

二、 数据理解

2.1 数据集概览

界面:GUI Chooser > Explorer按钮 > Preprocess面板

作用:

1、单属性统计信息浏览。

2、属性剔除。

3、对数据集做预处理(归一化、离散化等)。

2.2 单属性直方图

界面:GUI Chooser > Explorer按钮 > Preprocess面板 > Visualize All

[界面截图略]

作用:仅观察了解数据。

2.3 二维散点图

界面:GUI Chooser > Explorer按钮 > Visualize面板

作用:

1、查看各属性之间的关系,深入理解数据集。

2、进行数据选择(放大散点图后进行)。

2.4 属性选择

界面:GUI Chooser > Explorer按钮 > Select attributes 面板

作用:

1、 查看所有属性对于某一个属性的重要程度(最能区分指定属性的,最重要,一般使用Gain指标)。

三、分类

界面:GUI Chooser > Explorer按钮 > Classify 面板

[界面截图略]

作用:分类。

●属性类型和算法选择

●算法参数

●测试集

●结果显示

四、聚类

界面:GUI Chooser > Explorer按钮 > Cluster 面板

[界面截图略]

作用:聚类。

●算法参数

●聚类模式

●结果显示

五、关联规则

界面:GUI Chooser > Explorer按钮 > Associate 面板

[界面截图略]

由于weka arff格式的限制,其关联规则分析挖掘功能很不实用。类似于背包分析的问题,需要自己写apriori算法。Apriori算法比较耗资源,可使用FP-Tree算法。

六、挖掘模型固化

界面:GUI Chooser > KnowledgeFlow按钮

说明:知识流可以认为是weka内核的一个完全图形化接口,挖掘功能方面与Explorer一样。但这里可以将数据挖掘全过程中的操作用一个流程表示,并且可以保存起来,多次使用(每次使用只需要更改数据集)。

当对某一主题探索出合适的挖掘流程后,可以在这里固化一个挖掘模型,以后多次使用。

七、其他

7.1 Weka的实验界面主要用来在同一个训练集上对比不同的分类算法,可以看作是对挖掘探索的一个封装,控制方面的灵活性不佳。

7.2 命令行界面也是weka内核的一个接口。

转载于:https://blog.51cto.com/abool/1580796

数据挖掘工具软件Weka学习教程相关推荐

  1. 专业工具软件课程学习心得

    专业工具软件课程学习心得 部分资源链接: 1 http://download.csdn.net/detail/zhangrelay/9799032 2 http://download.csdn.net ...

  2. python爬虫工程师需要会什么软件_Python学习教程:爬虫工程师必备的10个爬虫工具!...

    Python学习教程:爬虫工程师必备的10个爬虫工具! 最近很多学爬虫的伙伴让推荐顺手的爬虫工具,南瓜花了点时间总结了一下,把这些好用的爬虫工具都跟你们找齐活了! 都知道工欲善其事必先利其器,那么作为 ...

  3. 3D建模怎么学?3D游戏建模怎么学?【内附各种建模软件、学习教程】想自学的戳进来

    第一 :学3d建模需要美术基础,但是不代表现在就需要美术基础. 很多朋友想学3d建模,但是遗憾的是,圈内人总是对他们说,学3d建模需要有美术基础,你们有吗?然后很多没有美术基础的朋友,就耷拉着脑袋,灰 ...

  4. 教学常用计算机软件包括,计算机专业常用工具软件课程的教与学

    科 技 教 育 计算机专业常用工具软件课程的教与学 范鲁娜 (郑州广播电视学校 河南郑州 450000) 摘 要:随着计算机科学技术的迅猛发展,计算机应用已经深入到社会生活的各个方面.总体上,我国很多 ...

  5. Unreal Engine4 可视化虚拟现实全流程学习教程

    课程目标: 这是一套专门为设计院,三维动画公司.效果图公司.景观规划公司.以及有志于进入这些行业创业的公司和人们量身定制的一套虚拟漫游高级教材. 在这套教学里面,我们能够从头开始了解到一个效果图级别的 ...

  6. 数据挖掘工具weka使用

    http://xiaogao39.blog.163.com/blog/static/7285602200910395121696/ Weka全名为怀卡托智能分析环境(WaikatoEnviron-me ...

  7. 一款数据挖掘软件——WEKA

    目录 Weka 分类算法 数据预处理 决策树算法 朴素贝叶斯分类器 KNN算法 聚类算法 关联规则 数据挖掘软件--WEKA:WEKA全名为怀卡托智能分析环境(Waikato Environment ...

  8. 三维地形制作软件 World Machine 基础入门学习教程

    <World Machine课程>涵盖了你需要的一切,让你有一个坚实的基础来构建自己的高质量的电影或视频游戏地形. 你会学到什么 为渲染或游戏开发创建高分辨率.高细节的地形. 基于Worl ...

  9. java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

    目前非代码的数据挖掘工具很多,但非开源,weka是一款开源软件.只要安装jdk环境就可使用(具体安装jdk可以百度) 本文将论述如何不用代码,使用weka操作,通过与文档频数与单词权的特征选择方法进行 ...

最新文章

  1. Java开发主流框架是什么?
  2. logback 常用配置详解(二) appender
  3. CSU 1081集训队分组(搜索)
  4. 光流 | OpticalFlow博客资源
  5. C++中socket编程
  6. Scala:First Steps in Scala
  7. matlab如何将相近的数据,matlab新手,求帮助!主要是如何将数据和公式导入
  8. centos nodejs yarn安装及升级
  9. plsql的异常提示怎么定位_oracle plsql 异常信息怎样查看
  10. BigDecimal 常用方法
  11. 这么多年都白学了,原来是方法没有用对
  12. python变量使用前必须先声明_Python变量使用前必须先声明,并且一旦声明就不能再当前作用域内改变其类型。_学小易找答案...
  13. 7-5 游客检票 - 实验3 简单的计算及输入输出 -《Python编程基础及应用实验教程》(高等教育出版社)
  14. Proximal Algorithms
  15. 微信小程序自定义弹窗
  16. Win7设置wifi热点
  17. 视频传输协议之MPEG-DASH
  18. 程序员面试揭秘之程序员靠什么途径去美国工作
  19. 怎么关闭win10虚拟机服务器,大神为你win10系统彻底关闭退出vmware虚拟机的方案...
  20. 图像校正:霍夫直线校正

热门文章

  1. uva 11401思维+预处理
  2. T4生成多文件时,不生成自己
  3. 深入对比数据科学工具箱:Python和R的异常处理机制
  4. 视频上传、转码、切面、存储的思路
  5. JavaScript 是传值调用还是传引用调用?
  6. insert select带来的问题
  7. 修改 mybatis-generator 中数据库类型和 Java 类型的映射关系
  8. 黄褐斑的处理(转载)
  9. Exception in thread main java.lang.NullPointerException一例解决
  10. Semaphore用法