子将父做马,父愿子成龙

参考书籍

《数据挖掘与机器学习WEKA应用技术与实践》袁梅宇 编著
《数据挖掘:使用机器学习工具与技术》

Weka功能

Weka 主界面称为Weka GUI 选择器。

  1. Explorer(探索者):通过选择菜单和填写表单可以调用Weka的所有功能。不过存在一些问题就是,要求它所需的数据需要一次性全部读入内存。
  2. KnowledgeFlow(知识流):可以使用增量方式的算法处理大型数据集,用户可以绘制处理数据流的方式和顺序。
  3. Experimenter(实验者):用于帮助用户解答实际应用分类和回归技术中遇到的一个基本问题——对于一个已知问题,哪种方法及参数值能够取得最佳效果。
  4. Simple CLI(简单命令行界面):为不提供自己命令行界面的操作系统提供的,该简单的命令行界面用于和用户进行交互,可以直接执行Weka命令。
    • CLI(command-line interface)

机器学习分类

机器学习分为两种主要类型:有监督学习和无监督学习。 有监督的学习是指在给定的一系列的I&O实例构成的数据集的条件下,学习输入 xx到输出yy的映射关系。这里的数据集合称为训练集,实例个数称为样本个数。 无监督学习有时候也称为知识发现、描述学习。这类问题并没有明确的定义,因为我们不知道要寻找什么样的模式,也没有明显的误差度量可供使用。

数据和数据集

数据视为是待处理的数据对象的集合。数据对象有多个别名如记录、行、向量、点、样本、案例等;数据对象的描述可以用对象的基本特征属性来描述,属性也有多个别名如变量、字段、列、维、特征等。 属性可以分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。其中,标称属性的值不仅仅是不同的名称,标称值仅提供区分对象足够的信息,如性别(男、女)、颜色(红、绿、蓝)、天气(阴、晴、雨、多云)等;序数属性的值可以提供确定对象顺序的足够信息,如成绩等级(优良中差)、职称(初中高)、学生(本硕博)等;区间属性的值之间的差是有意义的,即存在度量单位,如温度、日历日期等;比率属性的值之间的差和比值都是意义的,如绝对温度、年龄、长度、成绩分数等。

标称属性和序数属性统称为分类或者定性属性。他们的取值为集合,即使使用数值来表示,要不具备数的大部分的性质,因此,应该像对待符号一样对待;区间属性和比率属性称为定量活数值属性,定量属性采用数值来表示,具备数的大部分性质,可以使用整数值或连续值来表示。

  • ARFF(Attribute-Relation File Format)属性-关系文件格式。
    数据集是实例的集合,每个实例包含一定的属性。
    @relation weather
    定义内部数据集的名称
    @attribute outlook {sunny, overcast, rainy}
    定义标称型属性 给出预定义取值空间
    @attribute temperature real
    定义数值型属性,real类型
    @data
    各行构成数据集合,每一个实例样本用“,”分隔的值组成,顺序和 @attribute中定义的属性顺序一致。

数据预处理

避免数据质量问题

  • 数据质量问题的检测和纠正:在数据挖掘之前检测并且纠正数据的一些质量问题,这个过程叫做数据预处理。
  • 使用能够容忍低质量数据的算法:提高算法的健壮性。

     数据预处理的一些技术:聚集、抽样、维度归纳、属性选择、属性创建、离散化和二元化、变量变换。
    

Weka版本使用

首先下载最新版的适合自己系统的[版本](http://www.cs.waikato.ac.nz/ml/weka/downloading.html)

  1. 使用weka包管理器:从包管理器GUI进入管理页面,然后进行install。如果出现无法连接和超时链接的问题,这是因为包所在的SF网站有容量限制,该网站因为用户过多不堪重负。解决办法:找到C:\Users***\wekafiles\props目录之后,在目录中创建一个PackageRepository的文本文件,在第一行加入如下的内容weka.core.wekaPackageRepositoryURL=http://www.cs.waikato.ac.nz/ml/weka/packageMetaData

  2. 使用UTF-8数据集或者文件在RunWEKA.ini文件中修改fileEncoding=Cp1252改成fileEncoding=UTF-8。

  3. Weka访问数据库

WEKA——数据挖掘与机器学习工具相关推荐

  1. Weka中数据挖掘与机器学习系列之Exploer界面(七)

    不多说,直接上干货! Weka的Explorer(探索者)界面,是Weka的主要图形化用户界面,其全部功能都可通过菜单选择或表单填写进行访问.本博客将详细介绍Weka探索者界面的图形化用户界面.预处理 ...

  2. Weka中数据挖掘与机器学习系列之Weka简介(二)

    不多说,直接上干货! Weka简介 Weka是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)的英文字首缩写,官方网址为:http://www ...

  3. 数据挖掘与机器学习:Weka

    文章目录 1 Weka 2 数据和数据集 3 ARFF 文件 4 过滤器与预处理 5 分类与回归 6 聚类分析 7 关联分析 weka github 项目 weka maven packages we ...

  4. 25个Java机器学习工具库

    本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法.这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用.Weka包括一系列的工具,如数据预 ...

  5. 25个Java机器学习工具库--转载

    本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法.这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用.Weka包括一系列的工具,如数据预 ...

  6. 25 个 Java 机器学习工具和库

    本列表总结了25个Java机器学习工具&库: Weka集成了数据挖掘工作的机器学习算法.这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用.Weka包括一系列的工具,如数据预处理. ...

  7. 05.数据的深度分析(数据挖掘、机器学习)--《数据科学概论》

    前言:基于人大的<数据科学概论>第五章,数据的深度分析(数据挖掘.机器学习).主要是机器学习与数据挖掘.具体的算法.主流工具.特征选择的内容. 文章目录 一.机器学习与数据挖掘 (1)什么 ...

  8. 大数据技术人员工具包之—常见数据挖掘分析处理工具

    大数据技术人员工具包之-常见数据挖掘分析处理工具 2016年03月15日 大数据 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在 ...

  9. 「首席架构师推荐」精选数据挖掘和机器学习软件列表

    数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程. 数据挖掘通常与计算机科学有关,并通过统计.在线分析处理.情报检索.机器学习.专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目 ...

最新文章

  1. 瓜分百万奖金 | 科大讯飞A.I.开发者大赛医疗赛道
  2. 2020技术趋势报告-中文版
  3. python 自动化微信小程序_appium+python自动化56-微信小程序自动化(摩拜为例)
  4. android 之SharedPreferences,SDCard以及网络存储
  5. 向函数传递一维数组和已知大小的二维数组
  6. php ADODB使用方法
  7. OpenGL索引呈现
  8. 让linux系统做网关,代理上网!!!
  9. bzoj1038500AC!
  10. Linux下压缩工具gzip和归档工具tar及其实战shell应用
  11. 【转】Jenkins+Ant+Jmeter接口自动化集成测试实例
  12. 计算机科学与技术实践教学,计算机科学与技术实践教学方法_精编版.doc
  13. Python数据分析与可视化(1)——Python数据分析与可视化
  14. 微信小程序的基础实现
  15. QTableView固定行显示的问题
  16. 电脑如设置路由器WiFi外加无线桥接一个副路由器
  17. 独木舟上的旅行java_独木舟上的旅行
  18. matlab怎样求线性方程组,MATLAB线性方程组求解
  19. 100条养生、养心秘笈,值得一看
  20. PPT保存pps演示文档时,在另一个电脑中字体显示不正常!(已解决)

热门文章

  1. 数字信号处理:循环卷积快速计算技巧
  2. 搭建RabbitMQ集群
  3. APS炒币机器人的投资随记No.3:主流币向上突破之后的三个方向
  4. 树莓派实现摄像头拍照
  5. 确保Kubernetes软件供应链的安全
  6. IP获取方法一:网页JS获取当前地理位置(省市区)
  7. 路由Zebra 之socket通信机制
  8. 计算机一级考试上网题怎么操作
  9. 极狐GitLab CI/CD关键词(一):脚本script,前置脚本before_script,后置脚本after_script
  10. AndroidStudio004--RelativeLayout相对布局使用