1      Weka简介

1.1 Weka说明

Weka是由新西兰怀卡托大学开发的,全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)。在怀卡托大学以外的地方,Weka通常按谐音读Mecca,是一种现金仅存活于新西兰的具有好奇心的不会飞的鸟。它作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。

1.2Weka获取、安装

WEKA的源码可通过以下网址获取:http://www.cs.waikato.ac.nz/ml/weka。

WEKA是用JAVA写成的,并且限制在GNU通用公众证书的条件下发布。它可运行于几乎所有的操作平台。在已经测试过的平台包括Linux,Windows和Macintosh操作系统。用户既可以下载一个与具体操作系统相匹配的安装文件,也可以下载一个可执行的JAVA文件包(jar file),然后在已安装了JAVA的机器上以通常的方式运行。

2      Explorer界面

通过Weka的主要图形界面Explorer,其所有的功能皆可以通过菜单选择或表单填写的方式访问。图2-0展示了刚进入的Explorer界面。在Explorer的顶部有六个不同的标签表示六个不同的面板,分别对应着Weka所支持的不同的数据挖掘方式。

图2-0 Explorer界面

2.1预处理

为了让初次使用Weka的用户对其有个初步的了解,我们先从处理一部分数据开始着手。首先,用户需要准备数据,启动Explorer界面并载入数据。

2.2.1 准备数据

数据通常存储在电子数据表或数据库中。然而Weka存储数据的方式是ARFF格式(关于ARFF格式详情见附录A)。使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。幸好,WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。

Excel默认文件格式为XLS,我们可以把每个工作表(sheet)存成不同的CSV文件。方法为打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”按钮并忽略提示信息即可完成操作。 这里以bank-data.xls为例(bank-data.xls可以从以下网址获取http://facweb.cs.depaul.edu/mobasher/classes/ect584/WEKA/preprocess.html)。

2.2.2 将数据导入Explorer

进入Explorer模块,点击界面上方的按钮“open file”打开文件选择面板,将面板下方的文件类型选择“所有文件”,找到转化的CSV文件即可将数据导入到Explorer如图2.2.2-1。 点击面板上方的“save”按钮即可将文件保存为ARFF格式。

图2.2.2-1 导入数据后的Explorer界面

图2.2.2-1显示的是使用Explorer打开"bank-data.csv"的情况。我们根据不同的功能把这个面分成8个区域。 区域1的几个选项卡是用来切换不同的挖掘任务面板。具体功能如下:

Preprocess(预处理):选择数据集,并以多种方式对其进行修改

Classify(分类):训练用做分类或回归的学习方案,并对他们做出评估

Cluster(聚类):学习数据集的聚类

Associate(关联):学习数据的关联规则并对其评估

Select attributes(选择属性):在数据集中选择最相关的部分

Visualize(可视化):查看不同的二维数据点图并与其互动

区域2是一些常用按钮。包括打开数据,保存及编辑功能。

在区域3(Filter)中点击“Choose”按钮可以选择某个Filter(过滤器),可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。

区域4(Current relation)展示了数据集的一些基本情况。

区域5(Attributes)列出了数据集的所有属性。勾选一些属性并点击“Remove”按钮就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。

区域6(Selected attributes)是区域5中选中属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对数值属性“age”的摘要。

区域7是区域5中选中属性的直方图。若数据集的最后一个属性(这是分类或回归任务的默认目标变量)是分类变量(这里的“pep”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。

区域8是状态栏,可以查看Log以判断是否有错。右边的Weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。

weka中文使用(一)相关推荐

  1. weka中文乱码解决办法

    weka的默认字符集编码是Cp1252,所以如果你导入的数据中有中文字符,就会出现乱码的情况,所以需要修改weka的RunWeka.ini文件 方法:将"fileEncoding=cp125 ...

  2. WEKA开源数据挖掘工作平台

    weka中文网站 http://www.wekacn.org/ 中文论坛 http://forum.wekacn.org/viewforum.php?f=6&sid=d47d2d7ca82e4 ...

  3. 计算机视觉Computer Vision网址导航

    1常用网站 20条常用网站网址,更多点此 Google(gfsoso) [直达] 计算机视觉网 [直达] 增强现实资讯 [直达] 开源中国社区oschina [直达] 百度搜索 [直达] 小木虫,学术 ...

  4. 图像处理与计算机视觉网址导航

    1常用网站 20条常用网站网址,更多点此 Google(gfsoso) [直达] 计算机视觉网 [直达] 增强现实资讯 [直达] 开源中国社区oschina [直达] 百度搜索 [直达] 小木虫,学术 ...

  5. weka+em算法+java使用_WEKA学习笔记2 - lyle_5的个人页面 - OSCHINA - 中文开源技术交流社区...

    昨天老大布置任务后,我浏览了WEKA的Home Page,文档和WIKI等,当时想慢慢踏实的整理资料和文档,于是边看边翻译WekaManual.pdf,今天中午老大来检查任务时,表示我进度太慢,他需要 ...

  6. Weka初体验——中文文本分类

    最近在公司实习做电商评论相关的数据分析,需要调几个分类器,组里的代码一贯用Java编写,为了提高工作效率,找了找Java环境下的机器学习工具库,发现了Weka这个神奇的东西. Weka介绍及下载 We ...

  7. weka分类器怎么设置样本类别_NeurIPS 2020 | 港中文MMLab自步对比学习: 充分挖掘无监督学习样本...

    本文介绍一篇港中文MMLab发表于NeurIPS 2020的论文<Self-paced Contrastive Learning with Hybrid Memory for Domain Ad ...

  8. [WEKA]如何将英文文本数据集转换为ARFF格式

    若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader. TextDirecto ...

  9. java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

    目前非代码的数据挖掘工具很多,但非开源,weka是一款开源软件.只要安装jdk环境就可使用(具体安装jdk可以百度) 本文将论述如何不用代码,使用weka操作,通过与文档频数与单词权的特征选择方法进行 ...

最新文章

  1. java tomcat日志中文乱码问题解决
  2. opencl filtering整理
  3. selenium2与python自动化6-select下拉框
  4. jQuery的Password Validation插件
  5. 视力检查-2019年2月2日
  6. Application log save debug - how log data is persisted to database table
  7. rsync 配置详解
  8. ASP.NET Ajax 控件ToggleButton,SliderExtender,ResizableControl 学习笔记
  9. 凉凉!面试阿里我被Redis技术专题给搞的昏倒在地~
  10. android如何适配平板,适用于平板电脑、大屏设备和可折叠设备的自适应布局
  11. 我爱计算机视觉干货集锦分类汇总(2019年6月17日)
  12. mongoengine 学习 笔记
  13. Java基础-面向接口(interface)编程
  14. 深度学习-CNN tensorflow 可视化
  15. c/c++中指针数组和数组指针的区别
  16. detr 历史解析代码_视觉/ DETR变压器
  17. MarkDown编辑器实用语法、数学公式汇总
  18. PCB传输线阻抗计算工具Polar Si9000的安装方法
  19. 天若OCR文字识别软件
  20. 韶音耳机连不上电脑_骨传导耳机怎么连接电脑

热门文章

  1. CSS3实现3D立体效果
  2. 不一样的智能检索,激活企业知识库
  3. Ubuntu 18.04 安装RealSense D435教程
  4. 20189220 余超《Linux内核原理与分析》第四周作业
  5. 产品开发中项目与项目管理
  6. 成人大专计算机应用技术专业难毕业吗,深圳成人大专哪个专业容易毕业
  7. 福州华侨中学计算机老师,三尺讲台著妙笔 谱写侨习好韶光——记2015级福州华侨中学实习队工作检查...
  8. SQL WEEK()函数
  9. 课题申请的技术指标是什么
  10. 安卓编程基础——手势编程