目前非代码的数据挖掘工具很多,但非开源,weka是一款开源软件。只要安装jdk环境就可使用(具体安装jdk可以百度)

本文将论述如何不用代码,使用weka操作,通过与文档频数与单词权的特征选择方法进行文本聚类(数据为附件)

第一步:将weka创建NetBeans文件目录中

将weka导入NetBeans软件中,

1 在某处新建一个WEKA-Rebuild目录,在它下面建一个目录叫src。在WEKA的安装目录中找到weka-src.jar,用winrar之类的解压缩软件打开,并把其中的目录weka解压缩到刚才建立的src目录下。 现在的目录结构应该是 WEKA-Rebuild -> src-> weka -> associations, attributeSelection, ... 打开NetBeans,“文件”菜单 - “新建项目” - 选择“常规”中的“基于现有源代码的Java项目” - “下一步”。“项目文件夹”选择WEKA-Rebuild目录,“项目名称”写weka-rebuild, “下一步”。在“源包文件夹”那里“添加文件夹”,找到src目录“打开”,“完成”。

2现在NetBeans左上方项目那一栏应该有粗体的“weka-rebuild”,这就是我们要编译的weka项目。右键点它,“生成项目”。下方会出现很多警告,不用管,不出意外的话最后会提示你生成项目成功。仍然右键点击“weka-rebuild”,“运行项目”。会弹出一个对话框让你设置主类。WEKA的主类可设置成weka.gui.Main。选中合适的主类后“确定”,不一会儿WEKA的界面就会出现在你面前,和开始菜单里运行的WEKA效果一样。

打开NetBeans软件。点击源包-weka.gui.,找到Main.java文件。双击,结果如下图所示。

第二步:执行weka

1.点击 源包-weka core tokenizers,右键 选择 新建java类。

修改类名为:CHWordTokenizer

选择包为:weka core tokenizers

点击完成 。结果见下图。

2.修改代码。将已给资料中的代码复制到文本中。

并将原橘黄色部分“Utf-8”改成“cp936”。如下图所示。

3.点开之前已经打开过的Main.java界面

点击 运行-运行文件

出现下图所示界面。

在该界面中,点击 application-explorer。返回weka界面,点击open file,载进中文文档。

第三步:创建中文文本文件。

1.将已有中文文本资料 sample 文件夹放入D盘。

2.打开weka - SimpleCLI。

3.在输入栏输入 【java weka.core.converters.TextDirectoryLoader-dir d:/sample > d:/sample.arff】点击回车键运行。如下图所示。

4.D盘出现sample.arff文件。

5.打开C盘weka的安装文件夹,找到RunWeka.ini文件

将cp1252替换成cp936(简体中文)

保存文件

第四步:改分词。

1.打开 weka-explorer-open file-sample .arff

2.Filter-choose-unsupervised-attribute-StringToWordVector

将 tokenizer 改成 CHWordTokenizer

点击ok

4.点击apply,点击save,查看word形式(命名:sampleword1)的成果。

再次打开Filter-choose-unsupervised-attribute-StringToWordVector

双击修改 StringToWordVector 的参数。

将 IDFTransform 改为 True (调平滑)

outputWordCounts 改为 True

minTermFreq改为 1

wordToKeep 改为 200

点击 OK 运行

7.点击apply,点击save,查看word形式(命名:sampleword2)的成果。

8.由下图可以看出,第1个的权重变成1。660731,第2个权重是2.040221,第5个权重是2.278869……

权重结果和sampleword1 不同。

9.返回weka,重新加载sample.arff原始文件

10.点击 Cluster-simpleMeans,双击调整参数。

11.点击 distanceFunction ,选择第二项 欧氏距离。

将 numClusters 改为 10

点击OK

java weka 聚类_简单开源数据挖掘工具weka进行文本聚类相关推荐

  1. java 数据挖掘 开源_5个开源数据挖掘工具,收下这波干货

    数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程.尤其在机器学习中,数据挖掘是十分重要的一环.今天给大家介绍5个开源数据挖掘工具,收下这波干货吧. 1. Orange Orange 是由C ...

  2. 数据挖掘工具weka使用

    http://xiaogao39.blog.163.com/blog/static/7285602200910395121696/ Weka全名为怀卡托智能分析环境(WaikatoEnviron-me ...

  3. 7款优秀的开源数据挖掘工具

    7款优秀的开源数据挖掘工具   IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等.如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directo ...

  4. 几款优秀的开源数据挖掘工具

    几款优秀的开源数据挖掘工具 By kevinwu on December 28, 2008 2:39 AM | No Comments | No TrackBacks 本文只对几种流行的开源数据挖掘平 ...

  5. 开源数据挖掘工具Orange简介

    原文地址: http://cloga.info/python/2014/01/02/Orangeintro/#wat_e_19338566-a664-48dd-adf4-325f96bcec42 Or ...

  6. 推荐:六款强大的开源数据挖掘工具

    在互联网发展到大数据时代,那么数据就等于金钱.随着向一个基于应用的领域过渡,数据则呈现出了指数级增长.然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理 ...

  7. linux 故障注入_阿里巴巴开源故障注入工具_chaosblade

    chaosblade是阿里巴巴最近开源的一款故障注入的工具,因为我最近在做公司的虚拟化平台的可靠性测试工具,无意中发现这个工具,个人感觉比较有用,用起来也比较简单,所以拿出来分享一下,期望对大家的工作 ...

  8. java ssh客户端_简单的Java SSH客户端

    java ssh客户端 可以使用jcabi-ssh在Java中通过几行代码通过SSH执行shell命令: String hello = new Shell.Plain(new SSH("ss ...

  9. java weka包_在Eclipse中调用weka包实现分类

    1.如题. 最近写了一个FCM的聚类算法,希望能够可视化结果,因此一个想法是调用weka中的包,使自己的程序可以可视化.这里参考了网络上的方法,首先实现在Eclipse中调用weka包实现分类的功能. ...

最新文章

  1. AI开发者们,2017年你们过得好吗?
  2. Python3 异步编程之进程与线程-1
  3. 关于日志的常用配置(log4j和logback)
  4. 科大星云诗社动态20210902
  5. 中、美、印、日四国程序员大比拼
  6. node输出mysql的数据_node.js+async+mysql 查询数据输出问题,如何分别统计、提取每个sql语句的结果!!...
  7. Linux驱动技术(六) _内核中断
  8. 【Cloud Foundry 应用开发大赛】“八卦街”图片采集应用
  9. Ext.chart.Chart 显示图标 -- 本地数据
  10. SP913 QTREE2 - Query on a tree II
  11. power builder的安装和使用
  12. 图纸怎么折?(A0,A1,A2,A3の图纸如何折成A4大小)
  13. 在MyEclipse中如何修啊改Tomcat 6.x的端口号
  14. android 混淆报错记录
  15. 桌面计算机名水印,去掉电脑桌面的Windows10教育版水印的方法
  16. 第十三章:相关方管理
  17. 微信小程序 behaviors 组件之间数据共享
  18. linux怎么建立辅助dns,rhel5 建立辅助DNS
  19. 使用Quads绘制函数曲线
  20. python计算ks值 代码_python画KS图,求KS值

热门文章

  1. RabbitMQ 声明Queue时的参数们的Power
  2. angularJS中,怎么阻止事件冒泡
  3. ckedit 3.0 配置(一)
  4. 【Breadth-first Search 】752. Open the Lock
  5. [Leedcode][JAVA][第355题][设计推特][面向对象][哈希表][链表][优先队列]
  6. 【解决问题】IDEA配置Tomcat添加Deployment时没有Artifact
  7. android mysql sqlite_Android SQLite数据库基本操作方法
  8. java服务注册中心有哪些_Spring Cloud服务注册中心简述
  9. RT-Thread在github上的教程中图片显示不出来问题的解决方法
  10. 2-10 [搞定!]出栈序列的合法性 (20 分)