0.注意weka的中文编码
RunWeka.ini-----》fileEncoding=utf-8
1.首先对分词后的 无新词发现的分词文件,转换成arff文件 命令
java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data10W\nlpirSegment\noNI > D:\weibo\catagory\data10W\nlpirSegment\weka\wb10w.arff
发现转换 特别快
2.打开上面的文件 进行生成词向量,首先选择 通过特征的有无,1000特征/每类文档 ,最后保存当前文件 wb10w_vsm_true_false_weight.arff
生成6千多个特征
3.打开上面的arrf文件,进行特征选择 ,评估策略选择 IG,搜索策略选择Ranker 特征数5000,保存文件wb10w_as_true_false_weight.arrf
4.bayes 分类器 66训练数据 结果复制到 result文件中

转载于:https://www.cnblogs.com/dasheng-maritime/p/6160403.html

weka 初练之 文本分类相关推荐

  1. Weka初体验——中文文本分类

    最近在公司实习做电商评论相关的数据分析,需要调几个分类器,组里的代码一贯用Java编写,为了提高工作效率,找了找Java环境下的机器学习工具库,发现了Weka这个神奇的东西. Weka介绍及下载 We ...

  2. weka java 分类算法_调用Weka算法实现文本分类

    1介绍:嵌入式机器学习,在自己的算法中调用Weka实现文本分类,是一个小的数据挖掘程序,虽然实用价值不是很大,但对于Weka的理解和使用是有帮助的.本例子来自<数据挖掘:实用机器学习技术> ...

  3. AI练手系列(四)—— cnews中文文本分类(RNN实现)

    数据集介绍 这个数据集是由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成的,数据集包含50000个样本的训练集,5000个样本的验证集,10000个样本的测试集,词汇表 ...

  4. 《预训练周刊》第20期:EVA:包含28亿参数的中文预训练对话模型、基于知识融入提示词的文本分类...

    No.20 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第20期&l ...

  5. 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

    https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类 ...

  6. ig信息增益 java_文本分类综述

    文本分类是一项系统的工程,所涉及的技术很多,按流程可以将文本分类分为:文本预处理阶段.训练阶段.分类阶段.评价四个阶段,其中预处理阶段要文本处理成计算机能识别的格式,首先对文本进行分词处理,中文文本和 ...

  7. 用深度学习解决大规模文本分类问题

     用深度学习解决大规模文本分类问题 人工智能头条 2017-03-27 22:14:22 淘宝 阅读(228) 评论(0) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者 ...

  8. 文本分类与聚类(text categorization and clustering)

    1. 概述 广义的分类(classification或者categorization)有两种含义:一种含义是有指导的学习(supervised learning)过程,另一种是无指导的学习(unsup ...

  9. 文本分类入门(九)文本分类问题的分类

    开始之前首先说说分类体系.回忆一下,分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系. 其中包含着两方面的内容: 一,类别之间的关系.一般来说类别之间的关系都是可以表示成树形结构,这意味 ...

最新文章

  1. 字节跳动《Python高频面试题》火了,完整版 PDF 开放下载!
  2. 解决android Stadio 升级之后 出现乱码
  3. ping mac地址_局域网ip地址如何显示?一个软件搞定
  4. 视口和窗口的理解方法
  5. 物料变式的订货型生产(3.0C:可库存的类型)(26)
  6. 机器学习大牛是如何选择回归损失函数的?
  7. 沉思滥用:“强力使用,破坏滥用”
  8. C语言学习一个月后感想
  9. 【转】1.DThread、ThreadPool、Task、Parallel的基本用法、区别以及弊端
  10. 特斯拉:燃油车起火的概率远远高于特斯拉
  11. 苹果官网下架 iPhone 8 全系;阿里推出“阿里云会议”;深度操作系统 20 BETA 发布 | 极客头条...
  12. Vue Router 4 快速入门
  13. c++ arm 图像处理_方案解析丨如何在ARM平台搭建超声波无损探伤系统
  14. 最先进的语义搜索句子相似度计算
  15. 阶段2 JavaWeb+黑马旅游网_15-Maven基础_第1节 基本概念_03maven一键构建概念
  16. CF1151div2(Round 553)
  17. 中青杯数学建模竞赛是什么级别的比赛_2020年第三届中青杯全国大学生数学建模竞赛...
  18. java编程计算圆球的体积_已知圆球体积为4/3πr³,试编写一个程序,输入圆球半径,经过计算输出圆球的体积.用JAVA编写的...明天(3月11号)要用....
  19. 微信云服务器socket,微信小程序使用Socket的实例
  20. 关于扫描二维码下载app功能实现方法

热门文章

  1. java字符串是不是整数的函数_java判断字符串是否为整数的方法
  2. mysql upload_关于mysql数据库里的 upload子查询问题
  3. C++课程设计详解-12306的模拟实现
  4. 『数据库』震惊,某博主为吸引眼球拿出压箱底SQL总结,如果你没看那就吃亏了!(超级详细的SQL基础,你还不会的话就别学数据库了)
  5. 数学--数论--HDU-2698 Maximum Multiple(规律)
  6. make zImage和make uImage的区别和mkimage工具的使用
  7. 随机森林算法的随机性_理解随机森林算法的图形指南
  8. TCP流量控制与拥塞控制区别
  9. 鄂尔多斯借贷迷局:1亿存款被冻结3年无法拿回
  10. 人造肉真的上市了,这对养殖业会有什么影响?