PyMining-开源中文文本数据挖掘平台 Ver 0.1发布
项目首页:
http://code.google.com/p/python-data-mining-platform/ (可能需FQ)
目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看
项目介绍(复制自项目首页的说明):
这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者中文文档)使用多种多样的算法去得到结果的一个平台。
算法能够通过xml配置文件去一个一个的运行,比如在开始的时候,我们可以先运行一下主成分分析算法去做特种选择,然后我们再运行随机森林算法来做分类。
目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。
只需要写下下面的程序,就能够得到神奇的结果(对文本进行特征选择、得到naive bayes分类模型,并且预测):
1: #load config
2: config = Configuration.FromFile("conf/test.xml")
3: PyMining.Init(config, "__global__")
4:
5: #get matrix from source text
6: matCreater = ClassifierMatrix(config, "__matrix__")
7: [trainx, trainy] = matCreater.CreateTrainMatrix("data/train.txt")
8:
9: #get chi square filter
10: chiFilter = ChiSquareFilter(config, "__filter__")
11: chiFilter.TrainFilter(trainx, trainy)
12:
13: #runs naive-bayes model to get model
14: nbModel = TwcNaiveBayes(config, "twc_naive_bayes")
15: nbModel.Train(trainx, trainy)
16:
17: #using the model to predict an unseen doc to target class
18: [testx, testy] = matCreater.CreatePredictMatrix("data/test.txt")
19: [testx, testy] = chiFilter.MatrixFilter(testx, testy)
20: retY = nbModel.TestMatrix(testx, testy)
目前的版本:
Ver 0.1(第二个开发版)
Features:
上一版的Feature:
- 能够支持中文文本输入,并且对其进行分词等操作,作为分类的源数据
- 带有卡方检测(chi square test)的特征词选择器(feature selector)
- 参数的调整(parameter tuning)支持通过xml配置文件进行
新增Feature:
- 加入了K-Means算法,能够对文本进行聚类
- 加入了基于补集的朴素贝叶斯算法,大大提升了分类的准确率,目前该算法在搜狗实验室文本分类数据中,对20000篇、8分类左右的数据的预测准确率在90%左右
- 加入了Sogou实验室文本分类数据的导入器,可以进行更多的实验
获取PyMining:
于http://code.google.com/p/python-data-mining-platform/downloads/detail?name=pymining_0_1.zip&can=2&q=#makechanges,可获取目前最新的ver 0.1版(可能需要FQ)
不用FQ的版本:http://files.cnblogs.com/LeftNotEasy/pymining_0_1.zip
转载于:https://www.cnblogs.com/LeftNotEasy/archive/2011/05/15/pymining-second-edition.html
PyMining-开源中文文本数据挖掘平台 Ver 0.1发布相关推荐
- 中文文本分类语料库-TanCorpV1.0
转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml 中文文本分类语料库-TanCorpV1.0 谭松波,王月粉 1 ...
- 重磅丨云和恩墨zCloud数据库云管平台2.0版本发布
重磅丨云和恩墨zCloud数据库云管平台2.0版本发布 7月,大家可能正在忍受着酷暑天气,或者在暴雨中奔走,但不变的是DBA对用户数据库及数据保障依然十分关心.在此期间,云和恩墨发布了zCloud数据 ...
- MongoDB数据库泄露8亿电邮地址;微软开源Windows计算器;Linux 5.0 Kernel发布丨Q新闻...
本周要闻:华为正式宣布起诉美国政府:360 首席安全官谭晓生宣布离职:阿里开源 Flutter 应用框架 Fish Redux:微软开源 Windows 计算器:Linux 5.0 Kernel 发布 ...
- 免费开源智慧农业物联网云平台 V3.0.1.2含源码
一.简介 JINGLI(鲸哩)智能农业物联网云平台,从(设备端-APP端-平台端-管理端)全业务场景包含设备采集系统.监控控制系统.溯源系统.专家系统.仓库系统,大屏系统,开源版本毫无保留给个人及企业 ...
- 北斗导航 | PPP-RTK:CLASLIB 0.7.2 版本中文手册(CLASLIB ver. 0.7.2 Manual)
===================================================== github:https://github.com/MichaelBeechan CSDN: ...
- 开源软件绿色报时器2.0版发布
开源软件绿色报时器2.0版昨天发布了.这个软件很小,才200k左右. 绿色报时器是时间管理工具,目前主要是定时提醒功能.现在已经是我的朋友们的装机必备软件了:) 我已经将它开放源代码,放到google ...
- python接口测试框架django_开源~自研接口测试平台 Django2.0+Vue
接口测试平台从开始到放弃 python3.6.3 Django 2.0.2框架 版本更新: v2.3 引入docker部署,由于采用的docker,基础镜像为centos,所以Windows下部署仍然 ...
- Bert+FGSM/PGD实现中文文本分类(Loss=0.5L1+0.5L2)
任务目标:在使用FGSM/PGD来训练Bert模型进行文本分类,其实现原理可以简单概括为以下几个步骤: 对原始文本每个词转换为对应的嵌入向量. 将每个嵌入向量与一个小的扰动向量相加,从而生成对抗样本. ...
- 仿minecraft游戏 linux,【图片】【Codea制作仿MineCraft3D游戏】Craft Ver. 0.1发布(开源)【codea吧】_百度贴吧...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 function AABB:clipYcollide(c,y) if ((c.x1 <= self.x0) or (c.x0 >= self. ...
- codeigniter 禁止ip登录_「开源资讯」baigo SSO v4.0 beta-3 发布,单点登录系统
来源:https://www.oschina.net/news/117020/baigo-sso-4-beta3-released 简介 baigo SSO 是一款基于 HTTP 协议的单点登录系统, ...
最新文章
- 帮AI摆脱“智障”之名,NLP这条路还有多远?
- Flash Builder 4 安装ANT插件
- Python:Pandas之变长字典Series
- 删库不跑路,MySQL 数据库恢复教程
- 参会全攻略 | 倒计时 7 天!30+ 位重量级嘉宾“聊”什么?
- php json传输被过滤,php-the_content过滤器,用于将自定义字段添加到JSON响应
- 如何快速下载CentOS7镜像
- 浅谈ThreadPool 线程池
- Python内置函数(28)——hash
- 2021必收藏!Java编程技巧之单元测试用例编写流程
- flash activex java_Adobe Flash player ActiveX下载地址
- 复杂知识图谱问答综述方法、挑战和解决办法
- 2017公共DNS服务器评估报告——公共DNS推荐(摘录)
- 2019-新年新计划
- 初级程序员必学Java 教程
- Linux环境下使用JFS文件系统介绍
- Windows无线网“无法连接到这个网络”的解决办法
- 联想启天m420刷bios_联想启天M420台式机怎么装win7系统(完美解决usb)
- [Unity][ILRuntime][C#]热更新运行官方示例U3D项目报错
- Detecting noop updates