PyMining-开源中文文本数据挖掘平台 Ver 0.1发布

项目首页：

http://code.google.com/p/python-data-mining-platform/ （可能需FQ）

目前已经在该googlecode中加入了Tutorial等内容，可以在wiki中查看

项目介绍（复制自项目首页的说明）：

这是一个能够根据源数据（比如说用csv格式表示的矩阵，或者中文文档）使用多种多样的算法去得到结果的一个平台。

算法能够通过xml配置文件去一个一个的运行，比如在开始的时候，我们可以先运行一下主成分分析算法去做特种选择，然后我们再运行随机森林算法来做分类。

目前算法主要是针对那些单机能够完成的任务，该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法，并且用于工程之中（相信我，肯定比Weka更快更好）。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。

只需要写下下面的程序，就能够得到神奇的结果（对文本进行特征选择、得到naive bayes分类模型，并且预测）：

   1: #load config

   2: config = Configuration.FromFile("conf/test.xml")

   3: PyMining.Init(config, "__global__")

4:

   5: #get matrix from source text

   6: matCreater = ClassifierMatrix(config, "__matrix__")

   7: [trainx, trainy] = matCreater.CreateTrainMatrix("data/train.txt")

8:

   9: #get chi square filter

  10: chiFilter = ChiSquareFilter(config, "__filter__")

  11: chiFilter.TrainFilter(trainx, trainy)

12:

  13: #runs naive-bayes model to get model

  14: nbModel = TwcNaiveBayes(config, "twc_naive_bayes")

  15: nbModel.Train(trainx, trainy)

16:

  17: #using the model to predict an unseen doc to target class

  18: [testx, testy] = matCreater.CreatePredictMatrix("data/test.txt")

  19: [testx, testy] = chiFilter.MatrixFilter(testx, testy)

  20: retY = nbModel.TestMatrix(testx, testy)

目前的版本：

Ver 0.1（第二个开发版）

Features：

上一版的Feature：

能够支持中文文本输入，并且对其进行分词等操作，作为分类的源数据
带有卡方检测(chi square test)的特征词选择器(feature selector)
参数的调整(parameter tuning)支持通过xml配置文件进行

新增Feature：

加入了K-Means算法，能够对文本进行聚类
加入了基于补集的朴素贝叶斯算法，大大提升了分类的准确率，目前该算法在搜狗实验室文本分类数据中，对20000篇、8分类左右的数据的预测准确率在90%左右
加入了Sogou实验室文本分类数据的导入器，可以进行更多的实验

获取PyMining：

于http://code.google.com/p/python-data-mining-platform/downloads/detail?name=pymining_0_1.zip&can=2&q=#makechanges，可获取目前最新的ver 0.1版（可能需要FQ）

不用FQ的版本：http://files.cnblogs.com/LeftNotEasy/pymining_0_1.zip

转载于:https://www.cnblogs.com/LeftNotEasy/archive/2011/05/15/pymining-second-edition.html

PyMining-开源中文文本数据挖掘平台 Ver 0.1发布相关推荐

中文文本分类语料库-TanCorpV1.0
转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml 中文文本分类语料库-TanCorpV1.0 谭松波,王月粉 1 ...
重磅丨云和恩墨zCloud数据库云管平台2.0版本发布
重磅丨云和恩墨zCloud数据库云管平台2.0版本发布 7月,大家可能正在忍受着酷暑天气,或者在暴雨中奔走,但不变的是DBA对用户数据库及数据保障依然十分关心.在此期间,云和恩墨发布了zCloud数据 ...
MongoDB数据库泄露8亿电邮地址；微软开源Windows计算器；Linux 5.0 Kernel发布丨Q新闻...
本周要闻:华为正式宣布起诉美国政府:360 首席安全官谭晓生宣布离职:阿里开源 Flutter 应用框架 Fish Redux:微软开源 Windows 计算器:Linux 5.0 Kernel 发布 ...
免费开源智慧农业物联网云平台 V3.0.1.2含源码
一.简介 JINGLI(鲸哩)智能农业物联网云平台,从(设备端-APP端-平台端-管理端)全业务场景包含设备采集系统.监控控制系统.溯源系统.专家系统.仓库系统,大屏系统,开源版本毫无保留给个人及企业 ...
北斗导航 | PPP-RTK：CLASLIB 0.7.2 版本中文手册（CLASLIB ver. 0.7.2 Manual）
===================================================== github:https://github.com/MichaelBeechan CSDN: ...
开源软件绿色报时器2.0版发布
开源软件绿色报时器2.0版昨天发布了.这个软件很小,才200k左右. 绿色报时器是时间管理工具,目前主要是定时提醒功能.现在已经是我的朋友们的装机必备软件了:) 我已经将它开放源代码,放到google ...
python接口测试框架django_开源~自研接口测试平台 Django2.0+Vue
接口测试平台从开始到放弃 python3.6.3 Django 2.0.2框架版本更新: v2.3 引入docker部署,由于采用的docker,基础镜像为centos,所以Windows下部署仍然 ...
Bert+FGSM/PGD实现中文文本分类（Loss=0.5L1+0.5L2)
任务目标:在使用FGSM/PGD来训练Bert模型进行文本分类,其实现原理可以简单概括为以下几个步骤: 对原始文本每个词转换为对应的嵌入向量. 将每个嵌入向量与一个小的扰动向量相加,从而生成对抗样本. ...
仿minecraft游戏 linux,【图片】【Codea制作仿MineCraft3D游戏】Craft Ver. 0.1发布（开源）【codea吧】_百度贴吧...
该楼层疑似违规已被系统折叠隐藏此楼查看此楼 function AABB:clipYcollide(c,y) if ((c.x1 <= self.x0) or (c.x0 >= self. ...
codeigniter 禁止ip登录_「开源资讯」baigo SSO v4.0 beta-3 发布，单点登录系统
来源:https://www.oschina.net/news/117020/baigo-sso-4-beta3-released 简介 baigo SSO 是一款基于 HTTP 协议的单点登录系统, ...

PyMining-开源中文文本数据挖掘平台 Ver 0.1发布

PyMining-开源中文文本数据挖掘平台 Ver 0.1发布相关推荐

最新文章

热门文章