项目首页:

http://code.google.com/p/python-data-mining-platform/ (可能需FQ)

目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看

项目介绍(复制自项目首页的说明):

这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者中文文档)使用多种多样的算法去得到结果的一个平台。

算法能够通过xml配置文件去一个一个的运行,比如在开始的时候,我们可以先运行一下主成分分析算法去做特种选择,然后我们再运行随机森林算法来做分类。

目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。

只需要写下下面的程序,就能够得到神奇的结果(对文本进行特征选择、得到naive bayes分类模型,并且预测):

   1: #load config
   2: config = Configuration.FromFile("conf/test.xml")
   3: PyMining.Init(config, "__global__")
   4:     
   5: #get matrix from source text
   6: matCreater = ClassifierMatrix(config, "__matrix__")
   7: [trainx, trainy] = matCreater.CreateTrainMatrix("data/train.txt")
   8:     
   9: #get chi square filter
  10: chiFilter = ChiSquareFilter(config, "__filter__")
  11: chiFilter.TrainFilter(trainx, trainy)
  12:     
  13: #runs naive-bayes model to get model
  14: nbModel = TwcNaiveBayes(config, "twc_naive_bayes")
  15: nbModel.Train(trainx, trainy)
  16:  
  17: #using the model to predict an unseen doc to target class
  18: [testx, testy] = matCreater.CreatePredictMatrix("data/test.txt")
  19: [testx, testy] = chiFilter.MatrixFilter(testx, testy)
  20: retY = nbModel.TestMatrix(testx, testy)

 

目前的版本:

Ver 0.1(第二个开发版)

Features:

    上一版的Feature:

  • 能够支持中文文本输入,并且对其进行分词等操作,作为分类的源数据
  • 带有卡方检测(chi square test)的特征词选择器(feature selector)
  • 参数的调整(parameter tuning)支持通过xml配置文件进行

     新增Feature:

  • 加入了K-Means算法,能够对文本进行聚类
  • 加入了基于补集的朴素贝叶斯算法,大大提升了分类的准确率,目前该算法在搜狗实验室文本分类数据中,对20000篇、8分类左右的数据的预测准确率在90%左右
  • 加入了Sogou实验室文本分类数据的导入器,可以进行更多的实验

获取PyMining:

于http://code.google.com/p/python-data-mining-platform/downloads/detail?name=pymining_0_1.zip&can=2&q=#makechanges,可获取目前最新的ver 0.1版(可能需要FQ)

不用FQ的版本:http://files.cnblogs.com/LeftNotEasy/pymining_0_1.zip

转载于:https://www.cnblogs.com/LeftNotEasy/archive/2011/05/15/pymining-second-edition.html

PyMining-开源中文文本数据挖掘平台 Ver 0.1发布相关推荐

  1. 中文文本分类语料库-TanCorpV1.0

    转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml 中文文本分类语料库-TanCorpV1.0 谭松波,王月粉 1 ...

  2. 重磅丨云和恩墨zCloud数据库云管平台2.0版本发布

    重磅丨云和恩墨zCloud数据库云管平台2.0版本发布 7月,大家可能正在忍受着酷暑天气,或者在暴雨中奔走,但不变的是DBA对用户数据库及数据保障依然十分关心.在此期间,云和恩墨发布了zCloud数据 ...

  3. MongoDB数据库泄露8亿电邮地址;微软开源Windows计算器;Linux 5.0 Kernel发布丨Q新闻...

    本周要闻:华为正式宣布起诉美国政府:360 首席安全官谭晓生宣布离职:阿里开源 Flutter 应用框架 Fish Redux:微软开源 Windows 计算器:Linux 5.0 Kernel 发布 ...

  4. 免费开源智慧农业物联网云平台 V3.0.1.2含源码

    一.简介 JINGLI(鲸哩)智能农业物联网云平台,从(设备端-APP端-平台端-管理端)全业务场景包含设备采集系统.监控控制系统.溯源系统.专家系统.仓库系统,大屏系统,开源版本毫无保留给个人及企业 ...

  5. 北斗导航 | PPP-RTK:CLASLIB 0.7.2 版本中文手册(CLASLIB ver. 0.7.2 Manual)

    ===================================================== github:https://github.com/MichaelBeechan CSDN: ...

  6. 开源软件绿色报时器2.0版发布

    开源软件绿色报时器2.0版昨天发布了.这个软件很小,才200k左右. 绿色报时器是时间管理工具,目前主要是定时提醒功能.现在已经是我的朋友们的装机必备软件了:) 我已经将它开放源代码,放到google ...

  7. python接口测试框架django_开源~自研接口测试平台 Django2.0+Vue

    接口测试平台从开始到放弃 python3.6.3 Django 2.0.2框架 版本更新: v2.3 引入docker部署,由于采用的docker,基础镜像为centos,所以Windows下部署仍然 ...

  8. Bert+FGSM/PGD实现中文文本分类(Loss=0.5L1+0.5L2)

    任务目标:在使用FGSM/PGD来训练Bert模型进行文本分类,其实现原理可以简单概括为以下几个步骤: 对原始文本每个词转换为对应的嵌入向量. 将每个嵌入向量与一个小的扰动向量相加,从而生成对抗样本. ...

  9. 仿minecraft游戏 linux,【图片】【Codea制作仿MineCraft3D游戏】Craft Ver. 0.1发布(开源)【codea吧】_百度贴吧...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 function AABB:clipYcollide(c,y) if ((c.x1 <= self.x0) or (c.x0 >= self. ...

  10. codeigniter 禁止ip登录_「开源资讯」baigo SSO v4.0 beta-3 发布,单点登录系统

    来源:https://www.oschina.net/news/117020/baigo-sso-4-beta3-released 简介 baigo SSO 是一款基于 HTTP 协议的单点登录系统, ...

最新文章

  1. 帮AI摆脱“智障”之名,NLP这条路还有多远?
  2. Flash Builder 4 安装ANT插件
  3. Python:Pandas之变长字典Series
  4. 删库不跑路,MySQL 数据库恢复教程
  5. 参会全攻略 | 倒计时 7 天!30+ 位重量级嘉宾“聊”什么?
  6. php json传输被过滤,php-the_content过滤器,用于将自定义字段添加到JSON响应
  7. 如何快速下载CentOS7镜像
  8. 浅谈ThreadPool 线程池
  9. Python内置函数(28)——hash
  10. 2021必收藏!Java编程技巧之单元测试用例编写流程
  11. flash activex java_Adobe Flash player ActiveX下载地址
  12. 复杂知识图谱问答综述方法、挑战和解决办法
  13. 2017公共DNS服务器评估报告——公共DNS推荐(摘录)
  14. 2019-新年新计划
  15. 初级程序员必学Java 教程
  16. Linux环境下使用JFS文件系统介绍
  17. Windows无线网“无法连接到这个网络”的解决办法
  18. 联想启天m420刷bios_联想启天M420台式机怎么装win7系统(完美解决usb)
  19. [Unity][ILRuntime][C#]热更新运行官方示例U3D项目报错
  20. Detecting noop updates

热门文章

  1. Springboot集成SpringData JPA
  2. Codeforces Round #484 (Div. 2) D. Shark
  3. 洛谷题解 P1005 【矩阵取数游戏】
  4. SOA架构设计的案例分析
  5. BZOJ4538 HNOI2016网络(树链剖分+线段树+堆/整体二分+树上差分)
  6. NetCore控制台实现自定义CommandLine功能
  7. mysql表结构及索引脚本
  8. uva 1329(加权并查集)
  9. LintCode 二叉树的最小深度
  10. C#中启动外部应用程序