免费中文分词系统与资源收集
转自:http://www.cnblogs.com/pittzh/articles/1677637.html
想要建立一个相对比较实用的“热点关键词库”。主要功能就是收集关键和对关键词进行归类!
搜集了一下,发现目前有不少平台的分词系统!
- 比较知名的是中科院的中文分词系统(http://download.csdn.net/source/311639)
- SCWS简易中文分词系统(http://www.ftphp.com/scws/)
- 基于C语言的中文分词系统(http://hi.baidu.com/earthsearch/blog/item/522c19084a20c837e9248840.html)
- ictclas 中文分词系统 v2009(http://www.downgreen.com/soft/094/4600.htm)
- 免费开源的全文索引与检索平台(FirteX)、中文分词系统(ICTCLAS)(http://www.cnblogs.com/taomaintao/archive/2009/11/27/1612184.html)
- 开源中文分词,(免费+开源+86万词库+操作示意图+测试用例)(http://tieba.baidu.com/f?kz=539351689)
其中SCWS相对是一个开源简洁的系统(http://www.hightman.cn/index.php?scws),对于固定的预料或是固定行业内的关键词提取效果可能会比较好,因为还没有对“热点关键词库”的功能进行详细的规划,所以还无法选择出合适的分词系统。只是从易用性角度考虑,PHP平台实现起来会容易一些!的此只是对系统做一些整理!
http://www.hightman.cn/
同时,拼音加加的“大分词”的分词理念也值得借鉴!还有“火车采集器”的中文分词(只是应用于分词后的替换或提取)
===2010年03月04日===
搜索引擎之中文分词(Chinese Word Segmentation)简介 | 中文Flex例子 http://blog.minidx.com/2008/01/04/352.html
发布IK Analyzer 3.0 中文分词器 http://www.javaeye.com/topic/429960
免费中文分词系统与资源收集相关推荐
- 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇
首先感谢52nlp的系列博文(http://www.52nlp.cn/),提供了自然语言处理的系列学习文章,让我学习到了如何实现一个基于隐含马尔可夫模型HMM的中文分词器. 在编写一个中文分词器前,第 ...
- 基于Java实现的中文分词系统
资源下载地址:https://download.csdn.net/download/sheziqiong/85941192 资源下载地址:https://download.csdn.net/downl ...
- 基于HTTP协议的开源中文分词系统:HTTPCWS 1.0.0 发布
基于HTTP协议的开源中文分词系统:HTTPCWS 1.0.0 发布[原创] 发布版本: httpcws 1.0.0 (最新版本:2009-08-10发布) 程序网址:http://code.goog ...
- 几款开源的中文分词系统
以下介绍4款开源中文分词系统 python环境下,jieba也不错,实现词性分词性能据说不错. 1.ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键.中国科学院计 ...
- ictclas4j java_ictclas4j 中科院中文分词系统完成的java源码,能很好的实现 的 ,为文本挖掘提供基础。 Develop 238万源代码下载- www.pudn.com...
文件名称: ictclas4j下载 收藏√ [ 5 4 3 2 1 ] 开发工具: Java 文件大小: 6617 KB 上传时间: 2013-12-06 下载次数: 4 提 供 者: 黄倩 ...
- 四款python中文分词系统简单测试
四款python中文分词系统简单测试: 注:中科院分词可采用调用C库的方式使用 纠正下:中科院分词2012支持关键词提取 准确率测试(使用对应项目提供在线测试,未添加用户自定义词典) 结巴中文分词ht ...
- NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法
一.本文内容简介 二.具体内容 1. 中文分词的基本概念 2.关于NLPIR(北理工张华平版中文分词系统)的基本情况 3.具体SDK模块(C++)的组装方式 ①准备内容: ②开始组装 三.注意事项 一 ...
- 【原创】中文分词系统 ICTCLAS2015 的JAVA封装和多线程执行(附代码)
本文针对的问题是 ICTCLAS2015 的多线程分词,为了实现多线程做了简单的JAVA封装.如果有需要可以自行进一步封装其它接口. 首先ICTCLAS2015的传送门(http://ictclas. ...
- 2014.12.21nlpir ictclas中文分词系统发布
我们拟于2013年12月20日,在北京理工大学召开ICTCLAS的分词用户大会,发布最新版本,ICTCLAS的作者张华平博士将莅临宣讲分词算法的原理,并集中培训分词在Windows,Linux下C/C ...
最新文章
- Mac上搭建直播服务器Nginx+rtmp
- doctrine 报错处理办法: Unknown database type enum requested
- ABP学习 解决:Update-Database : 无法将“Update-Database”项识别为 cmdlet、函数、脚本文件或可运行程序的名称的问题
- Mybatis generator配置
- eDrawings Pro 2020中文版
- lenovo Think Centre TCM 开发环境搭建
- Linux服务-NFS服务部署
- 软件测试相关概念与分类
- 数据库工作笔记011---Centos7.3下切换mysql数据库的存储位置_挂盘_目录挂载_挂载某个目录到某个设备下
- 网易云课堂Java模拟面试笔记(31-40)
- 在Chrome谷歌浏览器中使用H5地理位置API
- Linux实验四:文件的压缩
- LS1046A平台 网卡混杂模式,无法收到DMAC不是自己的包
- 邓明善:一定要学会与机遇博弈
- python成语接龙
- Java判断Long类型相等问题
- 关于印发《留学回国人员申办上海常住户口实施细则》的通知
- C语言 Windows文件选择对话框
- 30岁买房只需记住一句话,永远不会出错!
- 水位传感器(Water Sensor)原理图