几种开源分词工具的比较
搜集了一些资料,与同学一起进行了简单的测试,总结如下。
分词工 具 特点 |
支持语言 |
原理 |
词典及扩展性 |
StandardAnalyzer |
中文、英文(unicode) |
中文:单字符切分 英文:根据空格切分 |
|
ChineseAnalyzer |
中文,不支持中文和英文及数字混合的文本分词 |
按字分词,与StandardAnalyzer对中文的分词没有大的区别 |
|
CJKAnalyzer |
中文,英文,不支持中文和英文及数字混合的文本分词 |
采用的双字切分,也就是对一段文字按每两个字来进行切分 |
|
IKAnalyzer |
英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 |
正向迭代最细粒度切分算法(词典+文法分析) |
收录27万中文词汇, 支持用户词典扩展定义、支持自定义停止词 |
paoding |
中文 |
支持不限制个数的用户自定义词库 |
|
MMAnalyzer |
支持英文、数字、中文(简体)混合分词 |
正向最大匹配算法 |
支持动态扩展 |
MMSeg4j |
中文,包括一些字符的处理 英文、俄文、希腊、数字(包括①㈠⒈)的分出一连串的。目前版本没有处理小数字问题 |
用 Chih-Hao Tsai 的 MMSeg 算法。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word) |
强制使用 UTF-8) 使用sougou词库,也可自定义覆盖 |
imdict |
中文、英文、数字 |
隐马尔科夫模型 |
仅coredict核心字典、bigramdict词典,不含人名、地名词典。不支持自定义词典 |
分词工具 特点 |
速度 |
文档完整性 |
大小 |
Lucene版本 |
备注 |
StandardAnalyzer |
|||||
ChineseAnalyzer |
Lucene contrib中附带的分析器 |
||||
CJKAnalyzer |
Lucene contrib中附带的二元分词 |
||||
IKAnalyzer 3.2.8 |
83 万字/秒(1600KB/S) |
详细 |
2.62MB |
Lucene2.9、 Lucene3.0 |
支持细粒度和最大词长两种切分模式 |
paoding |
100万字/秒 |
几乎无 |
1.3MB |
Lucene3.0 |
|
MMAnalyzer |
第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 |
原始网站已经找不到下载,不提供维护和支持 |
内存消耗30M+ |
lucene 1.9到2.4之间 |
|
MMSeg4j |
complex 1200kb/s左右, simple 1900kb/s左右 |
MMSeg 算法是英文的,但原理比较简单。实现也比较清晰。 |
内存开销了50M左右 |
mmseg4j 1.8.3 只支持 lucene 2.9/3.0 接口 。mmseg4j 1.8.5 支持 lucene 3.1。 |
|
imdict |
259517字/秒 |
较全 |
词典大小7.26MB |
Lucene2.9直接收录 |
分词效果演示:
消歧义效果:
分词工具 效果 |
张三买了张三角桌 |
南京市长江大桥 |
||
StandardAnalyzer |
张|三|买|了|张|三|角|桌 |
南|京|市|长|江|大|桥 |
||
ChineseAnalyzer |
张|三|买|了|张|三|角|桌 |
南|京|市|长|江|大|桥 |
||
CJKAnalyzer |
张三|三买|买了|了张|张三|三角|角桌 |
南京|京市|市长|长江|江大|大桥 |
||
IK Analyzer |
最大词长 |
张三|买了|张三|三角|桌 |
南京市|市长|长江大桥 |
|
最细粒度 |
张三|三|买了|张三|三角|三|角|桌 |
南京市|南京|市长|长江大桥|长江|大桥 |
||
paoding |
张三|买了|张三|三角| 桌 |
南|南京|南京市|长|市长|长江|大 |大桥 |
||
MMAnalyzer |
张三|买了|张三角|桌 |
南京市|长江大桥 |
||
MMSeg4j |
SimpleSeg |
张三|买了|张三|角|桌 |
南京市|长江大桥 |
|
ComplexSeg |
张三|买了|张三|角|桌 |
南京市|长江大桥 |
||
imdict |
张|三|买|了|张|三|三角|桌 |
南京市|长江|大桥 |
数字、英文混合分词效果:
分词工具 效果 |
我的QQ号是****** |
||
StandardAnalyzer |
我|的|qq|号|是|****** |
||
ChineseAnalyzer |
我|的|qq|号|是 |
||
CJKAnalyzer |
我的|qq|号|是|****** |
||
IKAnalyzer |
IK |
我|的|qq|号|是|****** |
|
MIK |
我|的|qq|号|是|****** |
||
MMAnalyzer |
我的|qq|号|是|****** |
||
MMSeg4j |
SimpleSeg |
我的|qq|号|是|****** |
|
ComplexSeg |
我的|qq|号|是|****** |
||
paoding |
我的|qq|号|****** |
||
Imdict |
我|的|qq|号|****** |
几种开源分词工具的比较相关推荐
- 几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下. 分词工 具 特点 支持语言 原理 词典及扩展性 StandardAnalyzer 中文.英文(unicode) 中文:单字符切分 英文:依 ...
- 开源发票识别_自由职业者和小型企业的前4种开源发票工具
开源发票识别 小企业主和自由职业者在他们的企业中投入了大量工作. 他们之所以这样做,不仅是因为他们对自己的工作充满热情,而且他们的目标是获得报酬. 这也不是一件小事. 获得付款通常意味着向客户发送发票 ...
- 桌面提醒工具开源_7种开源桌面工具:下载我们的新电子书
桌面提醒工具开源 Linux用户说选择是该平台的优势之一. 从表面上看,这听起来可能会自我夸大(或者自我贬低,具体取决于您的观点). 其他操作系统也提供了选择,但是一旦您查看了几乎所有您想在Linux ...
- 北京大学开源分词工具pkuseg 初试与使用感受
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/meiqi0538/article/de ...
- 克隆网站工具_4 种开源云安全工具
查找并排除你存储在 AWS 和 GitHub 中的数据里的漏洞. -- Alison Naylor,anderson Silva(作者) 如果你的日常工作是开发者.系统管理员.全栈工程师或者是网站可靠 ...
- 开源发票识别_适用于小型企业的4种开源发票工具
开源发票识别 无论您创办小企业的原因是什么,保持该企业正常运转的关键都是获得报酬. 获得付款通常意味着向客户发送发票. 那里有各种各样的商业和闭源发票工具. 但是,与开放源代码同类产品相比,开放源代码 ...
- java端分词工具ANSJ插件的基本使用
前言: Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyz ...
- 大数据工具:IKAnalyzer分词工具介绍与使用
简单介绍IKAnalyzer分词工具与使用 文章目录 简介 IKAnalyzer的引入使用 IK的两个重要词典 IK的使用 简介 以下简介参考前辈和项目文档介绍 为什么要分词呢,当大数据处理中要提取语 ...
- http 测试工具_20+最好的开源自动化测试工具
本文开始逐步的降低公众号更文频率,提升文章质量,帮忙多点点文章末右下角的"好看"支持下,也可以将本文分享到朋友圈或你身边的朋友,谢谢 最佳开源自动化工具有哪些呢? 在本文中,整理了 ...
最新文章
- tomcat 容器生命周期lifecycle
- 权限组件(4):给动态菜单增加面包屑导航
- SAP企业解决方案SAP Business One敏捷系列—敏捷制造
- 格式化输出--对齐及补全
- 循环结构作业c语言,C语言循环结构练习题带答案(最新整理)
- jQuery 属性操作attr().prop().text().html().val()
- 人工鱼群算法python_人工鱼群算法简介及应用
- k8s的应用打包工具Helm
- hdu Robberies
- Q139:PBRT-V3,Metropolis Light Transport (MLT)(16.4章节)
- MySQL优化详解(五)——MySQL分库分表
- Linux Vue环境搭建
- 慎重!物联网时代情趣用品真的适合联网么?
- 数控g71编程实例带图_数控编程代码g71 数控g71编程实例有图
- 利用计算机及时采集检测数据,计算机基础_课件.ppt
- Nature拟推出机器智能在线期刊Nature Machine Intelligence
- 计算机管理格式化没有顺利完成,tf卡无法格式化的解决方法
- 【学习笔记之MYSQL篇】实体联系图
- 研究生的压力应对与心理健康 测试题答案
- 从 Git 到区块链
热门文章
- 终于来了!知乎中秋礼盒
- 云呐|固定资产采购管理系统(资产采购管理有哪些功能)
- 错误ID:10005,错误信息:DCOM 遇到错误“无法启动服务,原因可能是它被禁用或与它相关联的设备没有启动。 ”,试图以参数“”启动服务 SENS 以运行服务器:...
- JS方式实现隐藏手机号码中间4位数
- Pikachu(皮卡丘)靶场搭建
- “已成功与服务器建立连接,但是在登录过程中发生错误“的解决方法
- 用 HealthKit 来开发一个健身 App
- 苹果手机忘记Appid怎么办
- 白话数据、数据项、数据元素和数据对象的概念和联系。
- oracle11g memory_target,oracle11g要求在操作系统层设定共享内存/dev/shm,且大于MEMORY_TARGET...