搜集了一些资料,与同学一起进行了简单的测试,总结如下。

分词工  具

特点

支持语言

原理

词典及扩展性

StandardAnalyzer

中文、英文(unicode)

中文:单字符切分

英文:根据空格切分

ChineseAnalyzer

中文,不支持中文和英文及数字混合的文本分词

按字分词,与StandardAnalyzer对中文的分词没有大的区别

CJKAnalyzer

中文,英文,不支持中文和英文及数字混合的文本分词

采用的双字切分,也就是对一段文字按每两个字来进行切分

IKAnalyzer

英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

正向迭代最细粒度切分算法(词典+文法分析)

收录27万中文词汇,

支持用户词典扩展定义、支持自定义停止词

paoding

中文

支持不限制个数的用户自定义词库

MMAnalyzer

支持英文、数字、中文(简体)混合分词

正向最大匹配算法

支持动态扩展

MMSeg4j

中文,包括一些字符的处理 英文、俄文、希腊、数字(包括①㈠⒈)的分出一连串的。目前版本没有处理小数字问题

用 Chih-Hao Tsai 的 MMSeg 算法。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word)

强制使用 UTF-8)

使用sougou词库,也可自定义覆盖

imdict

中文、英文、数字

隐马尔科夫模型

仅coredict核心字典、bigramdict词典,不含人名、地名词典。不支持自定义词典

分词工具

特点

速度

文档完整性

大小

Lucene版本

备注

StandardAnalyzer

ChineseAnalyzer

Lucene contrib中附带的分析器

CJKAnalyzer

Lucene contrib中附带的二元分词

IKAnalyzer

3.2.8

83 万字/秒(1600KB/S)

详细

2.62MB

Lucene2.9、

Lucene3.0

支持细粒度和最大词长两种切分模式

paoding

100万字/秒

几乎无

1.3MB

Lucene3.0

MMAnalyzer

第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平

原始网站已经找不到下载,不提供维护和支持

内存消耗30M+

lucene 1.9到2.4之间

MMSeg4j

complex 1200kb/s左右, simple 1900kb/s左右

MMSeg 算法是英文的,但原理比较简单。实现也比较清晰。

内存开销了50M左右

mmseg4j 1.8.3 只支持 lucene 2.9/3.0 接口 。mmseg4j 1.8.5 支持 lucene 3.1。

imdict

259517字/秒

较全

词典大小7.26MB

Lucene2.9直接收录

分词效果演示:

消歧义效果:

分词工具

效果

张三买了张三角桌

南京市长江大桥

StandardAnalyzer

张|三|买|了|张|三|角|桌

南|京|市|长|江|大|桥

ChineseAnalyzer

张|三|买|了|张|三|角|桌

南|京|市|长|江|大|桥

CJKAnalyzer

张三|三买|买了|了张|张三|三角|角桌

南京|京市|市长|长江|江大|大桥

IK

Analyzer

最大词长

张三|买了|张三|三角|桌

南京市|市长|长江大桥

最细粒度

张三|三|买了|张三|三角|三|角|桌

南京市|南京|市长|长江大桥|长江|大桥

paoding

张三|买了|张三|三角|  桌

南|南京|南京市|长|市长|长江|大 |大桥

MMAnalyzer

张三|买了|张三角|桌

南京市|长江大桥

MMSeg4j

SimpleSeg

张三|买了|张三|角|桌

南京市|长江大桥

ComplexSeg

张三|买了|张三|角|桌

南京市|长江大桥

imdict

张|三|买|了|张|三|三角|桌

南京市|长江|大桥

数字、英文混合分词效果:

分词工具

效果

我的QQ号是******

StandardAnalyzer

我|的|qq|号|是|******

ChineseAnalyzer

我|的|qq|号|是

CJKAnalyzer

我的|qq|号|是|******

IKAnalyzer

IK

我|的|qq|号|是|******

MIK

我|的|qq|号|是|******

MMAnalyzer

我的|qq|号|是|******

MMSeg4j

SimpleSeg

我的|qq|号|是|******

ComplexSeg

我的|qq|号|是|******

paoding

我的|qq|号|******

Imdict

我|的|qq|号|******

几种开源分词工具的比较相关推荐

  1. 几种开源分词工具的比較

    搜集了一些资料,与同学一起进行了简单的測试,总结例如以下. 分词工  具 特点 支持语言 原理 词典及扩展性 StandardAnalyzer 中文.英文(unicode) 中文:单字符切分 英文:依 ...

  2. 开源发票识别_自由职业者和小型企业的前4种开源发票工具

    开源发票识别 小企业主和自由职业者在他们的企业中投入了大量工作. 他们之所以这样做,不仅是因为他们对自己的工作充满热情,而且他们的目标是获得报酬. 这也不是一件小事. 获得付款通常意味着向客户发送发票 ...

  3. 桌面提醒工具开源_7种开源桌面工具:下载我们的新电子书

    桌面提醒工具开源 Linux用户说选择是该平台的优势之一. 从表面上看,这听起来可能会自我夸大(或者自我贬低,具体取决于您的观点). 其他操作系统也提供了选择,但是一旦您查看了几乎所有您想在Linux ...

  4. 北京大学开源分词工具pkuseg 初试与使用感受

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/meiqi0538/article/de ...

  5. 克隆网站工具_4 种开源云安全工具

    查找并排除你存储在 AWS 和 GitHub 中的数据里的漏洞. -- Alison Naylor,anderson Silva(作者) 如果你的日常工作是开发者.系统管理员.全栈工程师或者是网站可靠 ...

  6. 开源发票识别_适用于小型企业的4种开源发票工具

    开源发票识别 无论您创办小企业的原因是什么,保持该企业正常运转的关键都是获得报酬. 获得付款通常意味着向客户发送发票. 那里有各种各样的商业和闭源发票工具. 但是,与开放源代码同类产品相比,开放源代码 ...

  7. java端分词工具ANSJ插件的基本使用

    前言: Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyz ...

  8. 大数据工具:IKAnalyzer分词工具介绍与使用

    简单介绍IKAnalyzer分词工具与使用 文章目录 简介 IKAnalyzer的引入使用 IK的两个重要词典 IK的使用 简介 以下简介参考前辈和项目文档介绍 为什么要分词呢,当大数据处理中要提取语 ...

  9. http 测试工具_20+最好的开源自动化测试工具

    本文开始逐步的降低公众号更文频率,提升文章质量,帮忙多点点文章末右下角的"好看"支持下,也可以将本文分享到朋友圈或你身边的朋友,谢谢 最佳开源自动化工具有哪些呢? 在本文中,整理了 ...

最新文章

  1. tomcat 容器生命周期lifecycle
  2. 权限组件(4):给动态菜单增加面包屑导航
  3. SAP企业解决方案SAP Business One敏捷系列—敏捷制造
  4. 格式化输出--对齐及补全
  5. 循环结构作业c语言,C语言循环结构练习题带答案(最新整理)
  6. jQuery 属性操作attr().prop().text().html().val()
  7. 人工鱼群算法python_人工鱼群算法简介及应用
  8. k8s的应用打包工具Helm
  9. hdu Robberies
  10. Q139:PBRT-V3,Metropolis Light Transport (MLT)(16.4章节)
  11. MySQL优化详解(五)——MySQL分库分表
  12. Linux Vue环境搭建
  13. 慎重!物联网时代情趣用品真的适合联网么?
  14. 数控g71编程实例带图_数控编程代码g71 数控g71编程实例有图
  15. 利用计算机及时采集检测数据,计算机基础_课件.ppt
  16. Nature拟推出机器智能在线期刊Nature Machine Intelligence
  17. 计算机管理格式化没有顺利完成,tf卡无法格式化的解决方法
  18. 【学习笔记之MYSQL篇】实体联系图
  19. 研究生的压力应对与心理健康 测试题答案
  20. 从 Git 到区块链

热门文章

  1. 终于来了!知乎中秋礼盒
  2. 云呐|固定资产采购管理系统(资产采购管理有哪些功能)
  3. 错误ID:10005,错误信息:DCOM 遇到错误“无法启动服务,原因可能是它被禁用或与它相关联的设备没有启动。 ”,试图以参数“”启动服务 SENS 以运行服务器:...
  4. JS方式实现隐藏手机号码中间4位数
  5. Pikachu(皮卡丘)靶场搭建
  6. “已成功与服务器建立连接,但是在登录过程中发生错误“的解决方法
  7. 用 HealthKit 来开发一个健身 App
  8. 苹果手机忘记Appid怎么办
  9. 白话数据、数据项、数据元素和数据对象的概念和联系。
  10. oracle11g memory_target,oracle11g要求在操作系统层设定共享内存/dev/shm,且大于MEMORY_TARGET...