IK Analyzer 3.X介绍
  IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.X则发展为面吐Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

IK Analyzer 3.2.8特性
 采用了特有的“正吐迭代最细粒度切分算法“,支持细粒度和最大词长两种切分模式;具有83万字/秒(1600KB/S)的高速处理能力。
 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符
 优化的词典存储,更小的内存占用。支持用户词典扩展定义
 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吏血推荐);引入简单搜索表达式,采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。

分词效果示例
IK Analyzer 3.2.8版本支持 细粒度切分 和 最大词长切分,以下是两种切分方式的演示样例。

文本原文1:
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。

最大词长分词结果:
ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中文 | 分词 | 工具包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本
最细粒度分词结果:
ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本

文本原文2:
作者博客:linliangyi2007.javaeye.com 电子邮件:linliangyi2005@gmail.com

最大词长分词结果:
作者 | 博客 | linliangyi2007.javaeye.com | 电子邮件 | linliangyi2005@gmail.com  
最细粒度分词结果:
作者 | 博客 | linliangyi2007.javaeye.com | linliangyi | 2007 | javaeye | com | 电子邮件 | linliangyi2005@gmail.com | linliangyi | 2005 | gmail | com

文本原文3
古田县城关六一四路四百零五号

最大词长分词结果:
古田县 | 县城 | 城关 | 六一四 | 路 | 四百零五 | 号  
最细粒度分词结果:
古田县 | 古田 | 县城 | 城关 | 六一四 | 六一 | 四 | 路 | 四百零五 | 四 | 百 | 零 | 五 | 号

文本原文4
曙光天阔 I620r-G /A950r-F 夏普SH9020C

最大词长分词结果:
曙光 | 天 | 阔 | i620r-g | a950r-f | 夏普 | sh9020c
最细粒度分词结果:
曙光 | 天 | 阔 | i620r-g | i | 620 | r | g | a950r-f | a | 950 | r | f | 夏普 | sh9020c | sh | 9020 | c

更多详情,请浏览 http://lucene-group.group.javaeye.com/group/blog/941132

开源项目地址 : 开源中文分词器IKAnalyzer
Google Code下载地址: IKAnalyzer3.2.8.jar包及使用手册

分享Lucene中文分词组件IK Analyzer V3.2.8相关推荐

  1. 转 Lucene中文分词组件 JE-Analysis 1.5.1 天狼

    2006-05-29 17:40     主题:  [发布]Lucene中文分词组件 JE-Analysis 1.5.1   天狼 注册于: 2006-05-28 00:23 帖子总数: 103 离线 ...

  2. elasticsearch6.2.2安装中文分词插件IK analyzer

    elasticsearch6.2.2安装中文分词插件IK analyzer 哎,装了一下午的ik终于装上了,发现自己真的是非常笨了,并且es重启过程中遇到了很多的问题,下面我将手把手教大家如何安装ik ...

  3. Solr - 中文分词器IK Analyzer的简介及配置

    简介 IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包.它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件,IK 实现了简单的分词 ...

  4. 中文分词下载IK Analyzer 2012FF_hf1

    1.解压后 把IKAnalyzer2012FF_u1.jar  复制到tomcat\solr\WEB-INF\lib 下 2.把 stopword.dic .IKAnalyzer.cfg.xml 复制 ...

  5. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. Java分布式中文分词组件 - word分词(转自 https //github com/ysc/word)

    首先给大家分享一个巨牛巨牛的人工智能教程,是我无意中发现的.教程不仅零基础,通俗易懂,而且非常风趣幽默,还时不时有内涵段子,像看小说一样,哈哈-我正在学习中,觉得太牛了,所以分享给大家!点这里可以跳转 ...

  7. java lucene 中文分词_Lucene的中文分词器IKAnalyzer

    分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...

  8. Lucene 中文分词器概述 与 Ik-Analyzer 使用教程

    目录 中文分词器简述 Ik-Analyzer 概述与特性 Ik-Analyzer 下载与使用 创建索引 查询索引 Ik-Analyzer 官方示例源码 中文分词器简述 1.Apache Lucene  ...

  9. ELK系列(十)、ES中文分词器IK插件安装和配置远程词库热加载

    简介 IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包: 最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件:从 3.0 版本开始 ...

最新文章

  1. MYSQL添加新用户 MYSQL为用户创建数据库 MYSQL为新用户分配权限
  2. CNN 图像增强--DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
  3. 深圳市中心迎来首批RoboTaxi,元戎启行正式开放运营
  4. axure9 html文件使用ie打开图片无法显示_win7系统html文件如何打开 win7系统html文件打开方法【介绍】...
  5. mysql自动监控_MySQL复制 自动监控脚本
  6. ORA-12899: value too large for column (actual: 27, maximum: 20)错误解决
  7. 一个技术人员必须考虑的问题:转型
  8. UI设计师必收藏的上百种配色方案专辑!
  9. 前端JavaScript之DOM事件操作~都是干货
  10. (转载)lib 和 dll 的区别、生成以及使用详解
  11. 软件测试计划的主要内容
  12. 网吧十大漏洞曝光(转)
  13. 大数据杀熟?我从银行数仓项目学到了什么
  14. 产品商业需求文档_【器】我的产品需求文档心法
  15. minigui3.2 安装教程
  16. 商标注册计算机软件app属于第几类,软件商标属于第几类?
  17. 【数分】7. AB实验篇
  18. 转载精品:工作8年的普通专科生程序员的一些感悟
  19. 迎着冷眼和嘲笑?前进
  20. Anchor Free系列模型11

热门文章

  1. 路由嵌套跳转失败,页面是空白的
  2. 解决UnicodeDecodeError:'ascii' codec can't decode byte 0xe2 in position 123: ordinal not in range(128)
  3. 好佳居软装十大品牌 软装知识与你息息相关
  4. ubuntu18.04安装pytorch1.9.0和torchvision0.10.0
  5. MAC和PHY的区别
  6. vsftpd虚拟用户权限设置
  7. CL112V2手持式单相电能表现场校验仪操作程序
  8. 韦东山衔接班——1.2_uboot分析之Makefile结构分析
  9. 复杂网络 介数中心性 java_复杂网络算法中K—shell与介数中心性算法的实现
  10. web端下完订单后的短信推送