原文链接http://blog.csdn.net/whzhaochao/article/details/50130605

IKanalyzer分词器

IK分词器源码位置 http://git.oschina.net/wltea/IK-Analyzer-2012FF

IKanalyzer源码基本配置

如图所示是IKanlyzer加载默认配置的路径

项目中配置扩展词库

如图所示,当我们导入Ikanlyzer jar包后,使用扩展词库只需要在项目的src根目录下建立IKAnalyzer.cfg.xml文件,文件中配置扩展词库和停用词库的路径,具体配置如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">com/zhaochao/ikconf/ext.dic;com/zhaochao/ikconf/mine.dic;</entry><!--用户可以在这里配置自己的扩展停止词字典 --><entry key="ext_stopwords">/com/zhaochao/ikconf/stopword.dic</entry>
</properties>

测试结果

当我们不添加任何自定义词时分词结果如下图所示:

java|是|一个|好|语言|从到|2015年|12月|1日|它|已经有|20|年的历史|了|

当我们添加如下自定义词时

分词结果为:

java|是|一个好语言|从到|2015年12月1日|它|已经有|20年的历史了|

测试代码:

    public static void main(String[] args) throws IOException {String s = "JAVA是一个好语言,从到2015年12月1日它已经有20年的历史了";queryWords(s);}public static void queryWords(String query) throws IOException {Configuration cfg = DefaultConfig.getInstance();System.out.println(cfg.getMainDictionary()); // 系统默认词库System.out.println(cfg.getQuantifierDicionary());List<String> list = new ArrayList<String>();StringReader input = new StringReader(query.trim());IKSegmenter ikSeg = new IKSegmenter(input, true);   // true 用智能分词 ,false细粒度for (Lexeme lexeme = ikSeg.next(); lexeme != null; lexeme = ikSeg.next()) {System.out.print(lexeme.getLexemeText()+"|");}}

IKAnalyzer 添加扩展词库和自定义词相关推荐

  1. android输入法可以删掉吗,搜狗输入法功能科普二:如何添加或删除词库里的词(安卓篇)...

    原标题:搜狗输入法功能科普二:如何添加或删除词库里的词(安卓篇) 小伙伴们大家好,我们又见面了今天给大家分享下如何来使用输入法的各种词库.目前搜狗输入法是有很多词库的呢,比如系统词库.个人词库.细胞词 ...

  2. 折腾词库,一个词库互转程序

    我在之前写过一个小程序,用于实现QQ拼音.搜狗拼音.谷歌拼音和百度手机拼音输入法词库的互转,文章地址是:http://www.cnblogs.com/studyzy/archive/2009/12/3 ...

  3. 关键词词库制作-搜索词分析工具

    关键词词库制作 关键词词库是一种帮助SEO和SEM优化的工具,它可以帮助您确定关键词的流行程度.竞争程度.搜索意图和其他相关信息等等.以下是一些关键词词库制作的方法: 收集关键词:首先需要收集相关的关 ...

  4. (五)使用IK分词器、扩展ik词库和停词库

    使用IK分词器 集成ik分词器 https://mp.csdn.net/postedit/93602713 实体类PosEntity  /** 省略了getter.setter*/ class Pos ...

  5. python词云库wordcloud自定义词云制作步骤详解

    读书使人充实,讨论使人机智,笔记使人准确-.凡有所学,皆成性格. ---- (英国)培根 文章目录 wordcloud库常规方法 第三方库 读取文件 自定义绘制指定形状的词云 wordcloud库常规 ...

  6. 敏感词库 php,敏感词过滤的php类库

    简介: class Logic_BlackWord { const APP_FORUM = 1; const APP_BLOG  = 2; const APP_VOTE  = 3; public fu ...

  7. coreseek 词库 导入搜狗词库

    2019独角兽企业重金招聘Python工程师标准>>> 先到搜狗官方找你需要的词库.下载 然后用 深蓝词库转换.exe 此软件转换成txt文件才能开导咯ini_set('max_ex ...

  8. PHP高性能输出UNICODE正则汉字列表 汉字转拼音多音字解决方案 搜索引擎分词细胞词库更新 搜狗词库提取TXT...

    为什么80%的码农都做不了架构师?>>>    目前现状 汉字转拼音 难度大就大在 多音字!行业上较准确的是基于词语.成语的识别.搜狗有1万多词库 每个词库又很大: 比如: 了 我们 ...

  9. win10,win11微软输入法如何导入搜狗词库的方法-词库转换

    很多人使用PC输入法越来越喜欢简洁好用的,搜狗.百度这种输入法的臃肿和广告弹窗越来越让我们感到烦闷,于是很多人开始选择使用Windows系统自带的微软拼音输入法. 微软拼音输入法其实在日常使用中已经足 ...

最新文章

  1. 鸿蒙系统什么时候超过苹果,为何任正非说鸿蒙系统想超过苹果系统需要的时间,不会超过300年...
  2. 飞鸽改变您的互联网生活
  3. 可能是全网最好的MySQL重要知识点/面试题总结
  4. exchange server 2010 OWA 附件功能只支持IE浏览器
  5. GMV远超预期背后,快手电商做对了什么?
  6. 简单银行管理系统C#版本
  7. java使用aspose-words组件word转换图片
  8. Java 编程实例 - 查找数组中的重复元素
  9. matlab二维正弦曲线
  10. java任务队列_java 任务队列
  11. 用C语言实现移位密码加密与解密
  12. 前端处理 token 时效性问题
  13. Tortoise commit提交模板配置
  14. 多重网格法(multigrid)求解1d泊松方程--python
  15. Win7安装.net4.0失败如何解决_离水的鱼_新浪博客
  16. Java 树形结构目录树的几种生成方式
  17. 启动光盘制作完全手册下载
  18. 台湾SSS鑫创SSS1700替代Cmedia CM6533 24bit 96KHZ USB音频编解码芯片|SSS1700替代CM6533设计方案
  19. Python 提示框详解(tkinter.messagebox)
  20. 【第66期】火山引擎Redis云原生实践

热门文章

  1. 【图像处理】相机成像原理
  2. Boost库-功能介绍-Geometry-图形开发库-计算几何-常用功能封装-GraphicalDebugging(二)
  3. Assemble(王爽)——nasm 和 masm的一些简单区分
  4. win7我的计算机无法搜索,解决Win7系统搜索功能不能用的问题
  5. Java 根据多边形坐标点 计算多边形面积
  6. 阿里巴巴微服务注册中心ConfigServer
  7. 安科瑞数据中心行业电能质量监测与治理方案-李亚俊
  8. SortArrayDistanceLessK
  9. 数学里上凹,下凹,上凸,下凸
  10. 使用puppeteer启动并最大化显示Chrome浏览器