参考

1.https://www.cnblogs.com/jmswag/p/9089366.html  Lucene IK分词器集成,词典扩展(详细,推荐看此博客)

2.https://blog.csdn.net/wangqing84411433/article/details/86239535 配置IKAnalyzer扩展词库(提到了一些要注意的问题)

3.https://blog.csdn.net/qq_40131121/article/details/80591177 maven项目中使用IK分词,加载扩展词典配置文件的路径问题

(一般项目,该配置文件放到src目录下即可,在maven项目中需要放在src/main/java目录下。意思是配置文件可放在上述两个路径下建立的子目录中)

针对参考的博客,主要想补充说明目录结构和配置文件内容

  • 我按照参考1复现了一下项目,项目目录如下:

//注意配置文件的位置;词典(.dic)的位置可以随意,修改在配置文件中的路径配置即可

  • 配置文件IKAnalyzer.cfg.xml的内容为
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!-- 用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext.dic</entry><!-- 用户可以在这里配置自己的扩展停止字典 --><entry key="ext_stopwords">my_ext_stopword.dic</entry>
</properties>

我看到的博客都是类似的配置,“ext_dict”和“ext_stopwords”是固定的,该配置文件的名称也是固定的,因为在ikanalyzer jar包中对相关信息进行了定义:

 /** 分词器配置文件路径*/private static final String FILE_NAME = "IKAnalyzer.cfg.xml";// 配置属性——扩展字典private static final String EXT_DICT = "ext_dict";// 配置属性——扩展停止词典private static final String EXT_STOP = "ext_stopwords";

笔记2 IKAnalyzer扩展词库相关推荐

  1. 配置IKAnalyzer扩展词库

    在Elasticsearch的安装目录下找到文件IKAnalyzer.cfg.xml,内容如下: <?xml version="1.0" encoding="UTF ...

  2. Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库

    本文转载自: https://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 作者:dennisit 转载请注明该声明. 方案一: 基 ...

  3. JAVA 中配置IKAnalyzer扩展词库和停止词库

    1.后缀名.dic的词典文件,必须如使用文档里所说的 无BOM的UTF-8编码保存的文件.如果不确定什么是 无BOM的UTF-8编码,最简单的方式就是 用Notepad++编辑器打开,Encoding ...

  4. IKAnalyzer实现扩展词库+动态更新词库的方法

    为什么80%的码农都做不了架构师?>>>    当前IKAnalyzer从发布最后一个版本后就一直没有再更新,使用过程中,经常遇到需要扩展词库以及动态更新字典表的问题,此处给出一种解 ...

  5. IKAnalyzer 添加扩展词库和自定义词

    原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.osch ...

  6. IKAnalyzer配置扩展词库经验总结

    IKAnalyzer对于中文分词效果较好,但是在实际应用过程中经常会遇到分词效果不理想的情况,比如中文中夹杂的英文缩写,英文与数字混合(如软件版本号)等,这时就需要配置扩展词库.配置的主要方法为编辑I ...

  7. solr配置同义词,停止词,和扩展词库(IK分词器为例)

    定义 同义词:搜索结果里出现的同义词.如我们输入"还行",得到的结果包括同义词"还可以". 停止词:在搜索时不用出现在结果里的词.比如is .a .are .& ...

  8. 2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索

    文章目录 1.为什么要自定义扩展ES词库呢? 2.如何自定义扩展词库呢? 3.Docker安装Nginx 4.在nginx中保存一个简易词库 5.修改IK分词器的配置文件,让其指向nginx保存的词库 ...

  9. Lucene分词器,使用中文分词器,扩展词库,停用词

    2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...

最新文章

  1. 【学习笔记】3、Jupyter Notebook无法打开问题处理
  2. CSDN转载别人文章的详细步骤
  3. linux操作系统版本 3100,Linux操作系统默认打开文件数
  4. java 路径的故事
  5. 怎样用注解的方式配置Spring?
  6. [RabbitMQ]MQ 的分类
  7. python找答案__学小易找答案
  8. 【转】.NET程序内存分析工具CLRProfiler的使用
  9. 历史上的昨天和今天(zz)
  10. Python的学习必备基础知识总结
  11. 【智能优化算法】基于基于遗传算法实现认知无线电优化求解附matlab代码
  12. 写专业硕士论文,非功能性需求分析可套模板。
  13. Java connot reduce_hadoop错误:org.apache.hadoop.mapreduce.lib.input.FileSplit cannot be cast t...
  14. word安全模式解除
  15. CSDN版主考核方案
  16. markdown java 代码高亮_Markdown 入门教程
  17. “金三银四” 是找工作的最佳时期吗?
  18. 基于Springboot的学生信息管理系统
  19. Python中zip函数的用法
  20. 串口通信原理详解232、422、485

热门文章

  1. 苹果手机还原网络设置会怎样_苹果手机信号不好,那是因为你没这样设置,这样设置信号顶呱呱...
  2. java背单词软件_一个JAVA写的背单词程序
  3. 【排队助手】投屏模式-使用指南
  4. Android视频添加时间水印
  5. android ndk之opencv+MediaCodec硬编解码来处理视频动态时间水印
  6. Vs2008编译vtk5.10详细教程
  7. BZOJ 5293 求和(LCA)
  8. oracle 全文检索实践
  9. 【原创】samba移植到android流程
  10. 般若堂--Spring Boot系列之参数校验