由于网络词语层出不穷,ik分词器有时并不能完全识别网络词汇,如下:

按照网络词语,王者荣耀应该被识别为一个词语,而不是被拆分成2个。

所以这时需要自定义词库来解决以上问题。

自定义词库

自定义扩展词库的主要使用思路就是,先自定义扩展词库,然后修改ik分词器的配置文件,指定指向该扩展词库,这样ik分词器就可以向远程发送请求,获取到自定义扩展词库里的一些新单词,然后以这些新单词为词源做解析。

自定义词库有两种方式:

  1. 实现一个服务,专门用来处理ik分词器的请求,让ik分词器给该项目发送请求。
  2. 使用nginx服务器,在nginx上维护扩展词库,然后ik分词器远程向nginx发送请求,获取新的单词。

以下使用nginx来配合实现自定义扩展词库。

使用nginx来配合实现自定义扩展词库

由于使用了docker,所以接下来先通过docker安装上nginx,如下:

docker run -p 80:80 --name nginx -d nginx:1.10


docker ps看下nginx容器是否启动了,如下:

nginx容器已经启动成功了,接下来要把nginx容器的配置文件copy出来,因为是基于docker的,为了保证一些配置项的持久化,需要做挂载,但是目前liunx服务器中是不存在nginx的配置文件的,所以才需要这步cpoy操作,如下:

先创建一个nginx文件夹,用来映射nginx容器里相应的配置文件,如下:

进入nginx文件夹中,通过命令docker container cp nginx:/etc/nginx .把nginx容器里的配置文件copy到该文件夹下,如下:

使用mv nginx conf修改下文件名,把nginx文件夹名称改为conf,顾名思义,以后这个文件夹里放的就是nginx的配置文件了,之后会挂载这个文件夹,和nginx容器里的配置文件做映射,conf文件夹中的文件如下:

把之前启动的nginx容器停止,删除,接下来要启动一个有挂载目录的可以支持持久化的nginx容器,如下:

docker stop ${容器id} //停止容器
docker rm ${容器id} //删除容器

重新创建一个nginx容器,加上要挂载的目录,如下:

docker run -p 80:80 --name nginx \
-v /jiejie/nginx/html:/usr/share/nginx/html \
-v /jiejie/nginx/logs:/var/log/nginx \
-v /jiejie/nginx/conf:/etc/nginx \
-d nginx:1.10

启动成功后,可以发现原来的nginx文件夹下除了conf文件夹外,又多了html和logs文件夹,如下:

在html文件夹下一个es文件夹,然后再该文件夹下再新建一个fenci.txt文件作为词库,这个就是ik分词器远程获取新单词的源头文件,编辑该文件,在该文件只加上王者荣耀这个新词语,作为一个整体,如下:

接着为ik分词器配置远程词源的地址,也就是fenci.txt的地址,如下:

进入/jiejie/elasticsearch/plugins/ik/config目录中,会发现有个IKAnalyzer.cfg.xml文件,如下:

进入该文件:

去掉注释,配置上远程扩展字典:

重启ES容器,再次查看网络用语王者荣耀的分词情况,如下:

ElasticSearch自定义词库成功。

ElasticSearch自定义词库相关推荐

  1. ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库

    文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...

  2. Elasticsearch学习1 入门进阶 Linux系统下操作安装Elasticsearch Kibana 初步检索 SearchAPI Query DSL ki分词库 自定义词库

    文章目录 一.全文检索-Elasticsearch 1.Elasticsearch简介 2.全文搜索引擎 二.docker安装 1.elasticsearch启动 2.kibana启动 三.[入门]初 ...

  3. Elasticsearch 之(24)IK分词器配置文件讲解以及自定义词库

    1.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条, ...

  4. Elasticsearch配置ik中文分词器自定义词库

    1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...

  5. 30_ElasticSearch IK分词器配置文件 以及自定义词库

    ElasticSearch IK分词器配置文件 以及自定义词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) ...

  6. IK分词器使用自定义词库

    2019独角兽企业重金招聘Python工程师标准>>> 1.拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,拷贝IKAnalyzer2012FF_u1.j ...

  7. 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

    文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...

  8. Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写、选择单词,根据词意选择单词

    Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写.选择单词,根据词意选择单词,可乱序抽查,可对错题进行反复抽查 完整程序源代码下载:Python背单词记单词小程序 词库生成 ...

  9. 卡饭输入法制作和导入自定义词库

    卡饭输入法导入自定义词库 卡饭输入法下载 导入自定义词库 深蓝词库转换器 搜狗词库 制作词库 导入词库 转换好的搜狗词库[自取] 卡饭输入法下载 点击下载卡饭输入法 , 如果已经安装请跳过 导入自定义 ...

最新文章

  1. 简单的CSS颜色查看工具
  2. CMD中使用attrib命令设置文件只读、隐藏属性详解
  3. Oracle中NUMBER类型如果不指定长度和小数点精度默认是多长
  4. linux系统shell知识点,linux shell 知识点
  5. SVN 更新发生冲突各选项含义
  6. vi下的查找替换命令
  7. net core上传文件异常:Multipart body length limit 16384 exceeded.
  8. 阿里巴巴Java开发手册(华山版)
  9. 佳能MP258mp259清零软件
  10. 数据库原理——图书馆管理系统
  11. Python的IDLE无法打开
  12. IE图标删不掉,桌面IE删了又有了
  13. 燃烧的远征恢复英文语音的方法
  14. 应用之星VS AppCan——对比两大移动开发平台
  15. java 限制输入两位数_Java 控制数字输入、控制输入长度的方法 | 学步园
  16. 怎样两个网络互远程连接计算机,两个电脑怎么远程控制两个方法教你
  17. 轻松学会linux下查看内存频率,内核函数,cpu频率
  18. 基于GIS+AI、GIS+AR、GIS+三维的智慧城管综合应用平台
  19. Ubuntu下安装Python
  20. python3将base64格式的图片保存为MD5值的图片

热门文章

  1. Python识别pdf表格
  2. Android手机街霸4出招表,安卓手机版《街霸4》出招表
  3. 【奶妈级教程】Ubuntu18.04服务器远程连接的anaconda安装与环境配置
  4. 齐岳离子液体[C1MIm]SbF6/cas:885624-41-9/1,3-二甲基咪唑六氟锑酸盐/分子式:C5H9F6N2Sb
  5. 微雪7寸LCD触摸屏连接树莓派并安装驱动
  6. 计算机辅助教育课件有哪些类型,常见的课件结构类型有哪些? - 问答库
  7. 问题描述给定n个矩阵:A1,A2,…,An,其中Ai与Ai+1是可乘的,i=1,2…,n-1。确定计算矩阵连乘积的计算次序,使得依此次序计算矩阵连乘积需要的数乘次数最少。
  8. 起亚进军中国电动车市场,EV5将于11月在中国首发
  9. 怎样使用计算机定时关机,怎么用命令设置电脑定时关机重启
  10. Advances and Open Problems in Federated Learning 总结翻译