ElasticSearch自定义词库
由于网络词语层出不穷,ik分词器有时并不能完全识别网络词汇,如下:
按照网络词语,王者荣耀应该被识别为一个词语,而不是被拆分成2个。
所以这时需要自定义词库来解决以上问题。
自定义词库
自定义扩展词库的主要使用思路就是,先自定义扩展词库,然后修改ik分词器的配置文件,指定指向该扩展词库,这样ik分词器就可以向远程发送请求,获取到自定义扩展词库里的一些新单词,然后以这些新单词为词源做解析。
自定义词库有两种方式:
- 实现一个服务,专门用来处理ik分词器的请求,让ik分词器给该项目发送请求。
- 使用nginx服务器,在nginx上维护扩展词库,然后ik分词器远程向nginx发送请求,获取新的单词。
以下使用nginx来配合实现自定义扩展词库。
使用nginx来配合实现自定义扩展词库
由于使用了docker,所以接下来先通过docker安装上nginx,如下:
docker run -p 80:80 --name nginx -d nginx:1.10
docker ps
看下nginx容器是否启动了,如下:
nginx容器已经启动成功了,接下来要把nginx容器的配置文件copy出来,因为是基于docker的,为了保证一些配置项的持久化,需要做挂载,但是目前liunx服务器中是不存在nginx的配置文件的,所以才需要这步cpoy操作,如下:
先创建一个nginx文件夹,用来映射nginx容器里相应的配置文件,如下:
进入nginx文件夹中,通过命令docker container cp nginx:/etc/nginx .
把nginx容器里的配置文件copy到该文件夹下,如下:
使用mv nginx conf
修改下文件名,把nginx文件夹名称改为conf,顾名思义,以后这个文件夹里放的就是nginx的配置文件了,之后会挂载这个文件夹,和nginx容器里的配置文件做映射,conf文件夹中的文件如下:
把之前启动的nginx容器停止,删除,接下来要启动一个有挂载目录的可以支持持久化的nginx容器,如下:
docker stop ${容器id} //停止容器
docker rm ${容器id} //删除容器
重新创建一个nginx容器,加上要挂载的目录,如下:
docker run -p 80:80 --name nginx \
-v /jiejie/nginx/html:/usr/share/nginx/html \
-v /jiejie/nginx/logs:/var/log/nginx \
-v /jiejie/nginx/conf:/etc/nginx \
-d nginx:1.10
启动成功后,可以发现原来的nginx文件夹下除了conf文件夹外,又多了html和logs文件夹,如下:
在html文件夹下一个es文件夹,然后再该文件夹下再新建一个fenci.txt文件作为词库,这个就是ik分词器远程获取新单词的源头文件,编辑该文件,在该文件只加上王者荣耀这个新词语,作为一个整体,如下:
接着为ik分词器配置远程词源的地址,也就是fenci.txt的地址,如下:
进入/jiejie/elasticsearch/plugins/ik/config
目录中,会发现有个IKAnalyzer.cfg.xml文件,如下:
进入该文件:
去掉注释,配置上远程扩展字典:
重启ES容器,再次查看网络用语王者荣耀的分词情况,如下:
ElasticSearch自定义词库成功。
ElasticSearch自定义词库相关推荐
- ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库
文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...
- Elasticsearch学习1 入门进阶 Linux系统下操作安装Elasticsearch Kibana 初步检索 SearchAPI Query DSL ki分词库 自定义词库
文章目录 一.全文检索-Elasticsearch 1.Elasticsearch简介 2.全文搜索引擎 二.docker安装 1.elasticsearch启动 2.kibana启动 三.[入门]初 ...
- Elasticsearch 之(24)IK分词器配置文件讲解以及自定义词库
1.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条, ...
- Elasticsearch配置ik中文分词器自定义词库
1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...
- 30_ElasticSearch IK分词器配置文件 以及自定义词库
ElasticSearch IK分词器配置文件 以及自定义词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) ...
- IK分词器使用自定义词库
2019独角兽企业重金招聘Python工程师标准>>> 1.拷贝IKAnalyzer.cfg.xml到WEB-INF/classes下,拷贝IKAnalyzer2012FF_u1.j ...
- 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
文章目录 概述 ik配置文件 IK自定义词库 自定义词库 Step1 : 新建自定义分词库 Step2 : 添加到ik的配置文件中 Step3 :重启es ,查看分词 自定义停用词库 Step1 : ...
- Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写、选择单词,根据词意选择单词
Python背单词记单词小程序,可自定义词库,支持多种记忆模式,根据词义拼写.选择单词,根据词意选择单词,可乱序抽查,可对错题进行反复抽查 完整程序源代码下载:Python背单词记单词小程序 词库生成 ...
- 卡饭输入法制作和导入自定义词库
卡饭输入法导入自定义词库 卡饭输入法下载 导入自定义词库 深蓝词库转换器 搜狗词库 制作词库 导入词库 转换好的搜狗词库[自取] 卡饭输入法下载 点击下载卡饭输入法 , 如果已经安装请跳过 导入自定义 ...
最新文章
- 简单的CSS颜色查看工具
- CMD中使用attrib命令设置文件只读、隐藏属性详解
- Oracle中NUMBER类型如果不指定长度和小数点精度默认是多长
- linux系统shell知识点,linux shell 知识点
- SVN 更新发生冲突各选项含义
- vi下的查找替换命令
- net core上传文件异常:Multipart body length limit 16384 exceeded.
- 阿里巴巴Java开发手册(华山版)
- 佳能MP258mp259清零软件
- 数据库原理——图书馆管理系统
- Python的IDLE无法打开
- IE图标删不掉,桌面IE删了又有了
- 燃烧的远征恢复英文语音的方法
- 应用之星VS AppCan——对比两大移动开发平台
- java 限制输入两位数_Java 控制数字输入、控制输入长度的方法 | 学步园
- 怎样两个网络互远程连接计算机,两个电脑怎么远程控制两个方法教你
- 轻松学会linux下查看内存频率,内核函数,cpu频率
- 基于GIS+AI、GIS+AR、GIS+三维的智慧城管综合应用平台
- Ubuntu下安装Python
- python3将base64格式的图片保存为MD5值的图片
热门文章
- Python识别pdf表格
- Android手机街霸4出招表,安卓手机版《街霸4》出招表
- 【奶妈级教程】Ubuntu18.04服务器远程连接的anaconda安装与环境配置
- 齐岳离子液体[C1MIm]SbF6/cas:885624-41-9/1,3-二甲基咪唑六氟锑酸盐/分子式:C5H9F6N2Sb
- 微雪7寸LCD触摸屏连接树莓派并安装驱动
- 计算机辅助教育课件有哪些类型,常见的课件结构类型有哪些? - 问答库
- 问题描述给定n个矩阵:A1,A2,…,An,其中Ai与Ai+1是可乘的,i=1,2…,n-1。确定计算矩阵连乘积的计算次序,使得依此次序计算矩阵连乘积需要的数乘次数最少。
- 起亚进军中国电动车市场,EV5将于11月在中国首发
- 怎样使用计算机定时关机,怎么用命令设置电脑定时关机重启
- Advances and Open Problems in Federated Learning 总结翻译