架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库
文章目录
- ik中文分词器
- 1. 安装ik中文分词器(7.4.2版本)
- 2. 使用ik中文分词器
- 2.1 分词器: ik_max_word
- 2.1 分词器: ik_smart
- 自定义中文词库
- 自定义词库, 导入字典
ik中文分词器
1. 安装ik中文分词器(7.4.2版本)
- 上传zip文件到我们的服务器
2. 解压并放在elasticsearch的plugins的ik文件夹下
yum install -y unzip zip
安装zip工具unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/elasticsearch-7.4.2/plugins/ik
- 进入ES的ik目录下
cd /usr/local/elasticsearch-7.4.2/plugins/ik
- 重新启动ES
jps
kill ***
su esuser
cd /usr/local/elasticsearch-7.4.2/bin
./elasticsearch -d
2. 使用ik中文分词器
2.1 分词器: ik_max_word
此分词器会将文本进行最细粒度的拆分, 比如将"中华人民共和国国歌"
拆分为"中华人民共和国",“中华人民”,“中华”,“华人”,“人民共和国”,“人民”,“人”,“民”,“共和国”,“共和”,“和”,“国国”,“国歌”
2.1 分词器: ik_smart
此分词器会将文本进行最粗粒度的拆分.
自定义中文词库
在我们使用ik分词器的时候, 随着时代的发展, 难免出现时代流行词语而ik分词器不识别的问题, 如下, 骚年, 慕课网并不能作为一个词汇的问题:
自定义词库, 导入字典
- 关闭ES:
jps
,kill xxx
- 进入ik的config中配置
cd /usr/local/elasticsearch-7.4.2/plugins/ik/config/
- 切换到root, 编辑配置文件IKAnalyzer
su root
vim IKAnalyzer.cfg.xml
- 创建custom.dic文件
vim custom.dic
- 切换会esuser用户, 启动ES
su esuser
cd /usr/local/elasticsearch-7.4.2/bin/
./elasticsearch -d
架构师成长记_第八周_11_ES- ik中文分词器与自定义中文词库相关推荐
- 架构师成长记_第八周_04_ES-head 与 postman基于索引的基本操作
文章目录 ES-head 与 postman基于索引的基本操作 1. ES-head 2. postMan 3. 基本操作 1. 创建索引 方式一: 方式二: 2. 查询集群健康 3. 删除一个索引 ...
- 架构师成长记_第八周_10_ES-分词与五种内置分词器
文章目录 ES-分词 PS: 1. 全局分析方式(_analyze) 2. 指定字段分析方式(索引名/_analyze) ES-五种内置分词器介绍 1 标准分词器 standard 2 非字母分词器 ...
- 架构师成长记_第六周_11_Redis 主从复制(读写分离) 搭建
文章目录 Redis 主从复制(读写分离) 搭建 1. 三台虚拟机都进入Redis服务器 PS: `info replication` 查看主从复制信息 2. 进入我们的138从节点修改配置 PS: ...
- 架构师成长记_第四周_09_Nginx的模块解析及conf配置解析
Nginx模块解析 nginx.conf 配置解释 #user nobody; // 默认由 nobody 调用 worker 进程, 可以修改为 root worker_processes 2; / ...
- 架构师成长之旅_第一篇:插件与框架是什么?
架构师成长之旅_第一篇:c++插件开发 目录 踏入工作前的准备 框架是什么? 多人开发 一.踏入工作前的准备 在即将踏入工作时,最主要的是你的代码量和你编码能力,最重要的是你的代码质量,在编码界代码质 ...
- WEB架构师成长之路-摘录
一 .学习面向对象的基础知识,那你的编程之路注定是在做原始初级的重复! 很多程序员都知道类.方法.抽象类.接口等概念,但是为什么要面向对象,好处在哪里,要解决什么问题 降低软件开发的复杂度 提高软件开 ...
- Java架构师成长之路
目录导航 前言 一.源码分析专题 1.1 设计模式详解 1.2 Mybatis源码分析 1.3 Spring5源码分析 二.分布式架构专题 2.1 漫谈分布式架构 2.2 分布式架构的基础 2.3 分 ...
- 如何成为一名架构师,架构师成长之路
技术人人都是xx 父文章 人人都是面试_个人渣记录仅为自己搜索用的博客-CSDN博客 我的成长之路_个人渣记录仅为自己搜索用的博客-CSDN博客 相关文章 架构师好书推荐_个人渣记录仅为自己搜索用的博 ...
- Java架构师成长直通车(一):学习指南
大型网站的特点和设计宗旨 罗马不是一天建成的,对应的,大型网站也不是一来就有的.淘宝诞生在马云的家中,谷歌一开始是在斯坦福大学的宿舍中设计出来的,后面搬到了车库中.任何大型网站不可能一来就设计成能扛得 ...
最新文章
- 必读!53个Python经典面试题详解
- 记一次内存溢出的分析经历
- 大脑的学习方式如何,机器学习与生物学习的联系将提供「答案」
- 智能车竞赛技术报告 | 节能信标组组 - 大连民族大学 - 粉红靓车队
- Redis中的set 集合
- IE8 select 动态下拉遇到的问题
- Vijos P1409 纪念品分组【贪心】
- Syncovery for mac(文件备份和同步工具)
- 数据源、元数据、数据元
- echarts官网demo
- android跳转界面的方法有多少,Android跳转WIFI界面的四种方式
- 电脑 u盘 正在计算机,优盘插在电脑上一直显示正在扫描优盘怎么回事
- 隐藏优惠券app哪个靠谱?京东隐藏优惠券是不是真的?
- BZOJ 1406: [AHOI2007]密码箱 数论
- Raid5数据恢复算法原理- raid5数据恢复案例
- selenium安装及使用
- 【华为机考题库学习】--算法篇(更新中……)
- Unity XR开发之入门介绍(一)
- Git 之三 常用命令:仓库创建、提交、分支等
- netcat 使用方法
热门文章
- 不再只是未来,物联网已成当下最重要技术
- 实现GithubMarkdown目录/页内跳转
- android 不能安装app,android中两个不同名称的app不能同时安装
- 浅谈电商运营中的定价|Ocean商论
- PJSIP学习笔记15 -- PJSUA应用程序中的会议桥
- 配置VMware Workstation 主机模式下让虚拟机上网设置详细
- Android shape画单边线
- 拼图游戏java代码_java设计:拼图游戏 完整源码
- 量子计算机grover算法,Grover算法在单道量子计算模型下的实现
- C++ vector 排序 顺序和逆序