Elasticsearch分词器介绍
ES自带分词器有哪些?有哪些特点?
Standard Analyzer:
标准分词器,也是ES的默认分词器,按词切分,小写处理,默认停用词默认是关闭的。
Simple Analyzer:
按照非字母切分,非字母都会被去除,即只处理字母,小写处理。
Whitespace Analyzer:
按照空格切分。
Stop Analyzer:
相对于Simple Analyzer多了stop filter,会把is,a,the等无语义的词去除,即含有停用词。
Keyword Analyzer:
不分词,直接将输入的文档当做一个词输出。
Pattern Analyzer:
通过在空格进行分词的情况下进行正则表达式进行分词,默认是\W+,非字符的符号进行分割;含停用词和小写处理。
Language Analyzer:
针对不同的语言选择分词,例如english语言分词,会去除词性,如running分词结果为run,foxes分词结果为fox等;含有停用词处理。
中文词器:
ICU Analyzer:
需要安装插件ElasticSearch-plugin install analysis-icu,由于提供了Unicode编码支持,能够更好地支持中文;Character Filter:Normalization,Tokenizer:ICU Tokenizer,Token Filters:Normalization,Folding,Collation,Transform。
IK Analyzer:
支持自定义词库,支持热更新分词词典。https://github.com/medcl/elasticsearch-analysis-ik
Elasticsearch分词器介绍相关推荐
- Elasticsearch之Analyzer分词器介绍
Elasticsearch之Analyzer分词器介绍 Analysis Analyzer的组成 ES中内置的分词器 Analyzer的使用 几种分词器介绍 Standard Analyzer Sim ...
- ElasticSearch——手写一个ElasticSearch分词器(附源码)
1. 分词器插件 ElasticSearch提供了对文本内容进行分词的插件系统,对于不同的语言的文字分词器,规则一般是不一样的,而ElasticSearch提供的插件机制可以很好的集成各语种的分词器. ...
- 【ES实战】ES分词器介绍
文章目录 ES分词器介绍 什么是分词器 分词器的组成 Character filters Tokenizers Token filters 分词的过程 写入时分词 搜索时分词 测试分词效果 分词器的分 ...
- 3. ElasticSearch分词器和聚合,数据的丰富和去重
ElasticSearch分词器和聚合,数据的丰富和去重 1. analyzer 1.1. 什么是analysis? 1.2. 如何定义一个定制的分析器 1.3. 中文分词器 2. Aggregati ...
- 2、Elasticsearch分词器简介与使用(一)
一.分词器的概念 1.Analysis Phase 在文档(Document)被添加到反向索引(inverted index)之前,Elasticsearch 对文档正文执行的过程称为分析阶段(Ana ...
- 五 、Elasticsearch分词器
5.1 分词器处理分词的组件 (1)Character filters,原始文本的预处理,通常完成HTML元素删除,替换指定字符等功能: 例如:<span>hello<span> ...
- elasticsearch分词器词库热更新三种方案
文章目录 一.本地文件读取方式 二.远程扩展热更新 IK 分词 三.重写ik源码连接mysql 一.本地文件读取方式 首先进入elasticsearch目录的plugins目录下,查看目录结构 2.进 ...
- ElastIcSearch分词器
ElastIcSearch分词器 Analysis 和 Analyzer Analysis: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词(Analyzer).Analys ...
- “Elasticsearch + Kibana + ik分词器“介绍与使用
Elasticsearch 介绍 Elasticsearch 是一个分布式.RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例. 作为 Elastic Stack 的核心,它集中存 ...
最新文章
- LeetCode 225. Implement Stack using Queues--用队列实现栈--C++解法
- python 排序函数 sort sorted 简介
- Material Design Lite,简洁惊艳的前端工具箱。
- 10年前腾讯微信后台第一天提交的代码曝光!
- 如何自动保存邮件草稿
- java多线池_java多线程之线程池
- 烟台大学计算机学院宋宜斌教授,宋宜斌
- hadoop错误总结
- docker build mysql,Docker创建MySQL容器的方法
- Python 三目运算符(三分支)
- Eclipse下Java项目转web项目
- java web mvc spring_Java下Web MVC的领跑者:SpringMVC
- 使用工具安装,运行,停止,卸载Window服务
- 靠谱前端必上网站大全
- 云优CMS插件不需要云优CMS授权码的插件
- ITIL学习笔记——核心流程之:服务台
- linux打印机无法识别usb设备,佳能LBP2900打印机驱动安装使用 USB无法识别的解决方法步骤...
- python语言提供的数字类型有哪些_Python语言中数字类型有哪些?
- 扬子苦荞啤酒 一杯苦荞啤酒,精彩你的世界
- vue点击定位到指定位置_vue页面内部定位到锚点位置