ES自带分词器有哪些?有哪些特点?

Standard Analyzer:

标准分词器,也是ES的默认分词器,按词切分,小写处理,默认停用词默认是关闭的。

Simple Analyzer:

按照非字母切分,非字母都会被去除,即只处理字母,小写处理。

Whitespace Analyzer:

按照空格切分。

Stop Analyzer:

相对于Simple Analyzer多了stop filter,会把is,a,the等无语义的词去除,即含有停用词。

Keyword Analyzer:

不分词,直接将输入的文档当做一个词输出。

Pattern Analyzer:

通过在空格进行分词的情况下进行正则表达式进行分词,默认是\W+,非字符的符号进行分割;含停用词和小写处理。

Language Analyzer:

针对不同的语言选择分词,例如english语言分词,会去除词性,如running分词结果为run,foxes分词结果为fox等;含有停用词处理。

中文词器:

ICU Analyzer:

需要安装插件ElasticSearch-plugin install analysis-icu,由于提供了Unicode编码支持,能够更好地支持中文;Character Filter:Normalization,Tokenizer:ICU Tokenizer,Token Filters:Normalization,Folding,Collation,Transform。

IK Analyzer:

支持自定义词库,支持热更新分词词典。https://github.com/medcl/elasticsearch-analysis-ik

Elasticsearch分词器介绍相关推荐

  1. Elasticsearch之Analyzer分词器介绍

    Elasticsearch之Analyzer分词器介绍 Analysis Analyzer的组成 ES中内置的分词器 Analyzer的使用 几种分词器介绍 Standard Analyzer Sim ...

  2. ElasticSearch——手写一个ElasticSearch分词器(附源码)

    1. 分词器插件 ElasticSearch提供了对文本内容进行分词的插件系统,对于不同的语言的文字分词器,规则一般是不一样的,而ElasticSearch提供的插件机制可以很好的集成各语种的分词器. ...

  3. 【ES实战】ES分词器介绍

    文章目录 ES分词器介绍 什么是分词器 分词器的组成 Character filters Tokenizers Token filters 分词的过程 写入时分词 搜索时分词 测试分词效果 分词器的分 ...

  4. 3. ElasticSearch分词器和聚合,数据的丰富和去重

    ElasticSearch分词器和聚合,数据的丰富和去重 1. analyzer 1.1. 什么是analysis? 1.2. 如何定义一个定制的分析器 1.3. 中文分词器 2. Aggregati ...

  5. 2、Elasticsearch分词器简介与使用(一)

    一.分词器的概念 1.Analysis Phase 在文档(Document)被添加到反向索引(inverted index)之前,Elasticsearch 对文档正文执行的过程称为分析阶段(Ana ...

  6. 五 、Elasticsearch分词器

    5.1 分词器处理分词的组件 (1)Character filters,原始文本的预处理,通常完成HTML元素删除,替换指定字符等功能: 例如:<span>hello<span> ...

  7. elasticsearch分词器词库热更新三种方案

    文章目录 一.本地文件读取方式 二.远程扩展热更新 IK 分词 三.重写ik源码连接mysql 一.本地文件读取方式 首先进入elasticsearch目录的plugins目录下,查看目录结构 2.进 ...

  8. ElastIcSearch分词器

    ElastIcSearch分词器 Analysis 和 Analyzer Analysis: 文本分析是把全文本转换一系列单词(term/token)的过程,也叫分词(Analyzer).Analys ...

  9. “Elasticsearch + Kibana + ik分词器“介绍与使用

    Elasticsearch 介绍 Elasticsearch 是一个分布式.RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例. 作为 Elastic Stack 的核心,它集中存 ...

最新文章

  1. LeetCode 225. Implement Stack using Queues--用队列实现栈--C++解法
  2. python 排序函数 sort sorted 简介
  3. Material Design Lite,简洁惊艳的前端工具箱。
  4. 10年前腾讯微信后台第一天提交的代码曝光!
  5. 如何自动保存邮件草稿
  6. java多线池_java多线程之线程池
  7. 烟台大学计算机学院宋宜斌教授,宋宜斌
  8. hadoop错误总结
  9. docker build mysql,Docker创建MySQL容器的方法
  10. Python 三目运算符(三分支)
  11. Eclipse下Java项目转web项目
  12. java web mvc spring_Java下Web MVC的领跑者:SpringMVC
  13. 使用工具安装,运行,停止,卸载Window服务
  14. 靠谱前端必上网站大全
  15. 云优CMS插件不需要云优CMS授权码的插件
  16. ITIL学习笔记——核心流程之:服务台
  17. linux打印机无法识别usb设备,佳能LBP2900打印机驱动安装使用 USB无法识别的解决方法步骤...
  18. python语言提供的数字类型有哪些_Python语言中数字类型有哪些?
  19. 扬子苦荞啤酒 一杯苦荞啤酒,精彩你的世界
  20. vue点击定位到指定位置_vue页面内部定位到锚点位置

热门文章

  1. 澳大利亚将建12个光伏发电站
  2. python基础知识点集锦一
  3. 天猫schema模式下发布商品
  4. apollo配置中心之--spring boot如何加载apollo
  5. 透过汽车之家二手车业务,看二手车市场的模式终局
  6. Flutter 单元测试
  7. StringUtils.isBlank() 报红!
  8. python的树蕨类型(是数据嘿嘿嘿,打错发现挺好玩的)
  9. 软件测试---测试技术(2)
  10. 1w存银行一年多少利息_500万、1000万存银行一年有多少钱利息?能靠利息生活吗?...