这里讲解下常见的几个分词器:Standard AnalyzerSimple Analyzerwhitespace Analyzer

1、Standard Analyzer(默认)

1)示例

standard 是默认的分析器。它提供了基于语法的标记化(基于Unicode文本分割算法),适用于大多数语言

2)配置

标准分析器接受下列参数:

  • max_token_length : 最大token长度,默认255
  • stopwords : 预定义的停止词列表,如_english_或 包含停止词列表的数组,默认是 _none_
  • stopwords_path : 包含停止词的文件路径
PUT new_index
{"settings": {"analysis": {"analyzer": {"my_english_analyzer": {"type": "standard",       #设置分词器为standard"max_token_length": 5,    #设置分词最大为5"stopwords": "_english_"  #设置过滤词}}}}
}

2、Simple Analyzer

simple 分析器当它遇到只要不是字母的字符,就将文本解析成term,而且所有的term都是小写的。

3、Whitespace Analyzer

POST _analyze
{"analyzer": "whitespace","text":     "Like X 国庆放假 的"
}

java学习讨论群:725562382

二、ElasticSearch内置分词器相关推荐

  1. Elasticsearch 内置分词器

    Elasticsrarch 提供了8中内置分词器,它们可以无需任何配置即可使用.每一个分词器都由3部分组件组成:Character Filters.Tokenizer和Token Filters,这3 ...

  2. Elasticsearch Analyzer 内置分词器

    Elasticsearch Analyzer 内置分词器 篇主要介绍一下 Elasticsearch中 Analyzer 分词器的构成 和一些Es中内置的分词器 以及如何使用它们 前置知识 es 提供 ...

  3. Elasticsearch7 分词器(内置分词器和自定义分词器)

    文章目录 Elasticsearch7 分词器(内置分词器和自定义分词器) analysis 概览 char_filter html_strip mapping pattern_replace fil ...

  4. 架构师成长记_第八周_10_ES-分词与五种内置分词器

    文章目录 ES-分词 PS: 1. 全局分析方式(_analyze) 2. 指定字段分析方式(索引名/_analyze) ES-五种内置分词器介绍 1 标准分词器 standard 2 非字母分词器 ...

  5. Elasticsearch插件之分词器

    程序员小强总结的 ElasticSearch专题超全总结篇在这里:传送门 结合官网资料,做了更详细的实际使用总结. 从单机版安装到集群高可用生产环境搭建.基本概念(索引,分片,节点,倒排索引-).DS ...

  6. elasticsearch ik pingyin 分词器的安装和使用

    ES的核心就是搜索, 那么用ES不得不提到ES的搜索机制. 提搜索机制 就不得不提到 index的mapping 里的分词器 我们在搭建的过程中,默认通过 ip:9200/index 来创建一个索引. ...

  7. Elasticsearch的ik分词器安装和验证

    1.什么是分词器         把文本转换为一个个的单词,分词称之为analysis.es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体. 2.es内置分词器 standard ...

  8. ElasticSearch之ICU分词器

    分词器 分词器 接受一个字符串作为输入,将 这个字符串拆分成独立的词或 语汇单元(token) (可能会丢弃一些标点符号等字符),然后输出一个 语汇单元流(token stream) . 一个anal ...

  9. Elasticsearch之Analyzer分词器介绍

    Elasticsearch之Analyzer分词器介绍 Analysis Analyzer的组成 ES中内置的分词器 Analyzer的使用 几种分词器介绍 Standard Analyzer Sim ...

最新文章

  1. socket第三方库 AsyncSocket(源码注释解读.转)
  2. 微软45年前预言成真!沈向洋:未来AI beings的数量将超过人口
  3. 用webBrowser打开网页出现脚本错误怎么办
  4. html中什么标签可作容器,HTML容器标签和文本标签
  5. python遍历目录下所有文件_Python递归遍历目录下所有文件
  6. 使用Spring-Retry重试处理
  7. C#中IEnumerableT.Aggregate()的简单使用
  8. nginx做正向代理http,内网主机yum安装外网资源
  9. TensorFlow中的设备管理——Device的创建与注册机制
  10. 两个有序数组求中位数log(m+n)复杂度
  11. java堆栈_java线程的堆栈跟踪之jstack篇
  12. 怎样在Linux中用Vim对文件进行密码保护
  13. oracle 百分位数,Oracle分析函数PERCENTILE_CONT,percentile函数
  14. 微信小程序的图片上传及图片预览功能
  15. Mac操作系统输入法快捷键设置
  16. uniapp ios 跳转appstore
  17. Intel Stratix10 Smart VID介绍以及使用
  18. VB程序启动后如何在通知区域显示
  19. 60-硅谷课堂6-硅谷课堂-公众号消息和微信授权-- 笔记
  20. access 有效性规则和有效性文本

热门文章

  1. python基础入门(5)之运算符
  2. mysql中文注入_SQL注入之Mysql报错注入
  3. 【youcans 的 OpenCV 例程200篇】113. 形态学操作之腐蚀
  4. layui向body添加html_layui 各项配置
  5. python向量化编程技巧_神经网络基础之Python与向量化
  6. python一个函数调用另一个函数的返回值_在另一个函数中使用返回值
  7. C++学习_第1章_从C到C++
  8. sendMessage 与 obtainMessage (sendToTarget)比较
  9. 为DEV C++/CodeBlock配置gdb调试遇到的问题
  10. Docker-容器数据卷