Elasticsearch 提供了超过很多开箱即用的分析器,我们可以在文本分析阶段使用它们。 这些分析器很可能足以满足基本情况,但如果需要创建自定义分析器,可以通过使用构成该模块的所需组件实例化一个新的分析器模块来实现。 下表列出了 Elasticsearch 为我们提供的分析器:

Analyzer 描述
Standard analyzer 这是默认的分析器,它根据语法、标点符号和空格对输入文本进行分词。 输出分词是小写的。
Simple analyzer 简单分词器将输入文本拆分为任何非字母,例如空格、破折号、数字等。和标准分析器一样,简单分词器也会将输出分词小写。
Stop analyzer 它是一个简单分析器,默认启用英文停用词。
Whitespace analyzer 空白分析器的工作是根据空白定界符对输入文本进行分词。
Keyword analyzer 关键字分析器不会改变输入文本。 该字段的值按原样存储。
Language analyer 顾名思义,语言分析器有助于处理人类语言。 Elasticsearch 提供了英语、西班牙语、法语、俄语、印地语等几十种语言分析器,可以处理不同的语言。
Pattern analyzer 模式分析器根据正则表达式 (regex) 拆分分词。 默认情况下,所有非单词字符都有助于将句子拆分为分词。
Fingerprint analyzer 指纹分析器排序并删除重复的分词以生成单个连接的分词

有关上述的分析器的更多描述,请参阅我之前的文章 “Elasticsearch: analyzer”。

标准分析器(standard analyzer)是默认的分析器,在文本分析中被广泛使用。 让我们在下面通过示例来了解如何使用标准分析器。

注意:Elasticsearch 提供了一些内置的分析器,并让我们通过混合和匹配过滤器和标记器来自定义它们来创建过多的分析器。 在本文中逐一详述过于冗长且不切实际,但我将在文章中提供尽可能多的示例。 我建议您参考特定组件的官方文档以及将它们集成到你的应用程序中。

Standard analyzer

标准分析器是 Elasticsearch 中使用的默认分析器。 标准分析器的工作是根据空格、标点符号和语法对句子进行分词。

  • 没有 Char Filter
  • 使用 standard tokonizer
  • 把字符串变为小写,同时有选择地删除一些 stop words 等。默认的情况下 stop words 为 _none_,也即不过滤任何 stop words。

假设我们想要建立一个包含零食和饮料的奇怪组合的索引。 考虑以下提到咖啡加爆米花的文本:

“Hot cup of ☕ and a 												

Elasticsearch:Standard Text Analyzer - 标准文本分析器相关推荐

  1. ElasticSearch 基础(七)之分析器

    目录 前言 一.什么是分析器(analyzer) 二.字符过滤器(character filter) 1.html strip 字符过滤器 2.mapping 字符过滤器 3.patter repla ...

  2. Elasticsearch:Text vs. Keyword - 它们之间的差异以及它们的行为方式

    很多刚开始学习 Elasticsearch 的人经常会混淆 text 和 keyword 字段数据类型. 它们之间的区别很简单,但非常关键. 在本文中,我将讨论两者之间的区别.如何使用它们.它们的行为 ...

  3. ElasticSearch系列 - SpringBoot整合ES:分析器

    文章目录 01. ElasticSearch 分析器 1. ElasticSearch match 文本搜索的过程? 2. ElasticSearch 分析器是什么? 3. ElasticSearch ...

  4. 标准查询分析器:Solr的默认查询解析器也称为“Lucene”解析器。

    标准查询分析器:Solr的默认查询解析器也称为"Lucene"解析器. 标准查询解析器的主要优点是,它支持一种健壮且相当直观的语法,允许您创建各种结构化查询.最大的缺点是,与设计为 ...

  5. JSP系列教材 (十)- JSTL Java Standard Tag Library 标准标签库

    JSTL JSP Standard Tag Library 标准标签库 JSTL允许开人员可以像使用HTML标签 那样在JSP中开发Java功能. JSTL库有core, i18n, fmt, sql ...

  6. EXCEL中用TEXT函数将文本转换成日期

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! EXCE ...

  7. android_ android apk analyzer(libchecker apk分析器):分析Android手机上已安装的app(库/基础组件分析/开发技术)/从酷安市场下载安装包

    android apk analyzer(libchecker apk分析器):分析Android手机上已安装的app(库/基础组件分析/开发技术-) download app(apk) Releas ...

  8. 1.FHS(Filesystem Hierarchy Standard)文件系统层级标准--重点

    day03 1.FHS(Filesystem Hierarchy Standard)文件系统层级标准–重点 文件系统: 对于一个存储设备( 或者分区)明确存放文件的方法和数据结构类.xfs / 系统所 ...

  9. 使用text类型的文本输入框模拟password类型的密码输入框

    项目开发中要求不能直接使用password类型的密码输入框该怎么做?(干货直接跳例5) 最近有个项目,在做登录模块时,要求不让使用password类型的密码输入框,是为了防止报安全问题,因为passw ...

最新文章

  1. intel最新的服务器芯片,Intel最新服务器CPU 芯片组Roadmap
  2. 远程办公中的IT女性:工作量增加3倍,离职率却下降近50%
  3. adb 操作安卓模拟器--备忘
  4. UA OPTI570 量子力学3 单个自由粒子的薛定谔方程
  5. 5G NR Rel16 Measurement report triggering--测量上报事件
  6. linux中Tomcat 8 文件上传后无访问权限
  7. tsd3dmapper软件使用方法_TOYO模组选型软件使用方法
  8. 10-10-010-简介-重要概念背诵
  9. 记一次YUV图像分析(二)
  10. LoadRunner11代理在Win10操作系统启动不起来,或者报错:该内存不能为written
  11. Golang 1.16新特性-embed包及其使用
  12. 【量化交易】 量化因子 情绪类因子计算
  13. [python ][opencv][图片卡通化]
  14. 电影票房预测-kaggle项目Python项目
  15. Android 动态申请应用权限
  16. PS 的常见抠图工具
  17. 软件的生命周期的若干阶段
  18. 搭建IIS服务器发布ASP网站
  19. 局部刷新某个div(重大突破)
  20. 计算机网考模拟系统,全国计算机等级考试考网模拟系统

热门文章

  1. 利用 Matlab Simulink 平台搭建双馈风力发电机在电网中的模型
  2. 关于含税单价和不含税单价的关系记录
  3. 1144 消失的正数
  4. Android从零开始搭建MVVM架构(3)——ViewModel
  5. 实战版 天猫精灵接入指南(AliGenie接入)
  6. 分布式团队的高效站立会说明书
  7. 最近 火火火火 的 GitHub 项目!
  8. 最近很火火火火的 GitHub 项目
  9. 快递到付被拒收怎么办?双方都拒收货物会怎么处理?
  10. ArcGIS教程:填挖的工作原理