1.分词器的介绍和使用

  • 什么是分词器

    • 将用户输入的一段文本,按照一定逻辑,拆分为多个词语的一种工具
  • 常见的内置分词器
    • standard analyzer:标准分析器器是默认分词器器,如果未指定,则使⽤用该分词器器。
请求:POST localhost:9200/_analyze{"analyzer": "standard","text": "The best 3-points shooter is Curry!"}    
  • simple analyzer:simple 分析器器当它遇到只要不不是字⺟母的字符,就将⽂文本解析成term,⽽而且所有的term都是

⼩小写的。

请求:POST localhost:9200/_analyze{"analyzer": "simple","text": "The best 3-points shooter is Curry!"}
  • whitespace analyzer:whitespace 分析器器,当它遇到空⽩白字符时,就将⽂文本解析成terms
  • stop analyzer:stop 分析器器 和 simple 分析器器很像,唯⼀一不不同的是,stop 分析器器增加了了对删除停⽌止词的⽀支 持,默认使⽤用了了english停⽌止词,stopwords 预定义的停⽌止词列列表,⽐比如 (the,a,an,this,of,at)等等
  • language analyzer:(特定的语⾔言的分词器器,⽐比如说,english,英语分词器器),内置语⾔言:arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai
  • pattern analyzer:⽤用正则表达式来将⽂文本分割成terms,默认的正则表达式是\W+(⾮非单词字符)
  • 选择分词器器

2.常见中文分词器的使用

  • 常见分词器

    • smartCN ⼀一个简单的中⽂文或中英⽂文混合⽂文本的分词器器
    • IK分词器器 更更智能更更友好的中⽂文分词器器
    • smartCN
      • 安装:sh elasticsearch-plugin install analysis-smartcn

      • 检验:

        • 安装后重启

        • 请求:POST localhost:9200/_analyze{"analyzer": "smartcn", "text": "⽕火箭明年年总冠军"}

3.常见的字段类型

  • 核心数据类型

    • 字符串:

      • text:⽤用于全⽂文索引,该类型的字段将通过分词器器进⾏行行分词
      • keyword:不不分词,只能搜索该字段的完整的值
    • 数值型:
      • long, integer, short, byte, double, float, half_float, scaled_float
    • 布尔:
      • boolean
    • 二进制
      • binary:该类型的字段把值当做经过 base64 编码的字符串串,默认不不存储,且不不可搜索
    • 范围类型:
      • 范围类型表示值是⼀一个范围,⽽而不不是⼀一个具体的值
      • integer_range, float_range, long_range, double_range, date_range
        • 譬如 age 的类型是 integer_range,那么值可以是 {"gte" : 20, "lte" : 40};搜索 "term" : {"age": 21} 可以搜索该值
    • 日期:

      ​​​​​​​​​​​​​​​​​​​​date:

      • 格式:"2022-01-01" "2022/01/01 12:10:30" 这种字符串串格式

        • format默认为:strict_date_optional_time||epoch_millis
        • 由于Json没有date类型,所以es通过识别字符串串是否符合format定义的格式来判断是否
        • 为date类型
    • 复杂数据类型
    • 数组数据类型Array
      • 同⼀一个数组只能存同类型的数据,不不能混存,譬如 [ 10, "some string" ] 是错误的
      • Object对象数组 [ { "name": "Louis", "age": 18 }, { "name": "Daniel", "age": 17 }]
      • 整数数组 [ 1, 2 ]
      • 字符串串数组 [ "one", "two" ]
        • ES中没有专⻔门的数组类型, 直接使⽤用[]定义即可,数组中所有的值必须是同⼀一种数据类 型, 不不⽀支持混合数据类型的数组:
      • 对象类型Object
        • 对象类型可能有内部对象
    • 专用数据类型
    • IP类型
      • IP类型的字段⽤用于存储IPv4或IPv6的地址, 本质上是⼀一个⻓长整型字段.

elasticsearch从入门到入门系列(二)---快速入门C相关推荐

  1. SpringBoot系列: RestTemplate 快速入门

    ==================================== 相关的文章 ==================================== SpringBoot系列: 与Sprin ...

  2. Wireshark入门与进阶系列(二)

    摘自http://blog.csdn.net/howeverpf/article/details/40743705 Wireshark入门与进阶系列(二) "君子生非异也,善假于物也&quo ...

  3. 机器学习入门科普篇--系列二

    机器学习入门科普篇--系列二 前言 python程序语言与机器学习实践可以称得上是"珠联璧合".因为使用python编程技巧,接触甚至掌握机器学习的经典学习算法至少有以下四个优势. ...

  4. PR软件入门教程 Adobe Premiere Pro 快速入门指南

    原文(包含图片)链接:https://www.prjianji.com/1.html 了解如何开始使用面向电影制作人.电视节目制作人.新闻记者.学生和视频制作人员的非线性编辑软件 Premiere P ...

  5. SWMM从入门到实践教程 03 快速入门案例的设施参数设置与批量设置

    文章目录 1 雨量计 1.1 雨量计基础设置 1.2 雨量计数据来源 2 汇水区 2.1 参数讲解 2.2 设置结果 3 检查井 3.1 参数讲解 3.2 批量设置 4 管道 4.1 参数讲解 4.2 ...

  6. SWMM从入门到实践教程 02 快速入门案例的绘制

    文章目录 1 建模准备 2 设置各类设施 2.1 添加雨量计 2.2 添加子汇水区(正方形) 2.3 绘制节点(圆形) 2.4 绘制管渠 2.5 添加排水口(三角形) 3 画面调节 1 建模准备 建模 ...

  7. BIML 101 - ETL数据清洗 系列 - BIML 快速入门教程 - 序

    BIML 101 - BIML 快速入门教程 做大数据的项目,最花时间的就是数据清洗. 没有一个相对可靠的数据,数据分析就是无木之舟,无水之源. 如果你已经进了ETL这个坑,而且预算有限,并且有大量的 ...

  8. React最佳实践系列 —— Dva快速入门

    Dva最佳实践 -- 快速入门 一. 门槛 React 技术栈 二. Hello World 三. 一个简单H5 1. 安装 antd ui组件库 2. 在开始之前,先了解dva的目录结构. 3. 关 ...

  9. 芋道 Spring Boot JPA 入门(一)之快速入门

    点击上方"芋道源码",选择"设为星标" 做积极的人,而不是积极废人! 源码精品专栏 原创 | Java 2019 超神之路,很肝~ 中文详细注释的开源项目 RP ...

  10. 敲代码时如何快速移动光标_数控加工中心编程入门知识,半小时快速入门!

    数控加工中心编程入门知识汇总,教你半小时快速入门!不管做哪一行,想要成为个中高手,必然要经得住时间的历练,自身要不断提高工作能力,要想成为一个数控高手,从大学毕业进工厂起,最起码需要6年以上的时间.既 ...

最新文章

  1. PHP的mongo扩展版本过低导致无法查询
  2. ACE_Select_Reactor 一 ——入门
  3. 在状态栏中插入类似进度条的可视控件
  4. Eclipse中,多参列表光标跳转至第2个参数快捷键,及其他常用快捷键
  5. Jenkins实现Android自动化打包
  6. OREO免费授权系统源码
  7. math.js api static function
  8. 解决mininet运行报错“ImportError: No module named mininet.log”
  9. 机器人学资料站-202108
  10. 掘金总点赞量前 5000 排行发布 | 掘金总关注量前 5000 排行
  11. python 大数据开发工程师_大数据系列之大数据开发工程师
  12. Oracle分区(Partition)
  13. JAR 文件是什么?
  14. [译] 从原型图到成品:步步深入 CSS 布局
  15. CTP程序化交易入门系列之一:准备
  16. 现代化富文本编辑器 Quill Editor
  17. Java+UEditor
  18. 几何的对称之美——风筝定理
  19. “0xc000007b无法正常启动”我的解决方案
  20. 达人评测 锐龙r7 5800x3D相当于i几 r75800x3d参数

热门文章

  1. 测试语文水平的软件,语文试卷质量分析
  2. 基于无人机摄影测量技术的桥梁检测
  3. oracle命令导入expdp,oracle的导入导出命令:expdp和impdp
  4. 编程小白的计算机毕业设计指导开发教程-javaweb i18n国际化的使用
  5. CTFHub笔记之WEB文件上传:无验证、前端验证、文件头检查
  6. 消息队列(mq)是什么?
  7. 计算机毕业论文基于Python实现的学生求职招聘兼职平台
  8. 新一配:perl循环调用python爬虫批量下载喜马拉雅音频
  9. logstash读取kafka所有topics 自动创建es 索引
  10. 最长单调递增子序列O(NlogN)算法