elasticsearch从入门到入门系列(二)---快速入门C
1.分词器的介绍和使用
- 什么是分词器
- 将用户输入的一段文本,按照一定逻辑,拆分为多个词语的一种工具
- 常见的内置分词器
- standard analyzer:标准分析器器是默认分词器器,如果未指定,则使⽤用该分词器器。
请求:POST localhost:9200/_analyze{"analyzer": "standard","text": "The best 3-points shooter is Curry!"}
- simple analyzer:simple 分析器器当它遇到只要不不是字⺟母的字符,就将⽂文本解析成term,⽽而且所有的term都是
⼩小写的。
请求:POST localhost:9200/_analyze{"analyzer": "simple","text": "The best 3-points shooter is Curry!"}
- whitespace analyzer:whitespace 分析器器,当它遇到空⽩白字符时,就将⽂文本解析成terms
- stop analyzer:stop 分析器器 和 simple 分析器器很像,唯⼀一不不同的是,stop 分析器器增加了了对删除停⽌止词的⽀支 持,默认使⽤用了了english停⽌止词,stopwords 预定义的停⽌止词列列表,⽐比如 (the,a,an,this,of,at)等等
- language analyzer:(特定的语⾔言的分词器器,⽐比如说,english,英语分词器器),内置语⾔言:arabic, armenian, basque, bengali, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french, galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai
- pattern analyzer:⽤用正则表达式来将⽂文本分割成terms,默认的正则表达式是\W+(⾮非单词字符)
- 选择分词器器
2.常见中文分词器的使用
- 常见分词器
- smartCN ⼀一个简单的中⽂文或中英⽂文混合⽂文本的分词器器
- IK分词器器 更更智能更更友好的中⽂文分词器器
- smartCN
安装:sh elasticsearch-plugin install analysis-smartcn
检验:
安装后重启
请求:POST localhost:9200/_analyze{"analyzer": "smartcn", "text": "⽕火箭明年年总冠军"}
3.常见的字段类型
- 核心数据类型
- 字符串:
- text:⽤用于全⽂文索引,该类型的字段将通过分词器器进⾏行行分词
- keyword:不不分词,只能搜索该字段的完整的值
- 数值型:
- long, integer, short, byte, double, float, half_float, scaled_float
- 布尔:
- boolean
- 二进制
- binary:该类型的字段把值当做经过 base64 编码的字符串串,默认不不存储,且不不可搜索
- 范围类型:
- 范围类型表示值是⼀一个范围,⽽而不不是⼀一个具体的值
- integer_range, float_range, long_range, double_range, date_range
- 譬如 age 的类型是 integer_range,那么值可以是 {"gte" : 20, "lte" : 40};搜索 "term" : {"age": 21} 可以搜索该值
日期:
date:
- 格式:"2022-01-01" "2022/01/01 12:10:30" 这种字符串串格式
- format默认为:strict_date_optional_time||epoch_millis
- 由于Json没有date类型,所以es通过识别字符串串是否符合format定义的格式来判断是否
- 为date类型
- 格式:"2022-01-01" "2022/01/01 12:10:30" 这种字符串串格式
- 复杂数据类型
- 数组数据类型Array
- 同⼀一个数组只能存同类型的数据,不不能混存,譬如 [ 10, "some string" ] 是错误的
- Object对象数组 [ { "name": "Louis", "age": 18 }, { "name": "Daniel", "age": 17 }]
- 整数数组 [ 1, 2 ]
- 字符串串数组 [ "one", "two" ]
- ES中没有专⻔门的数组类型, 直接使⽤用[]定义即可,数组中所有的值必须是同⼀一种数据类 型, 不不⽀支持混合数据类型的数组:
- 对象类型Object
- 对象类型可能有内部对象
- 专用数据类型
- IP类型
- IP类型的字段⽤用于存储IPv4或IPv6的地址, 本质上是⼀一个⻓长整型字段.
- 字符串:
elasticsearch从入门到入门系列(二)---快速入门C相关推荐
- SpringBoot系列: RestTemplate 快速入门
==================================== 相关的文章 ==================================== SpringBoot系列: 与Sprin ...
- Wireshark入门与进阶系列(二)
摘自http://blog.csdn.net/howeverpf/article/details/40743705 Wireshark入门与进阶系列(二) "君子生非异也,善假于物也&quo ...
- 机器学习入门科普篇--系列二
机器学习入门科普篇--系列二 前言 python程序语言与机器学习实践可以称得上是"珠联璧合".因为使用python编程技巧,接触甚至掌握机器学习的经典学习算法至少有以下四个优势. ...
- PR软件入门教程 Adobe Premiere Pro 快速入门指南
原文(包含图片)链接:https://www.prjianji.com/1.html 了解如何开始使用面向电影制作人.电视节目制作人.新闻记者.学生和视频制作人员的非线性编辑软件 Premiere P ...
- SWMM从入门到实践教程 03 快速入门案例的设施参数设置与批量设置
文章目录 1 雨量计 1.1 雨量计基础设置 1.2 雨量计数据来源 2 汇水区 2.1 参数讲解 2.2 设置结果 3 检查井 3.1 参数讲解 3.2 批量设置 4 管道 4.1 参数讲解 4.2 ...
- SWMM从入门到实践教程 02 快速入门案例的绘制
文章目录 1 建模准备 2 设置各类设施 2.1 添加雨量计 2.2 添加子汇水区(正方形) 2.3 绘制节点(圆形) 2.4 绘制管渠 2.5 添加排水口(三角形) 3 画面调节 1 建模准备 建模 ...
- BIML 101 - ETL数据清洗 系列 - BIML 快速入门教程 - 序
BIML 101 - BIML 快速入门教程 做大数据的项目,最花时间的就是数据清洗. 没有一个相对可靠的数据,数据分析就是无木之舟,无水之源. 如果你已经进了ETL这个坑,而且预算有限,并且有大量的 ...
- React最佳实践系列 —— Dva快速入门
Dva最佳实践 -- 快速入门 一. 门槛 React 技术栈 二. Hello World 三. 一个简单H5 1. 安装 antd ui组件库 2. 在开始之前,先了解dva的目录结构. 3. 关 ...
- 芋道 Spring Boot JPA 入门(一)之快速入门
点击上方"芋道源码",选择"设为星标" 做积极的人,而不是积极废人! 源码精品专栏 原创 | Java 2019 超神之路,很肝~ 中文详细注释的开源项目 RP ...
- 敲代码时如何快速移动光标_数控加工中心编程入门知识,半小时快速入门!
数控加工中心编程入门知识汇总,教你半小时快速入门!不管做哪一行,想要成为个中高手,必然要经得住时间的历练,自身要不断提高工作能力,要想成为一个数控高手,从大学毕业进工厂起,最起码需要6年以上的时间.既 ...
最新文章
- PHP的mongo扩展版本过低导致无法查询
- ACE_Select_Reactor 一 ——入门
- 在状态栏中插入类似进度条的可视控件
- Eclipse中,多参列表光标跳转至第2个参数快捷键,及其他常用快捷键
- Jenkins实现Android自动化打包
- OREO免费授权系统源码
- math.js api static function
- 解决mininet运行报错“ImportError: No module named mininet.log”
- 机器人学资料站-202108
- 掘金总点赞量前 5000 排行发布 | 掘金总关注量前 5000 排行
- python 大数据开发工程师_大数据系列之大数据开发工程师
- Oracle分区(Partition)
- JAR 文件是什么?
- [译] 从原型图到成品:步步深入 CSS 布局
- CTP程序化交易入门系列之一:准备
- 现代化富文本编辑器 Quill Editor
- Java+UEditor
- 几何的对称之美——风筝定理
- “0xc000007b无法正常启动”我的解决方案
- 达人评测 锐龙r7 5800x3D相当于i几 r75800x3d参数