elk 搜索语法_ELK从入门到还未精通(二)—

大家好，我是泥腿子安尼特，5个月没在李佬都公众号更新文章了。上一篇，大致介绍了作为工具人的我是如何基本使用这一套ELK 系统的。今天就讲讲这个最重要的E——基于Lucene的搜索引擎ElasticSearch(后面简称ES)。最近刚搬家，没想到隔壁住的都是一对对情侣，半夜三更令人脸红耳赤的声音在耳边听到就消散不去，然后我就改了路由器名字，提醒一下邻居，结果当天晚上我的灯就坏了。。。真的不能做恶人。。。虽然自己业务需求也忙，不过这都是借口，自己挖的坑，还是要自己填完。

废话不多说，跟随我的一张充满灵魂的图，我们一起开始今天的内容

一些基本名词

名词	解释	备注
cluster	集群，一个ES集群可以由1个或者多个node节点组成	cluster是由一组包含相同的cluster.name的节点构成。在不修改默认配置的情况下，各个node节点会自动组成一个叫elasticsearch的集群
node	每个集群实例中的一个节点	当节点新加入或剔除时，集群会自动均分数据到各个节点上。
index	虽然index翻译过来是索引的意思，这里是一个指向一个或多个物理shard的逻辑命名空间	可以把数据结构基本一致的文档放在同一个index里
type	类型，低版本的ES可以在一个index里面多个type，目前已在ES7舍弃，用一个_doc当做每个index的默认type	ES8将完全移除type
document	ES存储的数据是文档型的，一个index里面可以包含多个文档文档以json格式保存	我们往ES里PUT一条数据，就相当于生成一个文档，每个文档有一个唯一ID(_id)
field	字段，每个document由多个字段组成
mapping	各个字段的数据类型描述我们在插入一条document的时候如果不指定mapping，ES会自动给我们生成mapping	ES支持的字段类型还是挺多，比如日期类型，数值类型，字符串等等，还支持搞附近的人geohash
shard	分片(index里的数据可以分片的形式存在多个shard里，方便横向扩容)，每个index有1个或多个shard，如果你是多节点的集群的话，shard分布在不同的机器上	shard还分为replica shard(备份分片可调整)和primary shard(主分片不可调整)
replica	副本，可以备份数据用，多个replica还可以提高查询的吞吐量
query dsl	ES的复杂查询语句简称	就像我们查mysql叫查询语句叫sql一样

很多ES的教程都会跟你类比index=数据库 type=表 document=一行数据 field=字段 mapping=字段类型描述。其实这个不完全对，你往index里面put一条数据的时候就生成了一个document，每个文档有个唯一ID(_id),每个文档都有一个版本号，每次修改或删除文档时，_version就会自增。PUT一个document到一个index后，ES会自动给我们生成mapping，当然，你也可以自定义mapping。默认情况下，每个字段会被analyzed，就是会被自动分词掉，所以，有时候你存进去的字段里面类似xxx_xx_xxxx的字符串时候，你用xxx_xx_xxxx精准匹配竟然搜不到，就是因为被自动analyzed的原因。

倒排索引&&正排索引

假如说你去面试，你说用过ES，面试官肯定会问你倒排索引。那什么是倒排索引，是不是听着很niu bi。我就借着官网上了例子讲下:

例如，假设我们有两个文档的内容是

The quick brown fox jumped over the lazy dogQuick brown foxes leap over lazy dogs in summer

PUT完这两个之后，ES会按标准模式(大写转小写，单复数按单数，同义词存一个单词)生成索引,查询输入内容也会被同样的做标准化处理。

这时候存的索引可以简化为就像下面这样：

Term      Doc_1  Doc_2-------------------------brown   |   X   |  Xdog     |   X   |  Xfox     |   X   |  Xin      |       |  Xjump    |   X   |  Xlazy    |   X   |  Xover    |   X   |  Xquick   |   X   |  Xsummer  |       |  Xthe     |   X   |  X------------------------

这就把内容分词后，拿分词的各个字段对应文档id，所以也形象的称之为倒排索引。类比传统像mysql这样的数据库，通常的做法是按id维度建立索引，查询想要快也是通过id查具体的内容。而ES按分词来建立与文档ID的做法，大大的提升全文搜索的速度。

当然倒排索引还存了单词频率TF(即这个词在某个文档中的出现次数)，还记录词文档出现的位置信息。所以我们每次查询的时候，查询结果都会返回一个_score，默认的查询结果按分值从高到低返回，词在文档中出现次数越多，词越相似，分值越高，这也符合我们想要的搜索结果。

ES默认的分词器对于中文内容只会单纯的拆分每个中文字，没法像英文文档，用默认的就能得到强大的效果，所以需要自行去找合适的中文分词器。

那我们再简单来讲讲正排索引，其实ES对于我们插入的内容，除了会分词生成倒排索引之外，它也会存每个字段的一些值(doc_value)。假如我们要根据查询结果按某个字段的的数值进行排序，前面我们讲到ES的field是支持很多数据类型的，所谓的正排索引就是单存的存了每个字段的原始值，所以，假如我们要对一个字符串类型的字段做排序，那么我们要手动把它设为not_analyzed，不然字符串类型的field是没办法排序的。

基本的增删改查

ES支持RESTful API 方便让我们执行很多操作。ES也有批量操作的Bulk API，其实就相当于一次性发送多个语句过去。让我们在上一篇文章的基础上，开启ES、Kibana，然后打开Kibana的DevTools

创建/删除一个index

PUT lib3DELETE lib3/

查看index的信息

GET /lib3/_settings

创建index的时候我们还可以手动配置setting设置分片数量，我单机ES默认就一个分片，一个备份

插入/更新一个document

POST /lib3/_doc/{_id}{"name":"cxk","age":18,"interests":["chang", "tiao", "rap", "lanqiu"]}

我们插入文档的时候可以手动指定文档id (一般插入的时候都还是不指定id的)，当然如果你不指定ES也会自动生成一个，每个文档插入后也会生成一个自增的_version(插入的时候也可以指定version,默认的version是1到2^63-1 没修改一次自增1)。ES就是根据_version(版本控制)，采用乐观锁来保证文档的更新。如果你指定了文档id，并且这个文档存在，那么ES就会覆盖更新这个文档。ES的实际上内部的更新策略就是先删除再插入，所以ES的更新效率并不高。李老之前在搞附近的人项目中提到ES也是支持geohash数据类型的，但是ES这样的架构，更适合搞附近的店，搞附近的人其实也能搞，就是效率不是很高。

按id精准查询document

GET /lib1/_doc/{_id}

我们可以在查询的时候指定返回的字段只要在后面加上?_source=字段1，字段2 如果要按某字段(有doc_value)排序，可以在后面加上sort=字段:desc。默认情况下查询结果是不返回_version的，如果你需要可以在后面带上version=true

按field匹配

GET /lib3/_search?q=name:cxk

这时候我们发现查询结果回来的字段好多，因为基本上我们使用搜索引擎的时候，我们肯定事先是不知道内容到底在哪个document里的，不然还用搜么-，所以基本上是不可能按document id来查的。而基本上我们都要用到复杂查询，对于一些简单的需求，我们可以简单的用一个简单的语法?q=字段:查询输入关键词再复杂一点，我们就要手撸更复杂的 query dsl语句了。

后话，本篇内容看似很长，其实并没有讲透很多内容，也只是对于ES做了一个简单的应用介绍。比如ES里面的倒排索引的底层数据结构到底是如何的，还有像ES的_version到底是怎么靠乐观锁来更新的，ES的各个node选master的算法，ES里的field支持的数据类型，以及它们怎么存储的，都没一一展开深入。不过这不重要，如果你不是专门从事搜索相关业务的技术开发，每个点都去深究，都可以写好几篇文章。我可能更多的想给一些业务开发，以及没用过ES或者想尝试一下ES的泥腿子们提供一个简单快速入门的ES的介绍，以及一些基本的使用。下一篇我将花一整篇介绍query dsl！

话说这次修改路由器ssid名字我发现原来路由器的ssid有个32位长度限制，过了几天后隔壁的果然消停了好多，顺便也改了路由器的名字给我怼回来了

参考资料

https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html

https://abcfy2.gitbooks.io/elasticsearch_the_definitive_guide/

elk 搜索语法_ELK从入门到还未精通(二)——ElasticSearch上篇相关推荐

elasticsearch 删除满足条件的语句_ELK从入门到还未精通(二)——ElasticSearch上篇
大家好,我是泥腿子安尼特,5个月没在李佬都公众号更新文章了.上一篇,大致介绍了作为工具人的我是如何基本使用这一套ELK 系统的.今天就讲讲这个最重要的E--基于Lucene的搜索引擎ElasticSe ...
elk 搜索语法_ELK学习笔记7| Lucence 的搜索语法
在kibana进行搜索时,可以使用Lucence 通用的语法,或者使用 JSON 格式 QueryDSL (DSL:Digital Subscriber Line)来进行各项搜索请求.Apache L ...
elk 搜索语法_ELK：kibana使用的lucene查询语法
kibana在ELK阵营中用来查询展示数据 elasticsearch构建在Lucene之上,过滤器语法和Lucene相同全文搜索在搜索栏输入login,会返回所有字段值中包含login的文档使 ...
ELK搜索学习笔记--Day1
ELK搜索学习笔记–Day1 1．课程简介 1.1 课程内容 ELK是包含但不限于Elasticsearch(简称es).Logstash.Kibana 三个开源软件的组成的一个整体.这三个软件合成 ...
实战ELK（5） Logstash 入门
实战ELK(5) Logstash 入门 Logstash 是一个开源的数据收集引擎,它具有备实时数据传输能力.它可以统一过滤来自不同源的数据,并按照开发者的制定的规范输出到目的地. 一.原理 Log ...
谷歌搜索技巧：搜索语法+隐藏彩蛋+高级设置
Google是一个非常精密成熟的搜索引擎,其搜索结果的丰富性和准确度较其他搜索引擎都要好,但大多数用户都还只是停留在搜索框中输入一两个关键字,然后点击"搜索"按钮的阶段,这一过程是 ...
CSS的预编译——less语言基本语法教程（入门）
less语言基本语法教程(入门) 一.CSS解析 css是一门标记性语言,语法简单,对使用者的要求也比较低. 缺点:1.对于css:使用css时需要书写大量的看似没有逻辑的代码,不方便维护和扩展,不利 ...
一条Fofa搜索语法，实现批量挖洞
任何非授权的渗透测试都是违法的.点到为止! 前言最近在学习如何批量验证POC,期间也参考了不少文章,于是萌生了整合出一个自动化批量挖洞的想法. 最终实现效果为:仅通过一条Fofa搜索语法,就可以挖出 ...
一套打通 Github 搜索语法
目录前言: (1)查询大于或小于另一个值的值 (2)查询范围之间的值 (3)查询日期 (4)排除特定结果 (5)使用用户名的查询 (6)常用的搜索语法归纳前言: Github:全球最大的开源网站, ...

elk 搜索语法_ELK从入门到还未精通(二)——ElasticSearch上篇

elk 搜索语法_ELK从入门到还未精通(二)——ElasticSearch上篇相关推荐

最新文章

热门文章

elk 搜索 语法_ELK从入门到还未精通(二)——ElasticSearch上篇

elk 搜索 语法_ELK从入门到还未精通(二)——ElasticSearch上篇相关推荐

最新文章

热门文章

elk 搜索语法_ELK从入门到还未精通(二)——ElasticSearch上篇

elk 搜索语法_ELK从入门到还未精通(二)——ElasticSearch上篇相关推荐