Elastic已经形成了一个较为庞大的生态,这个生态的核心就是Elasticsearch。初学者的重点就是如何快速地了解并使用Elasticsearch,本文总结了Elasticsearch的8大核心概念和安装、用法,15分钟实现入门并且掌握Elasticsearch的简单使用。

01、核心概念

  • 索引(index)

    一个索引是一些具有相似特征的文档的集合,例如一个用户信息的索引,一个学生成绩的索引,一个索引在Elasticsearch中由一个名字指定,名字由小写字母组成。 在Elasticsearch一般为某一类的数据就存储在某一个特定的索引中。

  • 类型(type)

    在一个索引中,可以定义一种或者多种类型,类型指的是一个索引上的逻辑分类,一般来说会为一组具有共同字段的文档定义类型,例如保存一个保存用户数据的索引,为会员用户创建一个类型,为普通用户创建一个类型。类型在Elasticsearch 7.X版本以后已经被去掉了。

  • 文档(document)

    一个文档是可以被Elasticsearch索引的基础信息单元,文档以通用的数据交换格式JSON表示,存储于索引之中,理论上一个索引中可以存储任意多的文档。

  • 分片(shards)

    一个索引理论上可以存放任意多的文档,但是实际情况下单台服务器的容量有限,无法存放所有的数据。例如100亿的文档,单台服务器存储不下。为了解决这种情况,Elasticsearch提供了将一个索引的数据切分成多份存放到多个服务器的功能,每一份就是一个分片。在创建索引的时候可以指定分片的数量,默认会有5个分片。一般来说指定以后不能更改(更改的代价太大),索引需要提前进行容量的规划。
    分片的设计一方面让Elasticsearch具备了水平扩展的能力,另一方面多个分片可以并行提供查询和索引服务,大大提高系统的性能。

  • 复制(replicas)

    一个健壮的系统必须具备高可用性,复制就是Elasticsearch高可用性的体现。当某一个分片出现问题掉线的情况下,必须要有一个"备份"可以进行故障转移,这个备份就是"复制"分片。Elasticsearch允许对某一个主分片创建多个复制分片,默认为1个复制分片。特别需要注意的是,复制分片不能与主分片在同一个节点,否则就失去了高可用的能力。 综上,复制分片的作用:

    • 提供Elasticsearch的高可用性
    • 多个复制分片并行提供搜索功能,提升Elasticsearch的搜索能力。
  • 集群(cluster)

    Elasticsearch集群由一个或者多个节点组成,共同承担所有的数据存储和搜索功能。集群由一个唯一的名字进行区分,默认为"elasticsearch",集群中的节点通过整个唯一的名字加入集群。

  • 节点(node)

    节点是Elasticsearch集群的一部分,每个节点也有一个唯一的名称,只要多个节点在同个网络中,节点就可以通过指定集群的名称加入某个集群,与集群中的其他节点相互感知。

  • 近实时(near real-time)

    Elasticsearch从存储文档到文档可以被索引查询会存在短暂的延时,延时时间一般在1秒以内,所以一般称其为近实时。

02、安装部署

  1. 下载Elasticsearch安装包

    下载Elasticsearch安装包,并解压缩,本文以6.3.0版本为例。

    $ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3.0.tar.gz
    $ tar -zxvf elasticsearch-6.3.0.tar.gz
    
  2. 修改配置文件(可选)

    修改配置文件是可选的一个步骤,只是为了向大家展示Elasticsearch一些基本的配置项,大家可以选择性配置,亦可以跳过使用默认配置。

    #集群名字,elasticsearch使用集群名字来加入某一个集群,默认为elasticsearch
    cluster.name: my-application
    #节点名字
    node.name: node-1
    node.attr.rack: r1
    #数据存放路径
    path.data: /home/elastic/data
    #日志存放路径
    path.logs: /home/elastic/logs
    #对外发布的IP
    network.host: 192.168.56.11
    #http访问的端口
    http.port: 9200
    #是否开启xpack安全配置
    xpack.security.enabled: false
    #添加跨域配置
    http.cors.enabled: true
    http.cors.allow-origin: "*"
    
  3. 修改文件描述符和最大线程数限制

    切换到root用户,修改/etc/security/limits.conf配置文件,添加以下内容并保存。

    * soft nofile 65536
    * hard nofile 131072
    * soft nproc 4096
    * hard nproc 4096
    

    以上的配置是因为ElasticSearch的运行对最大的文件描述符以及最大线程数有要求,默认值4096和2048太小了,若无以上配置,启动过程中会报如下错误。

    max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
    [1]: max number of threads [2048] for user [elastic] is too low, increase to at least [4096]
    
  4. 修改max_map_count参数

    打开/etc/sysctl.conf配置文件,添加如下内容并保存,执行sysctl -p命令生效。

    vm.max_map_count=262144
    

    以上的配置也是因为Elasticsearch对虚拟内存空间有一定的要求,设置太小启动将会报如下错误

    max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]
    
  5. 关闭系统防火墙(可选)

    $ systemctl stop firewalld.service
    $ systemctl status firewalld.service
    
  6. 启动Elasticsearch

    经过以上配置,就可以执行以下命令启动Elasticsearch,进入Elasticsearch根目录,执行以下命令

    $ bin/elasticsearch
    

    如果看到以下日志,代表已经正常启动

    [2019-01-13T08:41:29,796][INFO][c.f.s.h.SearchGuardHttpServerTransport] [node-1] publish_address {10.0.2.15:9200}, bound_addresses {[::]:9200}
    [2019-01-13T08:41:29,796][INFO ][o.e.n.Node               ] [node-1] started
    
  7. 验证Elasticsearch

    Elasticsearch支持标准的HTTP协议,支持Restful API,在Linux下我们可以使用curl命令或者在浏览器输入如下URL,若有正常输出Elasticsearch集群信息,证明已经正常运行。

    $ curl -X GET http://localhost:9200
    {"name" : "node-1","cluster_name" : "my-application","cluster_uuid" : "C2ILS_NVRM-S-JPFFsHhUg","version" : {"number" : "6.3.0","build_flavor" : "default","build_type" : "zip","build_hash" : "424e937","build_date" : "2018-06-11T23:38:03.357887Z","build_snapshot" : false,"lucene_version" : "7.3.1","minimum_wire_compatibility_version" : "5.6.0","minimum_index_compatibility_version" : "5.0.0"},"tagline" : "You Know, for Search"
    }
    

03、索引操作

Elasticsearch提供一整套的Rest API用以支持各种索引、文档、搜索等操作。这里我们简单以索引的创建、查询和删除为例子来了解如何操作Elasticsearch。

  1. 新建索引

    在Elasticsearch中,文档存储在索引中,查询也是从索引中查询,可以类比为传统关系数据库中的数据库(这个比喻不太准确,但有助于初始的理解)。
    以下使用标准的HTTP PUT方法发起创建索引的请求来新建一个索引,如下创建一个名字为customer的索引,pretty参数表示response以方便读取的JSON格式返回,返回值如下,表示索引已经创建成功。

    $ curl -X PUT "http://localhost:9200/customer?pretty"
    {"acknowledged":true,"shards_acknowledged":true
    }
    
  2. 查询索引

    同样地使用HTTP GET方法向Elasticsearch集群查询在步骤一已经创建的索引

    $ curl -X GET "localhost:9200/my-index-000001?pretty"
    
  3. 删除索引

    同样地,使用HTTP DELETE方法可以删除一个索引,一旦删除了某个索引,这个索引下所有的分片、文档都会被删除,这是一个需要非常慎重的操作。
    当看到以下的返回值时,代表已经删除成功。也可以重新使用索引查询方法进行查询,可以发现已经查询不到此索引。

    $ curl -X DELETE "http://localhost:9200/customer?pretty"
    {"acknowledged": true
    }
    

04、文档操作

Elasticsearch中的数据以文档document的形式存储在索引中,Elasticsearch提供了一系列的_doc Rest API用来操作document的增删改查,下面以已经创建的customer索引为基础,实践一下对于Elasticsearch中document的操作。

  1. 创建文档

    使用HTTP PUT方法可以往索引中新建一个document,如下请求为创建一个新的document,存储在customer索引下,指定了其document id为1,如果不指定的话Elasticsearch会自动生成一个id。

    $ curl -X PUT "http://localhost:9200/customer/_doc/1?pretty" -H 'Content-Type: application/json' -d'
    {"name": "Elastic Expert"
    }
    '
    {"_index": "customer","_type": "_doc","_id": "1","_version": 2,"result": "updated","_shards": {"total": 2,"successful": 1,"failed": 0},"_seq_no": 1,"_primary_term": 2
    }
    

    如果创建成功, 会返回如下的响应信息,其中"index"指明了索引名称,"version"代表了文档的版本,shards"指明了本次操作涉及2个分片,"successful"代表创建文档的操作成功的只有1个分片,这是因为其中一个分片是副本分片,而本次实验的集群只是本地的一个节点,为了实现高可用,主分片和副本分片不会被分配到同一个节点上,所以这里副本分片没有被分配。

  2. 查询文档

    使用HTTP GET方法,可以通过document id查询document,返回值如下,可以发现实际存储的内容放在了source字段。

    $ curl -X GET "http://localhost:9200/customer/_doc/1?pretty"
    {"_index": "customer","_type": "_doc","_id": "1","_version": 2,"found": true,"_source": {"name": "Elastic Expert"}
    }
    
  3. 修改文档

    使用HTTP POST请求修改一个document,例如使用_update API将上一步骤创建的document name的值改为“Test Name” 。

    $ curl -X POST "http://localhost:9200/customer/_doc/1/_update?pretty" -H 'Content-Type:application/json' -d'
    {"doc": { "name": "New Elastic Expert" }
    }'
    

    返回值如下,可以发现_version字段的值已经改变了,证明我们的更新成功了,当然,也可以使用查询API重新查询确认。

    {"_index": "customer","_type": "_doc","_id": "1","_version": 3,"result": "updated","_shards": {"total": 2,"successful": 1,"failed": 0},"_seq_no": 2,"_primary_term": 2
    }
    
  4. 删除文档

    使用HTTP DELETE方法,通过指定document id可以删除对应的document 。返回值如下代表删除成功

    $ curl -X DELETE "http://localhost:9200/customer/_doc/1?pretty"
    

    返回值中"result"的值为"deleted"代表已经删除成功,值得一提的是,在Elasticsearch中,删除的文档不是直接从物理上立刻删除,而是标记为删除,等待一个时机到来以后才会真实地从物理上进行删除。

    {"_index": "customer","_type": "_doc","_id": "1","_version": 4,"result": "deleted","_shards": {"total": 2,"successful": 1,"failed": 0},"_seq_no": 3,"_primary_term": 2
    }
    

05、数据搜索

我们已经掌握了Elasticsearch创建索引,增加和更新文档的操作,下来就是重头戏搜索。Elasticsearch天生具备搜索的强支持能力,与document、index一样,有一套专门的_search API来支持搜索功能,还有很多的搜索特性,不同的搜索类型,搜索功能较为复杂。在本小节只介绍最简单的搜索API,以期能快速进入Elasticsearch搜索的大门。

数据搜索基本使用HTTP GET方法,_search API根据查询参数的位置的不同支持两种形式:

  • 搜索参数放在request body

    将query参数放在HTTP请求的request body中发起查询,匹配条件指定为match_all代表匹配所有的文档,这种查询方式使用的是Elasticsearch的 query DSL语法 。

    $ curl -X GET "http://localhost:9200/customer/_search?pretty" -H 'Content-Type: application/json' -d'
    {"query": { "match_all": {} }
    }
    '
    
  • 搜索参数放在request uri

    查询参数放在HTTP请求的request uri上作为query parameter,q=*使用模糊匹配的方式,代表查询customer索引下所有的document。

    $ curl -X GET "http://localhost:9200/customer/_search?q=*&pretty"
    

    返回值如下,shards.total代表总共5个分片,shards.successful为5代表5个分片全部成功进行了查询,hits段代表查询的结果,hits.total为1代表符合条件的document数量为1。

    {"took": 17,"timed_out": false,"_shards": {"total": 5,"successful": 5,"skipped": 0,"failed": 0},"hits": {"total": 1,"max_score": 1.0,"hits": [{"_index": "customer","_type": "_doc","_id": "2","_score": 1.0,"_source": {"name": "Elastic Expert"}}]}
    }
    

经过以上的实践,相信基本上可以简单的掌握Elasticsearch的基础用法以及对相关的核心概念都有了一定的认识,接下来跟我一起深入学习Elasticsearch的核心功能吧。

15分钟掌握Elasticsearch 8大核心概念与基础用法相关推荐

  1. 2021年大数据ELK(五):Elasticsearch中的核心概念

    全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 Elasticsearch中的核心概念 一.索引 index 二 ...

  2. Elasticsearch(一)——Es安装(三个必安工具、安装各种类型分词器)、Es 十大核心概念、通过 Kibana 操作 Es(中文分词、Es各种索引命令操作)

    Elasticsearch(一)--Es安装(三个必安工具.安装各种类型分词器).Es 十大核心概念.通过 Kibana 操作 Es(中文分词.Es各种索引命令操作) 一.Elasticsearch ...

  3. 十分钟带你理解Kubernetes核心概念

    原文地址:http://www.dockone.io/article/932 十分钟带你理解Kubernetes核心概念 本文将会简单介绍Kubernetes的核心概念.因为这些定义可以在Kubern ...

  4. RabbitMQ核心概念及基础API应用

    RabbitMQ核心概念及基础API应用 1 主流中间件介绍 衡量消息中间件的指标:服务性能,数据存储,集群架构. 1.ActiveMQ:Apache,支持JMS规范最完整的. 2.RocketMQ ...

  5. 安卓APP_ Fragment(1)—— Fragment概念、基础用法、动态变换、管理栈

    摘自:安卓APP_ Fragment(1)-- Fragment概念.基础用法.动态变换.管理栈 作者:丶PURSUING 发布时间: 2021-04-15 23:32:31 网址:https://b ...

  6. [k8s] 第一章 十分钟带你理解Kubernetes核心概念

    本章节主要介绍应用程序在服务器上部署方式演变以及kubernetes的概念.组件和工作原理. 应用部署方式演变 在部署应用程序的方式上,主要经历了三个时代: 传统部署:互联网早期,会直接将应用程序部署 ...

  7. 【Python自动化测试15】unittest测试框架的核心概念与作用

    文章目录 一.前言 二.认识单元测试 三.unittest核心概念与操作 3.1.unittest的作用 3.2.测试用例(TestCase) 3.3.运行测试用例 3.4.测试套件.加载器与运行器( ...

  8. 机器学习算法 09-02 TensorFlow核心概念 TensorFlow基础代码、TensorFlow线性回归解析解和BGD求法

    目录 1 核心概念 2 代码流程 3 基础代码: 3.1 tf的版本 定义常量 理解tensor 了解session 3. 2   指定设备.  Variable 初始化 .  with块创建sess ...

  9. 聊聊 Pulsar: Pulsar 的核心概念与基础架构

    一.Pulsar 介绍 Apache Pulsar 是 Apache 软件基金会的顶级项目,是下一代云原生分布式消息流平台,集消息.存储.轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户 ...

最新文章

  1. git搭建局域网服务器
  2. 32时间片轮转_系统时间
  3. 程序员面试题精选100题(06)-二元查找树的后序遍历结果[数据结构]
  4. c语言解析json数据
  5. rxjs里的Observable对象和map配合的一个用法
  6. 3模型大小_Github推荐一个国内牛人开发的超轻量级通用人脸检测模型
  7. 'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序 或批处理文件。
  8. ISCC2014-reverse
  9. 卷积神经网络——第一周 卷积神经网络基础——第二部分
  10. 2022年 电工杯B题5G 网络环境下 应急物资配送问题
  11. 微观经济学 读书笔记
  12. SPSS在银行业中的应用
  13. 压力测试流程及测试步骤
  14. 3000计算机组装电脑,电脑组装教程,教您组装电脑配置清单
  15. html 通知页面,消息通知页面.html
  16. python列表遍历元组_Python 元组遍历排序操作方法
  17. 编包----rpm和deb和ISO目录制作出ISO
  18. pyqt5实现一个简易音乐播放器(升级到v2版本)
  19. 人工智能学习路线(转载)
  20. 计算机专业进中国移动难吗,【计算机】中国移动面试技巧和注意事项

热门文章

  1. 贝叶斯网络结构学习(基于BDAGL工具箱的MATLAB实现)
  2. vim !!_让我们学习Vim! 第2部分
  3. PCB免费打样,开启0元打样新纪元!
  4. Python geojson文件可视化
  5. 中国石油天然气集团有限公司财务管理体系创新实践
  6. 根据浏览器判断是下载IOS还是其它的手机安装包
  7. 1495_关于费曼技巧相关信息的一点思考
  8. 波音737事故反思:该让数据“接管”生命控制权吗?
  9. Python基础之Pandas
  10. matlab实现鬼波信号压制算法(附鬼波算法压制工具包)  代码实践--第一篇 频率-空间域自适应鬼波压制