本篇文章对 Elasticsearch 做了基本介绍,在后续将通过专栏的方式持续更新,本系列以 Elasticsearch7 作为主要的讲解版本,欢迎各位大佬指正,共同学习进步涨工资!

一般涉及大型数据库的电子商务和搜索引擎的产品都面临这样一个问题,产品信息检索花费时间太长。这不良的用户体验,可能导致失去潜在的客户。这种滞后搜索归因于产品设计所使用到关系数据库,数据分散在多个表中,关系型数据处理这些表中数据获取搜索结果时工作速度是远远不能瞒足。可以说,现在的企业正在寻找数据存储的替代品,以期促进快速检索,而 Elasticsearch(ES)的出现很好解决这些问题。

1、什么是 Elasticsearch?

Elasticsearch 是基于 Lucene 的搜索引擎。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful Web接口。

换句话说,Elasticsearch 是用 Java 开发的开源,独立数据库服务器。基本上,它用于全文搜索和分析。它从各种来源获取数据,并将其存储为针对搜索进行了高度优化的复杂格式。如上所述,Elasticsearch 将 Apache Lucene 作为搜索的核心。由于 Lucene 只是一个库,使用起来有一定难度。但是你不必担心,Elasticsearch 对搜索引擎操作都进行封装 ,可以通过使用对应的 Restful 的 API 进行操作。使用 Elasticsearch 可以快速有效地存储,搜索和分析大量数据,而且在处理半结构化数据(即自然语言)时特别有用。

2、Elasticsearch 能做什么?

平时我们在 GitHub 上进行搜索的时候,Github 不仅可以帮我们找到相隔的代码产库,还可以帮助实现代码级的搜索及搜索词的高亮的显示,。当你在网上购物的时候,它也可以帮助你做商品的推荐。当你下班的时候,Elasticsearch 可以帮助你定位附件的乘客和司机,帮助平台优化调度,除了搜索,结合 Kibana、Logstash、Beats 的 ELK(Elastic Stack) 还被广泛使用在大数据近实时分析的领域,包括了日志分析、指标监控、信息安全等多个领域,它可以帮助你探索海量的、结构化的、非结构化的数据,按需创建是可视化报表,对监控数据设置报警阀值。

3、Elasticsearch 5、6、7版本特性史

V5.x

  • Lucene 6.x,
  • 性能提升,默认打分机制从 TF-IDF 改为 BM 25
  • 支持 Ingest 节点、 Completion suggested 、Java REST 客户端
  • Type 标记成 deprecated,支持了 Keyword 的类型
  • 性能优化
    • 减少了内部争竞争,防止对同一文档进行并发更新的竞争以及在同步事务日志时减少了锁定要求,索引吞吐量已得到了极大的提高
    • Instant Aggregations,在 Shard 层面提供了 Aggregation 缓存
    • 新增了 Profile API

V6.x

  • Lucene 7.x
  • Removal of types,在 6.0 里面,开始不支持一个 index 里面存在多个 type
  • 跨多个Elasticsearch集群搜索,保留原来的索引在 5.x 群集,跨群集搜索来同时搜索 6.x 和 5.x 群集
  • 跨群集复制(CCR)
  • 更友好的的升级及数据迁移,在主要版本之间的迁移更为简化,体验升级
  • 性能优化
    • 稀疏区域改进,降低了存储成本
    • 通过索引排序,可加快排序的查询性能

V7.x

  • Lucene 8.0
  • 重大改进-正式废除单个索引下多 Type 的支持
  • 7.1开始,Security 功能免费使用
  • ECK,允许用户在 Kubernetes 上配置,管理和操作 Elasticsearch 集群
  • TransportClient 被废弃
    以至于,ES7 的 Java 代码,只能使用 restclient
  • 新功能
    • 新的集群协调
    • 功能更完善的 REST Client
    • Script Score Query,下一代的评分方式
  • 性能优化
    • 默认的 Primary Shard 数从 5 改为 1,避免 Over Sharding
    • 性能优化,更快的 Top K 检索

4、Elasticsearch 基本概念

要了解 Elasticsearch ,首先要先了解下面的几个专有名词,索引(Index)、文档( Document)、类型(Type)

索引(Index)

  • Index 一索引是文档的容器,是一类文档的结合

    • Index 体现了逻辑空间的概念:每个索引都有自己的 Mapping,用于定义包含的文档的字段名和字段类型
    • Shard 体现了物理空间的概念:索引中的数据分散在 Shard 上
  • 索引的 Mapping 与 Settings
    • Mapping 定义文档字段的类型
    • Setting 定义不同的数据分布

定义不同的数据分布

{"movies" : {"settings" : {"index" : {"creation_date" : "1570452552","number_of_shards" : "5","number_of_replicas" : "1","uuid" : "pB0UsxjfQT2fW-s8Uy-Nsg","version" : {"created" : "2030599"}}}}
}

定义文档字段的类型

{"movie": {"mappings": {"doc": {"properties": {"songName": {"type": "text"},"singer": {"type": "text"},"price": {"type": "integer"}}}}}
}

索引有不同语义,在 ES 中指的是在集群中创建的索引(名词),也可以指的是文档到 ES 的过程(动词),即是一次倒排索引的过程。而在其他地方看到索引更多表示 B 树索引或者倒排索引。

文档( Document)

  • Elasticsearch 是面向文档的,文档是所有可搜索数据的最小单位

    • 日志文件中的日志项
    • 一本电影的具体信息
    • 一首歌的详细信息
  • 文档会被序列化成 JSON 格式,保存在 Elasticsearch 中
    • JSON 对象由字段组成,
    • 每个字段都有对应的字段类型(字符串/数值/布尔/日期/二进制/范围类型)
  • 每个文档都有一个 Unique ID
    • 可以自己指定 ID 或者通过 Elasticsearch 自动生成

案例

{"songName" : "说好不哭","singer" : "周杰伦","price" : 3
}

文档的元数据

{"_index" : "song","_type" : "_doc","_id" : "1","_version" : 1,"found" : true,"_source" : {"songName" : "说好不哭","singer" : "周杰伦","price" : 3}
}

  • 元数据,用于标注文档的相关信息

    • _index :文档所属的索引名
    • _type :文档所属的类型名
    • _id :文档唯一 Id
    • _source:文档的原始 JSON 数据
    • _all:整合所有字段内容到该字段,已被废除
    • _version:文档的版本信息
    • _score:相关性打分

类型(Type)

  • 在 7.0 之前,一个 Index 可以设置多个 Types
  • 6.0 开始, Type 已经被 Deprecated。7.0 开始一个索引,只能创建一个 Type -"_doc"。

5、RDBMS VS Elasticsearch

下面是 RDBMS 和 Elasticsearch 一个不是很恰当类比,Elasticsearch 集群可以包含多个索引 Indes(数据库),每一个索引可以包含一个doc类型 Type(表),每一个类型包含多个文档 Document(记录),然后每个文档包含多个字段 Fields(列),DSL 相当于 RDBMS 的 SQL。

6、小结

与传统 SQL 数据库管理系统(其花费10秒钟以上的时间来获取所需的搜索查询数据)相比,Elasticsearch 可以在10毫秒内完成此操作。由于 Elasticsearch 具有分布式架构,因此它可以扩展到数千个服务器并容纳PB级的数据。我们不必管理分布式设计的复杂性,因为 ES 已经自动完成。我们有多种方法可以为一些文档建立索引或查询它们,然而在使用 ES 下,我们可以轻松实现在海量数据快速检索全文,得到我们想要的结果。

无法从elasticsearch节点检索版本信息_【Elasticsearch 7 搜索之路】(一)什么是 Elasticsearch?...相关推荐

  1. macOS下查看Java/JDK的安装目录_查看Java/JDK的版本信息_配置环境变量JAVA_HOME

    文章目录 查看JDK的安装目录 查看系统当前正在使用的 JDK 版本信息 配置环境变量 JAVA_HOME 查看JDK的安装目录 通常情况下,macOS安装JDK,默认是安装在 /Library/Ja ...

  2. python打包加版本信息_使用pyi-set_version为PyInstaller打包出来的程序附加版本信息...

    本文将讲述如何使用 pyi-grab_version获取版本信息的模板文件,以及使用 pyi-set_version为打包好的程序附加版本信息. 当然了,在开始前,需要你已经安装好了 PyInstal ...

  3. sql注入获取mysql版本信息_这可能是最全的SQL注入总结,很有用

    SQL注入原理 当客户端提交的数据未作处理或转义直接带入数据库,就造成了sql注入. 攻击者通过构造不同的sql语句来实现对数据库的任意操作. SQL注入的分类 按变量类型分:数字型和字符型 按HTT ...

  4. 看mysql版本信息_查看mysql 的版本信息

    jquery插件的用法之cookie 插件 一.使用cookie 插件 插件官方网站下载地址:http://plugins.jquery.com/cookie/ cookie 插件的用法比较简单,直接 ...

  5. python获取服务器文件svn版本信息_如何编程获取SVN版本号?

    您可以在命令行上使用"svn info"获取签出的当前修订号. 例如:$ svn info Chemin : . URL : http://.../trunk Racine du ...

  6. Docker-查看镜像仓库中镜像的版本信息

    通过docker安装某个软件时,经常需要选择版本号否则默认安装lastest,docker search 只能查询出docker仓库中是否存在该软件的镜像并不能查看到版本号,如果想要查看某docker ...

  7. linux获取bios版本号,在Windows中获取BIOS版本信息的4种方法 | MOS86

    BIOS,或技术上称为基本输入和输出系统,是计算机中最重要的软件之一.它位于主板上,并管理硬件设备(如处理器,硬盘,图形卡等)之间的所有连接.主板制造商不时会发布BIOS或UEFI(统一可扩展固件接口 ...

  8. ZooKeeper使用get命令无法获取节点版本信息

    问题描述:在项目运行时需要给节点赋值,代码如下: Stat status = zkServer.getZookeeper().setData("/testnode", " ...

  9. 当前主要使用的python版本_如何获取当前使用的Python版本信息?(代码示例)

    本篇文章主要给大家介绍如何获取当前Python版本,希望对需要的朋友有所帮助! 版本信息: 包含版本号的五个组件的元组:major,minor,micro,releaselevel和serial.除r ...

最新文章

  1. Kafka入门教程与详解
  2. criterion java_Java Criterion類代碼示例
  3. 广播变量kyro_Spark简介
  4. JS获取请求URL相关参数
  5. 前端拆分_如何在消费者驱动的合同测试的帮助下拆分前端和后端的部署
  6. 我竟然用git send-mail通过QQ邮箱提交了push request
  7. 最长不下降子序列//序列dp
  8. python小脚本获取抖音直播源的demo
  9. c# gerber文件读取_Gerber文件查看器
  10. C语言——输入输出格式
  11. Java指定屏幕区域截屏
  12. 80psi等于多少kpa_压力单位PSI与kpa换算
  13. 喜报!易基因“同源基因特异性甲基化时序数据分析方法”获专利授权
  14. Linux下安装SVN服务(CentOS7下)单仓库版(老威改良版)
  15. JS复制input内容
  16. 等比矩阵求和-POJ3233
  17. php微信上传头像,微信小程序怎么上传头像
  18. window location href is not a function错误解决
  19. python 三次根号_开3次方根(多次方根)的代码:二分法,python
  20. js实现键盘数字输入

热门文章

  1. Asp.Net完美隐藏服务器信息
  2. 设计模式学习笔记--Flyweight享元模式
  3. 电商订单ElasticSearch同步解决方案--使用logstash
  4. 【报告分享】美好城市指数:短视频与城市繁荣关系白皮书.pdf(附下载链接)...
  5. 《2020信息消费战“疫”案例集》发布 邬贺铨院士作序推荐(附下载连接)
  6. 【报告分享】抖音短视频营销之“梗”的应用(借梗造梗13招).pdf
  7. 鹅厂算法大神干货实录,初赛通关“秘籍”还不赶快来GET!
  8. 追求知识而非光环:CNN之父LeCun的反内卷人生
  9. mysql 每组取一条_MySql分组后随机获取每组一条数据的操作
  10. ctrl+下箭头无法到最底端_设计院10年精选,最常用的CAD命令,绘图牛人都在用...