Elasticsearch定义

  • elastic(弹性、灵活)+search(搜索)

  • Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。

    • 支持分布式实时文件存储。
    • 支持将字段值都编入索引,使其可以被搜索。
    • 实时分析的分布式搜索引擎。
    • 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。

  • Elasticsearch 的实现原理主要分为以下几个步骤

    • 用户将数据提交到Elasticsearch 数据库中。

    • es通过分词控制器去将对应的语句分词。(这里如需更高级的策略优化,后期可以替换分词器)。

    • 将其权重和分词结果一并存入数据库。

    • 当用户搜索数据时候,根据权重将结果排名,打分(相关度)。

    • 将返回结果呈现给用户。

  • 有关概念
    • cluster:代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。
      shards:代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
      replicas:代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。
      recovery:代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。
      river:代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
      gateway:代表es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。
      discovery.zen:代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。
      Transport:代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

  • ES重点算法

  • 倒排索引

    • 例如插入几条数据

      • _id可自定义,如果没有定义,会自动生成_id。同时,es内置还会生成一个id。
      • 灵魂拷问:_id可以作为id使用吗?

        {  

            _id:"10001",       

            school_name:"佳木斯第一中学“,

            grade:”一年级“,

            class:”二班“,

            student_name:”张三“,

        }

        {  

            _id:"10002",       

            school_name:"佳木斯第二中学“,

            grade:”一年级“,

            class:”二班“,

            student_name:”李四“,

        }

        {  

            _id:"10003",       

            school_name:"佳木斯第一中学“,

            grade:”一年级“,

            class:”三班“,

            student_name:”王五“,

        }

      • 那么理想倒排索引为:

        school_name

        {              

            "佳木斯第一中学":[1,3],

            "佳木斯第二中学":[2]

        }

        grade

        {

            "一年级":[1,2,3]

        }

        class

        {

            "二班":[1,2],

            "三班":[3]

        }

        student_name

        {

            "张三":[1],

            "李四":[2],

            "王五":[3]

        }

      • 对层级对象如何建立索引?
        • 多层级对象文档

          {

            "gb": {

              "tweet": {

                "properties": {

                  "tweet":            { "type""string" },

                  "user": {

                    "type":             "object",

                    "properties": {

                      "id":           { "type""string" },

                      "gender":       { "type""string" },

                      "age":          { "type""long"   },

                      "name":   {

                        "type":         "object",

                        "properties": {

                          "full":     { "type""string" },

                          "first":    { "type""string" },

                          "last":     { "type""string" }

                        }

                      }

                    }

                  }

                }

              }

            }

          }

          映射为:

          {

              "tweet":            [elasticsearch, flexible, very],

              "user.id":          [@johnsmith],

              "user.gender":      [male],

              "user.age":         [26],

              "user.name.full":   [john, smith],

              "user.name.first":  [john],

              "user.name.last":   [smith]

          }

      • JSON 格式的文档被处理成如下的扁平式键值对的结构。

      • 数组嵌套文档的风险

        {

          "title""Nest eggs",

          "body":  "Making your money work...",

          "tags":  [ "cash""shares" ],

          "comments": [

            {

              "name":    "John Smith",

              "comment""Great article",

              "age":     28,

              "stars":   4,

              "date":    "2014-09-01"

            },

            {

              "name":    "Alice White",

              "comment""More like this please",

              "age":     31,

              "stars":   5,

              "date":    "2014-10-22"

            }

          ]

        }

        如下查询会被搜索出:

        GET /_search

        {

          "query": {

            "bool": {

              "must": [

                "match": { "name""Alice" }},

                "match": { "age":  28      }}

              ]

            }

          }

        }

        解决方案:嵌套对象

  • 字典树

    • Elasticsearch为了能快速找到某个term,将所有的term排个序,生成Term Index,二分法查找term,logN的查找效率。
    • 字典树介绍
    • 不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后,再去磁盘上找term,大大减少了磁盘随机读的次数。
  • Posting List增量压缩

    • Posting list就是一个int的数组,存储了所有符合某个term的文档id。

    • [1,2,3,5,10]==>[1,1,1,2,5]
      • 通过增量,将原来的大数变成小数仅存储增量值,再通过Roaring bitmaps压缩
      • 可以高效联合索引:利用跳表(Skip list)的数据结构快速做“与”运算,或者利用bitset按位“与”
  • 相关度加权

    • 控制相关度(主要应用于多关键词搜索)

    • 当匹配到一组文档后,需要根据相关度排序这些文档,不是所有的文档都包含所有词,有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。
    • 检索词频率
      • 检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。如:检索词 honeymoon 在这个文档的 tweet 字段中的出现次数。
    • 反向文档频率
      • 每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。如:检索词 honeymoon 在索引上所有文档的 tweet 字段中出现的次数。
    • 字段长度准则
      • 字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。如:在这个文档中, tweet 字段内容的长度 -- 内容越长,值越小。

Elasticsearch整理笔记(一)相关推荐

  1. Elasticsearch整理笔记(五)

    es6以上版本需要注意的: 1.elasticsearch-head 在连接6.x以上版本时会报406错误: Content-Type header [application/x-www-form-u ...

  2. Elasticsearch整理笔记(二)

    安装 docker部署 搜索镜像 docker search elasticsearch 查看镜像&运行容器 docker images docker run -d --name es2 -p ...

  3. Elasticsearch整理笔记(四)

    filter组合查询: POST http://localhost:9200/order_server/order/_search { "_source":false," ...

  4. Elasticsearch整理笔记(三)

    部分内容转载于 https://www.cnblogs.com/fengda/p/10348616.html https://blog.csdn.net/ctwy291314/article/deta ...

  5. html css整理笔记,HTML CSS整理笔记 (八) 定位网页元素

    ----8 定位网页元素---- 51.Position属性:指定盒子的位置,相对它父级的位置或它自身应该在的位置. (1)static 默认无定位,元素按照标准文档布局. (2)relative相对 ...

  6. xmpp整理笔记:xmppFramework框架的导入和介绍

    一个将要开发xmpp的项目,建议在项目刚创建就导入框架,这样可以避免一些自己操作失误造成不必要的损失. xmpp中最常用的框架就是 xmppFrameWork 往期回顾: xmpp整理笔记:环境的快速 ...

  7. 开发整理笔记Markdown基本使用

    Mou for Mac 整理笔记方便后期查看及使用 #标题 *无序排列 1.有序排列 引用 插入链接及插入图片: .代码框. 粗体 *斜体 表格如下图,较麻烦: ***分割线

  8. ElasticSearch启动报错curl: (7) Failed connect to 172.19.128.56:9200; 拒绝连接---ElasticSearch工作笔记029

    注意这里如果是在centos7系统中访问: curl http://localhost:9200/ 的时候也会报错,说拒绝连接,那么这个时候,就可能是 ElasticSearch工作笔记028 中说的 ...

  9. Vanishing Point Detection 消影点/消失点/灭点检测代码学习整理笔记

    VanishingPointDetection 代码学习整理 main.cpp VPDetection.h VPDetection.cpp run() getVPHypVia2Lines getSph ...

最新文章

  1. map和reduce
  2. 布式缓存系统Memcached简介与实践
  3. xp系统连接服务器工具,xp系统远程连接服务器
  4. 电脑技巧:如何更改Win10桌面文件路径,轻松给系统盘瘦身!
  5. unix系统mysql卸载教程_Linux操作系统下MySQL的卸载、安装全过程
  6. sql语句优化总结 mysql_MySQL-SQL优化总结
  7. 深入理解Android View(转)
  8. 局域网限制网速软件_大文件传输工具,比微信、QQ文件传输还好用的传输软件,关键还不限速!...
  9. Python中遍历指定目录
  10. Java自动跳转到debug模式的解决方法
  11. 对信号函数sigaction的sa_mask的学习
  12. Theine for Mac(电脑休眠工具)
  13. Java线程的5种状态及切换(透彻讲解)-京东面试
  14. 2021年全国水体分布(按省、市、县)矢量数据的制作与分享
  15. 如何用两个栈模拟实现一个队列
  16. 编译原理-语法分析详解
  17. EXCEL高版本求解分布、临界值表→正态分布、正态分位数、X方、F分布、t分布
  18. 如何将word转换成pdf?超实用的使用教程免费分享
  19. bzoj 4134: ljw和lzr的hack比赛 sg函数+字典树合并
  20. python查看mac的usb信息_Python实现的读取电脑硬件信息功能示例

热门文章

  1. 4g通信模块怎么连接sim卡_4G通信模块在ARM平台下的应用
  2. win10系统更新在哪_一键关闭win10系统更新,一款不错的小工具
  3. 一个大胖鲸-Docker(1)
  4. 【训练过程】1) Create Training File(创建训练文件)
  5. 压缩版styleGAN(Mobile StyleGAN)参数更少、计算复杂度更低
  6. 在新版本caffe里添加新的一层(向旧格式中加)
  7. phpcmsV9留言插件提交后返回上一页实现方法
  8. matlab中结果为nan,这么简单的程序,为什么结果为NaN呢?
  9. ios 渐变透明背景_15张案例,告诉你PPT背景的处理套路
  10. php break 用法,PHP break语句