Elasticsearch整理笔记（一）

Elasticsearch定义

elastic(弹性、灵活）+search（搜索）
Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。
- 支持分布式实时文件存储。
- 支持将字段值都编入索引，使其可以被搜索。
- 实时分析的分布式搜索引擎。
- 可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。
Elasticsearch 的实现原理主要分为以下几个步骤
- 用户将数据提交到Elasticsearch 数据库中。
- es通过分词控制器去将对应的语句分词。（这里如需更高级的策略优化，后期可以替换分词器）。
- 将其权重和分词结果一并存入数据库。
- 当用户搜索数据时候，根据权重将结果排名，打分（相关度）。
- 将返回结果呈现给用户。
有关概念
- cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。
  shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。
  replicas：代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。
  recovery：代表数据恢复或叫数据重新分布，es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。
  river：代表es的一个数据源，也是其它存储方式（如：数据库）同步数据到es的一个方法。它是以插件方式存在的一个es服务，通过读取river中的数据并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。
  gateway：代表es索引快照的存储方式，es默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储，当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway，有本地文件系统（默认），分布式文件系统，Hadoop的HDFS和amazon的s3云存储服务。
  discovery.zen：代表es的自动发现节点机制，es是一个基于p2p的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。
  Transport：代表es内部节点或集群与客户端的交互方式，默认内部是使用tcp协议进行交互，同时它支持http协议（json格式）、thrift、servlet、memcached、zeroMQ等的传输协议（通过插件方式集成）。
ES重点算法

倒排索引

例如插入几条数据

_id可自定义，如果没有定义，会自动生成_id。同时，es内置还会生成一个id。

灵魂拷问：_id可以作为id使用吗？

{

_id:"10001",

school_name:"佳木斯第一中学“,

grade:”一年级“,

class:”二班“,

student_name:”张三“,

}

{

_id:"10002",

school_name:"佳木斯第二中学“,

grade:”一年级“,

class:”二班“,

student_name:”李四“,

}

{

_id:"10003",

school_name:"佳木斯第一中学“,

grade:”一年级“,

class:”三班“,

student_name:”王五“,

}

那么理想倒排索引为：

school_name

{

"佳木斯第一中学":[1,3],

"佳木斯第二中学":[2]

}

grade

{

"一年级":[1,2,3]

}

class

{

"二班":[1,2],

"三班":[3]

}

student_name

{

"张三":[1],

"李四":[2],

"王五":[3]

}

对层级对象如何建立索引？

多层级对象文档

{

"gb": {

"tweet": {

"properties": {

"tweet": { "type": "string" },

"user": {

"type": "object",

"properties": {

"id": { "type": "string" },

"gender": { "type": "string" },

"age": { "type": "long" },

"name": {

"type": "object",

"properties": {

"full": { "type": "string" },

"first": { "type": "string" },

"last": { "type": "string" }

}

映射为：

{

"tweet": [elasticsearch, flexible, very],

"user.id": [@johnsmith],

"user.gender": [male],

"user.age": [26],

"user.name.full": [john, smith],

"user.name.first": [john],

"user.name.last": [smith]

}

JSON 格式的文档被处理成如下的扁平式键值对的结构。

数组嵌套文档的风险

{

"title": "Nest eggs",

"body": "Making your money work...",

"tags": [ "cash", "shares" ],

"comments": [

{

"name": "John Smith",

"comment": "Great article",

"age": 28,

"stars": 4,

"date": "2014-09-01"

},

{

"name": "Alice White",

"comment": "More like this please",

"age": 31,

"stars": 5,

"date": "2014-10-22"

}

]

}

如下查询会被搜索出：

GET /_search

{

"query": {

"bool": {

"must": [

{ "match": { "name": "Alice" }},

{ "match": { "age": 28 }}

]

}

解决方案：嵌套对象

字典树
- Elasticsearch为了能快速找到某个term，将所有的term排个序，生成Term Index，二分法查找term，logN的查找效率。
- 字典树介绍
- 不需要存下所有的term，而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系，再结合FST(Finite State Transducers)的压缩技术，可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后，再去磁盘上找term，大大减少了磁盘随机读的次数。
Posting List增量压缩
- Posting list就是一个int的数组，存储了所有符合某个term的文档id。
- [1,2,3,5,10]==>[1,1,1,2,5]
  - 通过增量，将原来的大数变成小数仅存储增量值，再通过Roaring bitmaps压缩
  - 可以高效联合索引：利用跳表(Skip list)的数据结构快速做“与”运算，或者利用bitset按位“与”
相关度加权
- 控制相关度（主要应用于多关键词搜索）
- 当匹配到一组文档后，需要根据相关度排序这些文档，不是所有的文档都包含所有词，有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。
- 检索词频率
  - 检索词在该字段出现的频率？出现频率越高，相关性也越高。字段中出现过 5 次要比只出现过 1 次的相关性高。如：检索词 honeymoon 在这个文档的 tweet 字段中的出现次数。
- 反向文档频率
  - 每个检索词在索引中出现的频率？频率越高，相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。如：检索词 honeymoon 在索引上所有文档的 tweet 字段中出现的次数。
- 字段长度准则
  - 字段的长度是多少？长度越长，相关性越低。检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。如：在这个文档中， tweet 字段内容的长度 -- 内容越长，值越小。