总结搜索引擎技术的知识归纳,工作中用到过 ES,以此拓展知识面。

文章目录

  • 1 全文检索技术
  • 2 倒排索引
  • 3 ES及其优点
  • 4 ES术语及其概念
  • 5 ES对外提供的接口形式
  • 6 索引
  • 7 映射
  • 8 搜索
  • 9 聚合
  • 10 ES集群管理
  • 11 索引分词器
  • 12 ELK
  • 13 ES可以代替关系型数据库吗?
  • 14 常用的全文检索技术使用场景选择术

1 全文检索技术

  全文搜索指计算机搜索程序通过扫描文章中的每一个词,对每一个词简历索引,
指明该词在文章中出现的次数和位置。当用户查询时,搜索程序就根据事先建
立好的索引行查找,将结果反馈给用户。

2 倒排索引

 什么是倒排索引?由记录(如一个文本内容)确定属性的值,是正常的索引方式。由属性的值确定记录的位置,这种方式叫做倒排索引。倒排索引一般表示为一个关键词,它出现的频度
(即出现的次数)和位置。建立倒排索引是搜索引擎最核心关键的步骤之一。从如下的示例中可以看到,关键字是按照字符顺序排序的。Lucene可用二元搜索算法
(即二叉查找树搜索算法)快速定位关键字。如:有两篇文章文章1:Tom lives in GuangZhou,I live in GuangZhou too.文章2:He once lived in Shanghai.根据关键词建立如下的倒排索引:

3 ES及其优点

 ES是基于Lucene构建的开源,分布式,Restful接口全文搜索引擎。
特点:分布式文档数据库,高可用,高扩展。可以拓展至以百计的服务器存储以及PB级的数据进行搜索;提供复制机制,集群中的某台服务器宕机,集群可正常运作,宕机服务器丢失数据可恢复到其它可用节点;可以在很短的时间内存储,搜索,分析大量的数据。实时搜索场景性能优秀。

4 ES术语及其概念

(1)索引词(term)索引词(term)是一个能够被索引的精确值,可以通过term查询进行准确的搜索。
(2)文本(text)文本是非结构化的文字,会被拆分为一个个的索引词,存储在索引库。
搜索引擎可以根据关键词搜索出原文本。
(3)分析(analysis)分析是将文本转换为索引词的过程,分析的结果依赖于分词器。
(4)集群(cluster)集群由一个或多个节点组成,对外提供索引和搜索服务。一个集群有唯一的名称,
默认为“Elasticsearch”。当多个节点设置相同的集群名称时,它们就会自动加入集群。
集群的名称不能相同,一个节点只能加入一个集群。
(5)节点(node)一个节点是一个逻辑独立的服务,可存储数据并参与集群的索引和搜索功能。
(6)路由(routing)当存储一个文档时,它会存储在唯一的主分片中,具体哪个分片是通过计算散列值进行选择。
(7)分片(shard)分片是单个Lucene实例,索引是指向主分片和副本分片的逻辑空间,比如有十亿个文档无法存储
在一台物理机,ES可将它的索引分解为多个分片进行存储。创建索引时,可以定义你想要的分片数量。
每个分片是一个全功能,独立的单元,可以托管在集群的任何节点。
(8)主分片(primary shard)一个文档首先会存储在主分片中,然后复制到不同的副本中。默认一个索引有5个主分片1个副本分片,
分片数量可以事制定。
(9)副本分片(replica shard)每一个分片有零个或多个副本。副本是主分片的复制。其目的是:增加高可用性;提高性能;
允许水平分割拓展数据。
(10)复制(replica)复制可以对故障进行转移,保证系统的高可用。一个复制分片不会存储在同一个节点中。
还可以提高并发量,搜索可以在所有分片上并行执行。
(11)索引(index)索引是具有相同结构的文档的集合。如:一个客户信息的索引包含一个产品目录的索引,
一个订单数据的索引等。索引名小写,可以通过索引名执行索引,搜索,更新和删除操作。
(12)类型(type)
在索引中可以定义一个或多个类型。类型是索引的逻辑分区。
(13)文档(document)文档是存储在ES中的一个JSON格式的字符串。就像关系型数据库表的一行。
每个存储在索引中的一个文档都有一个类型和一个ID。原始的JSON文档被存储在一个叫_source的字段中,
搜索文档的时候,默认返回的就是这个字段。
(14)映射(mapping)映射像关系型数据库中的表结构,每一个索引都有一个映射,它定义了索引中每一个字段类型,
以及一个索引范围的设置。
(15)字段(field)文档包含零个或多个字段,字段可以是一个简单值或是一个数组或是一个对象的嵌套结构。
字段类似于关系型数据库中表的列,每个字段都对应一个字段类型。(16)来源字段(source field)默认情况下,原始文档将存储在_source字段中,查询返回的就是这个字段。
(17)主键(ID)ID是一个文档的唯一标识,如果存储的时候没有提供ID,系统会自动生成一个ID,文档的index,type,
id必须是唯一的。

5 ES对外提供的接口形式

1.   对外提供Http形式的接口。通过JSON格式和REST约定对外提供。
2.  对于java语言提供友好面向对象操作的API。

6 索引

 索引是具有相同文档结构的集合,ES大部分操作都是基于索引来完成。索引涉及其映射,
索引设置,监控,索引状态和文档操作管理。索引分析:索引分析的过程由分析器完成。分析器由以下3个功能组合完成。
<1>字符过滤器(character filter):它能够过滤转换文本中的一些字符。如去除HTML标记,或者转换“&”为“and”.
<2>分词器(tokenizer):它可以根据空格,逗号,甚至词意将文本字符串划分成一个一个词。
<3>标记过滤器:每个词都会经过它的处理。它可以修改一个词(如将“Hello”转为小写),去掉词
(如去掉连词“and”,“the”等),或增加词(如增加同义词像”jump”和“leap”等。)

7 映射

 映射是定义存储和索引的文档类型以及字段的过程。索引中的每一个文档都有一个类型,
每种类型都有它自己的映射。一个映射定义了文档结构内每个字段的数据类型。映射通过配置来
定义字段类型与该类型相关联的元数据的关系。映射是ES内部结果对外的一个展现方式。

8 搜索

 索引和映射只解决了存储问题,搜索是ES的核心功能。
(1)ES支持丰富的搜索搜索场景:<1>排序(也包含各种聚合计算)<2>各种条件过滤<3>脚本支持(对搜索结果进行计算表达式的支持)
(2)重新评分机制ES搜索单个单词比较快,但是搜索短语是效率比较低。ES提供重新评分机制来提高搜索效率。
(可根据数据搜索热度打分,衰减函数打分,权重打分等策略)
(3)滚动查询ES提供滚动插叙API,解决类似分页查询请求。
(4)功能丰富的DSL(domain-specific language 领域特定语言)支持。如字段查询;复合查询;连接查询;地理查询;跨度查询;高亮显示等。

9 聚合

 聚合是一种基于搜索数据的汇总。聚合分为三大类。
1.度量聚合:在一组文档中对某一个数字型字段进行计算得出指标值。
2.分组聚合。
3.管道聚合:这一类的聚合的数据源是其他聚合的输出,然后进行相关指标的计算。可以完成复杂的嵌套聚合操作。
(1)度量聚合平均值聚合最大值聚合最小值聚合求和聚合统计聚合百分比聚合百分比分级聚合最高命中排行聚合地理边界聚合地理重心聚合(2)分组聚合子聚合直方图聚合日期直方图聚合时间范围聚合范围聚合过滤聚合空值聚合嵌套聚合索引词聚合地理点距离聚合地理散列网格聚合(3)管道聚合平均分组聚合总和分组聚合最大分组聚合最小分组聚合统计分组聚合百分位分组聚合差值聚合

10 ES集群管理

 包含对ES集群节点的监看那个,集群分片的迁移,集群节点的配置,节点发现,集群平衡
位置等。ES利用集群进行水平拓展节点,达到支持处理海量数据的能力。

11 索引分词器

 在ES中,索引分析模块是可以通过注册分词器来进行配置。分词器的作用是当一个文档被索引的时候,
分词器从文档中提取若干词元,来支持索引的存储和搜索。分词器,是由一个分解器,以及零个或多个
词元过滤器组成。常用的有:一元分词StandardAnalyzer、二元分词CJKAnalyzer、基于词库的分
词SmartChineseAnalyzer。

12 ELK

(1)E指的是Elasticsearch。
(2)L指的是Logstash。是一个灵活的开源的数据收集,处理,传输的工具。Logstash可处
理日志事件,非结构化的数据,并把他们输出来,可以把数据输出到ES中去。
(3)K指的是Kibana。是一个开源的数据可视化平台,可以把数据以强大的图形化方式展示出来。在业界把Elasticsearch+Logstash+Kibana简称ELK。组合应用于专门处理日志数据,
存储检索分析日志,展示日志。
[1]组合一(Log4J+FileBeat+ElasticSearch+Kibana)Java端通过Log4J记录日志到文件,FileBeat运行在Java端服务器上监控日志文件的变
化,然后把变化的日志信息直接通过网络发给ElasticSearch保存。这种情况不需LogStash。
[2]组合二(Log4J+FileBeat+LogStash+ElasticSearch+Kibana)Java端通过Log4J记录日志到文件,FileBeat运行在Java端服务器上监控日志文件的变
化,然后把变化的日志信息通过网络发给LogStash,LogStash再通过网络发ElasticSearch保存;Filebeat是Elastic收购的一个产品,收购前和LogStash是竞争关系, Filebeat更轻
量,占用资源更少,但logstash 具有filter功能,能过滤分析日志。因此如果不需要对日志
进行过滤就用组合一,否则就组合二。

13 ES可以代替关系型数据库吗?

1、es没有事务,缺乏访问控制。
2、是近实时的,变更不能立现。
3、一些关系比较复杂的数据用mysql这样的关系数据库用sql很容易实现,但是es就相当的复杂了。
4、成本也比数据库高,几乎靠吃内存提高性能。
5、ES只是一个搜索引擎,适合存储一些(有限的)静态数据。在分布式系统中常用ES作为前端静态数据存储,
最终的数据存储都是在MySQL里面的。并且ES都是更新频率很低的数据,因为ES更新数据会引起整个ES性能低下。

14 常用的全文检索技术使用场景选择术

(1)LuceneLucene是一个全文搜索引擎工具包,提供了完整的查询引擎,索引引擎,和部分文本分析引擎。
是Solr、ES等的底层,提供了数据索引的保存、检索等基础功能,但是没有提供并发写入、网络接口等功能。
因此一般不直接用Lucene开发。
(2)Solr和ES的比较ES是后起之秀,Solr比较成熟;Solr对于“一边加入索引、一边搜索”这种实时搜索,性能比较低;ES对于实时搜索,性能比较好,而且ES做集群更简单;没有特殊理由选择ES;
附录:StackOverFlow关于性能讨论:
http://blog.socialcast.com/realtime-search-solr-vs-elasticsearch
https://stackoverflow.com/questions/10213009/solr-vs-elasticsearch

搜索引擎|全文搜索技术Elasticsearch相关推荐

  1. php多关键词精确查找,搜索引擎,全文搜索_请问有没有搜索引擎能做到Like级别的任意关键词精确查询?,搜索引擎,全文搜索,lucene,elasticsearch,百度 - phpStudy...

    请问有没有搜索引擎能做到Like级别的任意关键词精确查询? 举个例子,对于新闻[http://tech.163.com/15/0323/07/ALCIH40U000915BF.html],在正文中,按 ...

  2. 程序员业务,微信全文搜索技术优化

    一.iOS微信全文搜索技术的现状 全文搜索是使用倒排索引进行搜索的一种搜索方式.倒排索引也称为反向索引,是指对输入的内容中的每个Token建立一个索引,索引中保存了这个Token在内容中的具体位置.全 ...

  3. 微信全文搜索技术优化

    一.iOS 微信全文搜索技术的现状 全文搜索是使用倒排索引进行搜索的一种搜索方式.倒排索引也称为反向索引,是指对输入的内容中的每个Token建立一个索引,索引中保存了这个Token在内容中的具体位置. ...

  4. 全文搜索之 Elasticsearch

    Full-text Search,  全文搜索,  搜索引擎,  Elasticsearch,  Distributed,  Cloud 2014-06-23 概述 Elasticsearch (ES ...

  5. 分布式全文搜索服务Elasticsearch

    1.ElasticSearch简介 1.1 什么是ElasticSearch Elasticsearch,简称为es,是一款开源的高扩展的分布式全文搜索服务,它可以近乎实时的检索数据:本身扩展性很好, ...

  6. 全文搜索技术—Lucene

    1.   内容安排 实现一个文件的搜索功能,通过关键字搜索文件,凡是文件名或文件内容包括关键字的文件都需要找出来.还可以根据中文词语进程查询,并且支持多种条件查询. 本案例中的原始内容就是磁盘上的文件 ...

  7. 全文搜索技术——Lucene

    1.1. 数据分类 数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘 ...

  8. 全文搜索技术 Lucene solr es (二)Solr(7.7.1)

    学习视频地址:https://www.bilibili.com/video/av45567492?from=search&seid=14848044148453483902 本篇博客是基于此学 ...

  9. 集成Elastic Search实现文档的全文搜索功能实战

    技术选型 该领域已被Lucene独占,几乎无竞争对手. 但是直接使用Lucene非常复杂,因此出现了两个组件,一是solr,二是elastic search,elastic search流行度更高,但 ...

最新文章

  1. oracle win10家庭版,Windows10远程报错:由于CredSSP加密Oracle修正(ps:Win10家庭版)
  2. [转] jQuery源码分析-如何做jQuery源码分析
  3. 17. Letter Combinations of a Phone Number 电话号码的字母组合
  4. POJ2236(并查集)
  5. 机械零点、MAM 文件 、 EMT标定原理
  6. python保存所有变量值_如何在当前python会话中保存所有变量?
  7. dabeicun 2013源码下载
  8. RDLC 报表参数、常量及常用表达式的使用方法(上)
  9. Android开发实战二之Hello Android实例
  10. mac 系统下 autoconf 安装
  11. 基于51单片机的音乐盒彩灯频谱喷泉原理图方案设计
  12. EXCEL之画带数据点的折线图只有点没有线
  13. curl: (6) Could not resolve host: www.huobi.me; Unknown error
  14. 2. 工业大数据的特点
  15. 1药网用户暴增500% 声网助力打造高质量视频问诊服务
  16. 四级语法4——定语从句
  17. 音游手台中--EC11编码器的控制[2]
  18. 广州宇信易诚科技有限公司面试题
  19. 解决Windows的无线Wlan网卡消失问题
  20. TrueNorth: Design and Tool Flow of a 65 mW 1 Million Neuron Programmable Neurosynaptic Chip

热门文章

  1. WEB22_Js原生Ajax和Jquery的Ajax
  2. Web安全:常见的安全问题及防范措施
  3. mysql8 之 创建、删除用户和授权、消权操作
  4. 文献RNA-seq复现第2期——sra数据转换、参考基因组及注释信息的准备
  5. 新必应(New Bing)申请教程
  6. 企鹅号发视频技巧视频推荐技巧企鹅号发视频重复,不推荐怎么办呢?
  7. python处理表格数据
  8. Link WAN平台
  9. js控制台输出佛祖保佑图形图案实例代码
  10. 【像黑客一样写博客之九】微博访客