ElasticSearch 2 (38) - 信息聚合系列之结束与思考

摘要

版本

elasticsearch版本: elasticsearch-2.x

内容

本小节涵盖了许多基本理论以及很多深入的技术问题。聚合给 Elasticsearch 带来了难以言喻的强大能力和灵活性。桶与度量的嵌套能力,基数与百分位数的快速估算能力,定位信息中统计异常的能力,所有的这些都在近乎实时的情况下操作的,而且全文搜索是并行的,它们改变了很多组织和企业的游戏规则。

事情通常是一旦我们开始使用它,我们就能找到很多其他的可用场景。实时报表与分析对于很多组织来说都是核心功能(它远不止商业智能或服务器日志那么简单)。

能力越大责任也越大,对于 Elasticsearch 就是意味着内存适当的管理。在 Elasticsearch 中 内存通常是个限制因素,特别是那些高度使用聚合的节点。因为聚合数据都被加载到 fielddata 中,这是一个内存数据结构,所以对内存使用的高效管理至关重要。

内存的管理形式可以有多种形式,这取决于我们特定的应用场景:

  • 在数据层,确保合理的 analyze(或 not_analyze)分析数据从而友好的利用内存。
  • 在索引时,对于内容很多的字段使用磁盘存储文档而不是内存里的 fielddata。
  • 在搜索时,合理利用近似聚合和数据过滤。
  • 在节点层,设置硬内存大小以及动态的断熔限制。
  • 在操作层,监控内存使用情况并控制缓慢的内存回收周期,可以给集群增加更多节点。

大多数实施会应用到以上一种或几种方法。确切的组合方式与我们特定的系统环境高度相关。有些组织需要强劲的响应能力所以只是简单地选择增加更多节点。有的组织受限于预算,会选择使用文档值和近似聚合。

无论采取何种方式,对于现有的选择进行评估十分重要,并同时创建短期和长期计划。先决定当前内存的使用情况和需要做的事情(如果有),再决定未来六个月到一年数据会如何增长,使用何种方式来扩展?

最好在建立集群之前就计划好这些内容,而不是在我们集群堆内存使用 90% 的时候再临时抱佛脚。

参考

elastic.co:
Closing Thoughts

ElasticSearch 2 (38) - 信息聚合系列之结束与思考相关推荐

  1. ElasticSearch 2 (37) - 信息聚合系列之内存与延时

    ElasticSearch 2 (37) - 信息聚合系列之内存与延时 摘要 控制内存使用与延时 版本 elasticsearch版本: elasticsearch-2.x 内容 Fielddata ...

  2. ElasticSearch 2 (27) - 信息聚合系列之故事开始

    ElasticSearch 2 (27) - 信息聚合系列之故事开始 摘要 到目前为止,本书都在着重介绍搜索.对于搜索,我们有查询条件以及与查找到与条件匹配的集合.这个过程就和如大海捞针一样. 对于聚 ...

  3. ElasticSearch 2 (34) - 信息聚合系列之多值排序

    ElasticSearch 2 (34) - 信息聚合系列之多值排序 摘要 多值桶(terms.histogram 和 date_histogram)动态生成很多桶,Elasticsearch 是如何 ...

  4. ElasticSearch 2 (36) - 信息聚合系列之显著项

    ElasticSearch 2 (36) - 信息聚合系列之显著项 摘要 significant_terms(SigTerms)聚合与其他聚合都不相同.目前为止我们看到的所有聚合在本质上都是简单的数学 ...

  5. ElasticSearch 2 (21) - 语言处理系列之单词识别

    ElasticSearch 2 (21) - 语言处理系列之单词识别 摘要 一个英语单词相对容易识别:因为英语单词是被空格或(某些)标点符号隔开的.但在英语中也有反例:you're 这个词是一个单词还 ...

  6. 【ElasticSearch从入门到放弃系列 零】ElasticSearch看这一篇就够了

    大数据时代系统和业务每分每秒都产生成千上万的数据,其存储一定是不能通过关系型数据库了,当然因为数据的持久性也不能存储到内存型Nosql数据库Redis中,我们通常会将这些数据存储在能够不丢失数据的非关 ...

  7. ElasticSearch 2 (26) - 语言处理系列之打字或拼写错误

    ElasticSearch 2 (26) - 语言处理系列之打字或拼写错误 摘要 我们喜欢在对结构化数据(如:日期和价格)做查询时,结果只返回那些能精确匹配的文档.但是,好的全文搜索不应该有这样的限制 ...

  8. ElasticSearch 2 (20) - 语言处理系列之如何开始

    ElasticSearch 2 (20) - 语言处理系列之如何开始 摘要 Elasticsearch 配备了一组语言分析器,为世界上大多数常见的语言提供良好的现成基础支持. 阿拉伯语.亚美尼亚语,巴 ...

  9. ElasticSearch 2 (16) - 深入搜索系列之近似度匹配

    ElasticSearch 2 (16) - 深入搜索系列之近似度匹配 摘要 标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的 ...

最新文章

  1. 毫米波雷达分类和技术方案
  2. Selenium提取数据之标签对象提取文本内容和属性值
  3. iOS 11开发教程(十三)iOS11应用编辑界面添加视图
  4. ***测试之情报收集
  5. WebHttpBinding的流传输模式让我头大了
  6. bean找不到报空指针_为什么C指针可以实现函数间的通信呢?
  7. IIS-ShortName-Scanner使用
  8. Struts2中jsp前台传值到action后台的三种方式以及valueStack的使用
  9. oracle 时间间隔,ORACLE JOB间隔时间参考
  10. crmeb pc端模板下载_PC端人人影视下载速度如何提高
  11. CStdioFile写文件中出现的问题
  12. 坦克世界无法连接服务器未响应,打开坦克世界提示网络异常或者连接不上
  13. 一些抄来的冷知识...
  14. pdf照片显示正常打印时被翻转_2020年上海二级建造师准考证打印常见问题
  15. 年薪五万程序员的生活及他的理财梦
  16. 剑指 Offer II 017. 含有所有字符的最短字符串
  17. CSS综合案例——淘宝轮播图/焦点图布局的制作
  18. 8.抓取西刺网站(代理ip网站)
  19. 计算机美化照片教案,电子相册尝试做教案[大全5篇]
  20. python3使用付费代理和ip池的维护

热门文章

  1. 【pyQuery】抓取startup news首页
  2. 设计模式学习笔记清单
  3. java版b2b2c社交电商spring cloud分布式微服务(五)springboot整合 beatlsql
  4. 【跃迁之路】【733天】程序员高效学习方法论探索系列(实验阶段490-2019.2.23)...
  5. 华昊中天获国投创业等机构数亿元投资,专注抗肿瘤小分子化学药物研发...
  6. Spring中ClassPathXmlApplicationContext类的简单使用
  7. 【转】Struts2中转换Date类型的问题
  8. mysql双主使用reset master清除日志要小心
  9. Oracle Dataguard HA (主备,灾备)方案部署调试
  10. [java]The String Pool