一、遇到的问题

  与大多数分布式系统一样,Elasticsearch按照一定的Hash规则把用户数据切分成多个分片,然后打散到不同机器进行存储,从而实现大规模数据的分布式存储。

cluster.png

  然而在一些复杂的应用场景中使用Elasticsearch,经常会遇到分片过多引发的一系列问题。起初我们在支撑内部某业务时,单集群内有约1000个子业务,大部分子业务保留31天的数据。如果每个子业务按天滚动建立Index,每个Index 5个分片、一主两从共三副本的情况下,集群内部会有多达45w~个分片。在集群内分片过多时,经常遇到下面这些问题:

  1. 创建分片慢:Elasticsearch创建分片的速度会随着集群内分片数的增加而变慢。以ES 5.5.2版本、3节点集群为例,在默认配置下,当集群分片数超过1w时,创建index的耗时一般在几十秒甚至以上。

  2. 集群易崩溃:在凌晨触发Elasticsearch自动创建Index时,由于创建速度太慢,容易导致大量写入请求堆积在内存,从而压垮集群。

  3. 写入拒绝:分片过多的场景中,如果不能及时掌控业务变化,可能经常遇到单分片记录超限、写入拒绝等问题。

二、解决过程

  1. 拆分集群
  2. 对于存在明显分界线的业务,可以按照业务、地域使用不同集群,这种拆分集群的思路是非常靠谱的。Elasticsearch官方建议使用小而美的集群,避免巨无霸式的集群,我们在实际使用过程中对这一点也深有体会。但对于我们的场景,已经按照地域拆分了集群,且同一地域的子业务间分界线不明显,拆分过多的集群维护成本较高。
  3. 调整滚动周期
  4. 根据保留时长调整index滚动周期是最简单有效的思路。例如保留3天的数据按天滚动,保留31天的数据按周滚动,保留一年的数据按月滚动。合理的滚动周期,可以在存储成本增加不大的情况下,大幅降低分片数量。
  5. 对于我们的场景,大部分数据保留31天,在按周滚动的情况下,集群的总分片数可以下降到6.5w~个。
  6. 合理设置分片数和副本数
  7. 集群内部除个别子业务压力较高外,大部分业务压力较小,合理设置单Index的分片数效果也不错。我们的经验是单个分片的大小在10GB~30GB之间比较合适,对于压力非常小的业务可以直接分配1个分片。其他用户可结合具体场景考虑,同时注意单分片的记录条数不要超过上限2,147,483,519。
  8. 在平衡我们的业务场景对数据可靠性的要求 及 不同副本数对存储成本的开销 两个因素之后,我们选择使用一主一从的副本策略。
  9. 目前我们集群单Index的平均分配数为3,集群的总分片数下降到3w~个。
  10. 分片分配流程优化
  11. 默认情况下,ES在分配分片时会考虑分片relocation对磁盘空间的影响。在分片数较少时,这个优化处理的副作用不明显。但随着单机分片数量的上升,这个优化处理涉及的多层循环嵌套过程耗时愈发明显。可通过cluster.routing.allocation.disk.include_relocations: false关闭此功能,这对磁盘均衡程度影响不明显。
  12. 预创建Index
  13. 对于单集群3w分片的场景,集中在每周某天0点创建Index,对集群的压力还是较大,且存储空间存在波动。考虑到集群的持续扩展能力和可靠性,我们采用预创建方式提前创建分片,并把按Index的创建时间均匀打散到每周的每一天。
  14. 持续调整分片数
  15. 对于集群分片的调整,通常不是一蹴而就的。随着业务的发展,不断新增的子业务 或 原有子业务规模发生突变,都需要持续调整分片数量。
  16. 默认情况下,新增的子业务会有默认的分片数量,如果不足,会在测试阶段及上线初期及时发现。随着业务发展,系统会考虑Index近期的数据量、写入速度、集群规模等因素,动态调整分片数量。

三、后续

  目前,Elasticsearch的分片均衡策略尚有瑕疵,例如:1. 机器的空间利用不是非常均衡,对于此类场景,用户可暂时通过调整机器空间的高低水位线配置触发数据均衡;2. 当集群扩容新节点时,Elasticsearch会把大量新建分片分配到新机器,导致新机器压力过高,目前用户可临时通过index.routing.allocation.total_shards_per_node配置进行限制。

  这是我们后续在分片使用方面的优化工作,通过直接优化分片均衡策略,更优雅的解决上述问题。如果大家有分片使用方面的问题 或 经验,欢迎一起交流讨论!

elasticsearch 分片_Elasticsearch最佳实践之分片使用优化相关推荐

  1. 集群节点数和分片数关系_Elasticsearch最佳实践之分片使用优化

    一.遇到的问题 与大多数分布式系统一样,Elasticsearch按照一定的Hash规则把用户数据切分成多个分片,然后打散到不同机器进行存储,从而实现大规模数据的分布式存储. cluster.png ...

  2. 【Elasticsearch】Elasticsearch日志场景最佳实践

    1.概述 转载:Day 12 - Elasticsearch日志场景最佳实践 相似文章:[Elasticsearch]Elasticsearch 最佳实践系列之分片恢复并发故障 Elasticsear ...

  3. java jpa性能_[Java Performance] 数据库性能最佳实践 - JPA和读写优化

    数据库性能最佳实践 当应用须要连接数据库时.那么应用的性能就可能收到数据库性能的影响. 比方当数据库的I/O能力存在限制,或者因缺失了索引而导致运行的SQL语句须要对整张表进行遍历.对于这些问题.只相 ...

  4. 【 CDN 最佳实践】CDN 命中率优化思路

    CDN 在静态资源的加速场景中是将静态资源缓存在距离客户端较近的CDN 节点上,然后客户端访问该资源即可通过较短的链路直接从缓存中获取资源,而避免再通过较长的链路回源获取静态资源.因此 CDN的缓存命 ...

  5. 【 CDN 最佳实践】CDN 命中率优化思路

    摘要: CDN 在静态资源的加速场景中是将静态资源缓存在距离客户端较近的CDN 节点上,然后客户端访问该资源即可通过较短的链路直接从缓存中获取资源,而避免再通过较长的链路回源获取静态资源.因此 CDN ...

  6. HBase最佳实践-读性能优化策略

    任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题.HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少.总结 ...

  7. unity聚光灯_聚光灯团队最佳实践:碰撞性能优化

    unity聚光灯 On the Spotlight Team, we work with the most ambitious Unity developers to try to push the ...

  8. 跨AZ部署最佳实践之Elasticsearch

    作者:焦振清 跨AZ部署是实现服务高可用较为有效的方法,同时也极具性价比.如果实现了跨AZ部署,不仅可以消除服务中的单点,同时还可以逐步建设如下能力:服务隔离,灰度发布,N+1冗余,可谓一举多得.因此 ...

  9. [转]在 Azure 云服务上设计大规模服务的最佳实践

    本文转自:http://technet.microsoft.com/zh-cn/magazine/jj717232.aspx 英文版:http://msdn.microsoft.com/library ...

最新文章

  1. mysql 速度优化
  2. android studio串号,AndroidStudio使用常见问题集锦
  3. make j4什么意思_为什么天天坚持撸铁 肌肉增长不明显
  4. sql server 视图_SQL Server –具有引用视图的开发实践
  5. 神药克星!读完本文,你的父母将彻底摆脱权健类神药的骗局
  6. org.hibernate.NonUniqueObjectException:
  7. MariaDB安装教程(保姆级)
  8. python如何调用math函数库函数_Python math函数库
  9. 好用的组件Vue Tags Input 输入框标签
  10. nodejs爬虫与python爬虫_Python,Node.js 哪个比较适合写爬虫?
  11. 图像生成论文阅读:GLIDE算法笔记
  12. 在阿里我是如何当面试官的
  13. 从问题描述到电子运转 思维导图 《计算机系统概论》
  14. centos下查看服务器型号命令
  15. IT项目管理小组分工情况
  16. k8s查看pod的yaml文件_k8s yaml文件说明
  17. 每一步详细介绍—在HM中进行CU PU TU划分以及PU最佳预测模式选择
  18. 批处理为win7桌面添加计算机图标,Win7桌面箭头去除工具
  19. 遇到流量攻击怎么办?DDOS防护怎么做
  20. 三菱FX3U与2台台达温控器modbus通讯案例,实现设定温度,设定温度探头型号,读取实际温度

热门文章

  1. echarts 横纵分割线颜色透明度
  2. libcurl远程获取文件大小源码
  3. 傅里叶变换的参考文档
  4. 关于timewait状态
  5. Typedef用法(转载)
  6. js左侧三级菜单导航代码
  7. 关于Bulk加载模式
  8. json_encode 中文不乱码
  9. java 日志框架的选择Log4j-SLF4j-Logback
  10. 项目管理中问题与对策探讨