1、引言

本系列文章介绍如何修复 Elasticsearch 集群的常见错误和问题。

这是系列文章的第四篇,主要探讨:Elasticsearch JVM 堆内存使用率飙升,怎么办?

第一篇:Elasticsearch 磁盘使用率超过警戒水位线,怎么办?

第二篇:Elasitcsearch CPU 使用率突然飙升,怎么办?

第三篇:Elasticsearch 断路器报错,怎么办?

2、症状:高 JVM 内存使用率

高 JVM 内存使用率会降低集群性能并触发断路器错误(导致内存熔断)。

为了防止这种情况发生,如果节点的 JVM 内存使用率持续超过 85%,官方建议采取措施降低内存压力。

3、诊断 JVM 内存压力

3.1 检查 JVM 内存使用情况

借助:node stats API 进行排查。

GET _nodes/stats?filter_path=nodes.*.jvm.mem.pools.old

召回结果如下:

{
"nodes" : {
"J2-fr3wzSqqJk9cwoi2urw" : {
"jvm" : {
"mem" : {
"pools" : {
"old" : {
"used_in_bytes" : 179796016,
"max_in_bytes" : 1798569984,
"peak_used_in_bytes" : 179796016,
"peak_max_in_bytes" : 1798569984
}
}
}
}
}
}
}

堆内存使用率为:used_in_bytes / max_in_bytes = 179796016/ 1798569984 = 9.99 6%,接近 10%。

能和 kibana 可视化监控结果保持一致:

3.2 垃圾回收日志检查

随着内存使用量的增加,垃圾收集变得更加频繁并且需要更长的时间。

你可以在 elasticsearch.log 中跟踪垃圾收集事件的频率和时长。

例如,以下事件表明 Elasticsearch 在过去 40 秒中花费了超过 50%(21 秒)执行垃圾收集。

[timestamp_short_interval_from_last][INFO ][o.e.m.j.JvmGcMonitorService] [node_id] [gc][number] overhead, spent [21s] collecting in the last [40s]

推荐阅读:你看懂 Elasticsearch Log 中的 GC 日志了吗?

https://elasticsearch.cn/article/812

4、降低JVM 堆内存使用率方案

4.1 减少分片数

关于分片的几点认知:

第一:搜索请求是以分片为单位发起的。

至少 7.16 版本之前是,如下图示更能说明问题。

https://www.elastic.co/cn/blog/three-ways-improved-elasticsearch-scalability

这暗示了什么?

必然是:分片越多,检索越慢。

因为:跨大量分片的搜索可能会耗尽节点的搜索线程池,这可能导致吞吐量低和搜索速度慢。

第二:每个索引和分片都有内存和 CPU 开销。

每个索引和每个分片都需要一些内存和 CPU 资源。

在大多数情况下,一小组大分片比许多小分片使用更少的资源。

为什么呢?解释一下:

  • 分片的底层是 Lucene 分段。

  • 段的元数据会保留在 JVM 堆内存中,以便快速检索。

  • 分片越多,意味着分段会越多,进而分段元数据会越多,JVM 堆内存使用率会越高。反之,则相反。

第三:Elasticsearch 会在相同角色的节点间平衡分片。

节点角色划分是 7.x 高版本新的节点定义方式,其目的是:节点用途更明确。

当添加新节点或某节点出故障时,Elasticsearch 会自动在相同角色层的剩余节点之间重新平衡索引的分片。


关于减少分片数,更确切的是如何合理规划分片,官方建议如下:

  • 第一:尽量避免 delete_by_query 删除文档,更好的方案是直接删除索引。

Elasticsearch 中为什么会有大量文档插入后变成 deleted?

  • 第二:使用 datastrem 和 ILM 索引生命周期管理管理时序数据。

Elasticsearch 7.X data stream 深入详解

干货 | Elasticsearch 索引生命周期管理 ILM 实战指南

  • 第三:分片大小控制在 10GB-50GB。

另有 30GB-50GB一说,下文有过讨论:

Elasticsearch究竟要设置多少分片数?

  • 第四:控制在每 GB 堆内存 20 个分片以内。

也就是说:具有 30GB 堆内存的节点最多应该有 600 个分片。

  • 第五:避免单个节点分片过多、负载过重。

如果单个节点包含太多分片,且索引量很大,则该节点可能会出现问题。

可以使用如下命令行加以控制:

PUT my_index_001/_settings
{
"index": {
"routing.allocation.total_shards_per_node": 5
}
}

更多实践推荐阅读:

https://www.elastic.co/guide/en/elasticsearch/reference/current/size-your-shards.html

4.2 避免复杂检索

复杂搜索会占用大量的内存空间。建议启用:慢日志进行排查。

导致内存使用率飙升的复杂查询,通常具备如下的特点:

  • size 召回值设置的巨大;

  • 包含分桶值很大的聚合操作或者聚合嵌套很深;

  • 包含极其耗费资源的查询,举例:script 查询、fuzzy 查询、regexp 查询、prefix 查询、wildcard 查询、text 或 keyword 上的 range 查询。

为避免复杂查询,常规措施如下:

  • 限制:index.max_result_window 的大小。

PUT _settings
{"index.max_result_window": 5000
}
  • 设置 search.max_buckets cluster 以限制分桶值大小。

PUT _cluster/settings
{"persistent": {"search.max_buckets": 20000,}
}
  • 设置 search.allow_expensive_queries 直接禁用耗费资源的查询。

PUT _cluster/settings
{"persistent": {"search.allow_expensive_queries": false}
}

4.3 避免 Mapping “爆炸”

定义过多的字段或嵌套过深的字段会导致使用大量内存,出现“Mapping 爆炸" 现象。

为防止“Mapping 爆炸“,使用映射限制设置来限制字段映射的数量。

PUT my_index_001/_settings
{
"index.mapping.total_fields.limit": 100
}

更多类似参数,推荐阅读:

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-settings-limit.html

4.4 分散批量请求

批量请求虽然比单个请求更有效,但大批量写入(以 bulk 操作为代表)或多搜索请求(以 _msearch 为代表)仍然会产生较高的 JVM 内存压力。

如果可能,提交较小(小是个相对值,需要根据集群性能测算出适合自己集群的经验值)的请求并在它们之间留出更多时间时隔。

4.5 升级节点内存

繁重的写入操作和搜索负载过重均会导致高 JVM 内存压力。

为了更好地处理繁重的工作负载,在其他方法都不灵的情况下,可以考虑通过为节点内存扩容以达到升级节点目的。

这是无法之法,这是万能之法。

5、小结

多了解导致 JVM 飙升的操作,业务开发方面及早避免和规避相关操作,做好前置规划和布局很关键。

做好监控和核心指标的预警工作,“防患于未然”。

你的实际业务场景有没有遇到类似问题,你是怎么解决和避免的?欢迎留言讨论。

参考

1.  https://www.elastic.co/guide/en/elasticsearch/reference/current/fix-common-cluster-issues.html

2. https://www.elastic.co/guide/en/elasticsearch/reference/current/size-your-shards.html

推荐

1、重磅 | 死磕 Elasticsearch 方法论认知清单(2021年国庆更新版)

2、Elasticsearch 7.X 进阶实战私训课(口碑不错)

3、如何系统的学习 Elasticsearch ?

更短时间更快习得更多干货!

和全球近 1600+ Elastic 爱好者一起精进!

比同事抢先一步学习进阶干货!

Elasticsearch JVM 堆内存使用率飙升,怎么办?相关推荐

  1. java 堆内存使用情况_java语言:JVM堆内存使用率持续上升如何排查

    最近新版本发布后,在运行一段时间后程序突然无响应了,观察监控,发现JVM堆内存占用在某个时间点突然飙升,最终导致应用无响,希望对大家学习java语言有所帮助. 重启Tomcat后,应用恢复正常,并且后 ...

  2. JVM 堆内存设置原理

    堆内存设置 原理 JVM堆内存分为2块:Permanent Space 和 Heap Space. Permanent 即 持久代(Permanent Generation),主要存放的是Java类定 ...

  3. JVM堆内存(heap)详解

    很好的一篇文章,转载了http://blog.51cto.com/lizhenliang/2164876?wx= JAVA堆内存管理是影响性能主要因素之一. 堆内存溢出是JAVA项目非常常见的故障,在 ...

  4. JVM堆内存与非堆内存(heap)官方详解

    JVM堆内存与非堆内存(heap)官方详解 JAVA堆内存管理是影响性能主要因素之一. 堆内存溢出是JAVA项目非常常见的故障,在解决该问题之前,必须先了解下JAVA堆内存是怎么工作的. 先看下JAV ...

  5. Java程序堆内存使用率很高的一般分析思路

    当Java程序中堆内存使用率一直很高,且不下降时,如何定位是那一段程序出现了问题? 1 Demo程序 程序的主要思路就是,每发送一次请求,就会往ConcurrentHashMap中put一个value ...

  6. JVM堆内存(新生代,老年代,Xms,Xmx)学习整理

    JVM堆内存 jvm堆内存主要分为新生代和老年代,当垃圾收集器触发GC的时候会对堆内存长时间没用的对象分代进行回收,新生代和老年代内存占比为1:2. 文章目录 JVM堆内存 新生代 1.Eden区 2 ...

  7. JVM堆内存释放不及时问题

    线上问题: 1.线上每天定时读取文件(大文件)成MAP,并加载入库,当执行完最后一批 批量提交sql 时,JVM堆内存没释放: 2.因为加了以下堆内存检测,所以,下一次处理文件时,发起不了新的线程处理 ...

  8. JVM堆内存介绍、垃圾收集算法、垃圾回收器汇总

    目录 1. JAVA堆内存是如何划分的 1.1 为什么移除永久代? 1.2 分代概念 1.3 为什么分代? 1.4 为什么survivor分为两块相等大小的幸存空间? 1.5 JVM堆内存常用参数 2 ...

  9. JVM堆内存与垃圾收集器

    3.1 谈谈Java中不同的引用类型? Java里有不同的引用类型,分别是强引用.软引用.弱引用和虚引用; 强引用:Object object = new Object();即使内存溢出了也不会回收这 ...

最新文章

  1. SAP ECM的相关设定(ECN)
  2. 一个动作让全球震惊!百度Apollo就这样改写了全球智能驾驶格局
  3. cad细等线体不显示_CAD打印文字不显示?很多人不知道这个知识点!
  4. 利用反射,实现动态调用winform窗体
  5. 3G助推智慧医疗 看病将更加“智能化”
  6. clover 在win10下工作不正常
  7. 李建中黑大计算机学院院长,向您致敬 | 我校开展教师节走访慰问活动
  8. openstack ha 部署
  9. php- osc,pt-osc使用一则
  10. 浏阳市大瑶计算机学校,2021年湖南长沙浏阳市重点小学排名学校一览
  11. Class 学习 (Es6阮一峰)
  12. aamp;m大学计算机科学,斑马博士捷报|德克萨斯AM大学 (TAMU) MSc Computer Science录取!...
  13. GDT(全居描述符表)和LDT(局部描述符表)
  14. 使用 NumPy 来模拟随机游走(Random Walk)
  15. 工信部总工程师:建设网络强国振兴实体经济
  16. IE8 松散耦合进程框架(Loosely-Coupled IE (LCIE)--特性介绍
  17. [trustzone]-ARM trustzone的安全扩展介绍-一篇就够了
  18. R语言与临床模型预测——LASSO回归,单因素多因素cox,差异表达分析,Venn图,森林图,列线图,矫正曲线,ROC全套代码及解析——第十三部分 校准曲线 本专栏可免费答疑
  19. 动画人3D建模的二选一:C4D 还是 3D MAX?
  20. 湖北省经信委与用友建设工业云平台

热门文章

  1. 使用c++SFML制作月圆之夜总集篇
  2. 光环国际PMP:逗乐~项目经理感言
  3. D-Link DES-1252 网管型52口交换机固件升级
  4. 基于PLC的自动配料控制系统设计,PLC自动控制论文(本科自动化专业论文)
  5. windows修改ntp服务器端口,windows ntp 服务器 端口号
  6. 关于爱情的四个寓言故事
  7. vim php 关键词高亮,vim的高亮查找操作
  8. 第18章_MySQL8其它新特性
  9. 微信聊天记录转移方法(C盘空间满)
  10. css3实现一个闪电效果