多线程使用不当导致的 OOM
欢迎关注方志朋的博客,回复”666“获面试宝典
事故描述
从 6 点 32 分开始少量用户访问 App 时会出现首页访问异常,到 7 点 20 分首页服务大规模不可用,7 点 36 分问题解决。
整体经过
6:58 发现报警,同时发现群里反馈首页出现网络繁忙,考虑到前几日晚上门店列表服务上线发布过,所以考虑回滚代码紧急处理问题。
7:07 开始先后联系 XXX 查看解决问题。
7:36 代码回滚完,服务恢复正常。
事故根本原因
事故代码模拟:
public static void test() throws InterruptedException, ExecutionException {Executor executor = Executors.newFixedThreadPool(3);CompletionService<String> service = new ExecutorCompletionService<>(executor);service.submit(new Callable<String>() {@Overridepublic String call() throws Exception {return "HelloWorld--" + Thread.currentThread().getName();}});
}
根源就在于 ExecutorCompletionService
结果没调用take、poll方法。
正确的写法如下所示:
public static void test() throws InterruptedException, ExecutionException {Executor executor = Executors.newFixedThreadPool(3);CompletionService<String> service = new ExecutorCompletionService<>(executor);service.submit(new Callable<String>() {@Overridepublic String call() throws Exception {return "HelloWorld--" + Thread.currentThread().getName();}});service.take().get();
}
一行代码引发的血案,而且不容易被发现。因为 OOM 是一个内存缓慢增长的过程,稍微粗心大意就会忽略。如果是这个代码块的调用量少的话,很可能几天甚至几个月后暴雷。
操作人回滚或者重启服务器确实是最快的方式。但是如果不是事后快速分析出 OOM 的代码,而且不巧回滚的版本也是带 OOM 代码的,就比较悲催了。如刚才所说,流量小了、回滚或者重启都可以释放内存;但是流量大的情况下,除非回滚到正常的版本,否则 GG。
探寻问题根源
为了更好的理解 ExecutorCompletionService
的 “套路”,我们用 ExecutorService
来作为对比,可以让我们更好地清楚什么场景下用 ExecutorCompletionService
。
先看 ExecutorService
代码(建议下载后自己跑一跑)
public static void test1() throws Exception{ExecutorService executorService = Executors.newCachedThreadPool();ArrayList<Future<String>> futureArrayList = new ArrayList<>();System.out.println("公司让你通知大家聚餐 你开车去接人");Future<String> future10 = executorService.submit(() -> {System.out.println("总裁:我在家上大号 我最近拉肚子比较慢 要蹲1个小时才能出来 你等会来接我吧");TimeUnit.SECONDS.sleep(10);System.out.println("总裁:1小时了 我上完大号了。你来接吧");return "总裁上完大号了";});futureArrayList.add(future10);Future<String> future3 = executorService.submit(() -> {System.out.println("研发:我在家上大号 我比较快 要蹲3分钟就可以出来 你等会来接我吧");TimeUnit.SECONDS.sleep(3);System.out.println("研发:3分钟 我上完大号了。你来接吧");return "研发上完大号了";});futureArrayList.add(future3);Future<String> future6 = executorService.submit(() -> {System.out.println("中层管理:我在家上大号 要蹲10分钟就可以出来 你等会来接我吧");TimeUnit.SECONDS.sleep(6);System.out.println("中层管理:10分钟 我上完大号了。你来接吧");return "中层管理上完大号了";});futureArrayList.add(future6);TimeUnit.SECONDS.sleep(1);System.out.println("都通知完了,等着接吧。");try {for (Future<String> future : futureArrayList) {String returnStr = future.get();System.out.println(returnStr + ",你去接他");}Thread.currentThread().join();} catch (Exception e) {e.printStackTrace();}
}
三个任务,每个任务执行时间分别是 10s、3s、6s 。通过 JDK 线程池的 submit 提交这三个 Callable 类型的任务。
第一步:主线程把三个任务提交到线程池里面去,把对应返回的 Future 放到 List 里面存起来,然后执行“都通知完了,等着接吧。”这行输出语句;
第二步:在循环里面执行
future.get()
操作,阻塞等待。
最后结果如下:
先通知到总裁,也是先接总裁 足足等了 1 个小时,接到总裁后再去接研发和中层管理,尽管他们早就完事儿了,也得等总裁上完厕所~~
耗时最久的-10s 异步任务最先进入 list 执行。所以在循环过程中获取这个 10 s的任务结果的时候,get 操作会一直阻塞,直到 10s 异步任务执行完毕。即使 3s、5s 的任务早就执行完了也得阻塞,等待 10s 任务执行完。
看到这里,尤其是做网关业务的同学可能会产生共鸣。一般来说,网关 RPC 会调用下游 N 多个接口,如下图:
如果都按照 ExecutorService
这种方式,并且恰巧前几个任务调用的接口耗时比较久,同时阻塞等待,那就比较悲催了。所以 ExecutorCompletionService
应景而出。它作为任务线程的合理管控者,“任务规划师”的称号名副其实。
相同场景 ExecutorCompletionService
代码:
public static void test2() throws Exception {ExecutorService executorService = Executors.newCachedThreadPool();ExecutorCompletionService<String> completionService = new ExecutorCompletionService<>(executorService);System.out.println("公司让你通知大家聚餐 你开车去接人");completionService.submit(() -> {System.out.println("总裁:我在家上大号 我最近拉肚子比较慢 要蹲1个小时才能出来 你等会来接我吧");TimeUnit.SECONDS.sleep(10);System.out.println("总裁:1小时了 我上完大号了。你来接吧");return "总裁上完大号了";});completionService.submit(() -> {System.out.println("研发:我在家上大号 我比较快 要蹲3分钟就可以出来 你等会来接我吧");TimeUnit.SECONDS.sleep(3);System.out.println("研发:3分钟 我上完大号了。你来接吧");return "研发上完大号了";});completionService.submit(() -> {System.out.println("中层管理:我在家上大号 要蹲10分钟就可以出来 你等会来接我吧");TimeUnit.SECONDS.sleep(6);System.out.println("中层管理:10分钟 我上完大号了。你来接吧");return "中层管理上完大号了";});TimeUnit.SECONDS.sleep(1);System.out.println("都通知完了,等着接吧。");//提交了3个异步任务)for (int i = 0; i < 3; i++) {String returnStr = completionService.take().get();System.out.println(returnStr + ",你去接他");}Thread.currentThread().join();
}
跑完结果如下:
这次就相对高效了一些。虽然先通知的总裁,但是根据大家上大号的速度,谁先拉完先去接谁,不用等待上大号最久的总裁了(现实生活里建议采用第一种,不等总裁的后果 emmm 哈哈哈)。
放在一起对比下输出结果:
两段代码的差异非常小 获取结果的时候 ExecutorCompletionService
使用了:
completionService.take().get();
为什么要用 take()
然后再 get()
呢?
我们看看源码:
CompletionService
接口以及接口的实现类
1、ExecutorCompletionService
是 CompletionService
接口的实现类
2、接着跟一下 ExecutorCompletionService
的构造方法。
可以看到入参需要传一个线程池对象,默认使用的队列是 LinkedBlockingQueue
,不过还有另外一个构造方法可以指定队列类型,如下两张图,有两个构造方法。默认 LinkedBlockingQueue
的构造方法。
可选队列类型的构造方法:
3、Submit 任务提交的两种方式,都是有返回值的,我们例子中用到的就是第一种 Callable 类型的方法。
4、对比ExecutorService 和 ExecutorCompletionService 的 submit 方法可以看出区别。
5、差异就在 QueueingFuture。
这个到底作用是啥,我们继续跟进去看:
QueueingFuture
继承自FutureTask
,而且红线部分标注的位置,重写了 done() 方法;把 task 放到
completionQueue
队列里面。当任务执行完成后,task 就会被放到队列里面去了;此时此刻,
completionQueue
队列里面的 task 都是已经done()
完成了的 task。而这个 task 就是我们拿到的一个个的 future 结果;如果调用
completionQueue
的 task 方法,会阻塞等待任务。等到的一定是完成了的 future,我们调用.get()
方法 就能立马获得结果。
看到这里,相信大家伙都应该多少明白点了:
我们在使用
ExecutorService submit
提交任务后需要关注每个任务返回的 future。然而CompletionService
对这些 future 进行了追踪,并且重写了 done 方法,让你等的 completionQueue 队列里面一定是完成了的 task;作为网关 RPC 层,我们不用因为某一个接口的响应慢拖累所有的请求,可以在处理最快响应的业务场景里使用
CompletionService
。
但是请注意!也是本次事故的核心问题。
只有调用了 ExecutorCompletionService
下面的 3 个方法的任意一个时,阻塞队列中的 task 执行结果才会从队列中移除掉,释放堆内存。
由于该业务不需要使用任务的返回值,没有调用 take、poll 方法,从而导致没有释放堆内存。堆内存会随着调用量的增加一直增长。
所以,业务场景中不需要使用任务返回值的,别没事儿使用 CompletionService
。假如使用了,记得一定要从阻塞队列中移除掉 task 执行结果,避免 OOM!
总结
知道事故的原因,我们来总结下方法论。毕竟孔子他老人家说过:自省吾身,常思己过,善修其身!
上线前
严格的代码 review 习惯,一定要交给 back 人去看,毕竟自己写的代码自己是看不出问题的,相信每个程序猿都有这个自信;
上线记录:备注好上一个可回滚的包版本(给自己留一个后路);
上线前确认回滚后,业务是否可降级。如果不可降级,一定要严格拉长这次上线的监控周期。
上线后
持续关注内存增长情况(这部分极容易被忽略,大家对内存的重视度不如 CPU 使用率);
持续关注 CPU 使用率增长情况
GC 情况、线程数是否增长、是否有频繁的 Full GC 等;
关注服务性能报警,TP99、999 、MAX 是否出现明显的增高。
来源:juejin.cn/post/7064376361334358046
热门内容:
国内怎么就做不出 JetBrains 那样的产品?
PostgreSQL超越MySQL
面试官:有了 for 循环 为什么还要 forEach ?
领导:谁再用 Redis 过期监听实现关闭订单,立马滚蛋!
最近面试BAT,整理一份面试资料《Java面试BAT通关手册》,覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。
获取方式:点“在看”,关注公众号并回复 666 领取,更多内容陆续奉上。
明天见(。・ω・。)ノ
多线程使用不当导致的 OOM相关推荐
- 同事多线程使用不当导致OOM,被我怼了一顿
点击下方"IT牧场",选择"设为星标" 来源:https://juejin.cn/post/7064376361334358046 # 目录 事故描述 整体经过 ...
- java redis使用卡死_记一次找因 redis 使用不当导致应用卡死 bug 的过程
原标题:记一次找因 redis 使用不当导致应用卡死 bug 的过程 作者:小木 my.oschina.net/xiaomu0082/blog/2990388 首先说下问题现象:内网sandbox环境 ...
- MemoryCache 使用不当导致的一个 BUG
MemoryCache 使用不当导致的一个 BUG Intro 前几天发现代码里的一个 BUG,原因是 MemoryCache 使用不当,可以对于很多人来说可能都知道,但还是想分享记录一下,避免以后写 ...
- fastjson导致的OOM
大家好,我是烤鸭: 今天又遇到OOM了,原因在于 fastjson 的 toJSONString. 这是线上的报错信息. 将这个 TotalLoanDTO 对象 toJSONString 导致的OOM ...
- c# 多线程界面卡顿_多线程同步等候 导致主界面UI卡顿,求解~
多线程同步等待 导致主界面UI卡顿,求解~~~ 描述如下,有N个用户,我执行如下操作逻辑, FOR第一个循环,开 N个线程执行登陆操作,执行完毕后 (线程同步后),执行拨号操作,由于我使用线程同步,导 ...
- RocketMQ 部署不当导致磁盘空间不释放
背景 生产环境采用 RocketMQ 三主三从集群搭建,6 个实例部署在 3 台 Linux 服务器上(节省资源),每台服务器部署一主一从,生产上运行一段时间后,发现磁盘空间报警,发现df与du显示的 ...
- WPF--Dispatcher.BeginInvoke()方法使用不当导致UI界面卡死的原因分析
原文地址: http://www.tuicool.com/articles/F7reem http://blog.csdn.net/yl2isoft/article/details/11711833 ...
- kmalloc使用不当导致内存分配失败问题
1.介绍 本文记录分析驱动模块kmalloc接口的flags参数使用不当,导致分配内存失败的问题,主要记录了分析过程和给出的解决方法. 1.1背景介绍 在对spi nand flash进行读写老化,因 ...
- 因xhost命令和DISPLAY环境变量操作不当导致无法启动Oracle图形化安装界面
在redhat操作系统上安装Oracle 11.1时,遇到在执行runInstaller后无法启动安装图像化界面,甚是郁闷. 问题现象: 使用Xmanager2.0软件登陆AIX桌面,root用户可以 ...
最新文章
- 那些20岁不信,30岁却深信不疑的道理!
- Android 基于注解IOC组件化/模块化的架构实践
- shell学习笔记二则:统计空间
- c#解析json字符串数组_c#解析json字符串处理(最清晰易懂的方法)
- 搜狗王小川:搜狗的语音识别比阿里和科大讯飞的好
- Tomcat中包含的配置文件、名字、作用分析记录
- 上传图片报Invalid filename错误
- string类型与date类型转换
- 莆田家庭教育指导师证在哪报名报考条件是什么
- python实现雪花动态图_python实现雪花飘落效果
- 呼叫中心的软电话架构
- JVM内存模型与内存溢出异常
- gpu服务器厂家_嵌入式主板厂家告诉你选择GPU服务器的5大标准
- Linux内核超级装备eBPF技术详细研究
- 回车键换行符回车符 朦胧中!
- 全网首发19日苹果发布会
- linux打开网络摄像头失败,Opencv没有检测到linux上的firewire网络摄像头
- 使用S7.net读取西门子1500PLC
- 多线程之:主线程、子线程
- 互联网日报 | 沃尔玛否认出售中国大卖场业务;500余家高校食堂上线饿了么;跟谁学连续9季度实现盈利...
热门文章
- 常见的机器学习分类模型
- AirServer2023最新免费苹果电脑投屏工具
- 超高频RFID工业洗衣标签,在RFID服装管理上的应用
- ThinkPHP 多表联查
- java计分系统编程代码_使用Java代码对实时系统进行编程
- TCP的几个状态 (SYN, FIN, ACK, PSH, RST, URG)
- 语言学概论ppt课件_语言学概论ppt课件
- HTML图片标签及相关超链接
- 解决 grant all privileges on *.* to ‘root‘@‘%‘ identified by ‘PASSWORD‘ with grant option; 错误
- 基于安卓的新闻客户端app的设计与实现