大家好,我是烤鸭:

最近线上问题有点多啊,分享一个服务假死的排查过程。

问题描述

9点10分,收到进程无响应报警(一共6台机器,有1台出现),后来又有1台出现。

排查思路

首先确认是否误报或者网络抖动,登陆服务器查看进程存在。

查看cat监控,发现gc次数和gc耗时都升高,基本确认是oom导致的。

当时由于优先处理问题,服务重启后,没办法找到oom源头了(进程命令包含oom记录,但是没生成oom日志)。

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/data/logs/

jvm 参数:

jvm_args: -Xms8g -Xmx8g -Xmn4g -Xss256k -XX:MetaspaceSize=512m -XX:MaxMetaspaceSize=512m -Dlog4j2.formatMsgNoLookups=true -XX:+UseG1GC -XX:+UnlockExperimentalVMOptions -XX:InitiatingHeapOccupancyPercent=45 -XX:G1MixedGCLiveThresholdPercent=65  -XX:MaxTenuringThreshold=10 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/data/logs/ -XX:ErrorFile=/data/logs/hs_err_%p.error -XX:+PrintTenuringDistribution -XX:+PrintGCApplicationStoppedTime -XX:+PrintClassHistogram -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintHeapAtGC -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=5 -XX:GCLogFileSize=100M -Xloggc:/data/logs/gc.gclog -XX:-OmitStackTraceInFastThrow

但是生成了error日志(hs_err_%p.erro)。其中的Core dump文件生成是有条件,一般Linux是关掉的.可以通过 ulimit -a 这个命令进行查看。

#
# There is insufficient memory for the Java Runtime Environment to continue.
# Native memory allocation (mmap) failed to map 8589934592 bytes for committing reserved memory.
# Possible reasons:
#   The system is out of physical RAM or swap space
#   In 32 bit mode, the process size limit was hit
# Possible solutions:
#   Reduce memory load on the system
#   Increase physical memory or swap space
#   Check if swap backing store is full
#   Use 64 bit Java on a 64 bit OS
#   Decrease Java heap size (-Xmx/-Xms)
#   Decrease number of Java threads
#   Decrease Java thread stack sizes (-Xss)
#   Set larger code cache with -XX:ReservedCodeCacheSize=
# This output file may be truncated or incomplete.
#
#  Out of Memory Error (os_linux.cpp:2627), pid=13887, tid=0x00007ff3239f9700
#
# JRE version:  (8.0_111-b14) (build )
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.111-b14 mixed mode linux-amd64 compressed oops)
# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again
#

后来下午又出现了,dump出来了gc日志,通过工具分析(jprofiler)。

可以看出String和charp[]加起来就5G多了。

后来又看了下String和char[],基本就是字段名称。基本就是确定是大对象导致的问题,最后查一下大对象是哪个中间件返回的。(mongo、redis、db、es)

找到一个业务对象,查一下引用,发现是mongo查询导致的。

根因分析

代码运行很长时间都没有问题,为什么会出现oom。

后来发现上游分页参数的page太大了,导致这个问题。

虽然是恶意请求,不过也应该尽量避免这种问题。(参数为空或者数值过大,都应该限制下)

记一次线上服务假死排查过程相关推荐

  1. 一次线上服务CPU100%的排查过程

    前言 突然收到线上服务cpu达到100%的报警短信,于是立即展开排查. 排查过程 理论步骤 一.找到最耗CPU的进程 工具:top 方法: 执行top -c ,显示进程运行信息列表 键入P (大写p) ...

  2. 一次线上服务fullGC原因排查

    2017年12月09日 21:39:46 阅读数:384 一.现象 早上九点多又收到了fullGC次数过高的应用监控告警{P1}{故障}JVM Old GC all(#3) full_gc_count ...

  3. 记一次线上Redis高负载排查经历

    作者:JingQ https://www.sevenyuan.cn/ 周一早上刚上班,突然大量用户反馈进入网页很慢,登录服务器一看,Redis调用时间严重超时,这样高速的缓存反而变成了短板,由于数据一 ...

  4. 线上服务CPU100%问题快速定位实战--转

    来自微信公众号 架构师之路 功能问题,通过日志,单步调试相对比较好定位. 性能问题,例如线上服务器CPU100%,如何找到相关服务,如何定位问题代码,更考验技术人的功底. 58到家架构部,运维部,58 ...

  5. 线上服务CPU100%问题快速定位实战(转载公众号:架构师之路)

    功能问题,通过日志,单步调试相对比较好定位. 性能问题,例如线上服务器CPU100%,如何找到相关服务,如何定位问题代码,更考验技术人的功底. 58到家架构部,运维部,58速运技术部联合进行了一次线上 ...

  6. 线上服务CPU100%问题快速定位实战

    功能问题,通过日志,单步调试相对比较好定位. 性能问题,例如线上服务器CPU100%,如何找到相关服务,如何定位问题代码,更考验技术人的功底. 58到家架构部,运维部,58速运技术部联合进行了一次线上 ...

  7. 线上服务CPU100%问题快速定位实战(58沈剑)

    功能问题,通过日志,单步调试相对比较好定位. 性能问题,例如线上服务器CPU100%,如何找到相关服务,如何定位问题代码,更考验技术人的功底. 58到家架构部,运维部,58速运技术部联合进行了一次线上 ...

  8. 线上服务Java进程假死快速排查、分析

    线上服务Java进程假死快速排查.分析 最近我们有一台服务器上的Java进程总是在运行个两三天后就无法响应请求了,具体现象如下: 请求业务返回状态码502,查看进程还在,意味着Java进程假死,无法响 ...

  9. 分页缓冲池占用很高怎么解决_一次线上服务高 CPU 占用优化实践

    线上有一个非常繁忙的服务的 JVM 进程 CPU 经常跑到 100% 以上,下面写了一下排查的过程.通过阅读这篇文章你会了解到下面这些知识. Java 程序 CPU 占用高的排查思路 可能造成线上服务 ...

最新文章

  1. reactor线程模型_简单了解Java Netty Reactor三种线程模型
  2. PowerShell删除Exchange 2010邮件的正确姿势
  3. 7.SpringMVC 配置式开发-ModelAndView和视图解析器
  4. The Famous Clock(著名的钟)
  5. python五子棋游戏15*15_在STM32上运行五子棋小游戏(15x15)
  6. 【面试】彻底理解 IO多路复用
  7. 清除浮动(采用BFC)
  8. 苹果笔记本能学二级计算机吗,怎么辨别苹果笔记本是不是翻新机
  9. IOS:APP三种状态下收到推送后的跳转操作
  10. 弘辽科技:手淘推荐流量总是忽高忽低如何稳定获取
  11. 贾俊平统计学思维导图- 第二章 数据搜集
  12. OSM获取城市路网数据及其矢量化
  13. 阿里云服务平台,分布式架构云平台解决方案
  14. 客服坐席聊天页面html,WebSocket实现简单客服聊天系统
  15. Premiere Pro之字幕添加(三)
  16. Linux使用zip打包文件
  17. Latex (2)Latex中插图、表格、浮动体
  18. 学计算机专业的买游戏本能用吗,2020好用的游戏本有哪些_2020适合高考后购买的游戏本...
  19. APP测试基本流程以及APP测试要点梳理,成功入职就靠它了
  20. node.js毕业设计安卓英语答题APP(程序+APP+LW)

热门文章

  1. [vue] 如何实现一个虚拟DOM?说说你的思路
  2. 前端学习(2306):react之组件使用
  3. 前端学习(2003)vue之电商管理系统电商系统之之允许三级选择
  4. 前端学习(564):margin计算规则
  5. 前端学习(8):HTML的基本属性和结构
  6. linux mint视频,Linux Mint 20.1 beta 发布,新增免费视频播放器
  7. window mysql集群视频_windows7实现mysql集群cluster-mysql簇
  8. python变量标识符_简谈-Python的注释、变量类型、标识符及关键字
  9. Sqlserver内存管理:限制最大占用内存(转载)
  10. Linux小知识(零散)