线上性能问题初步排查方法  首发于并发网,作者:方腾飞

引言

有时候有很多问题只有在线上或者预发环境才能发现,而线上又不能Debug,所以线上问题定位就只能看日志,系统状态和Dump线程,本文只是简单的介绍一些常用的工具,帮助定位线上问题。

问题定位

1: 首先使用TOP命令查看每个进程的情况,显示如下:

top - 22:27:25 up 463 days, 12:46, 1 user, load average: 11.80, 12.19, 11.79Tasks: 113 total, 5 running, 108 sleeping, 0 stopped, 0 zombieCpu(s): 62.0%us, 2.8%sy, 0.0%ni, 34.3%id, 0.0%wa, 0.0%hi, 0.7%si, 0.2%stMem: 7680000k total, 7665504k used, 14496k free, 97268k buffersSwap: 2096472k total, 14904k used, 2081568k free, 3033060k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND31177 admin 18 0 5351m 4.0g 49m S 301.4 54.0 935:02.08 java31738 admin 15 0 36432 12m 1052 S 8.7 0.2 11:21.05 nginx-proxy

我们的程序是Java应用,所以只需要关注COMMAND是Java的性能数据,COMMAND表示启动当前进程的命令,在Java进程这一行里可以看到CPU利用率是300%,不用担心,这个是当前机器所有核加在一起的CPU利用率。

2: 再使用Top的交互命令数字1查看每个CPU的性能数据。

top - 22:24:50 up 463 days, 12:43, 1 user, load average: 12.55, 12.27, 11.73Tasks: 110 total, 3 running, 107 sleeping, 0 stopped, 0 zombieCpu0 : 72.4%us, 3.6%sy, 0.0%ni, 22.7%id, 0.0%wa, 0.0%hi, 0.7%si, 0.7%stCpu1 : 58.7%us, 4.3%sy, 0.0%ni, 34.3%id, 0.0%wa, 0.0%hi, 2.3%si, 0.3%stCpu2 : 53.3%us, 2.6%sy, 0.0%ni, 34.1%id, 0.0%wa, 0.0%hi, 9.6%si, 0.3%stCpu3 : 52.7%us, 2.7%sy, 0.0%ni, 25.2%id, 0.0%wa, 0.0%hi, 19.5%si, 0.0%stCpu4 : 59.5%us, 2.7%sy, 0.0%ni, 31.2%id, 0.0%wa, 0.0%hi, 6.6%si, 0.0%stMem: 7680000k total, 7663152k used, 16848k free, 98068k buffersSwap: 2096472k total, 14904k used, 2081568k free, 3032636k cached

命令行显示了CPU4,说明这是一个5核的虚拟机,平均每个CPU利用率在60%以上。如果这里显示CPU利用率100%,则很有可能程序里写了一个死循环。这些参数的含义,可以对比下表:

us

用户空间占用CPU百分比

1.0% sy

内核空间占用CPU百分比

0.0% ni

用户进程空间内改变过优先级的进程占用CPU百分比

98.7% id

空闲CPU百分比

0.0% wa

等待输入输出的CPU时间百分比

3: 使用Top的交互命令H查看每个线程的性能信息。

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND31558 admin 15 0 5351m 4.0g 49m S 12.2 54.0 10:08.31 java31561 admin 15 0 5351m 4.0g 49m R 12.2 54.0 9:45.43 java31626 admin 15 0 5351m 4.0g 49m S 11.9 54.0 13:50.21 java31559 admin 15 0 5351m 4.0g 49m S 10.9 54.0 5:34.67 java31612 admin 15 0 5351m 4.0g 49m S 10.6 54.0 8:42.77 java31555 admin 15 0 5351m 4.0g 49m S 10.3 54.0 13:00.55 java31630 admin 15 0 5351m 4.0g 49m R 10.3 54.0 4:00.75 java31646 admin 15 0 5351m 4.0g 49m S 10.3 54.0 3:19.92 java31653 admin 15 0 5351m 4.0g 49m S 10.3 54.0 8:52.90 java31607 admin 15 0 5351m 4.0g 49m S 9.9 54.0 14:37.82 java

在这里可能会出现三种情况:

  1. 第一种情况,某个线程一直CPU利用率100%,则说明是这个线程有可能有死循环,那么请记住这个PID。
  2. 第二种情况,某个线程一直在TOP十的位置,这说明这个线程可能有性能问题。
  3. 第三种情况,CPU利用率TOP几的线程在不停变化,说明并不是由某一个线程导致CPU偏高。

如果是第一种情况,也有可能是GC造成,我们可以用jstat命令看下GC情况,看看是不是因为持久代或年老代满了,产生Full GC,导致CPU利用率持续飙高,命令如下。

sudo /opt/java/bin/jstat -gcutil 31177 1000 5S0 S1 E O P YGC YGCT FGC FGCT GCT0.00 1.27 61.30 55.57 59.98 16040 143.775 30 77.692 221.4670.00 1.27 95.77 55.57 59.98 16040 143.775 30 77.692 221.4671.37 0.00 33.21 55.57 59.98 16041 143.781 30 77.692 221.4741.37 0.00 74.96 55.57 59.98 16041 143.781 30 77.692 221.4740.00 1.59 22.14 55.57 59.98 16042 143.789 30 77.692 221.481

我们还可以把线程Dump下来,看看究竟是哪个线程,执行什么代码造成的CPU利用率高。执行以下命令,把线程dump到文件dump17里。

sudo -u admin /opt/java/bin/jstack  31177 > /home/tengfei.fangtf/dump17

dump出来内容的类似下面这段:

"http-0.0.0.0-7001-97" daemon prio=10 tid=0x000000004f6a8000 nid=0x555e in Object.wait() [0x0000000052423000]java.lang.Thread.State: WAITING (on object monitor)at java.lang.Object.wait(Native Method)- waiting on  (a org.apache.tomcat.util.net.AprEndpoint$Worker)at java.lang.Object.wait(Object.java:485)at org.apache.tomcat.util.net.AprEndpoint$Worker.await(AprEndpoint.java:1464)- locked  (a org.apache.tomcat.util.net.AprEndpoint$Worker)at org.apache.tomcat.util.net.AprEndpoint$Worker.run(AprEndpoint.java:1489)at java.lang.Thread.run(Thread.java:662)

dump出来的线程ID(nid)是十六进制的,而我们用TOP命令看到的线程ID是10进制的,所以我们要printf命令转换一下进制。然后用16进制的ID去dump里找到对应的线程。

printf "%x\n" 31558输出:7b46

优化实战

1:查看下TCP连接状态,建立了800多个连接,需要尽量降低ESTABLISHED。

[tengfei.fangtf@ifeve ~]$ netstat -nat | awk '{print $6}' | sort | uniq -c | sort -n1 established)1 Foreign3 CLOSE_WAIT7 CLOSING14 FIN_WAIT225 LISTEN39 LAST_ACK609 FIN_WAIT1882 ESTABLISHED10222 TIME_WAIT

2:用jstack dump看看这些线程都在做什么。

sudo -u admin /opt/ifeve/java/bin/jstack 31177 > /home/tengfei.fangtf/dump17

3:统计下所有线程分别处于什么状态,发现大量线程处于WAITING(onobjectmonitor)状态

[tengfei.fangtf@ifeve ~]$ grep java.lang.Thread.State dump17 | awk '{print $2$3$4$5}' | sort | uniq -c39 RUNNABLE21 TIMED_WAITING(onobjectmonitor)6 TIMED_WAITING(parking)51 TIMED_WAITING(sleeping)305 WAITING(onobjectmonitor)3 WAITING(parking)

4:查看处于WAITING(onobjectmonitor)的线程信息,主要是jboss的工作线程在await。

"http-0.0.0.0-7001-97" daemon prio=10 tid=0x000000004f6a8000 nid=0x555e in Object.wait() [0x0000000052423000]java.lang.Thread.State: WAITING (on object monitor)at java.lang.Object.wait(Native Method)- waiting on <0x00000007969b2280> (a org.apache.tomcat.util.net.AprEndpoint$Worker)at java.lang.Object.wait(Object.java:485)at org.apache.tomcat.util.net.AprEndpoint$Worker.await(AprEndpoint.java:1464)- locked <0x00000007969b2280> (a org.apache.tomcat.util.net.AprEndpoint$Worker)at org.apache.tomcat.util.net.AprEndpoint$Worker.run(AprEndpoint.java:1489)at java.lang.Thread.run(Thread.java:662)

5:找到jboss的线程配置信息,将maxThreads降低到100

<maxThreads="250" maxHttpHeaderSize="8192"emptySessionPath="false" minSpareThreads="40" maxSpareThreads="75" maxPostSize="512000" protocol="HTTP/1.1"enableLookups="false" redirectPort="8443" acceptCount="200" bufferSize="16384"connectionTimeout="15000" disableUploadTimeout="false" useBodyEncodingForURI="true">

6:重启jboss,再dump线程信息,然后统计,WAITING(onobjectmonitor)的线程减少了170。

[tengfei.fangtf@ifeve ~]$ grep java.lang.Thread.State dump17 | awk '{print $2$3$4$5}' | sort | uniq -c44 RUNNABLE22 TIMED_WAITING(onobjectmonitor)9 TIMED_WAITING(parking)36 TIMED_WAITING(sleeping)130 WAITING(onobjectmonitor)1 WAITING(parking)

其他命令

  • 查看CPU信息 cat /proc/cpuinfo
  • 查看内存信息 cat /proc/meminfo
  • 查看Java线程数 ps -eLf | grep java -c
  • 查看linux系统里打开文件描述符的最大值 ulimit -u
  • 找到日志里TOP10的异常:grep ‘Exception’ /home/admin/logs/XX.log |awk -F’:|,’ ‘{print $2}’|sort |uniq -c |sort -nr|head -10,找到之后可以再用-A 2 -B 2,看定位出日志的前面2行和后面两行。

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 线上性能问题初步排查方法

转载于:https://www.cnblogs.com/lexiaofei/p/8038732.html

读书笔记:线上性能问题初步排查方法相关推荐

  1. 线上性能问题初步排查方法

    参考:http://ifeve.com/find-bug-online/ 引言 有时候有很多问题只有在线上或者预发环境才能发现,而线上又不能Debug,所以线上问题定位就只能看日志,系统状态和Dump ...

  2. 线上FullGC频繁的排查

    线上FullGC频繁的排查 问题 前段时间发现线上的一个dubbo服务Full GC比较频繁,大约每两天就会执行一次Full GC. Full GC的原因 我们知道Full GC的触发条件大致情况有以 ...

  3. 《MSSQL2008技术内幕:T-SQL语言基础》读书笔记(上)

    索引: 一.SQL Server的体系结构 二.查询 三.表表达式 四.集合运算 五.透视.逆透视及分组 六.数据修改 七.事务和并发 八.可编程对象 一.SQL Server体系结构 1.1 数据库 ...

  4. 【科学究竟是什么/查尔默斯】读书笔记(上)

    [查尔默斯-科学究竟是什么]读书笔记(上)] "主流"科学观 归纳主义 朴素归纳主义 归纳问题 出于"观察事实"角度的反驳 精致的归纳主义 证伪主义 可证伪性 ...

  5. 传统企业线下收益不可观,问答营销是你线上引流的好方法

    互联网+经济的结合越来越明显,利用网络销售产品.利用网络推广产品等等,这一方式在2020年尤其受到重视.传统企业实体收益不可观,全网天下徐国祥建议不妨试试问答营销,会是你线上引流的好方法. 徐国祥先来 ...

  6. 线上java JVM问题排查

    作者:霞落满天 第一部分  是我以前公司的一则正式案例: 第二部分 是我另一个博客上写的主要是最近发现大家问的比较多就写了此文 第一部分 线上真实故障案例 下面是一个老系统,代码写的有点问题导致出现这 ...

  7. 《深入理解 Java 内存模型》读书笔记(上)(干货,万字长文)

    目录 0. 前提 1. 基础 1.1 并发编程的模型分类 1.1.1 通信 1.1.2 同步 1.2 JAVA 内存模型的抽象 2. 重排序 2.1 处理器重排序 2.2 内存屏障指令 2.3 HAP ...

  8. 线上故障如何快速排查?来看这套技巧大全

    简介:有哪些常见的线上故障?如何快速定位问题?本文详细总结工作中的经验,从服务器.Java应用.数据库.Redis.网络和业务六个层面分享线上故障排查的思路和技巧.较长,同学们可收藏后再看. 前言 线 ...

  9. idea本地跑如何看gc日志_线上故障如何快速排查?来看这套技巧大全

    简介:有哪些常见的线上故障?如何快速定位问题?本文详细总结工作中的经验,从服务器.Java应用.数据库.Redis.网络和业务六个层面分享线上故障排查的思路和技巧.较长,同学们可收藏后再看. 前言 线 ...

最新文章

  1. How to call DLL and LIB files (SDK)
  2. 用flex进行网易云音乐界面构建和布局解析(2)
  3. Struts2.3+Spring4.0
  4. android listview动态添加viewpager,向 ViewPager 中添加 包含 ListView 的 Fragment
  5. SQL转换全角和半角函数
  6. C#SQL注入检测——特别是对于旧版.NET代码
  7. 【金融】【python】处理表格(*.xlsx)形式的期货数据
  8. R count函数_【函数分享】PHP函数str_word_count()分享(202098)
  9. Recurdyn与AMESim联合仿真出现无法加载DLL错误解决方法
  10. 苹果战世界:苹果史上27大口水战
  11. 04Reverse基础(五)
  12. 手动修改dns服务器设置,如何修改DNS设置 修改DNS设置方法【详解】
  13. 天的各种书法_你可知道书法里的各种关系?
  14. 并行计算系列-阿姆达尔定律(Amdahl‘s Law)
  15. QDateTime时间
  16. git切换分支、push或pull指定分支
  17. 使用花生壳,idea外网访问oracle数据库
  18. 8寸ndows平板,三款8英寸Windows平板对比体验
  19. 一 类加载机制深度解析
  20. 抖音一键批量下载无水印视频,这款软件帮助你

热门文章

  1. 《统一沟通-微软-实战》-6-部署-2-中介服务器-1-定义中介服务器
  2. 7.1.3 TimePicker结合案例详解
  3. 雷林鹏分享:Redis 管道技术
  4. 配置Cassandra开机启动(CentOS 7)
  5. 【Python3爬虫】最新的12306爬虫
  6. SourceTree 3.0.17如何跳过注册进行安装? — git图形化工具(一)
  7. es安装ik后报错无法启动 read write
  8. 【python】命令行解析工具getopt用法
  9. C#之CLR内存原理初探
  10. Code128 Fontware条码控件介绍