本文出自 “朴实的追梦者” 博客,请务必保留此出处http://sfzhang88.blog.51cto.com/4995876/1834696

最近收到线上一台DB服务器ping丢包,丢包率一直在30%左右。通过Zabbix监控查看了服务器CPU,内存都很正常,网卡流量也不高,基本在100M左右。

首先确认一下服务器硬件是否正常,由于没有收到硬件报警。登录服务器通过HP管理工具在此确认了硬件信息都正常(硬盘,缓存卡,内存等)。
  第二步在排查一下系统问题,通过top,ps等命令也没有发现什么异常,基本上排除系统问题。
  第三步查看了一下该服务器上联监控机端口流量,也都很正常,由于收到只有这一台服务器报警,也排除了上联交换机故障问题。
  最后向同事咨询了服务器承载业务类型,每2分钟会同步大量的数据文件到该服务器上面,然后用sar命令查看一下网卡流量,发现发送流量瞬间在12万KB/s,换算成b/s基本上在940-950Mb/s,意味着千兆网卡流量基本上爆满,才会引起服务器ping丢包。

  由于我的监控是每5分钟抓一次,所以对应服务器瞬间高流量都没有获取到,还得优化一下监控时间间隔。

下面顺便总结一下sar命令常用的选项,sar命令行的常用格式如下:

sar 选项 取样时间间隔 输出次数

1)查看CPU信息,1表示1秒钟取一次值,2表示采集2次数据。

[root@monitor ~]# sar -u 1 2Linux 2.6.32-358.el6.x86_64 (monitor)     08/05/16     _x86_64_    (24 CPU)
10:51:39        CPU     %user     %nice   %system   %iowait    %steal     %idle10:51:40        all      0.08      0.00      0.17      0.00      0.00     99.7510:51:41        all      0.21      0.00      0.21      0.00      0.00     99.58Average:        all      0.15      0.00      0.19      0.00      0.00     99.67

输出项说明:

CPU          all 表示统计信息为所有CPU的平均值。%user        显示在用户级别(application)运行使用CPU总时间的百分比。%nice        显示在用户级别,用于nice操作,所占用CPU总时间的百分比。%system      在核心级别(kernel)运行所使用CPU总时间的百分比。%iowait      显示用于等待I/O操作占用 CPU 总时间的百分比。%steal       管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟 CPU 的百分比。%idle        显示CPU空闲时间占用CPU总时间的百分比。

2)查看网络接口信息。

[root@monitor ~]# sar -n DEV 1 2Linux 2.6.32-358.el6.x86_64 (monitor)     08/05/16     _x86_64_    (24 CPU)
11:04:22        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s11:04:23           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:23         eth0    140.40    170.71     98.07     84.00      0.00      0.00      2.0211:04:23         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:23         eth2      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:23         eth3      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:23        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s11:04:24           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:24         eth0     40.59     26.73     41.62      4.17      0.00      0.00      0.9911:04:24         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:24         eth2      0.00      0.00      0.00      0.00      0.00      0.00      0.0011:04:24         eth3      0.00      0.00      0.00      0.00      0.00      0.00      0.00Average:        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/sAverage:           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00Average:         eth0     90.00     98.00     69.56     43.69      0.00      0.00      1.50Average:         eth1      0.00      0.00      0.00      0.00      0.00      0.00      0.00Average:         eth2      0.00      0.00      0.00      0.00      0.00      0.00      0.00Average:         eth3      0.00      0.00      0.00      0.00      0.00      0.00      0.00

输出项说明:

IFACE        网络设备名
rxpck/s      每秒接收的包总数
txpck/s      每秒传输的包总数
rxKB/s       每秒接收的字节(byte)总数
txKB/s       每秒传输的字节(byte)总数
rxcmp/s      每秒接收压缩包的总数
txcmp/s      每秒传输压缩包的总数
rxmcst/s     每秒接收的多播(multicast)包的总数3)查看磁盘1/0信息。
[root@monitor ~]# sar -b 1 2Linux 2.6.32-358.el6.x86_64 (monitor)     08/05/16     _x86_64_    (24 CPU)
11:07:55          tps      rtps      wtps   bread/s   bwrtn/s11:07:56        11.11      0.00     11.11      0.00    129.2911:07:57         6.93      0.00      6.93      0.00     63.37Average:         9.00      0.00      9.00      0.00     96.00

输出项说明:

tps       每秒钟物理设备的I/O传输总量
rtps      每秒钟从物理设备读入的数据总量
wtps      每秒钟向物理设备写入的数据总量
bread/s   每秒钟从物理设备读入的数据量,单位为 块/s
bwrtn/s   每秒钟向物理设备写入的数据量,单位为 块/s

总结:在系统运维的过程中,一般关注服务器的下面指标。

CPU使用率:如果服务器CPU使用率超过80-85%,说明服务器CPU处理能力比较繁忙,需要提升CPU性能。

CPU iowait:如果服务器CPU iowait的值大于5-10%,说明磁盘I/O存在瓶颈,需要提升硬盘的读写速度。

网卡流量:网卡流量和上联交换机和服务器网卡都有关系。如果系统和网络都正常,服务器出现丢包,应该考虑网卡的吞吐率是否达到上限而出现的丢包。

转载于:https://blog.51cto.com/kusorz/1836702

一次由于网卡流量跑满引起的服务器丢包总结(sar命令排查)相关推荐

  1. Linux Command sar 网卡流量

    Linux Command sar 网卡流量 tags: 网络, 监控 文章目录 Linux Command sar 网卡流量 1. 简介 2. 查看内存各个指标的变化情况 1. 简介 如何实时查看网 ...

  2. ethtool 原理介绍和解决网卡丢包排查思路(附ethtool源码下载)

    Table of Contents 1. 了解接收数据包的流程 将网卡收到的数据包转移到主机内存(NIC 与驱动交互) 通知系统内核处理(驱动与 Linux 内核交互) 2. ifconfig 解释 ...

  3. Linux系统 UDP 丢包问题分析思路和修改网卡缓存

    最近工作中遇到某个服务器应用程序 UDP 丢包,在排查过程中查阅了很多资料,我在排查过程中基本都是通过使用 tcpdump 在出现问题的各个环节上进行抓包.分析在那个环节出现问题.针对性去排查解决问题 ...

  4. Linux日常运维管理技巧(一)监控系统状态、监控网卡流量、监控IO性能、查看系统进程、查看网络状态、Linux下抓包tcpdump、Linux网络相关、DNS配置

    目录 监控系统状态 监控网卡流量 监控IO性能 查看系统进程 查看网络状态 Linux下抓包 Linux网络相关 监控系统状态 w/uptime查看系统负载 [root@zyshanlinux-01 ...

  5. linux 网卡流量脚本,每5分钟统计Linux 网卡流量的脚本

    每5分钟统计Linux 网卡流量的脚本 -- 脚本内容 #!/bin/bash eth="eth0" sec=300 echo -ne "date       start ...

  6. Nagios 网卡流量监控

    本文所用到的监控流量插件来自"石头"的 1.20 版 shell 插件.感谢之.... 下载地址为: 点击下载 . 总体设置可以分为两块, linux 主机及非 linux 主机. ...

  7. 查看Linux服务器网卡流量小脚本shell和Python各一例

    有时我们需要较为实时的查看服务器上的网卡流量,这里我写了两个小脚本,一个用shell(先写的,一次只能查看一个网卡),另一个用Python(后写的,一次可查看多个网卡).脚本中都用了while tru ...

  8. linux 下iptraf监控网卡流量

    linux 系统下 iptraf监控网卡流量,监控eth0网卡的流量如下所示: [root@web01]# iptraf -d eth0      转载于:https://blog.51cto.com ...

  9. Linux脚本实战之检测网卡流量

    Linux脚本实战之检测网卡流量 一.脚本要求 二.脚本内容 三.运行脚本 一.脚本要求 1.检测网卡流量,并按规定格式记录在日志中,输出到/data/net.log/目录中以执行脚本时间命令的文件中 ...

最新文章

  1. python银行系统-python 银行系统
  2. Windows服务ServicesDependedOn的奇怪问题?
  3. mvc4 利用filters特性来 实现自己的权限验证 之二
  4. Spring Data JPA 从入门到精通~JpaSpecificationExecutor实现原理
  5. (vue基础试炼_04)使用组件改造TodoList
  6. android实现翻书效果(文本和图片的翻书)
  7. java中hashmap_Java HashMap – Java中的HashMap
  8. 【SPSS】SPSS之主成分分析及因子分析
  9. TestStand-从LabVIEW创建TestStand数据类型的簇
  10. Java中IO流详细整合(含案例)
  11. http(S)系列之(五):android之HttpURLConnection源码解析(1)
  12. 传奇服务器人物技能怎么修改,传奇服务端上线0级技能,直接设置3级技能的设置方法...
  13. nginx学习十 ngx_cycle_t 、ngx_connection_t 和ngx_listening_t
  14. APP设计邀请功能,用邀请链接还是邀请码比较好呢?
  15. GitHub 热点速览 Vol.14:周获 2k+ Vim³ 掀起三维编程风
  16. avr c语言编译器,[VR虚拟现实]AVR单片机C语言编译器.doc
  17. OpenCV实战(7)——OpenCV色彩空间转换
  18. QuickTime 7 专业版注册码
  19. AB COMPACTLOGIX调试步骤
  20. Quartus II 13简易仿真教程

热门文章

  1. [C++]各编译器对C++11的支持比较
  2. navicat工具查看MySQL数据库_表占用容量_占用空间是多少MB---Linux工作笔记048
  3. STM32工作笔记0062---定时器中断实验
  4. IntelliJ Idea学习笔记003---IDEA中打开Run DashBoard的方法
  5. IntelliJ Idea学习笔记004--- idea修改格式化代码快捷键_顺带一个激活地址_以及常用快捷键
  6. android学习笔记---50_样式与主题,给控件使用样式,给应用使用主题
  7. Android学习笔记---22_访问通信录中的联系人和添加联系人,使用事物添加联系人...
  8. pytorch 训练人脸精度不达标
  9. large margin-人脸识别
  10. 英文操作系统(chcp:437)让Console输出UTF-8