一次由于网卡流量跑满引起的服务器丢包总结(sar命令排查)
本文出自 “朴实的追梦者” 博客,请务必保留此出处http://sfzhang88.blog.51cto.com/4995876/1834696
最近收到线上一台DB服务器ping丢包,丢包率一直在30%左右。通过Zabbix监控查看了服务器CPU,内存都很正常,网卡流量也不高,基本在100M左右。
首先确认一下服务器硬件是否正常,由于没有收到硬件报警。登录服务器通过HP管理工具在此确认了硬件信息都正常(硬盘,缓存卡,内存等)。
第二步在排查一下系统问题,通过top,ps等命令也没有发现什么异常,基本上排除系统问题。
第三步查看了一下该服务器上联监控机端口流量,也都很正常,由于收到只有这一台服务器报警,也排除了上联交换机故障问题。
最后向同事咨询了服务器承载业务类型,每2分钟会同步大量的数据文件到该服务器上面,然后用sar命令查看一下网卡流量,发现发送流量瞬间在12万KB/s,换算成b/s基本上在940-950Mb/s,意味着千兆网卡流量基本上爆满,才会引起服务器ping丢包。
由于我的监控是每5分钟抓一次,所以对应服务器瞬间高流量都没有获取到,还得优化一下监控时间间隔。
下面顺便总结一下sar命令常用的选项,sar命令行的常用格式如下:
sar 选项 取样时间间隔 输出次数
1)查看CPU信息,1表示1秒钟取一次值,2表示采集2次数据。
[root@monitor ~]# sar -u 1 2Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU) 10:51:39 CPU %user %nice %system %iowait %steal %idle10:51:40 all 0.08 0.00 0.17 0.00 0.00 99.7510:51:41 all 0.21 0.00 0.21 0.00 0.00 99.58Average: all 0.15 0.00 0.19 0.00 0.00 99.67
输出项说明:
CPU all 表示统计信息为所有CPU的平均值。%user 显示在用户级别(application)运行使用CPU总时间的百分比。%nice 显示在用户级别,用于nice操作,所占用CPU总时间的百分比。%system 在核心级别(kernel)运行所使用CPU总时间的百分比。%iowait 显示用于等待I/O操作占用 CPU 总时间的百分比。%steal 管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟 CPU 的百分比。%idle 显示CPU空闲时间占用CPU总时间的百分比。
2)查看网络接口信息。
[root@monitor ~]# sar -n DEV 1 2Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU)
11:04:22 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s11:04:23 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:23 eth0 140.40 170.71 98.07 84.00 0.00 0.00 2.0211:04:23 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:23 eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:23 eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:23 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s11:04:24 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:24 eth0 40.59 26.73 41.62 4.17 0.00 0.00 0.9911:04:24 eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:24 eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.0011:04:24 eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/sAverage: lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: eth0 90.00 98.00 69.56 43.69 0.00 0.00 1.50Average: eth1 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: eth2 0.00 0.00 0.00 0.00 0.00 0.00 0.00Average: eth3 0.00 0.00 0.00 0.00 0.00 0.00 0.00
输出项说明:
IFACE 网络设备名 rxpck/s 每秒接收的包总数 txpck/s 每秒传输的包总数 rxKB/s 每秒接收的字节(byte)总数 txKB/s 每秒传输的字节(byte)总数 rxcmp/s 每秒接收压缩包的总数 txcmp/s 每秒传输压缩包的总数 rxmcst/s 每秒接收的多播(multicast)包的总数3)查看磁盘1/0信息。
[root@monitor ~]# sar -b 1 2Linux 2.6.32-358.el6.x86_64 (monitor) 08/05/16 _x86_64_ (24 CPU)
11:07:55 tps rtps wtps bread/s bwrtn/s11:07:56 11.11 0.00 11.11 0.00 129.2911:07:57 6.93 0.00 6.93 0.00 63.37Average: 9.00 0.00 9.00 0.00 96.00
输出项说明:
tps 每秒钟物理设备的I/O传输总量 rtps 每秒钟从物理设备读入的数据总量 wtps 每秒钟向物理设备写入的数据总量 bread/s 每秒钟从物理设备读入的数据量,单位为 块/s bwrtn/s 每秒钟向物理设备写入的数据量,单位为 块/s
总结:在系统运维的过程中,一般关注服务器的下面指标。
CPU使用率:如果服务器CPU使用率超过80-85%,说明服务器CPU处理能力比较繁忙,需要提升CPU性能。
CPU iowait:如果服务器CPU iowait的值大于5-10%,说明磁盘I/O存在瓶颈,需要提升硬盘的读写速度。
网卡流量:网卡流量和上联交换机和服务器网卡都有关系。如果系统和网络都正常,服务器出现丢包,应该考虑网卡的吞吐率是否达到上限而出现的丢包。
转载于:https://blog.51cto.com/kusorz/1836702
一次由于网卡流量跑满引起的服务器丢包总结(sar命令排查)相关推荐
- Linux Command sar 网卡流量
Linux Command sar 网卡流量 tags: 网络, 监控 文章目录 Linux Command sar 网卡流量 1. 简介 2. 查看内存各个指标的变化情况 1. 简介 如何实时查看网 ...
- ethtool 原理介绍和解决网卡丢包排查思路(附ethtool源码下载)
Table of Contents 1. 了解接收数据包的流程 将网卡收到的数据包转移到主机内存(NIC 与驱动交互) 通知系统内核处理(驱动与 Linux 内核交互) 2. ifconfig 解释 ...
- Linux系统 UDP 丢包问题分析思路和修改网卡缓存
最近工作中遇到某个服务器应用程序 UDP 丢包,在排查过程中查阅了很多资料,我在排查过程中基本都是通过使用 tcpdump 在出现问题的各个环节上进行抓包.分析在那个环节出现问题.针对性去排查解决问题 ...
- Linux日常运维管理技巧(一)监控系统状态、监控网卡流量、监控IO性能、查看系统进程、查看网络状态、Linux下抓包tcpdump、Linux网络相关、DNS配置
目录 监控系统状态 监控网卡流量 监控IO性能 查看系统进程 查看网络状态 Linux下抓包 Linux网络相关 监控系统状态 w/uptime查看系统负载 [root@zyshanlinux-01 ...
- linux 网卡流量脚本,每5分钟统计Linux 网卡流量的脚本
每5分钟统计Linux 网卡流量的脚本 -- 脚本内容 #!/bin/bash eth="eth0" sec=300 echo -ne "date start ...
- Nagios 网卡流量监控
本文所用到的监控流量插件来自"石头"的 1.20 版 shell 插件.感谢之.... 下载地址为: 点击下载 . 总体设置可以分为两块, linux 主机及非 linux 主机. ...
- 查看Linux服务器网卡流量小脚本shell和Python各一例
有时我们需要较为实时的查看服务器上的网卡流量,这里我写了两个小脚本,一个用shell(先写的,一次只能查看一个网卡),另一个用Python(后写的,一次可查看多个网卡).脚本中都用了while tru ...
- linux 下iptraf监控网卡流量
linux 系统下 iptraf监控网卡流量,监控eth0网卡的流量如下所示: [root@web01]# iptraf -d eth0 转载于:https://blog.51cto.com ...
- Linux脚本实战之检测网卡流量
Linux脚本实战之检测网卡流量 一.脚本要求 二.脚本内容 三.运行脚本 一.脚本要求 1.检测网卡流量,并按规定格式记录在日志中,输出到/data/net.log/目录中以执行脚本时间命令的文件中 ...
最新文章
- python银行系统-python 银行系统
- Windows服务ServicesDependedOn的奇怪问题?
- mvc4 利用filters特性来 实现自己的权限验证 之二
- Spring Data JPA 从入门到精通~JpaSpecificationExecutor实现原理
- (vue基础试炼_04)使用组件改造TodoList
- android实现翻书效果(文本和图片的翻书)
- java中hashmap_Java HashMap – Java中的HashMap
- 【SPSS】SPSS之主成分分析及因子分析
- TestStand-从LabVIEW创建TestStand数据类型的簇
- Java中IO流详细整合(含案例)
- http(S)系列之(五):android之HttpURLConnection源码解析(1)
- 传奇服务器人物技能怎么修改,传奇服务端上线0级技能,直接设置3级技能的设置方法...
- nginx学习十 ngx_cycle_t 、ngx_connection_t 和ngx_listening_t
- APP设计邀请功能,用邀请链接还是邀请码比较好呢?
- GitHub 热点速览 Vol.14:周获 2k+ Vim³ 掀起三维编程风
- avr c语言编译器,[VR虚拟现实]AVR单片机C语言编译器.doc
- OpenCV实战(7)——OpenCV色彩空间转换
- QuickTime 7 专业版注册码
- AB COMPACTLOGIX调试步骤
- Quartus II 13简易仿真教程
热门文章
- [C++]各编译器对C++11的支持比较
- navicat工具查看MySQL数据库_表占用容量_占用空间是多少MB---Linux工作笔记048
- STM32工作笔记0062---定时器中断实验
- IntelliJ Idea学习笔记003---IDEA中打开Run DashBoard的方法
- IntelliJ Idea学习笔记004--- idea修改格式化代码快捷键_顺带一个激活地址_以及常用快捷键
- android学习笔记---50_样式与主题,给控件使用样式,给应用使用主题
- Android学习笔记---22_访问通信录中的联系人和添加联系人,使用事物添加联系人...
- pytorch 训练人脸精度不达标
- large margin-人脸识别
- 英文操作系统(chcp:437)让Console输出UTF-8