2018年10月10日凌晨2点接到信调值班员电话,单位信息运维统一监管(I6XXX)系统报警显示公司门户和网站系统性能检测报警,页面访问响应时长和模拟登录功能异常,实际情况是网站和门户系统运行正常,稍有宽心,现在单位运行指标考核太变态,压力太大啊。立即开始协调人员进行故障排查,涉及门户、网站、性能检测、I6000系统运维人员,还有可能涉及网络,现在系统部署结构都很复杂,想想头大,现梳理一下整个故障排查处理过程,总结经验教训,给运维人生留下一丝丝痕迹。

一、系统部署架构及数据流分析

由于是二级单位且规模较小(与5年前相比,主要的都一级部署了,混的越来越差了),所有监控都由总部统一检测,自己没有权限,很被动啊。本单位的系统如门户、网站、信息通信管理等系统在本地部署,在本地部署一套检测点,检测的数据统一上报到总部,总部性能检测汇总数据到运维统一监管系统集中展示,总部值班人员24小时值班监控,本地也有值班人员访问总部运维统一监管系统进行24小时检测。

二、故障排查分析

10月10日凌晨发生的告警是间断性的,一会正常一会异常,参与性能检测的系统有多套,只有门户、网站系统间断性的,对问题判断带来一定的难度。根据经验进行排查吧。

  1. 先由门户、网站管理员到现场进行系统排查,同时协调性能检测运维人员配合,确认门户网站系统本身是正常运行的,然后确认每一个检测URL是否正常,确认没有问题。
  2. 排查性能检测服务器,确认其中一台服务器的操作系统运行缓慢,初步确认可能存问题,但是其他几个系统没有问题,不是很确认,所以同时进行其他方面排查。
  3. 排查备份系统,确认备份系统是否影响带网络带宽,此前有过类似的问题,备份任务执行时占用了大部分带宽,导致网络很慢,最终确认备份正常。
  4. 使用分析工具,通过性能分析系统进行分析,发现性能检测服务器请求门户和完整URL响应时长很长,但是用户终端访问门户、网站都很正常,初步确定是性能检测服务器有问题。
  5. 决定重启性能检测服务器,观察再看看,经过一段时间运行各检测点都正常。

开始分析性能检测服务器运行日志,发现是性能检测服务器需要调用windows的WMI服务,而该服务按照安全整改要求已经关闭了,长时间调用失败,耗尽系统资源导致操作系统运行缓慢,所以出现间歇性异常。

三、经验总结

  1. 该问题排查时间较长,定位问题过程不明确,涉及到关联其他系统,导致整个处理过程持续近10个小时以上,还好上级监控值班人员对此项运行指标考核较松,未记录运行异常事件。
  2. 长时间未发生信息系统异常事件,人员思想意识有松懈,出现电话联系不上运维人员的情况。性能检测系统正式运行在2个月左右,运维人员对系统整个运行、配置情况不太熟,耽误了问题的排查时间。
  3. 由于非正常的信息化项目实施的系统,整个要求和管理上不到位,平时没有对该服务器进行巡检和监控,操作系统运行缓慢而没有发现。

信息系统故障分析案例---------记一次性能检测系统故障排查相关推荐

  1. linux系统日志排故方案,Linux系统故障排查思路与常见案例

    Linux系统故障排查思路与常见案例 1.Linux系统日志与分类 内核及系统日志 这种日志数据由系统服务syslog统一管理,根据其主配置文件"/etc/syslog.conf" ...

  2. 某公司故障分析案例(实战案例)

    某公司故障分析案例(实战案例) 某集团有限公司的Lotus Notes系统在工作人员日常办公中占有重要地位.在最近的一次网络架构调整后部分员工Lotus Notes客户端出现访问异常缓慢的现象,通常这 ...

  3. 报名已近500人丨基于AWR/ASH故障分析案例分享

    基于AWR/ASH故障分析案例分享-04.08 AWR/ASH 是Oracle数据库使用度很高并非常重要的工具,如何基于AWR/ASH去分析数据库性能或故障,是DBA不可缺少的基本功.本主题通过实战案 ...

  4. UEBA案例分析系列之检测失陷凭证

    UEBA案例分析系列之检测失陷凭证 概述 近日万豪透漏其公司再次遭遇大规模数据泄露,可能涉及520万名客户的详细信息.此次事件攻击者使用万豪特许经营酒店两名员工的登录凭证进行数据访问. 利用合法凭证访 ...

  5. mysql中报了 tmp空间不足的问题,【案例】Oracle安装 检测阶段警告Free space: /tmp空间不足解决办法...

    天萃荷净 运维DBA反映在Oracle 11G数据库安装过程中,在检测阶段出现报错警告Free space: /tmp空间不足 1.ORACLE 11G报Free space: /tmp空间不足错误 ...

  6. 《信息系统项目管理案例分析指南》书本推荐

    本书由希赛IT教育研发中心组织编写,作为计算机技术与软件专业技术资格(水平)考试中的信息系统项目管理师级别的指定参考用书.在参考和分析历年考试试题的基础上,着重对考试大纲规定的内容有重点地细化和深化, ...

  7. 5.15 综合案例2.0-燃气检测系统(仅支持2.02以上版本)

    综合案例2.0-燃气检测系统 简介 MQ2气体传感器 准备 硬件连接图 代码流程 功能实现 1.物联网平台开发 2.设备端开发 调试 3.物联网应用开发 3.1新建'普通项目' 3.2关联产品和设备 ...

  8. Linux系统故障排查和修复技巧

    (一)单用户模式 Linux系统提供了单用户模式(类似Windows安全模式),可以在最小环境中进行系统维护.在单用户模式(运行级别1)中,Linux引导进入根shell,网络被禁用,只有少数进程运行 ...

  9. 运维人员打字耍不要快_Linux运维人员应该知道的系统故障排查及修复方法

    今天小编要跟大家分享的文章是关于Linux运维人员应该知道的系统故障排查及修复方法.熟悉Linux的小伙伴都知道,Linux系统在启动过程中会出现一些故障,导致系统无法正常启动,小编在文章中分享了几个 ...

最新文章

  1. 【Android】安卓布局文件中xmlns属性
  2. NVIDIA NeMo User Guide
  3. linux合并两个文件 去重复,c - 在Linux中使用C,通过系统调用将两个文本文件合并为一个新文件(来回换行) - 堆栈内存溢出...
  4. DNS、IP地址、子网掩码和网关
  5. Gensim初步使用和详细解释(该代码只能处理英文,处理中文不可用该代码)
  6. Foundation框架
  7. 698. Partition to K Equal Sum Subsets
  8. 轴固定位置_轴承的装配与内外圈固定方法,一文让你搞懂
  9. pku 3683 Priest John's Busiest Day 2-sat判断有误解+输出可行解
  10. com.android.htcdialer+意外停止+htc,HTC刷机为什么会变砖 HTC刷机变砖修复方法介绍【教程】...
  11. UML 返回消息的虚线箭头 如何画
  12. A股哪家上市公司年报更亮眼?
  13. 如何把PDF中A4页面拆分成两张A5来打印
  14. C++:构造函数以及析构函数
  15. 个人理财小助手 —— 数据库(二)
  16. 如何做召回dssm,fm,Mind,youtube等模型
  17. 《交互设计》作业-第四周
  18. OllyDbg分析crackme-AcidBurn
  19. JAVA漏洞扫描工具之墨菲安全for IDEA
  20. Word插入对象后,Word中看到没空白页,但是导出PDF却出现了空白页

热门文章

  1. vue自定义指令directives同时传递多个参数
  2. 数据结构——图的邻接矩阵实现
  3. 毕业一年的组长,刚去了阿里做Devops。年薪40W的offer
  4. 华为南研所机考练习2 -求最大递增数
  5. how to search books in gitbook
  6. 不同按钮进入同一个页面显示不同的div
  7. HTML(一)静态登录注册页面附有完整网页(html+css+js)
  8. 关于extern用法说明
  9. pgpool-ii的安装与使用
  10. MYSQL相关内容(引擎、隔离级别、实现原理)