ITSM

Business Continuity Manage(BCM)

Business Continuity Plan (BCP)     偏业务

Disaster Recovery Plan(DRP)       偏IT

天塌了,考虑在天塌了的状态下做什么,怎么开展业务就是BCP;

天塌了,考虑怎么把天撑回去,就是DRP。

DRP+BCP+供应链管理+危机管理等就是BCM (业务连续性管理)。

故障分类与应对;

线上事故处理流程1线: 对于一线服务台,同时也承担着客户服务的角色。在故障发现发生时,要做好客户安抚,客户反馈,客户协调,客户沟通等相关客服服务工作。

线上事故处理流程2线:

----------------------------------------------------------------------------------------------------

故障分类:

按级别:

p0

关键链路不可用,导致业务停止。

如:

数据库不可写

消息队列不可消费

etcd不可读

程序单点 agg,这是目前影响可用性的最大风险点

应对,目前中间件都是高可用版本,出现故障可做高可用切换。ucloud上的中间件服务及服务器高可用由ucloud提供协议保障。

灾难故障,ucloud数据中心不可用。目前没有灾备

此类故障主要解决方式就是切换,切换到standby

p1

系统一部分不可用,不影响业务最终结果,但会影响业务的响应时间,效率,吞吐。

次类故障要根据领域知识,针对性解决。另外,第一时间记录现场后,以类似重启置零的方式可以快速恢复业务做故障处理。

如果现场反应出了系统性问题和重复性问题,则做问题管理解决。

p2

系统可用,但性能下降,影响业务体验。

一般是某个细分的技术问题。但不会影响使用,比如kafka重平衡,数据库qps下降,程序运行时间复杂度较高。

按领域:p0以下

系统故障

由ucloud提供相关协议服务。

中间件故障

针对领域知识进行处理

程序故障

编译发布新版

---------------------------------------------------------------------------------------------------------

问题管理:

磁盘满问题,磁盘是一种慢性消耗资源,对磁盘的消耗是可枚举的。那么在处置完备的情况下,只需要定期扩容,就可以解决这个问题。

磁盘满问题
收到报警-快速处理
常规处理
特别注意
关注异常
长久处理
磁盘满问题
收到报警-快速处理
常规处理
特别注意
关注异常
长久处理
存储密集型业务,数据库,文件存储等

登录机器执行df -hT 找出满的挂载

使用du -sh ./*  查出哪个目录哪个文件占用多,进行删除。

定期清理日志,包括:

系统日志 /var/log/message

数据库日志

使用日志平台长期收集日志

一些临时存放的文件数据。当使用完及时删除。若未来一段时间内需长期使用,可放对象存储。 因为不恰当的程序或运维问题引发容量爆增,如程序bug大量打印日志。 按业务容量增长进行扩容
非存储 同上

同上

同上 同上  
118复盘    

1.删除了/data/enginebench下的样本,测试用的临时样本。

2.删除了/data/Malware下的下载样本。

3.清理了多余的引擎备份

   

----------------------------------------------------------------------------------------------------------

故障处理流程:

一,故障发现
用户主动反馈
1)C端用户反馈
2)产品反馈
3)业务反馈

观测系统发现
1)系统报警发现异常
2)服务日常巡检发现异常

故障确认
不管是收到报警信息,还是收到业务用户反馈,我们都需要进一步确认并验证服务或功能是否正常,

确认问题的同时通知反馈方我们正在跟踪处理。

二,确定问题边界。确定故障级别。
根据反馈信息,快速判断问题归属。
1)若是使用问题,直接通知反馈方。
2)若是服务问题,协调对应服务负责人一起排查。

确定故障主导人
故障主导人的作用
1)协调相关人员排查并处理故障
2)及时跟踪汇总故障处理进度
3)及时同步故障处理进度
确定故障主导人后,需同步出来
故障主导人:XXX
相关处理人:XXX、XXX、XXX
预计完成时间:
紧急处理方案:

三、故障分析
可根据经验来快速判断,若不能快速判断问题所在,则可结合观测系统日志,metric,trace,监控资源图来分析。

根据反馈信息,快速排查日志并分析定位问题。
注:可先根据提供的信息找到类trace id,然后通过trace id找到该请求相关的所有日志。

根据监控指标分析
包含主机,中间件,网络,系统资源等维度的监控分析。

四、故障处理进度同步
确认故障后,若故障非常严重,由故障主导人建立群聊沟通平台,把相关负责人和小伙伴都加入进来,

同时告知反馈方当前情况及解决预案或方案,让反馈方有心理准备,预留buffer时间做好应对措施。

如果不能及时解决,不要等待或死磕问题,请迅速联系其他同事或者把问题上报来寻求支持和帮助。

参考同步格式
@相关人员
故障主导人:XXX
相关处理人:XXX、XXX、XXX
预计完成时间:2022-4-22 20:00:00
紧急处理方案:如回滚/重启/紧急更新等。核心是必须要在最短时间内快速修复问题。
后续优化方案:提供彻底优化方案。
后续优化时间:xxxx-xx-xx xx:xx:xx

同步机制
每隔30分钟同步一次。
注:故障恢复后务必通知反馈方,告知问题已解决。

五、故障恢复
确认故障后,首先要做的就是恢复故障,常用手段如下:(可参考图片标红)

注:快速恢复时,对于应对手段需要找一个人进行review,以免着急修复出错,产生新的问题。

服务回滚
如果属于发版更新的代码BUG导致的问题,一般可通过回滚到上一个程序版本来迅速恢复。

重启
部分问题可以通过重启的手段来临时恢复,以保障系统的暂时可用,但后续还需有其他方法彻底解决问题。

紧急更新
在明确问题所在后,迅速修复代码,然后快速更新上线。

限流和降级
通过将部分非核心服务或接口进行降级和限流处理,来避免核心业务受到影响。

六、故障报告
首先要明确,并不是所有故障都需要写故障报告。如果能快速恢复且影响很小,就不用写。

故障报告格式
故障标题:YYYYMMDD-xxx引起xxx服务不可用
故障发生时间:
故障报告时间:
故障恢复时间:
故障持续时间:
故障影响范围:
故障等级:P0/P1/P2/…
PN故障处理人:xxx、xxx、xxx
故障责任人:xxx
故障描述:xxx
故障处理过程:xxx
故障原因分析:xxx
故障总结:xxx
后续改进:xxx (需确定任务、执行人、执行时间)

七、故障复盘
邀请参与人员:反馈人、部门相关同事。

故障处理过程回顾
需要详细的记录下故障发现的时间,什么途径发现的,用了什么样的排查手段,什么样子的处理流程,

处理过程中,几点几分做了什么事情,将整个过程都一一的记录下来。

故障原因分析
需要讨论分析故障发生的原因,这里的原因不是指表象的原因,需要剖析出问题的根源。

故障改进计划
针对当前故障要做哪些改进措施,应对类似问题,如何预防。给出可实施的方案以及时间计划。

同时对故障等级进行认定。
复盘后,可看情况发送邮件给相关部门和同事。

---------------------------------------------------------------------------------------------------------------------

故障报告:

一、故障问题概况
  简要说明故障发生的时间、场景、当时系统环境、故障现象、影响范围
  二、处理经过
  如何快速恢复的,有没有什么遗漏
  四、故障问题分析与现象解释
  怎么样的过程,触发了什么问题,导致了现在的结果。

系统存在哪些问题漏洞。
  五、改进方式
  应用什么方式,以后就能杜绝这个问题

参考连接:

https://www.alaska.edu/files/oit/ITSM_Program/Incident-Management-Process-Description-v1.pdf

BCM-BCP-DRP-运维管理之故障管理——故障的分类与处理流程相关推荐

  1. 无人机综合管理系统、设备管理、设备台账、零部件管理、故障维修、维护工单、飞控成员、飞行站点、飞行计划、飞行记录、运维管理、维护管理、人员管理、无人机管理、维修保养、配件管理、保养管理、团队管理

    无人机综合管理系统.设备管理.设备台账.零部件管理.故障维修.维护工单.飞控成员.飞行站点.飞行计划.飞行记录.运维管理.维护管理.人员管理.无人机管理.维修保养.配件管理.保养管理.团队管理. ax ...

  2. IT运维管理人员轻松管理桌面终端

    近在某大型企业员工电脑近日频繁显示"系统提示您的网络已经中断!"这不,CIO王总正在处理邮件,突然无法上网了,给信息中心主管小赵去了电话"最近是怎么回事?网络怎么经常中断 ...

  3. Linux服务器运维管理 项目二 管理与维护Linux系统

    任务一 安装与维护Linux系统 系统已安装,略.                任务二 认识Linux的文件系统 子任务一 熟悉Linux系统的目录结构 第一步:理解Linux系统目录的结构树 第二 ...

  4. 网络管理工具与IT运维管理平台的差别

    随着运行在网络计算环境中的关键业务应用日见增多,企业客户对IT系统的管理需求正与日俱增.面对IT系统监控和IT运维管理市场的日趋成熟,形形色色的软件开发商和系统集成商和将目光瞄准了网络系统管理软件的开 ...

  5. 【案例】湘潭大学一体化运维管理平台

    湘潭大学信息化体系中涉及的人员复杂,除了高校本单位维护的老师外,还有外包团队人员.湘潭大学已经意识到需要对IT资产(硬件.应用.人员)实施有效管理,保证网络安全.可靠和畅通. 高校行业特性 (一)网络 ...

  6. 如何使用众安科技智能化运维管理平台提高企业效率

    数字化时代企业对于运维管理的需求越来越迫切.传统的手动运维方式已经无法满足企业对高效.可靠的运维管理的需求.众安科技作为一家科技公司,提供智能化运维管理平台,为企业提供全面的运维解决方案.本文将详细介 ...

  7. 企业建立规范化IT运维管理制度的重要性

    企业的需求       现代企业需要建立完善而成熟的IT运维管理体制,通过流程管理,不断提高IT运维质量,实现高效运维,提升组织内IT服务满意度.通过IT运维管理帮助企业建立快速响应并适应企业业务环境 ...

  8. OVH数据中心失火事件关于运维管理的思考

    OVH是除亚马逊.微软.Google之外的全球体量最大的云服务商和托管服务商之一,欧洲最大的.在全球拥有27个数据中心,起火的区域总共有4个数据中心,发生起火的SBG2被完全烧毁,SBG1的建筑物部分 ...

  9. 云计算运维累不累_关于云计算运维管理要点的知识分享

    通过云计算的运维管理,企业不仅能够实现对IT资源的统一,根据用户的需求提供可量化的存储服务与计算,而且还能有效将资源切换到实际需要的应用中,提高IT资源的利用率,降低系统成本. 要良好实现以上的管理目 ...

  10. 起步,停车——走好你的IT运维管理之路

    原文链接:http://www.betasoft.com.cn/laosun/2011-07-05/1635.html 再过一天2010年就要过去了,回首这一年的IT运维之路,您走好了吗? 综观整个国 ...

最新文章

  1. C++语言基本类型—整型
  2. Redis命令:INCR key加1
  3. 技术分享 | CodeReview主要Review什么?
  4. java 文件流读取文本_如何在Java 8中处理流和读取文本文件
  5. 从流水中倒推算出销量为多某值的日期
  6. NET多线程探索-线程同步和通信
  7. 95-860-045-源码-定时器-InternalTimerService
  8. IBM 开源处理加密数据的工具集
  9. android av和hdmi输出切换代码,AV转HDMI转换器有用吗?
  10. 转:zTree树控件入门之checkbox:如何动态设置节点的checkbox选择框启用与禁用状态(chkDisabled)...
  11. js高级学习笔记(b站尚硅谷)-9-原型链相关知识
  12. 微服务面试题 - Spring Cloud
  13. python实现动态壁纸_如何实现一个 windows 桌面动态壁纸
  14. 华尔街持续唱多美股市场,微美全息发布VR设备领涨科技股
  15. 计算机微课课件评比活动总结,教学大赛总结.doc
  16. 技术干货|eBay对流量控制说“so easy”!
  17. 饿了么官宣合作抖音后,美团的失意是什么?
  18. 【统计学习系列】多元线性回归模型(五)——参数与模型的显著性检验:t检验与F检验
  19. HDU6148 Valley Numer
  20. 用Node.js申请缓存buffer报DEP0005错误的解决方法

热门文章

  1. PROCESSENTRY32 结构
  2. Autosar AP – AP和CP差异
  3. 民营企业家胡国安:慈无涯,善为源
  4. node koa-helmet 提高网站安全性
  5. sqli-labs-基于报错的注入
  6. ThinkPHP5.0小计
  7. Linux基础命令及文件目录的创建
  8. Kubernetes基础:创建资源的方式
  9. java写给自己的一封信,给自己的一封信500字
  10. 什么是泛型?为什么需要泛型?杠精泛型