37 | 故障管理:谈谈我对故障的理解

系统正常,只是改系统无数异常情况下的一种特例。

Design for Failure

我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

故障永远只是表面现象,其背后技术和管理上的问题才是根因

理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行。

强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。必须尽快将人为动作转化到技术平台中去。

38 | 故障管理:故障定级和定责

故障的定级标准

P0-P4, MTBF,MTTR,MTTF

故障的定责标准

变更执行,服务依赖,第三方责任

39 | 故障管理:鼓励做事,而不是处罚错误

关于定责和处罚

绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。

鼓励做事,而不是处罚错误

40 | 故障管理:故障应急和故障复盘

故障应急

  • 第一方面,业务恢复预案
    优先恢复业务,而不是定位问题。
    Chaos Engineering

  • 第二方面,有效的组织协调

    • 确定故障影响面及等级
    • 组织应急小组
    • 信息通报

    功夫要下在平时,注意建设各种工具和平台,同时要尽可能地考虑和模拟各种故障场景。

故障复盘

复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进。

技术支持的作用:

  • 召集复盘会议
  • 组织会议流程
  • 对故障定级定责
  • 明确后续改进行动及责任人,录入系统并定期跟踪

复盘的关键环节:

  • 故障简单回顾
  • 故障处理时间线回顾
  • 针对时间线进行讨论
  • 确定故障根因
  • 故障定级定责
  • 发出故障完结报告

定期总结故障案例

41 | 唇亡齿寒:运维与安全

运维与安全的关系

在双方工作的协作上,我一直认为运维不能只是被动响应,而应该主动与安全合作,共建安全体系,与运维体系融合,把防线建设好,从源头控制。

蘑菇街安全体系简介

  • 入网管控
  • 堡垒机
  • 主机安全管控
  • 黑盒扫描
  • 白盒扫描(代码审计)
  • WAF,web application firewall
  • 应急响应中心 SRC

42 | 树立个人品牌意识:从背景调查谈谈职业口碑的重要性

背调过程不可控,但是我们自身的表现却从来都是可控的。

如果想要树立个人的好口碑,那就需要我们付出更多,要让团队和其他成员明确你独特的个人价值。

要引以为戒的反例:

  • 诚信问题,这是高压线,触碰不得
  • 消极怠工问题,这一点我认为是职业道德问题,是令人厌恶的

结束语 | 学习的过程,多些耐心和脚踏实地

学习也是一个从厚到薄的过程。

软件架构的目的,是将构建和维护所需的人力资源降到最低。

专注带来效率提升。

总结回顾是最好最快的提升方式。

不要忘了时常做一下总结和回顾,而总结和回顾的最好方式就是写作。

《赵成的运维体系管理课》学习笔记(5)——故障管理相关推荐

  1. 赵成的运维体系管理课视频教程

    专栏模块 专栏共三个月,36 期,围绕以应用为核心的运维体系,分四个模块介绍. 应用运维体系建设.这一模块是运维工作的基础,将从标准化和应用生命周期开始,介绍如何一步步建立运维技术体系和组织架构,如何 ...

  2. 《赵成的运维体系管理课》学习笔记(2)——持续交付

    21 | 人多力量大vs两个披萨原则,聊聊持续交付中的流水线模式 项目需求分解 将项目管理中的需求与持续发布中的应用这两者很好地关联起来. 明确好需求拆分与应用功能的对应. 提交阶段之开发模式选择 开 ...

  3. 《赵成的运维体系管理课》学习笔记(1)——持续交付

    16 | 持续交付知易行难,想做成这事你要理解这几个关键点 什么是持续交付 首先要把持续交付做好. 做持续交付就是提升整个研发体系效率的关键. 持续交付代表着从从业务需求开始到交付上线之后的端到端的过 ...

  4. 《赵成的运维体系管理课》学习笔记(3)——云计算时代的运维实践

    25 | 为什么蘑菇街会选择上云?是被动选择还是主动出击? 我们所面临的问题 成本闲置问题 大促,需要业务系统有足够的容量支持,浪费机柜成本和人工投入. 基础设施维护问题 IDC机房选址,IDC机房的 ...

  5. 《赵成的运维体系管理课》学习笔记(4)——稳定性保障

    31 | 极端业务场景下,我们应该如何做好稳定性保障? 我们所面对的极端业务场景 可预测场景:双11 不可预测场景:鹿晗公布恋情 我们要迎接的技术挑战 运维自动化 标准化覆盖面是否足够广泛,应用体系是 ...

  6. 从《进化/运维技术变革与实践探索》看运维体系建设与个人成长

    最近在学习赵成大佬的<进化/运维技术变革与实践探索>一书,在极客时间也有教程.整本书从以下的四个方面进行了梳理:应用运维体系建设.效率和稳定性等方面的最佳实践.云计算方面的思考和实践.个人 ...

  7. 【转载】拿来即用的企业级安全运维体系搭建指南

    拿来即用的企业级安全运维体系搭建指南 本文我们将针对如何解决问题来进行详细说明,从问题入手,通过纠正或者培养良好的运维安全习惯,搭建完整的运维安全技术体系. 作者:林伟壕来源:DBAplus社群| 本 ...

  8. 阿里巴巴超大规模 Kubernetes 基础设施运维体系介绍

    简介:ASI 作为阿里集团.阿里云基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛.透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让 ...

  9. 阿里巴巴超大规模Kubernetes基础设施运维体系解读

    简介:ASI:Alibaba Serverless infrastructure,阿里巴巴针对云原生应用设计的统一基础设施.ASI 基于阿里云公共云容器服务 ACK之上,支撑集团应用云原生化和云产品的 ...

最新文章

  1. AUC是什么?AUC的的意义是什么?AUC的判断分类器优劣标准是什么?AUC如何计算?
  2. Coreseek:indexer crashed神秘
  3. Spring Cloud【Finchley】-09Feign使用Hystrix
  4. 2019 阿里Java 4轮面试题,含必考题答案参考!
  5. mysql数据库笔记 约束_MySQL数据库笔记四:MySQL的约束
  6. 4.4系统,拍照-裁剪,resultCode返回0
  7. Windwos tar 命令详解
  8. (转)s3c6410 开发板Linux系统支持 K9GAG08U0E的方法
  9. Google SketchUp Cookbook: (Chapter 4) Advanced Intersect and Follow Me Techniques
  10. Android学习之CoordinatorLayout轻松实现360软件详情页
  11. PPIO数据碎片化分散存储
  12. Flash数据读取和保存
  13. 前端学习-Antd 组件库基础
  14. 【C++】Clang-Format:代码自动格式化(看这一篇就够了)
  15. 笔记本连接不上外接显示器_如何将多个外接显示器连接到笔记本电脑
  16. 数仓工具—Hive实战之滑动/滚动时间窗口计算(19)
  17. lEO数值资产系统新版本c2c币数值合约交易平台自动撮合松机器人功能
  18. 基于YOLOv7的芯片表面缺陷检测系统(源码&教程)
  19. 苹果乔布斯乔纳森时代彻底终结!
  20. iOS开发-Apple开发者账号详解

热门文章

  1. 5个炫酷登录页面,拿去就能用(附源码)
  2. 交换机的连接方式详解(图)
  3. 单片机c语言怎么实现按键松开,灯还保持松开前的状态,单片机C语言程序设计:K1-K4按键状态显示...
  4. 红米note4x开启root权限
  5. Web端CAD图形找不同?一键在Web端找出CAD图不同并对比分析
  6. notify验签失败及其原因
  7. Python--弱口令字典爆破
  8. 金投网煤炭数据爬取-精进版
  9. Software Testing - UI自动化测试设计规范
  10. python读excel成数组_python 如何读取excel文件 将每一行存为数组/python读程序题