作者简介

《海量运维、运营规划之道》一书作者,关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那运维、运营更多的是在关注互联网服务的质量、效率、成本、故障、瓶颈,用户的忍耐、抱怨等问题。

在接下来的日子里,将以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台,监控、告警、安全、优化、考核等几个维度结合案例来与大家分享自己的体会,内容大致如下所示。

编者按:一个好的制度是可操作可执行的,不是高高挂起的。每个公司情况不同,制度需要定期根据公司自身情况进行适当修改,以下文章算是一个制度的模板,仅供参考,要想使用肯定还需要修改。

正文

互联网产品提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的运维和运营质量,规范各业务线的服务、故障响应,拟定和发布“故障分级和处罚规范”是非常必要的。

故障分级标准

运营故障中,对非不可抗力所造成的故障归类为“故障”,对于故障将追究故障的分级,故障责任人,及故障处理结果。下面将就各类故障级别进行定义说明,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级最高者为该故障综合严重等级,故障分级如下所示。

故障分级表

故障分类 等级 业务故障描述
业务可用类 一级故障 业务中断8小时以上
二级故障 业务中断2-8小时
三级故障 业务中断1-2小时,业务核心功能无法使用
四级故障 业务中断1小时以下,业务核心功能受到影响
五级故障 业务中断1小时以下,业务次要功能无法使用
业务安全类 一级故障 系统入侵:核心业务受到入侵,核心用户数据等受到入侵,或者系统文件给恶意窜改,容易引发入侵扩散;
页面窜改:门户网站首页给非法窜改内容、内容涉及危害性极大的;
CGI漏洞:已经引起大面积用户讨论、传播和以之侵害公司品牌利益,或者造成直接经济损失的
二级故障 系统入侵:核心业务受到入侵,未危及重要数据,仅造成扩散隐患但是并未发现有以外的机器系统受入侵的;
页面窜改:业务页面给非法窜改内容、或者小恶作剧;
CGI漏洞:由外部发现但还没有造成重大危机或者造成经济利益损失的
三级故障 系统入侵:核心业务存在高危端口或者系统漏洞
CGI漏洞:由内部发现但还没有造成重大危机或者造成经济利益损失的核心系统漏洞
四级故障 系统入侵:非核心业务存在高危端口或者系统漏洞
CGI漏洞:由内部发现但还没有造成重大危机或者造成经济利益损失的普通系统漏洞
五级故障 隐患:自身有漏洞,但无重大后果

故障奖惩制度

运营故障处理评定是根据相关责任人对故障的响应、处理、完成结果等因素来对故障的处理情况进行综合评定,部门内会依据这个评定来对故障处罚等级进行调整。该评定只用于由部门内决定的故障处罚分级,公司的处罚条例不受此约束。符合下面条件者,可以对故障处罚等级进行适当降级,具体所降等级由部门领导决定,故障升级制如下所示。

故障升级制度表

评定项 降级标准 升级标准
响应时间 第一时间响应,包括故障的通知,处理,善后等事宜 相关人员一再催促下,责任人仍没有及时对故障进行处理
准备度 对故障发生的原因已有充分的预防机制 对已有发生的问题,或低级错误没有进行预防或规避
处理态度与能力 在最快时间内处理故障,并积极配合其他相关人员的故障处理工作;遇到技术问题积极寻求解决办法和资源支持; 对故障不重视,态度怠慢,敷衍;或没有足够技能进行故障处理
处理结果 系统在最短时间内完全恢复正常运作,故障影响降到最低 故障没有完全解决;或由于处理过程不及时不妥善导致故障影响(范围,金额,投诉量,恶性舆论等)有所扩大
后续措施 对故障发生的原因进行总结,制定同类故障的预防规避措施 拒绝对故障原因(除不可抗力因素以外)进行总结和制定预防/规避措施

对于所出现的各级运营故障,如果运营故障的主要原因由人为工作疏忽/失误所导致,参照以下处罚标准对个人和项目组进行相关惩处,任何运营故障,要及时通报相关领导或相关处理人员,对于延报、瞒报故障者,将从严处罚,故障分级及处罚如下所示。

故障分级表

等级 个人处罚
一级故障 以公司级故障处罚为准(全公司通报,甚至开除)
二级故障 以公司级故障处罚为准(全公司通报,甚至开除)
三级故障 全产品线以及相关小组通报批评,处以2000元罚款
四级故障 全产品线以及相关小组通报批评,处以1000元罚款
五级故障 全产品线以及相关小组通报批评

网络安全成长路线图

这个方向初期比较容易入门一些,掌握一些基本技术,拿起各种现成的工具就可以开黑了。不过,要想从脚本小子变成hei客大神,这个方向越往后,需要学习和掌握的东西就会越来越多,以下是学习网络安全需要走的方向:

# 网络安全学习方法

​ 上面介绍了技术分类和学习路线,这里来谈一下学习方法:
​ ## 视频学习

​ 无论你是去B站或者是油管上面都有很多网络安全的相关视频可以学习,当然如果你还不知道选择那套学习,我这里也整理了一套和上述成长路线图挂钩的视频教程,完整版的视频已经上传至CSDN官方,朋友们如果需要可以点击这个链接免费领取。网络安全重磅福利:入门&进阶全套282G学习资源包免费分享!

运维必备规章制度:故障分级和处罚规范 – 运维派相关推荐

  1. 如何做好自动化运维?自动化运维必备技能有哪些?

    万丈高楼平地起,高楼稳不稳取决于地基是否扎实.基础数据便是运维管理这座高楼的地基. 首先介绍一下我们在运维管理中所涉及到的基础数据有哪一些.请看下图: 基础数据大致分为CMDB.日志.生产DB.知识库 ...

  2. 云网络运维必备神器:全链路故障诊断与分析

    摘要:华为云Stack全链路故障诊断与分析平台,以云网络中的逻辑网络.虚拟网络.物理网络作为网络故障分析诊断切入点,以三层网络路径拓扑为核心,端到端实现三层网络路径可视化. 本文分享自华为云社区< ...

  3. 什么是自动化运维?自动化运维必备技能有哪些?

    万丈高楼平地起,高楼稳不稳取决于地基是否扎实.基础数据便是运维管理这座高楼的地基. 首先介绍一下我们在运维管理中所涉及到的基础数据有哪一些.请看下图: 基础数据大致分为CMDB.日志.生产DB.知识库 ...

  4. 运维必备生存指南 |《王者荣耀》乱象竟然也能反映出运维生存现状?

    <王者荣耀>已成为社会现象级手游,随之问题接踵而来.部分小学生沉迷后为买游戏道具刷爆家长银行卡.为抢夺游戏中"buff(增益效果)"大打出手. 这些问题怎么产生? 责任 ...

  5. Linux排查错误的命令,运维必备:常见的Linux系统故障及其排查的方法

    原标题:运维必备:常见的Linux系统故障及其排查的方法 Linux是当前市场上比较常用的.自由开源操作系统,也是云计算运维人员日常工作中的好帮手.不过很多初学云计算的小伙伴面对Linux系统出现的故 ...

  6. 【转载】运维职业向!我是怎么入得运维行业?运维工程师入门必备技能以及打怪升级篇...

    前言:转载 陈浩一个从事安全运维向的前辈文章.写的很好.人非常nice,遇到了问题,qq上很快就回复了我. 大道三千 入门最难,凡事入了行,也就什么都好说了,好的自然不断努力奋斗修行,不好的自然很快就 ...

  7. 【收藏】运维必备的问题定位工具及案例分析

    [欢迎关注微信公众号:厦门微思网络] 微思网络(官网):https://www.xmws.cn/ [摘要]本文主要介绍各种问题定位的工具,并结合案例分析问题. [作者]李航,多年的底层开发经验,在高性 ...

  8. Linux 运维必备150 个命令,值得收藏!

    Linux 运维必备 150 个命令,请配合下面的网站使用.定位你需要使用的命令,然后去这个网站查询详细用法即可. 地址:wangchujiang.com/linux-command/ 这个网站来自 ...

  9. 13 款高逼格且实用的 Linux 运维必备工具

    13 款高逼格且实用的 Linux 运维必备工具 转自:https://mp.weixin.qq.com/s?__biz=MzI0MDQ4MTM5NQ==&mid=2247487674& ...

最新文章

  1. Android关于notification的在不同API下的用法说明
  2. 成功解决importError cannot import idnadata
  3. mysql设计技巧_MySQL库表设计小技巧
  4. StringBuilder与StringBuffer比较
  5. 基础知识—函数-函数概述
  6. 2010年3月再谈前端工程师的笔试题
  7. 入门级都能看懂的softmax详解
  8. bbsmax mysql_mysql 数据库 备份 还原
  9. 知识服务才是为用户创造价值的体现
  10. Ajax请求下载文件
  11. 【RK2206】4. MQTT示例
  12. xp 安装IPv6后,无法上网
  13. 2143.replace.favo.xrcch.com Dns劫持解决方案
  14. 排序算法总结--希尔排序
  15. 梆梆加固之防内存dump分析
  16. 红米手机5获取Root超级权限的步骤
  17. 光纤HDMI线不再脆弱,开博尔铠装HDMI光纤抗拖拽
  18. TCP协议基于计时器的重传策略模拟实战
  19. 支付宝公众平台 接口
  20. 多人线上K歌房的实现难点解析

热门文章

  1. 电脑专业英语1500词-1
  2. 基于单片机双路温度检测报警系统设计-基于单片机声光控智能开关控制灯设计-基于单片机热电偶智能体温检测设计-基于单片机小型家用燃气锅炉控制系统设计-基于单片机一氧化碳有毒气体采集报警系统设计
  3. jmp指令(0903)
  4. JDK1.7ConcurrentHashMap源码分析
  5. LC145 Binary Tree Postorder Traversal
  6. win10家庭中文版安装Hyper-V 解决Hyper-V.cmd闪退问题
  7. 计算机机房的监控,机房动环监控解决方案
  8. Typora markdown语法基础教程
  9. 科技助力东京奥运会:中国装备中国造
  10. 不管过去如何,未来我们都要奋力前行!