大多 IT 运营支撑同学都有过深夜业务应用突然故障的经历,监控系统准确告警,但是白天筋疲力尽的运维同学在熟睡中,经常会遗漏告警提醒;往往是接到主管电话(用户投诉了)才处理。有什么办法解决该问题呢?大多人是这么做的:

建立7x24小时的一线值班团队,搞一个监控室,值班人员随时警备,负责告警响应和协调调度工作。一年至少花费:4人(2班)x15万/年=60万/年,也就土豪公司的可以搞搞,中小型公司肿么办?

我们部分赞同该思路:

建立7x24小时的 on-call 机制,随时响应解决,通过团队协作的机制来进行保障。

但在具体的方法和形式上,需要一个好的工具是可以支撑起7x24小时的 on-call 团队,重点之一是:

有效的告警通知,而且是通知必达(如主管电话)。

如何通知必达?

OneAlert 之前已经支持了微信、短信、邮件、移动APP、页面级提醒,新版4.1.2.0新增电话通知,再也不怕深夜故障啦。

这次优化包括2部分:

  • 新增电话提醒,智能语音播报告警内容,即使是深夜,你也能够及时唤醒,第一时间处理故障。避免手机网络不稳定引起的微信、邮件、移动 APP 不及时现象,基本上电话是不可抗拒的,除非关机。当然如果关机的话(7x24不允许关机),OneAlert 的升级分派策略会同时通知其他同学。

  • 阶梯式延迟提醒通知。告警事件过来后,多个渠道可以延迟的方式通知。如果在这个过程中有人响应该告警了,那么就没有必要进行后续的提醒通知了。例如同时通知给2名值班同学 A 和 B,其中同学 A 收到微信提醒后,确认(响应)该告警了,那么同学 B 就不会继续收电话通知了。

7x24 on-call

回到原先的话题,如何构建7x24 on-call 机制去及时响应故障。

  • 将监控系统的告警接入到 OneAlert ,可参考云告警接入
  • 将 on-call 团队成员加入告警分派中,可参考告警分派
  • 每个人设置通知方式,特别是电话通知作为最后的杀手锏。

中小企业运维支撑同学就可构建一个 on-call 团队,告警事件的处理会逐渐进入正轨,并有序处理。

结束语

这次新版本发布, OneAlert 已经实现两个中国领先:通知渠道领先和接入监控平台领先。

OneAlert 作为中国领先的云告警平台,后续版本将在以下方面发展:

  • 更多的国内外主流监控工具,以及主流 IT 协作工具。
  • 更多的通知运营商和集成商,提升渠道可靠性。

免费注册

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。

转载于:https://www.cnblogs.com/oneapm/p/4793105.html

中小企业 IT 运维福利:快速构建 on-call 机制相关推荐

  1. linux awk语法格式,Awk是什么?一文带运维小白快速掌握Linux Awk用法

    原标题:Awk是什么?一文带运维小白快速掌握Linux Awk用法 作者:a8 Awk.sed与grep,俗称Linux下的三剑客,它们之间有很多相似点,但是同样也各有各的特色,相似的地方是它们都可以 ...

  2. 智和信通,部署智慧交通运维系统,构建一站式运维监控平台

    交通作为国民经济和社会发展的基础性.先行性产业,在整个社会经济.民生发展中占有举足轻重的地位,随着包括5G基站建设.城际高速铁路和城市轨道交通.大数据中心.工业互联网在内的新基建按下加速键,轨道交通云 ...

  3. Nightingale 滴滴夜莺 运维监控-快速开始

    文章目录 一.什么是Nightingale 二.Nightingale与Open-Falcon对比 三.Nightingale架构 四.Nightingale安装 1. 准备工作 2. 源码编译安装 ...

  4. Linux运维:快速清空文本内容

    文章目录 快速清空文件内容 方式一: ggdG 方式二:%d 方式三:.,%d 方式四:echo > a.txt 快速清空文件内容 方式一: ggdG 首先回到首行 gg 然后,注意G是大写的( ...

  5. 半自动化运维之快速连接到指定环境(一)

    在大量的分布式环境中,可能存在着大量的主机配置,ip配置,数据库实例配置,甚至操作系统用户,数据库用户密码也不同,这个时候如果记录在10条左右还能应付,但是如果给你几百个这样的环境,每次都需要先查找对 ...

  6. 秒云获得阿里云首批产品生态集成认证,携手共建云原生智能运维生态服务

    近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务ACK经过严格测试程序,完成 ...

  7. 深度解析智能运维场景下“港口行业”解决方案

    行业趋势 基于十四五对"新基建"的要求,结合我国港口发展的阶段性特点,目前智慧港口建设可分为三大方向.一方面是以5G通讯.物联网等新一代信息技术与港口服务深度融合,大力发展智能港口 ...

  8. snmp工具_运维超级好用工具大PK,你在用哪个?

    运维行业有句话:"无监控.不运维",是的,一点也不夸张,监控俗称"第三只眼".没了监控,什么基础运维,业务运维都是"瞎子". 所以说监控是运 ...

  9. 运维的本质是什么?阿里“无人化”智能运维平台的演进

    开发者盛宴来袭!7月28日51CTO首届开发者大赛决赛带来技术创新分享 差不多在两年前,阿里内部出现了很多运维中台.研发中台等等,那有没有后台呢?不好意思,我们只有中台,没有后台,会在中台上构建与业务 ...

最新文章

  1. IOT物联网观察之三大运营商物联网发展进入规模商用阶段
  2. struts2 中的 addActionError 、addFieldError、addActionMessage方法的区别
  3. Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
  4. 人工智能项目开发规划与准备
  5. 从LiveVideoStackCon 2019北京看多媒体技术趋势
  6. linux驱动helloworld
  7. 求中位数中回文数之和C语言,一些算法题及答案
  8. 7-188 编程团体赛 (20 分)
  9. vue点击input框出现弹窗_vue组件实现弹出框点击显示隐藏效果
  10. 开始把一些东西放到博客上
  11. 快速排序 与 归并排序
  12. 一 c语言程序设计 张玉生版
  13. 如何备份光猫html文件夹,华为光猫备份jffs2及HG8321R-RMS切换HG8321版本教程
  14. 如何利用云流送(Cloud Streaming)构造一个全三维、沉浸式的数字化虚拟景区
  15. postman全方位讲解(有空看下)
  16. 提问的价值,你了解多少?
  17. PanDownload——最新修订版复活了。60MB/s,附下载地址
  18. IMX6ULL学习笔记(18)——GPIO中断
  19. 他一年开发19款!款款口碑爆棚
  20. GROUP BY clause and contains nonaggregated 报错处理

热门文章

  1. Android基础新手教程——3.4 TouchListener PK OnTouchEvent + 多点触碰
  2. ubuntu16.4安装部署过程
  3. nginx https 配置
  4. eclipse插件本地扩展安装
  5. as5.4安装gcc和g++
  6. Problem B: 编写函数:求最大公约数gcd()和最小公倍数lcm() (Append Code) 山东科技大学 oj
  7. 如何安装html启动器,如何在Spring Boot中创建自己的启动器?
  8. 简单的网页制作_制作简单网页物体
  9. conda添加清华镜像源在cmd环境下执行下列命令
  10. 村上隆取消NFT拍卖:会做更充分的准备,坚信NFT的巨大潜力