转:http://mp.weixin.qq.com/s?__biz=MzI4OTU3ODk3NQ==&mid=2247483970&idx=1&sn=2a00acfb25f0c7f6a20c8edf80dad332&chksm=ec2c48f2db5bc1e4b5d9ee7b51659e48dd7aa1571d2dd2d73666c5091a9df74aef0820d178f8&mpshare=1&scene=23&srcid=0315LZb7n3464X0iveN34E7w#rd

做运维的同学都知道,运维一定离不开Zabbix、Nagios之类的监控软件。目前,类似的软件在监控和数据采集方面已经做到了极致,但是在报警处理上并没有很完美的解决方案,比方说,经常出现高质量报警湮没在海量报警之中等情况。本文不探讨监控系统的配置优化,只探讨监控系统按照它的逻辑发出报警之后我们该做点什么。

报警遇到的痛点

报警风暴,高质量报警湮没在海量报警之中;

出现报警后没人认领,需要在在工作的IM群中沟通;

运维人员进行运维操作必定会引起某些报警,会给不知道真相的同学带来困惑;

海量报警恢复之后,运维人员很难在第一时间知道还剩下哪些报警没有恢复;

MySQL出现了慢查询报警,DBA还需要登录数据库去查看;

有些报警优先级不高,明明可以白天处理的,却在晚上第一时间发出来;

同一个报警会反复报出来。

背景现状

云极星创作为综合性云服务提供者,既要做公有云的监控,也要负责私有云的监控。我们的研发团队已经建立了比较完善的OpenStack监控体系,并且使用了多种监控工具;因为云极星创的运维团队和客户分布在全国各地,所以该监控体系的物理位置也是分散。在公有云场景下,报警需要按照物理位置或者应用类型发给不同的运维同学、运营同学和管理层。在私有云场景下,报警也需要推送给相应的客户。当前,我们主要采用微信为主,短信为辅的报警方式。

使用微信的优缺点

使用微信的优点:

  • 基本免费;

  • 图文并茂、字节数限制较为宽裕;

  • 微信客户端和服务器端交互方便。

使用微信的缺点:

  • 可用度依赖腾讯的服务器,因此特意增加了对微信服务器接口的监控,发现接口有问题之后会发短信报警;

  • 客户端需要保持联网,没有送达报告,因此系统提供汇总表功能。

优秀报警处理系统的三要素

  • 在合适的时间发给合适的人;

  • 尽可能的提供更多的信息,使得接警人员在不开电脑情况下第一时间能大概知道哪里出了问题;

  • 减少围绕报警的人员沟通成本。

实施方案

架构概览

报警分类

普通报警:根据排班表发送给值班的运维同学,低级别的报警会延时发给对应的应用开发。

ELK日志报警:用户在微信端可以查看

收到报警:确认、反馈和汇总

报警确认:当用户点击确认按钮之后,对应的人会收到确认信息。

报警处理结果反馈

汇总表:提供批量确认功能

报警收敛

基于关键字、主机名、Tag的复合报警收敛

报警升级

如果报警在一定时间没被确认也没有自动回复,会有一个报警升级动作

微信 vs 短信 两个平台

所有微信接口做了加密处理,防止非授权用户访问和关注公众号。

短信平台主要用来发送灾难级别的报警、微信API接口的报警,系统本身可用度的报警。

总结

1、系统使用的成果

云极星创之前使用的报警方案是邮件加短信的方式,在报警触发之后,运维交流群会有大量围绕报警的沟通,并且经常发生报警风暴,将短信发送平台堵塞,在本系统投入使用之后,基本上所有的沟通都在系统内进行。随着丰富的报警附加信息,减少了二线运维工程师在处理故障时候开机登录系统的次数。

2、研发历程

本系统开发历时半年左右,基本上随着云极星创的发展而发展壮大起来,初期的想法是因为各家短信发送平台随着国家打击电信诈骗的政策影响,变得越来越不好用,所以诞生了使用普及率非常高的微信来替代短信的想法。

第一个版本就是原封不动的推送Zabbix报警信息,随着公有云规模的不断扩大,报警不断增多,另外私有云客户也在不断的增加,需要接受报警的人员也越来越分散,围绕报警的沟通成本越来越高。

因此本系统的功能点都是围绕着我们运维同学在处理报警时候遇到的痛点进行开发而成。经过半年的发展,在我们内部已经将运维报警做成了运营的报警。

3、未来发展:

(1)、报警系统和工单系统以及CMDB做关联;

(2)、快速实现故障根因定位;

(3)、告警排行分析报表;

转载于:https://www.cnblogs.com/qiulang/p/6557800.html

如何将运维的报警做成运营的报警--Java后端架构相关推荐

  1. 使用云呐统一运维一体机降低运维数据中心的运营成本

    企业要发展,除了有自己的洞察力适应时代的发展外,还要能够处理好掌握的数据.这里的数据可以是客户信息或日常运营活动中的数据.能够处理日常经营活动中的数据,可以保证公司整体运营团队的可靠运营,降低运营暂停 ...

  2. AIOps——从数字化运维、智能化运维到智慧化运营

    数字经济时代,面对外部环境变化及内部组织变革等诸多挑战,企业急需通过数字化转型拥抱新机遇.开辟新赛道,在此过程中,数字基础设施建设成为影响数字化转型的关键要素,而运维转型也成为实现数据价值的最佳实践之 ...

  3. bim 水利枢纽 运维_BIM在项目运营维护阶段的应用

    一.BIM在空间管理中有哪些应用? BIM可以帮助管理人员进行空间管理,科学地分析建筑物空间现状,合理规划空间的安排确保其充分利用.如通过RFID获取安保人员位置:消防报警时,在BIM模型上快速定位所 ...

  4. 自动化运维:让IT运营更智能,更高效

    作者:禅与计算机程序设计艺术 运维工作是一项十分重要且繁重的工作,尤其是在大型企业中.管理运维团队对企业的业务快速.精准地进行响应.保障关键系统的正常运行,确保业务连续性,保证运维服务质量至关重要. ...

  5. 2021玛卜码面试题汇总:前端、运维、产品经理、Python、Java...

    职称 岗位答题地址 初级会计 http://www.gtalent.cn/exam/interview?token=e654daa34ba0e59679e51b965be2d8ca 中级会计 http ...

  6. 机器学习运维(MLOps):原理、组件、角色和架构

    标题:Machine Learning Operations (MLOps): Overview, Definition, and Architecture 作者:Dominik Kreuzberge ...

  7. 腾讯资深运维专家周小军:QQ与微信架构的惊天秘密

    社交领域一直是互联网创业的大热门,从PC到移动端,从OICQ.MSN到QQ.到了移动互联网时代,社交领域应用开始彻底爆发,直奔黄金期.腾讯在过去几年里,社交平台更是火到爆,QQ和微信坐拥几亿的粉丝,Q ...

  8. 进程管理程序java,运维经验分享(四)--关于 java进程管理的服务控制脚本编程思路分析...

    运维经验分享作为一个专题,目前共7篇文章 ====================================分割线====================================== C ...

  9. 安卓,运维,大数据,前端,java,区块链学习路线

    有些人真的是发学习路线,就发该学什么什么,对于小白来说,看懂个毛啊,咋知道你说这么多对不对?咋学啊,买书学? 链接: http://www.atguigu.com/final_gf.shtml#and ...

  10. 【运维能力提升计划-1】:JAVA基础

    Java基础 JAVA基础 Java是强类型语言 Java数据类型 类型转换 变量 常量 运算符 包机制 JavaDoc JAVA流程控制 用户交互Scanner 顺序结构 选择结构 循环结构 bre ...

最新文章

  1. Dynpro程序抬头信息要求多值输入的解决方法
  2. 北师大本科毕业需要过计算机二级吗,全国计算机二级
  3. CodeForces - 1417E XOR Inverse(字典树求逆序对+分治)
  4. 前端学习(2491):refused to apply style from ‘‘ because its MIME type (‘text/html‘) is not a supported sty
  5. GIS笔记-使用Geoserver搭建MWTS服务(构建离线GIS服务)
  6. android读取mysql数据库文件_Android开发系列(十七):读取assets目录下的数据库文件...
  7. 如何让.Net线程支持超时后并自动销毁!
  8. 服务器双硬盘系统安装系统安装,固态机械混合安装教程!双硬盘安装系统的方法...
  9. c语言自学手册百度云,C语言新手入门自学零基础通俗易懂教程百度云
  10. 第一天mysq踩坑--ERROR 1820 (HY000): You must reset your password using ALTER USER statement before execut
  11. LTspice蒙特卡罗分析正态分布图工具
  12. 分数换算小数补0法_小学数学常用公式大全(单位换算表),替孩子收藏一份...
  13. 那些堪比照片质感的PhotoRealistic Style Transfer系列
  14. 关闭Excel2016的动画效果
  15. 一个C#开发者用Java搭建Android框架的心路历程
  16. 照片在计算机打不开怎么回事,电脑上图片打不开怎么办
  17. 计算机基础常用缩略语
  18. 彩旗飘飘 彩灯烁烁的桥
  19. Python 比较不错的社区
  20. CSS样式书写顺序 与 浏览器内部加载原理

热门文章

  1. bzoj2655 calc
  2. git添加远程库遇到的问题
  3. POJ 3134 - Power Calculus (IDDFS)
  4. Spring容器启动后注入service到Servlet并自动执行
  5. 看懂了这三个故事再结婚
  6. socket与http的区别
  7. 一个房间里有4个小孩,2个戴黑帽,2个戴白帽
  8. {Java}一个有关类属性初始化的有趣儿情况
  9. 前端传递数组给后端,多个相同key,对应不同值
  10. Linux中/etc/rc开头文件详细解释