简介: 本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

前言

本篇是SLS新版告警系列宣传与培训的第三篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。

系列目录(持续更新)

  • 一站式云原生智能告警运维平台——SLS新版告警发布!
  • 这才是可观测告警运维平台——20个SLS告警运维场景
  • 可观测告警运维系统调研——SLS告警与多款方案对比(本篇)

1. 什么是SLS告警运维系统

1.1. SLS(日志服务)是什么

SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴 + 蚂蚁金服”系统的数据总线,数年稳定支撑双十一、双十二、新春红包活动。对外则已经服务阿里云几十万企业客户。

1.2. SLS新版告警——一站式智能告警运维系统

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

1.3. 优势

使用SLS新版告警,可以有效缓解典型告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

2. 与自建方案对比

2.1. 与ELK X-Pack 告警 (Watcher/KibanaAlert)对比

2.1.1. 简介

自建方案ELK表示使用开源方案ElasticSearch + Logstash + Kibana组合,但是其不包括告警功能,需要额外购买X-Pack商业包,会拥有2个告警功能,一个是ElasticSearch附带的Watcher,一个是Kibana 7.x+新增的Alert功能,注意:这两个告警功能互相独立,并不能协同和关联。

2.1.2. 评估对比

2.2. 与Prometheus  & Loki(含AlertManager)告警对比

2.2.1. 简介

自建方案Prometheus&Loki表示使用开源方案Prometheus + Loki + AlertManager组合,其中Prometheus Alert针对时序进行告警监控,Loki针对日志进行告警监控,两者共同将告警发送给Alert Manager进行告警管理

2.2.2. 评估对比

2.3. 与InfluxDB 2.0 告警(含Kapacitor) 告警对比

2.3.1. 简介

自建方案InfluxDB表示使用开源方案InfluxDB OSS 2.0 + kapacitor组合搭建告警监控系统,如果需要集群部署功能,还需要购买InfluxDB商业版本。注意,该方案只能支持针对时序数据的告警监控。

2.3.2. 评估对比

3. 与其他云厂商方案对比

3.1. 与AWSCloudWatch 告警 +SNS+SSM对比

3.1.1. 简介

AWS告警监控方案,需要依赖AWS CloudWatch告警加上多个其他AWS服务达到告警监控和管理的能力。一般使用CloudWatch Alarm + SNS + System Manager OpsCenter组合的方式完成对日志、时序的监控管理。CloudWatch Logs支持日志的采集,但实际监控告警时,需要先转换成时序才行。

3.1.2. 评估对比

3.2. 与AzureMonitor 告警对比

3.2.1. 简介

Azure Monitor支持完整的基于时序与日志的监控,并很好集成了上下游方案提供完整的告警监控与告警管理通知功能。

3.2.2. 评估对比

4. 进一步参考

4.1. 各方参考

  • ELK:

    • ElasticSearch Watcher: https://www.elastic.co/guide/en/kibana/current/watcher-ui.html
    • ELK X-Pack Kibana Alert: https://www.elastic.co/guide/en/kibana/current/alerting-getting-started.html
  • Prometheus & Lock:

    • Prometheus Alert: https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/
    • Prometheus AlertManager: https://prometheus.io/docs/alerting/latest/alertmanager/
    • Loki Alert: https://grafana.com/docs/loki/latest/alerting/
  • InfluxDB:
    • InfluxDB Alert: https://docs.influxdata.com/influxdb/v2.0/monitor-alert/
    • Kapacitor: https://docs.influxdata.com/kapacitor/v1.5/working/alerts/
  • AWS:
    • Cloudwatch Alarm: https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html
    • Cloudwatch 定价: https://aws.amazon.com/cn/cloudwatch/pricing/
    • SNS A2P: https://docs.aws.amazon.com/sns/latest/dg/sns-user-notifications.html
    • SNS 定价: https://aws.amazon.com/cn/sns/pricing/
    • SSM OpsCenter: https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html
    • SSM 定价:https://aws.amazon.com/cn/systems-manager/pricing/
  • Azure:
    • Azure Monitor Alert概念: https://docs.microsoft.com/en-us/azure/azure-monitor/alerts/alerts-overview
    • Azure Monitor Alert指南: https://docs.microsoft.com/en-us/azure/azure-monitor/alerts/alerts-log
    • Azure Kusto: https://docs.microsoft.com/en-us/azure/data-explorer/kusto/concepts/
    • Azure Monitor定价: https://azure.microsoft.com/en-us/pricing/details/monitor/

原文链接

本文为阿里云原创内容,未经允许不得转载。

可观测告警运维系统调研——SLS告警与多款方案对比相关推荐

  1. 如何开发一个可运维系统的一点体会

    本文来自网易云社区 作者:施勇 我们在开发一个复杂系统的时候,常常会强调服务化.模块化.松散耦合等要求以达到高可用.高可靠及高性能等目的:比较少的人会考虑到系统的方便部署配置和运维,至少是在刚开始设计 ...

  2. 全新一代解决方案 | 数字冰雹 CIM-智慧机房数字孪生运维系统

    在大数据.新基建政策背景下,数据中心机房作为各行业信息化建设的重要基础设施,需要时刻保证机房设备运转的高可靠性.但在机房运维管理中,往往面临着机房结构复杂.设备种类多样.数量众多.分布广泛.各系统独立 ...

  3. 储留香:一个智能运维系统就是一个中枢神经系统,我说的!

    简介: 运维系统可以像神经系统一样,首先,做到数据的统一汇总:其次,可以对数据进行识别筛选输出有效信息:再次,可以预先感知到异常风险,并进行有效规避.而日志服务SLS凭借出色的数据统一采集.智能分析告 ...

  4. 浅谈监控易运维系统在金融信创国产化中的使用

    自2019年,国家明确信创产业将成为拉动经济发展的重要途径和崭新动能以来,全行业进入一个高速发展新阶段.此前倡导的"2+8"安全可控体系,其中在8大基础行业中,金融行业信创产品推广 ...

  5. 智能运维监管系统终端_城市轨道交通关键设备智能运维系统初步建构

    城市轨道交通中关键设备的诊断和智能运维管理系统可为城市轨道交通关键设备构建预测性维修体系和全员自主维修制度提供全面的技术支持.分析城市轨道交通关键设备智能运维系统的需求及其构建思路,分析结果表明,该系 ...

  6. 美团外卖自动化业务运维系统 - Alfred

    1背景 美团外卖业务在互联网行业是非常独特的,不仅流程复杂--从用户下单.商家接单到配送员接单.交付,而且压力和流量在午.晚高峰时段非常集中.同时,外卖业务的增长非常迅猛,自2013年11月上线到最近 ...

  7. 网络管理系统、网管、network manage system、运维系统

    为什么需要网管? 网管系统屏蔽不同厂家.不同机器在监控.维护.及管理上的差异,提供统一的工具,从而"集中监控.集中维护.集中管理"提供可靠.便利的手段,为了快速实现业务提供有效支撑 ...

  8. 配电房远程监控运维系统

    配电房远程监控运维系统 变配电室运行现状 目前传统的配电室管理模式有两种: 方式1:靠电工24小时值班,通过本地监控系统或人工定期对电气设备进行检查和数据采集,这样的工作模式的弊端就是人员成本极高.工 ...

  9. 赠书 | 十年运维经验总结出的智能运维系统落地方案,不得不赞

    对于互联网公司来说,系统复杂化导致的人工运维成本激增已经是普遍现象,采用智能运维是行之有效的应对策略.智能运维的核心思想是利用算法来处理海量运维数据,积累运维经验,从而代替人工思考判断,以自动化的过程 ...

最新文章

  1. 苹果服务器消息转发,iphone-与APNS服务器进行交互以将推送通知发...
  2. 你的眼睛一天内经历几万次“失明”,只是为了让你看清世界
  3. 英特尔分拆McAfee:31亿美元将多数股权卖给投资公司TPG
  4. input 正则验证(摘)
  5. lazyload延迟加载组件
  6. C语言的结构使用和结构对齐
  7. shiro表单登录认证及退出(自定义form认证器)
  8. 插值法补齐缺失数据_关于数据清洗的常见方式
  9. wxWidgets:wxConfig 和相关类的演示
  10. InstallShield 2008 终止声明 (EOL)对最终客户意味着什么
  11. 三角形 JAVA 代码
  12. 数据命脉:未来将性命攸关
  13. 微信小程序云开发教程-墨刀原型工具入门
  14. EcmaScript 2022中的新特性
  15. 炫彩LED电子时钟制作记录
  16. 7-10 计算工资 (15分)
  17. Android Studio统一依赖管理Composing builds,2021最新网易Android面经
  18. [Swift]LeetCode221. 最大正方形 | Maximal Square
  19. 南邮计算机学院专业英语教材,南邮专业英语翻译(自学)
  20. 网站推广(百度百科)

热门文章

  1. python数组排序sort_详解python中sort排序使用
  2. 牙齿间隙变大怎么办_牙齿之间的间隙越来越大怎么办?
  3. js立即执行函数_《JS 函数的执行时机》
  4. linux 谷歌浏览器设置代理_linux下chrome+Proxy Switchy+ssh和firefox+autoproxy+ssh | 学步园...
  5. flutter字体不跟随系统_Flutter自定义字体无法加载
  6. java在W n8安装_在windows中安装JDK8并配置环境变量-java环境变量设置
  7. 计算机控制lc72131,lc72131(1)
  8. python urllib发送post请求_python爬虫 urllib模块发起post请求过程解析
  9. 高校讲师年终奖,能有多少?
  10. AI前沿线上大会,ALBERT一作、京东AI科学家等大咖亲临现场,限时免费,名额有限!...