第一次课

监控需求直接的是为了出现问题时能及时感知到。新的需求:

通过监控了解数据趋势,知道系统在未来的某个时刻可能出问题,预知问题。

通过监控了解系统的水位情况,为服务扩缩容提供数据支撑。

通过监控来给系统把脉,感知到哪里需要优化,比如一些中间件参数的调优。

通过监控来洞察业务,提供业务决策的数据依据,及时感知业务异常。

我们所说的监控系统,其实只是指标监控,通常使用折线图形态呈现在图表上,比如某个机器的 CPU 利用率、某个数据库实例的流量或者网站的在线人数,都可以体现为随着时间而变化的趋势图。

指标监控只能处理数字,但它的历史数据存储成本较低,实时性好,生态庞大,是可观测性领域里最重要的一根支柱。聚焦在指标监控领域的开源产品有 Zabbix、Open-Falcon、Prometheus、Nightingale 等。

除了指标监控,另一个重要的可观测性支柱是日志。从日志中可以得到很多信息,对于了解软件的运行情况、业务的运营情况都很关键。比如操作系统的日志、接入层的日志、服务运行日志,都是重要的数据源。

处理日志这个场景,也有很多专门的系统,比如开源产品 ELK 和 Loki,商业产品 Splunk 和 Datadog,等

可观测性最后一大支柱是链路追踪。这是随着微服务应用的兴起来产生的,链路追踪这个领域也有很多产品,比如 Skywalking、Jaeger、Zipkin  等,都是个中翘楚。

老一代整体方案的代表 Zabbix:Zabbix 是一个企业级的开源解决方案,擅长设备、网络、中间件的监控。因为前几年使用的监控系统主要就是用来监控设备和中间件的,所以 Zabbix 在国内应用非常广泛。

Zabbix 的优点:

(1)对各种设备的兼容性较好,Agentd 不但可以在 Windows、Linux 上运行,也可以在 Aix 上运行。

(2)架构简单,使用数据库做时序数据存储,易于维护,备份和转储都比较容易。

(3)社区庞大,资料多。Zabbix 大概是 2012 年开源的,因为发展的时间比较久,在网上可以找到海量的资源。

Zabbix 的缺点:

(1)使用数据库做存储,无法水平扩展,容量有限。如果采集频率较高,比如 10 秒采集一次,上限大约可以监控 600 台设备,还需要把数据库部署在一个很高配的机器上,比如 SSD 或者 NVMe 的盘才可以。

(2)Zabbix 面向资产的管理逻辑,监控指标的数据结构较为固化,没有灵活的标签设计,面对云原生架构下动态多变的环境,显得力不从心。

老一代国产代表 Open-Falcon

Open-Falcon 把组件拆得比较散,组件比较多,部署起来相对比较麻烦。不过每个组件的职能单一,二次开发会比较容易,很多互联网公司都是基于 Open-Falcon 做了二次开发,比如美团、快网、360、金山云、新浪微博、爱奇艺、京东、SEA 等。

主要是小米在主导,各公司做二次开发,但社区贡献度不大

新一代整体方案代表 Prometheus

Prometheus 的设计思路来自 Google 的 Borgmon,师出名门

Prometheus对Kubernetes 支持得很好,但易用性差,exporter参差不齐

新一代国产代表 Nightingale

Nightingale  不止解决设备和中间件的监控,也希望能一并解决云原生环境下的监控问题。但是在 Kubernetes  环境下,Prometheus  已经大行其道,再重复造轮子意义不大,所以 Nightingale  的做法是和 Prometheus  做良好的整合,打造一个更完备的方案。当下的架构,主要是把 Prometheus  当成一个时序库,作为 Nightingale  的一个数据源。

对于不同的监控框架,思维导图总结如下:

学习来源:极客时间 运维监控系统实战笔记(day1)

运维监控系统实战笔记(day1)相关推荐

  1. 运维监控系统实战笔记(day3)

    内容来自"极客时间" 架构概述:一个监控系统的典型架构是什么样的? 监控系统的典型架构: 秦老师把本节的内容总结得很好,现摘抄如下: 采集器:用于收集监控数据,业界有不少开源解决方 ...

  2. Open-falcon运维监控系统——微信接口二次开发

    1.Open-falcon运维监控系统简介 OpenFalcon是一款由小米运维团队从互联网公司的需求出发, 根据多年的运维经验,结合市面上使用的一些运维监控系统的使用经验和反馈,开发的一套企业级.高 ...

  3. 基于Linux+Nagios+Centreon+Nagvis等构建海量运维监控系统

    参考书目:<海量运维监控系统规划与部署 基于Linux+Nagios+Centreon+Nagvis等> 付哲著 系统环境规划: 基于阿里云centos6.8镜像升级到centos6.9, ...

  4. Lnmp搭建zabbix运维监控系统

    使用目的? 在公司项目中需要做一个日志监控,最开始选择的是efk,但是efk的资料相对较少并且之前对这几个产品都没接触过,使用起来难度.于是选择了zabbix作为项目的运维监控系统. zabbix能做 ...

  5. 转:运维监控系统-监控项及指标的梳理

    转自: 运维监控系统-监控项及指标的梳理_程序员杂谈-CSDN博客_运维监控指标综合监控功能工具 综合监控工具完成对被管对象的集中监控.集中维护和集中管理,被管对象包括网络设备.服务器.PC设备.数据 ...

  6. 明辰智航云安网络与虚拟化性能管理系统—运维监控系统

    什么是运维监控系统数字转型? 多年来,IT经历了过渡的各个阶段.早期,我们从大型主机和终端到数据中心的较小服务器占用空间,而这些数据中心的用户端点本质上是图形的,并了解了监视解决方案的价值.今天,我们 ...

  7. 常用的17个运维监控系统

    1. Zabbix Zabbix 作为企业级的网络监控工具,通过从服务器,虚拟机和网络设备收集的数据提供实时监控,自动发现,映射和可扩展等功能. Zabbix的企业级监控软件为用户提供内置的Java应 ...

  8. 智能运维监控系统怎么选

    智能运维技术可以将人工智能技术和计算机运维技术相结合,通过一些智能深度学习的方法提升商家在计算机后台的工作效率,其拥有多项快速和高效的运维能力. 运维监控软件具有什么功能 企业在面对着大型数据接口时会 ...

  9. 基于SpringBoot+Bootstrap极简运维监控系统

    真正的大师,永远都怀着一颗学徒的心! 一.项目简介 基于SpringBoot+Bootstrap极简运维监控系统 二.实现功能 支持cpu使用率 支持cpu温度 支持内存使用率 支持磁盘容量 支持磁盘 ...

最新文章

  1. SQL语句统计每天、每月、每年的 数据
  2. 过程控制系统模拟信号标准
  3. BUUCTF-pwn2_sctf_2016(整数溢出+泄露libc)
  4. python random模块的使用
  5. mybatis之trim prefix= suffix= suffixOverrides= prefixOverrides=/trim
  6. DP专题训练之HDU 1087 Super Jumping!
  7. 使用SAP Data Hub Developer Edition将数据写入Hadoop
  8. 【每日一题】7月16日题目精讲—点权和
  9. 牛客网 牛客小白月赛1 H.写真がとどいています
  10. Spark精华问答 | spark的组件构成有哪些?
  11. sendBroadcast和sendStickyBroadcast的区别
  12. 揭开KPI异常检测顶级AI模型面纱
  13. 53.Linux/Unix 系统编程手册(下) -- POSIX 信号量
  14. HSRP在企业网中的应用(CISCO小凡模拟器)
  15. 手机便签记事本下载,好用的手机便签记事本软件
  16. 使用基于ThinkPHP3.2.3的ThinkAdmin创建手机电脑通用的表白墙(七)优化:访问控制
  17. js-xlsx vue导入excel在线预览
  18. 教妹学Java:不可不知的 Unicode 之锟斤拷
  19. 解决文件上传重名的方案
  20. Matlab冒号符号(MATLAB中最有用的操作符)

热门文章

  1. #AMBER 分子动力学软件Amber18介绍与基础教程(持续更新)
  2. 2022年最新浙江机动车签字授权人模拟试题及答案
  3. 10g recyclebin与用户表空间限额
  4. 【mysql】mysql 导出全库表结构,并排除指定库
  5. 初级计算机基础知识教程,计算机基础知识(初中级教程)
  6. 完美解决python manage.py makemigrations 报错
  7. 高级Android开发年薪35万,2019安卓继续冲起来!
  8. 适合php编程的笔记本电脑,【求推荐】(女生用/编程) 的 笔记本(Thinkpad) - 笔记本电脑(Notebook)版 - 北大未名BBS...
  9. 题目 1567: 超级玛丽
  10. iqc工作职责和工作内容_iqc组长岗位职责介绍