大型互联网的系统一般会架构散布于多个数据中心和一些私有/公有云,由真实物理机以及虚拟机组成。架构中部署的关键工具包括实现报警的Zabbix,以及一个采集、聚合和存储度量的六阶段流水线。流水线主要由开源工具构建,其中使用了OpenTSDB、Kafka、Elasticsearch和Grafana,还有一些企业自研的工具。

监控的一些关键度量,包括CPU平均负载、内存、线程、网络连接、磁盘空间和性能等。对于电子商务网站而言,网络监控至关重要。网络监控实现为多个层级,包括使用ping监控跨数据中心的连通性,使用Observium监控网络设备带宽,使用Uptime Robot监控外部可访问性和系统运行时间及负载情况(uptime)。监控的实现原理通常分为两大类,即拉取模式(Pull)和推送模式(Push)。在拉取模式下,存在一个集中式系统,轮询各个被监控系统并从中拉取数据。Nagios等多种传统的监控系统主要遵循该模式,但是其中部分系统也提供推送模块。在推送模式下,每个被监控系统中需要运行一个代理程序。该代理程序采集监控数据,并将数据推送到一个中央系统。Prometheus等工具使用了推送模式,它们提供推送功能选项。团队选择使用推送模式,并在每台服务器上运行了Zabbix代理。Grafana做为可视化工具。

监控流水线分六个阶段,实现从日志中抽取度量并推送到时序数据库OpenTSDB。

第一个阶段负责收集日志。流水线通过运行在每个服务器上的syslog-ng代理,以UDP方式汇集到一个中央Logstash服务器。syslog-ng可在类UNIX系统上实现syslog协议。
第二阶段进而使用grok分析器分析收集的日志,并推送到两个不同的Elasticsearch(ELS)集群。每天分析的日志总量可达700GB。
第三阶段使用称为“Data Monster”的企业自研工具(Django-Python),周期性轮询Elasticsearch集群,从中抽取度量。
第四阶段使用调度系统计算各个度量。该调度系统基于Celery Beat、RabbitMQ和MySQL实现,使用Data Monster从ELS拉取数据,并推送到Kafka集群。
第五阶段生成实际写入到OpenTSDB的PUT语句。Apache Kafka通常用于构建持久化流数据队列。在流水线中,Kafka消费者处理消息,并推送到OpenTSDB中持久存储。
第六阶段使用Grafana查询数据库中的消息,生成可视化的仪表盘展示。

架构使用了Zabbix生成报警。此外为保证高可靠性,OpenTSDB是安装在多个节点上的。

在云环境中,机器的生命周期是短暂的,这对于需要掌握被监控机器的监视工具而言是一个挑战。通过使用Zabbix的自动注册功能解决了这一问题。Zabbix支持使用模板注册一个新机器。团队使用了一种基本的Linux模板,用于CPU使用率、平均负载、Java线程等通用系统度量。还使用了一种特定于应用的模板,用于健康检查和应用性能管理。

关键关注点还包括,如何确定实时监控下的度量粒度问题,以及如何对HTTP响应代码和请求趋势等度量进行近距离观察。前者可支持团队快速地响应并定位问题,后者可作为一种早期预警系统,对客户或服务器端错误和应用性能突发问题做出预警。对请求数量变化趋势的深入研究,也有助于团队进一步规划容量。

------------------------------------------------------------------

今天先到这儿,希望对您在系统架构设计与评估,团队管理, 项目管理, 产品管理,团队建设 有参考作用 , 您可能感兴趣的文章:
IT运维监控解决方案介绍
微服务监控案例之一
国际化环境下系统架构演化
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变

如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:

作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。

转载于:https://www.cnblogs.com/wintersun/p/8425592.html

大型互联网系统的监控流水线相关推荐

  1. 大型互联网系统架构演进之路

    作者丨老农小江 来源丨网址:https://blog.csdn.net/cndmss/article/details/123636370 一.前言 说到互联网系统架构,在互联网行业日渐成熟的今天,一谈 ...

  2. 系统架构专题(1):大型互联网系统架构演变

    1.构设计话题 **须知:**在实际的工作中,不管任何一个公司均不会一开始就可以设计出合理的架构方案,而是在满足业务需求的情况下不断带带诱惑出来的这是一个持续的过 程.当然如果一开始有一个好基础系统设 ...

  3. 架构杂谈——也谈互联网系统架构演进

    Tips: 说到互联网系统架构,随便网上一搜都有大量的相关文章/书籍,而这些,得益于过去几年互联网行业的快速发展与繁荣,在今天看来,这些技术/解决方案似乎早已不是什么新鲜的东西了,但是,本文笔者仍想简 ...

  4. 互联网系统的稳定性思考

    互联网产品迭代速度很快,推崇快速推出.快速试错.快速占据市场先机,求快是一个显性要求,交付质量和稳定性又是一个隐性要求.个人理解涉及稳定性相关的内容实在太多,大到整个战略方向.宏观架构,小到一次需求改 ...

  5. 互联网系统架构的演进

    多终端接入.开放平台给互联网带来了前所未有的用户量级和访问规模,SNS网站产生了海量的UGC(用户产生内容),而且这些内容依托关 系链扩散速度之快.传播范围之广是传统网站难以想象的,海量数据的计算存储 ...

  6. 移动互联网系统架构特点及实践--手机凤凰网

    本文整理自:http://www.cnblogs.com/sunli/archive/2011/02/19/mobile_architecture.html 今天参加了InfoQ组织的百度技术沙龙活动 ...

  7. 《程序员》 -- 互联网系统架构的演进

    自己非常喜欢<程序员>杂志,<程序员>杂志在一定程序上很能开阔我们的视野.因此,一直都想推荐给大家. 方便大家相互学习交流,本文转自<程序员>杂志 http://w ...

  8. 互联网系统架构的演进--作者杨光辉,淘宝北京研发中心技术专家

    发表于2013-08-29 09:27| 25337次阅读| 来源<程序员>| 79 条评论| 作者杨光辉 <程序员>杂志2013年9月刊特别策划互联网系统架构技术架构性能系统 ...

  9. 亿级用户基于微服务的互联网系统稳定性~

    互联网系统为大量的C端用户提供服务,如果隔三差五的出问题宕机,会严重影响用户体验,甚至导致用户流失.所以稳定性对互联网系统非常重要!接下来,我根据自己的实际经验来聊聊基于微服务的互联网系统的稳定性. ...

最新文章

  1. 【部署类】专题:消息队列MQ、进程守护Supervisor
  2. LiveVideoStackCon 音视频技术大会 2022 上海站日程发布啦!
  3. Visual Studio警告IDE0006的解决办法
  4. 【Java】Volitile的作用、JVM规范如何要求内存屏障、硬件层级内存屏障如何帮助java实现高并发 - 第二天笔记
  5. 关于iOS 3D touch 指纹验证的随笔
  6. linux下挂接fat32分区
  7. ubuntu php.ini 配置,ubuntu下配置PHP+JSON模块(apache) | 学步园
  8. Dotnet中Socket网络通信
  9. 开发人员指南 Googlemap API教程
  10. Java讲课笔记09:类与对象
  11. 高数测试——3.29
  12. Shiro - RememberMe记住我功能实现
  13. CrossApp V1.0.1,新增动画与连接 wifi 功能
  14. Android开机执行指定shell脚本
  15. java将明文变为密文,使用java编程实现明文和密文之间的互转
  16. 网页制作中的超链接怎么做
  17. 利用R代码从UCSC XENA下载mRNA, lncRNA, miRNA表达数据并匹配临床信息
  18. Gram格拉姆矩阵在风格迁移中的应用
  19. 达观数据荣获认知图谱产业建设“创新突破奖”,并与图谱知名专家共同探讨工业知识图谱应用落地
  20. UVM 事务级建模TLM 单向/多向通信 端口 FIFO通信

热门文章

  1. WhatFont——Google Chrome字体识别扩展
  2. Div+CSS布局入门教程(二) 写入整体层结构与CSS
  3. 机器人驾驶的神经网络愿景(下)
  4. python基础教程运行程序_Python入门基础教程:WSGI
  5. Mac下安装caffe(cpu-only)
  6. 变分法理解2——基本方法
  7. Opencv--addWeighted()
  8. RNN调试错误:lstm_cell = tf.contrib.rnn.core_rnn_cell.BasicLSTMCell(lstm_size) 方法已失效
  9. Word2010 给公式添加序号时公式变小解决方案
  10. GUI Design Studio 4 5 151 0原型设计工具的使用