Bloomberg开发团队采纳SRE实践后,一个显著成果体现为监控系统的改进。该系统的后台由团队部署的Metrictank时序数据库提供支持。

\\

Bloomberg的基础设施横跨两个自运营数据中心中的近200个计算节点,服务于约32.5万名客户,以及一个近5000人的开发团队。长期以来,开发人员负责对自己构建和部署的产品进行生产监控。这种监控往往是亡羊补牢之举,进而导致缺失标准化。监控系统中存在有多种数据采集器,它们会对同一度量做重复的测量,对系统的整体也缺乏一个完整视图。据Bloomberg遥测负责人Stig Sorensen介绍,运维负责“从企业商业站点的细枝末节以及各种市场数据来源,到企业的要产品,即Bloomberg专业终端(Professional Terminal)。该终端是世界范围内成千上万关键影响人士所仰仗的工具”。各种不同的技术栈构成了系统的复杂性。

\\

Sorensen自2016年开始在Bloomberg负责SRE(站点可靠性工程,Site Reliability Engineering)的实施。他的团队推行SRE原则和实践,目标是为整个企业构建监控和报警服务。团队首先推出了一种支持标签的自研StatsD代理。该代理关注的是如何尽快从中心系统获取度量。一旦完成了度量采集,系统基于Kafka集群完成大量的验证、聚合、规则和持久化工作。这一系统很快就面对着可扩展性的问题。Bloomberg软件开发人员Sean Hanson在一次演讲中指出:

\\

\

系统运行两年后,每秒需处理250万个数据点、1亿个时间序列。其中一些高基数度量的值可达50万。我们的初始解决方案的确具有很好的可扩展性,能够扩展到每秒处理2000万个数据点。但在系统达到这样处理能力时,事实上我们无法从中做任何查询,并且系统在处理高基数度量时表现依然很差。高基数度量十分常见的情况。

\

\\

团队构建的新系统同样面对着一系列新的需求,包括推导度量计算的函数、可配置的保留期、元数据的查询以及可扩展性。Metrictank是Cassandra推出的一种多租户时序数据库。它支持Graphite监控系统,适合团队的大部分需求。根据Facebook发表的Gorilla论文,Metrictank的性能可比Facebook前期采用的高基数数据系统高出数个数量级。这为跨组织的度量分析铺平了道路。Bloomberg团队对其中一些资源敏感区域做了优化,并贡献到Metritank代码中。其它一些组织也已使用Cassandra作为后端,实现对Graphite监控系统的扩展。

\\

Bloomberg团队不仅更新了监控系统,而且为实现工作方式标准化而采纳了SRE。Sorensen详细解释道:

\\

\

当前,我们事实上不再具有一个集中的SRE团队,实现为SRE团队向应用团队看齐的方式。 SRE团队来自于应用团队和核心基础设施团队。无论是运维人员还是系统管理员,都采用了这种方式做编程和人员变动。我们也会让应用工程师对系统和可用性提出更积极的看法,构建不同类型的软件,因为我们将SRE视为软件工程师正开展的事情。

\

\\

随着对标准化监控系统的采纳,随之而来的一个需求是对如何追踪进度。团队正致力于其中的一些工作。Sorensen指出,由于“测定可用性不是一件非黑即白的事情。可用性并非用户在某个网站上经历了多少次失败,这是因为对于市场玩家而言,而是只要实时市场数据稍有延迟,即便是一毫秒或是几百毫秒,结果也可能会大相径庭。”

\\

查看英文原文: Bloomberg’s Standardization and Scaling of Its Monitoring Systems

Bloomberg监控系统的标准化和扩展相关推荐

  1. 推进“雪亮工程”建设 标准化公共安全视频监控系统

    重庆市交通行政执法总队高速公路部分重点路段可视化系统工程紧跟雪亮工程要领,以人工智能技术为核心助推力,运用视觉识别预警功能.赋能交通管理,优化市容市貌,.停车管理.等异常行为识别提供监控及提醒,为保障 ...

  2. 安防工业交换机将成为安防监控系统主要的传输设备

    工业交换机即工业以太网交换机,它作用是放到路由器后端,来扩展路由器接口,以解决接口不够用的问题.以太网在设计时,由于其采用载波侦听多路复用冲突检测(CSMA/CD机制),在复杂的工业环境中应用,其可靠 ...

  3. python实现实时监控_基于 Python 的交换机实时监控系统的设计与实现

    从高校校园网运维工作实际出发,论文提出了一种基于 Python 语言+SNMP协议的网络交换机监测系统设计思路与实现方法.整个系统系统采用B/S模式,基于轻量级的web开发框架web.py实现.后端采 ...

  4. 硅谷独角兽公司的监控系统长啥样?

    前言 不同的业务场景中我们对各个运维系统的需求也是不同的,Pinterest是来自于硅谷的初创公司,在他们成长的过程中一步步对运维系统进行改进和升级,如今的Pinterest 的监控系统更是实现了监控 ...

  5. 7系统内部系统组件禁止休眠_海康监控系统平台设计思路(二)

    设计思路 系统设计过程中充分考虑了各个子系统的信息共享要求,对各子系统进行结构化和标准化设计,通过系统间的各种联动方式将其整合成一个有机的整体,使之成为一套整体的.全方位的综合安防系统,达到人防.物防 ...

  6. 视频监控系统中H.265、SVAC、GB/T28181、ONVIF、PSIA有什么区别?

    说H.265之前我们先要弄清H.264, H.264是ITU-T以H.26x系列为名称命名的视频编解码技术标准之一.国际上制定视频编解码技术的组织有两个,一个是"国际电联(ITU-T)&qu ...

  7. 高清视音监控系统的实现

    一.当前视频监控的现状与分析 当前,我国视音频监控系统发展很快,但综合来看,仍处于一个监控质量和应用较低的水平.绝大部分业主和集成商关心的是低价格和能够接入安防网络传输,而很少关注监控图像质量.功能扩 ...

  8. 【解决方案】医院医疗安防视频监控系统搭建及集成统一管理方案介绍

    一.背景介绍 近年来一些不法分子把罪恶的手伸到了医院,严重危害了医院和病人的生命财产安全,他们实行扒.窃.抢.破坏等卑劣手段扰乱医院工作秩序.窃取他人钱财.破坏社会治安.为了我们的健康,为了社会的安宁 ...

  9. 森林防火监控系统解决方案及标准权威解读

    一.森林防火监控系统概述 为了适应市场经济条件下森林防火工作的需求,根据森林防火工作"预防为主,积极消灭"的方针,建立一个高科技含量的森林防火监控系统,采用新的现当代花的森林防护技 ...

最新文章

  1. 为什么不要用uuid做主键
  2. arcgis api for flex 开发入门(九)webservices 的使用
  3. Cadence入门笔记(1):创建元件库的基本操作!
  4. 没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR
  5. leetcode 1838. 最高频元素的频数
  6. 100C之13:他该如何存款?
  7. Matplotlib 绘图秘籍
  8. 从skyeye学习arm( 工具篇)
  9. 微信小程序使用阿里巴巴矢量库图标
  10. 易基因 | 国自然选题——易基因RNA甲基化测序技术(m6A m5C)正热门
  11. 光纤激光器仿真:(2)孤子分子及其转换动力学
  12. 2021上半年,计算机考研大学热搜排名!
  13. Mac 取消系统更新的红点——强迫症晚期患者
  14. 设计模式——行为型模式之责任链模式(简简单单入门责任链,理解I/O流消息怎么逐步传递处理以及服务器框架转发)
  15. java点击按钮发出声音_java – 按下按钮时播放声音-android
  16. 小米note刷android8.1,【Android 8.1.0】RR-O For Xiaomi Mi Note Pro(小米Note顶配版)
  17. vue---uedito---135
  18. HTTPS的安全性从何而来?
  19. 【工具】linux中用top、ps命令查看进程中的线程
  20. 映客都是互刷礼物吗_今日网红

热门文章

  1. [洛谷P3979]遥远的国度
  2. opencv3 学习三 - 图像输入输出显示等
  3. js进阶正则表达式10-分组-多行匹配-正则对象的属性(小括号作用:分组,将小括号里面的东西看成一个整体,因为量词只对前一个字符有效)(多行匹配:m)(属性使用:reg.global)...
  4. linux使用tar命令打包压缩时排除某个文件夹或文件
  5. java与数据库连接的几个步骤
  6. AsyncTask使用须知
  7. progressbar使用方法:进度画面大小,进度画面背景,进度百分比
  8. jQuery1.9.1源码分析--Animation模块
  9. LabView2018的安装
  10. phpexcel 数字格式_将文本转换为phpexcel中的数字格式