写在前面

最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。

书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上、错误预算、命运之轮、事故总结等等,对于从业者有很大的启发。书中提到了很多思想,也提到了很多工具,我想不同的单位有不同的文化、制度背景,这种指导思想未必能够执行,但是书中提到的工具,却有被其他人利用的可能。因此,我就整理了书中提到的一些工具以及搜索是否有对应的开源工程,整理成下面的列表供大家参考。

如果大家发现有不全的,或者对于某个工具希望深入讨论的,欢迎给我留言。

Google 技术栈

功能介绍 产品 对标的开源产品 备注
分布式共识系统、分布式锁服务 Chubby 书中描述为强一致性存储系统 ZooKeeper、Consul
监控服务 Borgmon Prometheus、Riemann、Heka、Bosun
Photon
分布式周期性任务系统 Cron
任务分发系统,集群管理系统 Borg
分布式文件系统 GFS
Mesos
管理报警响应及升级规则 Escalator
故障跟踪工具(被动收集监控系统发出的所有报警信息,同时提供标记、分组和数据分析功能) Outalator
数据流水线 MapReduce、Flume
大规模数据处理 Workflow Spanner ?
Incident Command System
构建系统 Bazel
分布式文件系统 GFS

Borg 调度服务(2003),开源产品 Kubernetes
Borg Name Service BNS 名称解析系统
Bigtable
Blaze/Bazel 构建
Rapid 发布
Midas Pacakge Management MPM 打包
Sisyphus 发布自动化框架
Chubby 强一致性存储系统
Prober 端到端检测(黑盒监控 Black Box Monitoring)
Protocol Buffer (Protobuf)
Alert Manager 报警管理服务
Dapper 分布式组件跟踪工具
Incident Command System 应急事件管理
IRC机器人
Dagger 依赖注入(Dependency Injection)工具
Protocol Buffer 数据交换格式
Auxon 自动化容量规划
gRPC Google RPC 框架
Doorman 协作性分布式客户端节流系统
Zipking 业务流追踪
Stackdriver

两点吐槽

一、绕口的翻译
P158:一个测试系统可以检测出一个MTTR为0的Bug。
P253:这种设计类型在服务领头人的工作量是分片的。
P327:Google几乎没有处理大规模消费者产品运行不能直接控制的客户端代码的经验。

二、强大的客户端

全书各章节及小评

章节及名称 感想
1 介绍
2 Google 生产环境:SRE视角
3 拥抱风险
4 服务质量目标
5 减少琐事
6 分布式系统的监控
7 Google 的自动化系统演进 自动化的价值,自动化的层次
8 发布工程
9 简单化
10 基于时间序列数据进行有效报警
11 on-call 轮值
12 有效的故障排查手段
13 紧急事件响应
14 紧急事故管理
15 事后总结:从失败中学习
16 跟踪故障
17 测试可靠性
18 SRE部门中的软件工程实践
19 前端服务器的负载均衡 不同数据中心之间的负载均衡策略最佳实践,基本的方案有DNS、VIP(网络负载均衡器 F5)
20 数据中心内部的负载均衡系统 从应用层面谈如何进行负载均衡,如何让各台服务器的使用率更加均衡,避免出现闲忙不均的情况。如何更准确的识别出后端的真实状态的方法:跛脚鸭状态。
21 应对过载
22 处理连锁故障
23 管理关键状态:利用分布式共识来提高可靠性
24 分布式周期性任务系统
25 数据处理流水线
26 数据完整性:读写一致
27 可靠地进行产品的大规模发布
28 迅速培养SRE加入on-call
29 处理中断性任务
30 通过嵌入SRE的方式帮助团队从运维过载中恢复
31 SRE与其它团队的沟通与协作
32 SRE参与模式的演进历史
33 其他行业的实践经验
34 结语

参考资料:
1、Google Borgmon
2、Google使用Borg进行大规模集群的管理-2015
3、基于 Prometheus 的数据库监控
4、Prometheus
5、Google Protocol Buffer 的使用和原理
6、Doorman: Global Distributed Client Side Rate Limiting
7、SRE Book notes
8、Zipkin
9、morgue 事故总结工具
10、Incident management at Google
11、TerraForm
12、

Google SRE 读书笔记 扒一扒SRE用的那些工具相关推荐

  1. 《机构投资的创新之路》读书笔记2(第4章):投资组合管理工具

    投资组合管理工具 常用的有三种: 资产配置: 投资组合收益的变化中90%可以归因于资产配置策略的变化.( R o g e r ⋅ I b b o t s o n ; P a u l ⋅ K a p l ...

  2. 人生效率手册:如何卓有成效地过好每一天--By张萌姐姐--读书笔记

    读书笔记:<人生效率手册>:如何卓有成效地过好每一天--By张萌姐姐... 整本书看完的感受: 这本书主要讲的是生活中我们需要给自己一个目标,然后通过自己的努力去实现这个目标,书中说的很多 ...

  3. 基于压缩感知的高速摄像-读书笔记

    本文章是基于ICCP论文Video from Stills:Lensless Imaging with Rolling Shutter的读书笔记 前言 高速摄影作为重要的科学分析工具,其价格昂贵使得应 ...

  4. 读书笔记 摘自:《Google工作整理术》

    读书笔记 摘自:<Google工作整理术>(作者: [美]道格拉斯·梅里尔 [美]詹姆斯·马丁) 前言 通过研究我发现,人们教授数学以及其他学科的方式与我们大脑的实际运行机制相去甚远. 事 ...

  5. 互联网企业是时候甩掉你的测试部门啦!(How google test software读书笔记)

    在传统软件行业浸淫了10年,带领的研发团队经历了如下几个阶段: 初创期-10人左右的团队,全能研发工程师,从需求到研发到测试到运维,一个人全搞定,超高效率的时代,成就感爆棚: 发展期-30~50人左右 ...

  6. (转)Tensorflow 实战Google深度学习框架 读书笔记

    本文大致脉络: 读书笔记的自我说明 对读书笔记的摘要 具体章节的摘要: 第一章 深度学习简介 第二章 TensorFlow环境搭建 第三章 TensorFlow入门 第四章 深层神经网络 第五章 MN ...

  7. 《Spring Boot+Vue全栈开发实战》读书笔记

    写在前面 嗯,回家处理一些事,所以离职了,之前的公司用开源技术封装了一套自己的低代码平台,所以之前学的spring Boot之类的东西都忘了很多,蹭回家的闲暇时间复习下. 笔记整体以 Spring B ...

  8. 这一年,这些书:2022年读书笔记

    Note: 以下 markdown 格式文本由 json2md 自动转换生成,可参考JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了了解具体的转换过程. 为什么是中国 作者 ...

  9. 《清单革命》读书笔记

    文章目录 简介 引言 "无知之错"与"无能之错"可以原谅的与不被原谅的 为什么会有一件事谁都没做 人类错误的两大类型 不能被原谅的"无能之错" ...

最新文章

  1. java new java.text.SimpleDateFormat(yyyyMM01).format(date)
  2. python字符串相加_Python实用技法第33篇:字符串连接及合并
  3. 记录一下免费域名和空间
  4. iPhone开发 捕获提交异常日志
  5. latex 插图排版
  6. 论文笔记_S2D.22_2015-CVPR_利用深度特征回归和分层CRFs对单目图像进行深度和表面法线估计
  7. 十五部必藏之经典日剧(给喜欢怀旧的朋友)--转贴,的确经典,还有很多没看过,不过排名前二都看了,呵呵...
  8. java max 函数_Java Math max()用法及代码示例
  9. 百度地图SDK集成定位,卫星地图
  10. 算法笔记 刷题2.6
  11. Ubuntu磁盘扩容(简单亲测有效)
  12. [macOS]安装homebrew之后提示zsh: command not found: brew
  13. 初始化Linux数据盘(fdisk)
  14. 分享技术创业三年多的艰苦历程和体会
  15. 智能语音机器人源码优势
  16. 一分钟理解 HTTPS 到底解决了什么问题
  17. MATLAB代码:CPLEX二阶锥规划考虑Wind+CB+SVG+OLTC+ESS多时段24h 最优潮流研究在配电网规划运行中不可或缺,且在大量分布式能源接入的主动配电网环境下尤为重要
  18. USB详解(二)-电气特性篇
  19. Centos7安装和配置VNC服务器 - openbox篇
  20. 中兴服务器raid固件升级,IBM ServeRAID阵列卡BIOS Firmware软盘升级说明

热门文章

  1. 水晶报表中对某一栏位值进行处理_【节能学院】能耗管理系统在某超市嘉兴店二期工程的设计与应用...
  2. html4的语法,HTML——语法
  3. P2787 语文1(chin1)- 理理思维
  4. JavaScript对UNIX时间戳的转换
  5. JavaScript数组内置排序函数
  6. [轉載]用PHP的ob_start();控制您的浏览器cache!
  7. 约瑟夫环 java_约瑟夫环Java实现
  8. Linux LCD 驱动实验
  9. Java基础 —— 变量,选择,循环,数组,输入与输出等
  10. 全国计算机等级考试题库二级C操作题100套(第85套)