本文来自有赞孙军老师的分享。

随着摩尔定律的终结,单机计算性能已达到了极限,然而,我们的软件系统不论是规模还是复杂度一直在增长,所以软件系统都不约而同的朝着分布式化方向发展。近年来,随着云服务、容器的出现,某些分布式系统也更容易微服务化。

抛开这些形形色色的分布式技术,我们对系统可靠性的述求却是一致的:分布式系统需要高可用,即使出现了单点或集群故障,也希望系统具备自我恢复或优雅降级的弹性能力、容错能力。

我们在合理的架构,高质量的代码,完善的测试等等方面做了很多努力,然而很多分布式系统仍旧达不到高可用、弹性化,为了尽可能发掘系统中存在的弱点,很多大型软件公司都引入了混沌工程,如国外的谷歌、网飞,国内的京东等等。哪些可以称之为系统弱点呢,比如

  • 外部系统故障,导致内部系统连锁故障,我司即出现过因为七牛服务故障导致的内部故障

  • 服务不可用时,不合适的降级方案

  • 不合适的超时机制,导致请求错误时无限次重试

混沌工程的定义:

通过观察分布式系统在受控的故障注入测试中的行为变化发掘系统弱点,并针对性的改进,从而提高系统可靠性,建立系统抵御失控条件的能力的信心。所以,混沌工程并不是一个新概念,常见的异地容灾测试也是混沌工程的一种应用。

混沌工程的一般实施步骤

  • 寻找一些系统正常运行状态下的可度量指标,作为基准的“稳定状态”

  • 假设实验组和对照组都能继续保持这个“稳定状态”

  • 对实验组进行事件注入,如服务器崩溃、硬盘故障、网络连接断开等等

  • 比较实验组和对照组“稳定状态”的差异,推翻上述第2条的假设

如果混沌工程实施下来两者的“稳定状态”一致,则可以认为系统应对这种故障是弹性的,从而对系统建立更多信心。相反的,如果两者的稳定状态不一致,那我们就找到了一个系统弱点,从而可以修复它,提高系统可靠性。

混沌工程的理想原则:

1)根据“稳定状态下系统的特征”做一个假设

以电商下单为例,下单系统可能包含了商品服务,交易服务,支付服务,“假设”不是着眼于各个“螺丝钉”服务的具体状态,而是着眼于整个下单系统正常运作下的外部状态,如下单量、成交金额、系统吞吐量、延时、错误率等等,这些指标一般会有大盘监控,而且除非遇到促销活动,这些指标曲线一般不会大起大落,其变化趋势是可以预期的。但是有一点需要特别注意,某些问题虽然不会怎么影响大盘数据(如缓存失效、一个 CDN 节点失效等等),但是我们仍旧需要监控系统中各个节点的微观指标(如 CPU、IO 等)以期发现这类问题(缓存失效可能导致 Mysql 集群压力增大,CPU/IO 等压力变大)。

2)事件是现实世界真的可能发生的

任何可能影响系统稳定状态的都可以作为事件,常见的,如

  • 故障类:像服务器宕机、断网等硬件故障,像七牛等外部服务不可用的软件故障

  • 非故障事件:像流量激增

我们还可以分析曾经引起系统故障的事件的种类和频次,针对性的排列优先级,并实施这些事件,避免系统再次出现这种故障。

3)在生产环境跑

根据第1条,一般只有生产环境的指标是可预测的,如新用户日注册量,用户日下单量。而且,由于测试环境和生产环境不可能一模一样,为了真实反映系统的可靠性,一般推荐在生产环境实施混沌工程。

4)持续集成

互联网软件每天都在更新,所以像跑持续集成一样实施混沌工程具有现实意义。

5)最小化影响范围

根据第3条,混沌工程可能导致线上功能不可用,甚至造成资损,所以在以找出系统弱点为目的的前提下,需要最小化故障影响范围,并且当出现严重问题时可以迅速恢复,即故障是可控的。鉴于此,有时候可以引入A/B测试,最小化影响范围。

上面是最理想情况下的混沌工程,现实中我们需要根据现有软件成熟度有阶段的实施混沌:

阶段一:分布式系统弹性化一般

以京东为例,他们会在双十一大促之前进行故障演练,将团队分为两组,一组作为故障的制造者,另外一组作为故障的解决者和响应者,来考察故障发生的时候,团队对故障的检测、响应、处理还有恢复能力。达到小的故障不需要人介入,大故障人工介入可以快速处理的目的。通过在大促之前的两个月期间密集的开展混沌工程,提高团队对大规模故障的容错能力。

以有赞为例,由于我们才刚刚开始,为了控制风险,起初只会在测试环境实施混沌工程,所以暂时没有可以参考的准确大盘数据,即合适的基准“稳定状态”。但也不是不可能,观察大盘数据可以认为反映的是系统宏观指标,从微观角度来讲,我们可以筛选出一批直接影响核心大盘数据(如注册量、下单量等)的接口,在对系统实施混沌后执行这些接口的场景化集成测试,通过观察测试结果来评估系统的可靠性,从而寻找系统弱点,这在测试环境是可行的。

此外,混沌工程可以认为是通用型异常不定时不定目标不定异常类型的自动化实现,如果抛开这层,手动对目标机器注入特定的一种或多种异常,并辅以对应的异常恢复手段,那我们就可以在通用异常测试中应用。

阶段二:分布式系统弹性化成熟

以网飞为例,他们基本上已经在按照上述理想的步骤和原则实施混沌工程,工作日持续、自动的实施混沌工程,系统具备高度的可靠性,弹性伸缩。

有赞混沌工程的实现:

由于混沌工程主要是注入特定的事件并引起系统故障,既然是“干坏事”的,所以我们将其命名成了“威震天”(变形金刚中的反派 Boss)。由于我们还处于第一阶段,所以故障的注入主要是人为控制,目前已实现的故障类型有:

  • CPU 高负载

  • 磁盘高负载:频繁读写磁盘

  • 磁盘空间不足

  • 优雅的下线应用:使用应用的 stop 脚本平滑的停止应用

  • 通过kill进程直接停止应用,可能造成数据不一致

  • 网络恶化:随机改变一些包数据,使数据内容不正确

  • 网络延迟:将包延迟一个特定范围的时间

  • 网络丢包:构造一个 tcp 不会完全失败的丢包率

  • 网络黑洞:忽略来自某个 ip 的包

  • 外部服务不可达:将外部服务的域名指向本地环回地址或将访问外部服务的端口的 OUTPUT 数据包丢弃

参考文献
PRINCIPLES OF CHAOS ENGINEERING(http://principlesofchaos.org/)


=>更多文章请参考《中国互联网业务研发体系架构指南》https://blog.csdn.net/Ture010Love/article/details/104381157

=>更多行业权威架构案例、领域标准及技术趋势请关注微信公众号 '软件真理与光':

更多内容关注公众号:软件真理与光

【稳定性day9】有赞混沌工程的实践 - 不能消灭Bug还不如与之做朋友相关推荐

  1. China .NET Conf 2019-.NET技术架构下的混沌工程实践

    这个月的8号.9号,个人很荣幸参加了China.NET Conf 2019 , 中国.NET开发者峰会,同时分享了技术专题<.NET技术架构下的混沌工程实践>,给广大的.NET开发小伙伴介 ...

  2. 分布式服务架构下的混沌工程实践

    本文来自阿里巴巴高可用架构团队高级开发工程师肖长军(花名穹谷)在 GIAC(全球互联网架构大会)上的分享,包含三部分内容:(阿里巴巴中间件公众号对话框发送"混沌工程",获取分享PP ...

  3. 混沌工程:分布式系统稳定性的“疫苗”

    混沌工程:分布式系统稳定性的"疫苗" 一.容灾了,但没完全容灾 二.NetFlix.猴子与疫苗 三.混沌工程的价值 四.国内混沌工程开源项目现状 1.混沌之刃-ChaosBlade ...

  4. 字节跳动混沌工程实践之场景化主动实验

    背景 从 2010 年 Netflix 上线 Chaos Mokey 的第一个版本到现在,虽然混沌工程发展已历时十年,但其实只在少数大厂里面有较成熟的落地,对绝大部分研发同学来说,混沌工程还是一个比较 ...

  5. 一文理解分布式服务架构下的混沌工程实践(含PPT)

    导读:近日,在 GIAC(全球互联网架构大会)上,来自阿里巴巴高可用架构团队的高级开发工程师肖长军(花名穹谷)做了<分布式服务架构下的混沌工程实践>主题分享.本次分享包含三部分,第一部分从 ...

  6. 架构师口中的混沌工程,究竟用来解决什么问题

    导读:混沌工程,翻译自国外的 Chaos Engineering,在 Netflix 以及最近的一些技术大会得到了广泛关注,本文介绍了混沌工程的一些基本原理. Netflix不仅是一家互联网视频平台, ...

  7. Netflix混沌工程手册Part 2:混沌工程原则

    本文翻译自Netflix工程师合著的 *Chaos Engineering*一书.这本书介绍了混沌工程的主要概念,以及如何在组织中实践这些概念和经验.也许我们开发的相关工具只适用于Netflix自身的 ...

  8. 未来技术展望(一):混沌工程与ChaosBlade

    -     起源     - 混沌工程是在分布式系统上进行实验的学科, 目的是建立对系统抵御生产环境中失控条件的能力以及信心.由Netflix在2010年底提出,2012开源Chaos Monkey( ...

  9. 【混沌工程】什么是混沌工程? 介绍、定义及更多

    软件和系统开发是创新和解决未知问题的练习.软件和系统是容易出错的,因为它们是由具有不同观点和技能的人(很可能是多人)制作的.技术变得越来越分散和复杂,尤其是随着微服务的推动.很少有人拥有完整的端到端知 ...

最新文章

  1. ASP.NET Core 数据保护(Data Protection)【中】
  2. Windows Live Writer新版新功能试用
  3. from 表单回车自动提交
  4. 疯狂ios讲义疯狂连载之加载界面的图片
  5. 向app store提交应用时,必须点“ready to upload binary”!
  6. 在centos7中静默安装oracle11g
  7. BIOS设置开机密码
  8. Linux ALSA声卡驱动之七:ASoC架构中的Codec
  9. Android ndk之Check that/ndk/openssl/crypto/libsfk.so exists or that its path is corret
  10. element解决表格错位问题
  11. 7-2 输出约数 (9 分)
  12. android 崩溃捕获框架,DefenseCrash
  13. python选择路径窗口_python选择路径
  14. 写作是最好的学习方法
  15. 数学建模更新10(蒙特卡罗模拟)
  16. Internet的组成部分
  17. 对接支付宝网站支付接口出现订单信息无法识别,请联系卖家的错误
  18. 梦断代码读后感 (一)
  19. 阿里巴巴在知乎上又出事了
  20. 计算机二进制存储单位,计算机中的存储单位你清楚吗

热门文章

  1. Vue.js全家桶仿哔哩哔哩动画 (移动端APP)
  2. linux中继器设置密码,无线扩展器管理员密码_初始密码是多少?-192路由网
  3. 报考浙大MBA项目的关键点之一:提前批面试解析
  4. java学习2022-6-6
  5. 华工计算机应用基础》作业,华工_计算机应用基础2015作业
  6. 企业研发流程演进之路
  7. 安庆师范大学c语言程序设计,安庆c语言编程学习,安庆学c语言编程培训,安庆学c语言编程一般能拿多少工资...
  8. XP SP3 IIS 5.1版本安装包下载地址和XP SP3 IIS 5.1版本安装方法
  9. linux 单声道数据处理,Ubuntu中的单声道声音输出?
  10. 西北乱跑娃 -- html header优化信息