六年打磨!阿里开源混沌工程工具 ChaosBlade
阿里妹导读:减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。今天,阿里巴巴把六年来在故障演练领域的创意和实践汇浓缩而成的工具进行开源,它就是 “ChaosBlade”。如果你想要提升开发效率,不妨来了解一下。
高可用架构是保障服务稳定性的核心。
阿里巴巴在海量互联网服务以及历年双11场景的实践过程中,沉淀出了包括全链路压测、线上流量管控、故障演练等高可用核心技术,并通过开源和云上服务的形式对外输出,以帮助企业用户和开发者享受阿里巴巴的技术红利,提高开发效率,缩短业务的构建流程。
例如,借助阿里云性能测试 PTS,高效率构建全链路压测体系,通过开源组件 Sentinel 实现限流和降级功能。这一次,经历了 6 年时间的改进和实践,累计在线上执行演练场景达数万次,我们将阿里巴巴在故障演练领域的创意和实践,浓缩成一个混沌工程工具,并将其开源,命名为 ChaosBlade。
ChaosBlade 是什么
ChaosBlade 是一款遵循混沌工程实验原理,提供丰富故障场景实现,帮助分布式系统提升容错性和可恢复性的混沌工程工具,可实现底层故障的注入,特点是操作简洁、无侵入、扩展性强。
ChaosBlade 基于 Apache License v2.0 开源协议,目前有 chaosblade 和 chaosblade-exe-jvm 两个仓库。
chaosblade 包含 CLI 和使用 Golang 实现的基础资源、容器相关的混沌实验实施执行模块。chaosblade-exe-jvm 是对运行在 JVM 上的应用实施混沌实验的执行器。
ChaosBlade 社区后续还会添加 C++、Node.js 等其他语言的混沌实验执行器。
为什么要开源
很多公司已经开始关注并探索混沌工程,渐渐成为测试系统高可用,构建对系统信息不可缺少的工具。但混沌工程领域目前还处于一个快速演进的阶段,最佳实践和工具框架没有统一标准。实施混沌工程可能会带来一些潜在的业务风险,经验和工具的缺失也将进一步阻止 DevOps 人员实施混沌工程。
混沌工程领域目前也有很多优秀的开源工具,分别覆盖某个领域,但这些工具的使用方式千差万别,其中有些工具上手难度大,学习成本高,混沌实验能力单一,使很多人对混沌工程领域望而却步。
阿里巴巴集团在混沌工程领域已经实践多年,将混沌实验工具 ChaosBlade 开源目的,是为了:
- 让更多人了解并加入到混沌工程领域;
- 缩短构建混沌工程的路径;
- 同时依靠社区的力量,完善更多的混沌实验场景,共同推进混沌工程领域的发展。
ChaosBlade 能解决哪些问题
衡量微服务的容错能力
通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的 QPS 或 RT 是否受影响。在此基础上可以缓慢增加故障节点范围,验证上游服务限流降级、熔断等是否有效。最终故障节点增加到请求服务超时,估算系统容错红线,衡量系统容错能力。
验证容器编排配置是否合理
通过模拟杀服务 Pod、杀节点、增大 Pod 资源负载,观察系统服务可用性,验证副本配置、资源限制配置以及 Pod 下部署的容器是否合理。
测试 PaaS 层是否健壮
通过模拟上层资源负载,验证调度系统的有效性;模拟依赖的分布式存储不可用,验证系统的容错能力;模拟调度节点不可用,测试调度任务是否自动迁移到可用节点;模拟主备节点故障,测试主备切换是否正常。
验证监控告警的时效性
通过对系统注入故障,验证监控指标是否准确,监控维度是否完善,告警阈值是否合理,告警是否快速,告警接收人是否正确,通知渠道是否可用等,提升监控告警的准确和时效性。
定位与解决问题的应急能力
通过故障突袭,随机对系统注入故障,考察相关人员对问题的应急能力,以及问题上报、处理流程是否合理,达到以战养战,锻炼人定位与解决问题的能力。
功能和特点
场景丰富度高
ChaosBlade 支持的混沌实验场景不仅覆盖基础资源,如 CPU 满载、磁盘 IO 高、网络延迟等,还包括运行在 JVM 上的应用实验场景,如 Dubbo 调用超时和调用异常、指定方法延迟或抛异常以及返回特定值等,同时涉及容器相关的实验,如杀容器、杀 Pod。后续会持续的增加实验场景。
使用简洁,易于理解
ChaosBlade 通过 CLI 方式执行,具有友好的命令提示功能,可以简单快速的上手使用。命令的书写遵循阿里巴巴集团内多年故障测试和演练实践抽象出的故障注入模型,层次清晰,易于阅读和理解,降低了混沌工程实施的门槛。
场景扩展方便
所有的 ChaosBlade 实验执行器同样遵循上述提到的故障注入模型,使实验场景模型统一,便于开发和维护。模型本身通俗易懂,学习成本低,可以依据模型方便快捷的扩展更多的混沌实验场景。
ChaosBlade 的演进史
EOS(2012-2015):
故障演练平台的早期版本,故障注入能力通过字节码增强方式实现,模拟常见的 RPC 故障,解决微服务的强弱依赖治理问题。
MonkeyKing(2016-2018):
故障演练平台的升级版本,丰富了故障场景(如:资源、容器层场景),开始在生产环境进行一些规模化的演练。
AHAS(2018.9-至今):
阿里云应用高可用服务,内置演练平台的全部功能,支持可编排演练、演练插件扩展等能力,并整合了架构感知和限流降级的功能。
ChaosBlade(2019.3):
是 MonkeyKing 平台底层故障注入的实现工具,通过对演练平台底层的故障注入能力进行抽象,定义了一套故障模型。配合用户友好的 CLI 工具进行开源,帮助云原生用户进行混沌工程测试。
近期规划
功能迭代:
- 增强 JVM 演练场景,支持更多的 Java 主流框架,如 Redis,GRPC
- 增强 Kubernetes 演练场景
- 增加对 C++、Node.js 等应用的支持
社区共建:
1、欢迎访问 ChaosBlade@GitHub,参与社区共建,包括但不限于:
- 架构设计
- 模块设计
- 代码实现
- Bug Fix
- Demo样例
- 文档、网站和翻译
原文链接
本文为云栖社区原创内容,未经允许不得转载。
六年打磨!阿里开源混沌工程工具 ChaosBlade相关推荐
- 阿里开源混沌工程工具 ChaosBlade
开发四年只会写业务代码,分布式高并发都不会还做程序员? >>> 近日,阿里开源了混沌工程工具 ChaosBlade.该项目是遵循混沌工程(Chaos Engineering)原理 ...
- 云原生 | 混沌工程工具 ChaosBlade Operator Pod 篇(文末赠书)
作者:丁源 RadonDB 测试负责人 负责 RadonDB 云数据库.容器化数据库的质量性能测试,迭代验证.对包括云数据库以及容器化数据库性能和高可用方案有深入研究. 继<混沌工程工具 Cha ...
- 面向云原生的混沌工程工具-ChaosBlade
作者 | 肖长军(穹谷)阿里云智能事业群技术专家 导读:随着云原生系统的演进,如何保障系统的稳定性受到很大的挑战,混沌工程通过反脆弱思想,对系统注入故障,提前发现系统问题,提升系统的容错能力.Chao ...
- 借助混沌工程工具 ChaosBlade 构建高可用的分布式系统
为什么80%的码农都做不了架构师?>>> 在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战.在可控范 ...
- 干货 | 阿里巴巴混沌测试工具ChaosBlade两万字解读
点击上方"方志朋",选择"设为星标" 做积极的人,而不是积极废人 一.前言 ChaosBlade 是一款遵循混沌工程实验原理,建立在阿里巴巴近十年故障测试和演练 ...
- 混沌工程工具-阿里ChaoBlade的原理与安装模拟CPUIO异常
混沌工程工具-阿里ChaoBlade的原理与安装模拟CPU&IO异常 1.概述 从这篇文章开始,介绍一个有趣的测试工程它就是混沌工程. 2.混沌工程介绍 2.1.混沌工程定义 英文原著定义 根 ...
- 阿里开源内核诊断工具:diagnose-tools
小编说: 今天为大家介绍一款实用工具--阿里开源内核诊断工具diagnose-tools.diagnose-tools是由阿里巴巴开发的linux内核诊断工具,用于linux性能分析,特别是大规模集群 ...
- 开源oracle同步图形工具,阿里开源数据同步工具--DataX
阿里开源数据同步工具--DataX 是啥?: 是异构数据源离线同步工具 能干啥?: 能够将MySQL sqlServer Oracle Hive HBase FTP 之间进行稳定高效的数据同步. 设 ...
- 混沌工程工具-阿里ChaosBlade的实现说明之一
原文请见7DGroup已声明原创的公众号文章. 根据混沌工程的principles,里面这样定义了: Chaos Engineering is the discipline of experiment ...
最新文章
- 利用SeekFree的核心板调试MM32F3277的ISP功能
- 裸辞,迎接2019年的春天
- 端云互联 3.0 击破云原生开发的痛点
- CDH 6 安装 Hbase 二级索引 Solr + Key-Value Store Indexer
- nginx 如何解析php文件php-fpm的解释
- Python学习笔记:目录与文件操作
- 安装第三方插件BeautifulSoup
- 使用scrapy的定制爬虫-第三章-爬虫的javascript支持
- 对涉密计算机检查内容,保密工作检查内容主要有哪些
- pytorch求STFT
- 正确使用RecyclerView分割线
- 【观察】飞象工业互联网平台,阿里云IoT的沉淀与释放
- 突破体系结构的错误–当Dreamliner成为噩梦时
- 圈的ramsey数研究
- 我国的社保到底是多交好,还是少交好?
- 深度学习如何训练出好的模型
- 特斯拉前高管:马斯克发推特之前 很多员工就已知晓私有化计划
- SQL Server 常见的7种约束以及where条件表达式
- java 将字符串首字母变大写
- 数据库理论作业 第八章 29 33
热门文章
- python 修饰器 参数_具有参数的Python类修饰器,但未运行修饰的...
- 【学习笔记】第一章——操作系统的系统调用(陷入指令、库函数、作用流程)
- vs2010 编译linux,VS2010 Boost编译安装
- mr图像翻转的原因_MRI图像常见问题及对策
- java icon动态变换,以编程方式自动更改ImageIcon [Java]
- mpython 直接访问_如何从python代码中直接访问Android的Service
- golang atomic load 性能_设计模式之Golang单例模式
- netcore quartz job用不了services_.NetCore开源集成框架
- int数组初始化_Java数组
- springboot全局常量_Spring-Boot配置属性和环境变量的加载顺序