Gremlin团队最近发布的“Gremlin免费版”,开放了Gremlin“故障即服务”功能,支持在SaaS平台上的运行部分混沌工程实验。当前开放的免费版本允许用户通过Web,API或者CLI命令行的方式,在主机或容器上执行关闭节点和CPU攻击的实验。

Gremlin团队于2017年底发布了他们的混沌工程实验SaaS产品的首个版本,支持对主机以及底层基础设施编排执行多种、多次的攻击实验。随后在2018年发布的应用级故障注入(ALFI)功能,允许在应用服务或方法级别执行攻击实验。关闭运行中实例的能力是Gremlin产品演进过程中最主要的攻击实验方法之一,它的部分灵感来源于混沌工程领域中第一个工具——混乱猴子(Chaos Monkey)。

尽管混乱猴子非常实用,Gremlin团队认为要想安全可靠地使用它,需要比较长的学习时间。混乱猴子仅仅支持在AWS上运行(不过包含类似功能的工具也逐渐出现在市面上,比如支持在其他平台,如Azure和Google Cloud Platform上面运行的工具)。“Gremlin免费版”旨在降低开始执行混沌工程实验的门槛,让用户可以用最小的代价快速看到混沌工程实验的价值。

Tammy Butow(Gremlin首席SRE工程师)给想要尝试这些新免费功能的工程师们提供了一个工具包。这个工具包包含了5个混沌工程实验的详细操作步骤,既有如何在AWS,Azure和Google Cloud Platform上执行关闭主机和容器的实验(需要用户使用自己的云服务账户),也有如何在本地Docker环境中执行关闭容器的实验。

InfoQ最近采访了Gremlin的产品总监Lorne Kligerman,讨论了“Gremlin免费版”的初衷和未来的计划。

InfoQ:你好Lorne,非常感谢接受我们的采访。首先能向我们介绍一下推出“Gremlin免费版”的初衷吗?

Lorne Kligerman:有几点,第一个很简单,我们希望通过不断普及混沌工程来进一步完成我们的使命——让互联网应用更可靠。混沌工程吸引了很多的关注和兴趣,但市面上各种解决方案并不能提供足够的可靠度和安全度,同时也没有可以快速上手的UI。

另一个动机是,我们希望开发者通过第一时间体验混沌工程实验所带来的价值和影响,并据此来决策如何为他们的用户提供正确的产品服务。“Gremlin免费版”让每一个用户都可以快速注册,安装客户端,执行实验,最后观察实验结果。

另外,通过这个实践过程(包括配合使用现有工具并监控观察实验结果),无论是验证了系统的弹性,还是发现了潜在的缺陷,对开发者所在的组织来说都可以提高其系统的成熟度。

当然,用户也可以选择解锁Gremlin全功能版。

InfoQ:和我们自己运行混乱猴子和其他相关工具相比,“Gremlin免费版”提供的功能有什么不同吗?

Kligerman:回到刚才的第一个问题,大家对混沌工程的认知来源于一系列的开源解决方案,包括混乱猴子。虽然开源非常美妙,但是搭建起开源软件运行的环境并使其稳定持续工作的成本通常不低。混乱猴子尤其不容易使用,它只能在AWS上工作,而且只提供随机关闭虚拟机的攻击实验类型。(值得一提的是我们的CEO Kolton曾在Netflix打造了他们的第二代故障注入工具集。)

Gremlin提供的是一套完整的SaaS服务,包括了简洁的UI和快捷的安装方法。它提供了十数种攻击实验方式,从模拟CPU尖刺到硬盘资源耗尽,再到网络延迟注入等。无论是通过UI,API还是CLI使用Gremlin平台,用户随时都可以使用“停止攻击”按钮来快速终止所有攻击实验,让系统恢复到健康状态。我们从最根本上优先考虑了简易性,可靠性和安全性。

最后,我们希望让这个解决方案和“随机破坏东西”区别开。随机破坏有它适用的场景,但是我们认为真正产生价值的应该是经过深思熟虑后作出的实验计划,在执行时从最小爆炸半径开始逐步扩大影响范围。我们坚持要先形成系统可能行为的假设,然后通过执行实验来学习系统真实的行为表现,随着对系统信心的提升,我们可以不断扩大实验的影响范围。

所以回答你关于“Gremlin免费版“的问题,我们其实有一部分想法就是提供一个更好的混乱猴子。它拥有和我们企业版一样简洁的UI,可以在任何云平台上或者本地使用,并且提供两种攻击实验方式:关闭节点(和混乱猴子一样)和CPU攻击。

InfoQ:你怎么看待Gremlin下一步的发展方向?我们注意到有越来越多关于系统可观测性的讨论,尤其是复杂分布式系统,Gremlin会考虑推出相关产品,或者考虑和现有其他产品集成吗?

Kligerman:我们还是会聚焦在我们的核心竞争力,不会去开发一套监控解决方案。业界已经有非常多出色的产品。我们目前集成了Datadog,也在和New Relic、Dynatrace沟通合作,Honeycomb的CEO Charity Majors去年在我们的大会上做了演讲,也表示出很大的合作兴趣。所以,是的,我们期望和所有这些出色的产品深度合作,同时非常赞同可观测性对于混沌工程来说至关重要。

至于Gremlin平台的未来,某种程度上我们已经领先于市场。去年发布的应用级故障注入功能已经可以执行更细粒度的实验,例如在应用级别和单次请求级别(支持serverless)注入故障,目前市场还落后于我们。

InfoQ:最近有一些比较受欢迎的基金会,或者新兴的基金会,如CNCF,新持续交付基金会,Gremlin同他们的关系如何?

Kligerman:我们是CNCF的活跃成员,对我们来说,作为这类社区的成员非常重要。新持续交付基金会比较有意思,因为在这个领域我们已经做了很多工作,坚信要发挥混沌工程最大的价值,就需要尽可能最大化自动化程度,同时整合到持续构建或持续交付的流水线里。敬请期待稍后在这方面的公告!

使用“Gremlin免费版”需要通过Gremlin官网进行注册。可以在Gremlin官网找到产品的文档,以及更多的帮助可以访问Slack混沌工程频道或者Gremlin支持频道。

查看英文原文:Gremlin Announces Free Tier for Their Chaos Experimentation Platform

Gremlin发布混沌工程实验平台免费版,开放了“故障即服务”功能相关推荐

  1. ChaosBlade:从混沌工程实验工具到混沌工程平台

    简介:ChaosBlade 是阿里巴巴 2019 年开源的混沌工程项目,已加入到 CNCF Sandbox 中.起初包含面向多环境.多语言的混沌工程实验工具 chaosblade,到现在发展到面向多集 ...

  2. 如何设计一个混沌工程实验?

    文章目录 1 什么是混沌工程? 2 为什么需要混沌工程? 3 混沌工程和测试有什么区别? 4 混沌工程的先决条件是什么? 4.1 先解决确定会导致问题的弱点 4.2 监控系统来确定系统的状态 5 混沌 ...

  3. 升级的Electric Cloud平台增添了大型机和微服务功能

    \ 看新闻很累?看技术新闻更累?试试下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料! \ \\ 新的ElectricFlow DevOps Automation平台提供了对大型机的支持,包 ...

  4. 混沌工程:分布式系统稳定性的“疫苗”

    混沌工程:分布式系统稳定性的"疫苗" 一.容灾了,但没完全容灾 二.NetFlix.猴子与疫苗 三.混沌工程的价值 四.国内混沌工程开源项目现状 1.混沌之刃-ChaosBlade ...

  5. 字节跳动混沌工程实践之场景化主动实验

    背景 从 2010 年 Netflix 上线 Chaos Mokey 的第一个版本到现在,虽然混沌工程发展已历时十年,但其实只在少数大厂里面有较成熟的落地,对绝大部分研发同学来说,混沌工程还是一个比较 ...

  6. 【混沌工程】2022 混沌工程状态

    在过去的十二年里,我有机会参与并见证了混沌工程的发展.出身卑微,最常遇到的问题是"你为什么要这样做?"到今天的位置,帮助确保世界顶级公司的可靠性,这是一段相当长的旅程. 我第一次开 ...

  7. 混沌工程是什么_什么是混沌猴子? 混沌工程解释

    混沌工程是什么 在Netflix从分发DVD转变为构建用于流视频的分布式云系统的过程中,Pioneers率先走了出来, Chaos Monkey引入了一种工程原理,该原理已被各种规模和规模的软件开发组 ...

  8. 分布式系统保障—混沌工程—初识

    原文作者: 朱小厮的博客 原文地址:混沌工程(Chaos Engineering)初识 编辑推荐: 本文主要介绍什么是混沌工程.混沌工程的五大原则.混沌工程成熟度模型(CMM)以及混沌工程的目标--韧 ...

  9. 鲜为人知的混沌工程,到底哪里好?

    混沌工程属于一门新兴的技术学科,行业认知和实践积累比较少,大多数IT团队对它的理解还没有上升到一个领域概念.阿里电商域在2010年左右开始尝试故障注入测试的工作,希望解决微服务架构带来的强弱依赖问题. ...

最新文章

  1. android xposed 编译,Xposed修改特征编译
  2. 客户端使用win共享文件出错解决方法
  3. c语言函数参数类型格式化,格式化输出的几种方法 主要介绍format函数的用法
  4. Native App
  5. 如何不重启服务,把编译类放入正在运行的服务中去
  6. linux+yum安装终端php,centos下yum搭建安装linux+apache+mysql+php环境教程
  7. 前端页面怎么办啊一条长的信息换行展示_前端入门!不容错过!HTML基本标签知识大盘点...
  8. iOS - AVAudioSession详解
  9. linux播放csf文件
  10. android 输入法 智能abc 风格,常见输入法智能ABC介绍5
  11. 空洞(扩张dilated)卷积
  12. 在Linux下玩QQ游戏
  13. cf----2019-08-14(The Doors,Zoning Restrictions Again,Detective Book)
  14. 企业物流管理系统使用教程
  15. 格式工厂压缩视频方法分享
  16. 架构设计:一种远程调用服务的设计构思(zookeeper的一种应用实践)
  17. 批量查询谷歌PR权重的方法有哪些?是什么影响着谷歌PR值?
  18. 原型链----看懂_proto_和prototype
  19. 关于texpad编译后无法找到目录的.toc文件
  20. java中的BigInteger(很好很强大)(转)

热门文章

  1. springboot入门书籍推荐,电商实战之优惠卷实现(1)
  2. 第 12 章 执行引擎
  3. nodejs和cnpm安装
  4. android主题切换框架,Android主题切换日夜间模式与换肤框架小结
  5. 美国道富java开发面试题_从事Java开发五年,面试9家拿到7家offer,1096面试+67笔试题...
  6. php和xml区别,html与xhtml和xml有什么区别
  7. matlab函数anova,MATLAB进行单因素方差分析-ANOVA
  8. Recoil 是 React 的状态管理库
  9. 华中科技大学期刊分类办法_紧跟国际前沿,拓展研究思路,立足国内实践,提升科研能力 —— 记国际期刊学术论文写作与发表研修班...
  10. python的基础是java_Python基础学习