2020年11月11日晚,又一年天猫双11狂欢接近尾声。

新交易纪录、新流量峰值,一切都是十全十美的样子。

此时,阿里巴巴CTO程立(鲁肃)才将一段实录视频公之于众——

11月5日凌晨,阿里技术上下完成双11大考期间最后一次全链路压测后休息和交接间隙……服务器连续遭遇了两次攻击。

第一次,凌晨两点左右,监控大屏显示四个地区数据中心数值迅速下跌,技术保障团队启动紧急响应处理,确定遭遇了断网攻击。

紧接着第二次,2:10,更凶猛直接的攻击来了。华东区域某个数据中心,直接被拉闸断了电……

但最令人震惊的是,这一切居然是阿里巴巴合伙人、双11新零售技术负责人吴泽明(花名范禹)干的。

突然袭击,实弹攻击

这不是事先明确的一次突袭。

甚至只有范禹和霜波——阿里双11技术大队长、技术安全生产负责人陈琴“小范围”知道。

但是即便如此,陈琴看到这次断网攻击时还是吓了一跳,因为与之前商定的攻击量级并不符合。

当时,明面上压测已经结束,参与的阿里技术工程师们,有的在进行夜宵补给,有的在工位上小憩休息,对于这次意料之外的实弹攻击,没有一点点防备。

庆幸的是,技术保障上下训练有序。迅速锁定故障源头,启动应急方案,紧急展开修复……

仅1分28秒,一切如故。

甚至如果恰好有在那时下单的用户,都难以察觉有过“抖动”。

对于阿里技术上下,虽然事出突然毫无防备,但对于这样的突袭应对,已然肌肉记忆一样……因为在阿里,这种突袭早已普遍而日常,还有专门因此形成的红蓝军对抗

蓝军负责设计突袭弹药,常在不经意间发起突袭。红军则需要在极短时间内修复故障。

对外,这种技术突袭和红蓝对抗一直不为人知。

对内,无数次突袭和演练之后,连故障恢复机制都形成了“1-5-10”的方法论,即在1分钟内发出警报、5分钟内定位故障、10分钟内修复故障。

这也是阿里敢将可用性目标提升到达99.9999%的底气所在。

之所以能如此精确,就是因为一次次突袭演练之后得出的结果。

阿里内部,还将这种红蓝军的偷袭与防守,类比为对系统打疫苗。

故意在可控半径内将故障注入系统以测试系统的响应,类似于将少量有害物质注入体内激发免疫反应以防止未来疾病。

这似乎很疯狂,但能让公司提前为包括宕机在内的各种故障做好准备,将其影响降至最低。

甚至还有更疯狂的举动。阿里为这种突袭专门设计了App,简化成一个“按钮”,串联了阿里巴巴经济体的各种技术架构和业务手段。

方便随时随地,按下按钮完成突袭。

它可能发生在任何时候,比如,某一次会议结束后所有人都处于放松状态时。

这次双11前的突袭攻击,就出现在范禹闲庭信步走出“光明顶”时——双11核心作战室内没人察觉异常。

有内部工程师把这种偷袭演练与马斯克SpaceX那次知名的“事故逃逸”演习类比。

核心都是以真实可能发生的事故,来实际检验自身的技术和应急保障机制。

你听过混沌工程吗?

Chaos Engineering,混沌工程。

被称为“故意破坏的艺术”,主要通过主动制造故障,测试系统在各种压力下的行为,从而识别并修复故障问题,以此提高生产环境中系统的容错性和可恢复性,最终实现系统弹性的提升。

在硅谷科技公司中,混沌工程已经有过实践。

2010年,Netflix团队开发出了Chaos Monkey——混沌猴子这个工具用于测试系统。

模拟一只讨厌的猴子,在系统中随机位置上蹦下窜,不停捣乱,直到搞挂你的系统。

随后的几年里,Netflix还将混沌猴子在GitHub上开源分享,并指出这种随机故障测试,对测试分布式系统的稳定性有传统方式难以超越的优势。

在这样一整套原理基础上,混沌工程师这样的岗位开始在硅谷出现,角色和功能如这次阿里对外公开的蓝军,把这种随机破坏性攻击,变成一种日常测试手段来提升自身的抗灾能力。

混沌工程是一种专门的理论,本质上是一种反脆弱的思想。

如果再往上追溯,哲学源头可以找到尼采——杀不死我的必使我更强大

而对于阿里来说,混沌工程思想理念,与技术稳定体系需求不谋而合,与阿里异地多活、容灾容错的发展需求契合在一起。

实际上从2010年左右,阿里电商域开始尝试故障注入测试的工作,开始的目标是想解决微服务架构带来的强弱依赖问题。

后来经过多个阶段的改进,最终演进到MonkeyKing线上故障演练平台。

作为阿里集团使用广泛的混沌工程平台,MonkeyKing不但帮助很多业务团队进行故障演练,提升了业务稳定性,同时也支撑阿里集团内部定期的联合演练活动。

2019年开始,还开始在小范围生产环境内推进突袭演练,并对外开源了阿里巴巴混沌工程工具ChaosBlade。

而这次双11前夜的突然袭击、断网断电,本质也是混沌工程的一次实践。

即便双11这样的节点里,显得异常惊险,但对于阿里来说,拥抱「混沌工程」,搞出「红蓝演练」,也是业务倒逼的结果。

被逼出来的阿里

阿里历史上很多业务改革,都与双11密切相关。

比如「异地多活」,起初就是因为双11很火,流量带来扩容需求。

阿里集团CTO程立就回忆说,2009年第一次双11,因为是淘宝商城临时决定搞的活动,技术侧还不太有感觉。

但2010年,双11流量一下子涨了好几倍,服务器根本不够用……当时在支付宝的程立,亲身经历了把支付宝系统一再瘦身,只留下核心的支付链路,才总算扛过了那次交易洪峰。

而其后对于每年迎来新纪录流量洪峰挑战的双11,阿里开始在平时倒逼改革。

另外,也有一些意想不到的天灾人祸,带来容灾警醒。

2013年夏天,因为杭州40°高温酷暑,全城电力供应极度紧张,而阿里的服务器机房又是耗电大户,拉闸限电的威胁迫在眉睫,一旦机房停电,业务就关门大吉了……

上述等等经历,让阿里技术意识到,不能再等到下一个高温酷暑的夏天,不能再等到下一次天灾教训,再来思考如何保障业务稳定性。

也不能忽视地域中的物理灾害,影响到线上数以亿计的用户。更不能因为基础设施的限制,阻碍快速增长的业务。

所以先是解决同城多活的挑战,其后又进一步解决异地多活的世界难题。

都是面对问题和挑战,倒逼出来的创新。

实际上,这种倒逼出创新的案例,在阿里发展历史上比比皆是,例如支付宝研发OceanBase,阿里云研发飞天云操作系统……

当年为了支撑双11的流量,支付宝一个不到100人的团队,研发出可代替甲骨文数据库的OceanBase数据库。

今年,在去年双11核心系统100%上云后,程立透露——阿里把全副身家性命放到云上,飞天云操作系统、神龙服务器集群、中台等数字新基建还在不断升级,技术的沟沟坎坎几近解决,应对峰值不再是最大技术挑战。

消费者的热情越来越高,倒逼阿里技术持续进化。

而混沌工程和突袭计划,也是这种倒逼着进化的一部分。

互联网本身就充满了未知和不确定性,例如高温、洪水、台风、暴雨、地震、雷电等自然灾害以及人为操作失误等种种黑天鹅事件,都可能对业务造成严重打击。阿里敢在双11期间对业务系统发起各种高危故障,这种自信源自成熟的突袭机制,而底气则来自阿里云十年来搭建的灾备体系。。

Gartner就曾预测过,2020年,90%的容灾操作会发生在云端。尤其是大型云服务商,数据中心都遍布全球,是企业天然的异地灾备中心。

而阿里云的云灾备能力无疑处于云厂商第一阵营。

阿里云曾率先在业内提出数据中心的“四个不”原则,即不在同一火山地震带,不在同一水系,不在同一电网,不在同一运营商网络出口。这是传统企业所不具备的硬实力。

另一方面,阿里云的灾备能力全面涵盖了网络、数据库、存储等领域,这是能应对各种故障的软实力。

举个栗子,在存储领域,阿里云凭借存储高可用等能力,持续三年入选Gartner全球云存储魔力象限,并且被列为全球领导者地位。

所以只有兼具软硬实力,才能最大程度地保障业务和数据稳定安全。这也是阿里敢把全副身家性命都放在云上的原因之一。

甚至这种「最大程度保障」,还需要考虑到被断网断电的极端场景……

所以,拉闸断电的攻击成功了吗?

11月5日凌晨02:10,阿里华东区域某一数据中心被内部拉闸断电。

瞬间,蓄电系统启动……服务器供能无缝切换,未受一丝影响。

4秒钟后,柴油发电机群启动。电力完全恢复供应,数据中心运转如常。

阿里云灾备体系,至此交了满分答卷。

传送门:

混沌工程ChaosBlade 项目地址

https://github.com/chaosblade-io/chaosblade

- END -
长按进入小程序,进行30天签到打卡第15期,20本新书,快来看看!
(更多精彩值得期待……)
最近热文:20套Java实战项目视频,涉及SpringBoot、SSM、SpringCloud等等!Windows10系统变慢,用上这19招,电脑性能大幅度提升!GitHub 上 25 个 Python 学习资源,墙裂推荐!
我对比了27种语言,哪种编程语言又快又省电?
支付宝钱包系统架构图解,真的太优秀了!
LeetCode1-80题汇总,速度收藏!2T技术资源大放送!包括但不限于:C/C++,Linux,Python,Java,人工智能,考研,软考,英语,等等。在公众号内回复「资源」,即可免费获取!回复「社群」,可以邀请你加入读者群!

阿里双11突遭断网断电!最惊险一幕刚刚曝光相关推荐

  1. 阿里突遭断网断电!双11最惊险一幕刚刚曝光

    雷刚 发自 凹非寺   量子位 报道 | 公众号 QbitAI 2020年11月11日晚,又一年天猫双11狂欢接近尾声. 新交易纪录.新流量峰值,一切都是十全十美的样子. 此时,阿里巴巴CTO程立(鲁 ...

  2. 【阿里聚安全·安全周刊】阿里双11技术十二讲直播预约|AWS S3配置错误曝光NSA陆军机密文件

    原文链接:点击打开链接 摘要: 关键词:阿里双11技术十二讲直播丨雪人计划丨亚马逊AWS S3配置错误丨2018威胁预测丨MacOS漏洞丨智能风控平台MTEE3丨黑客窃取<权利的游戏>剧本 ...

  3. 【阿里聚安全·安全周刊】阿里双11技术十二讲直播预约|AWS S3配置错误曝光NSA陆军机密文件...

    关键词:阿里双11技术十二讲直播丨雪人计划丨亚马逊AWS S3配置错误丨2018威胁预测丨MacOS漏洞丨智能风控平台MTEE3丨黑客窃取<权利的游戏>剧本|Android 8.1   本 ...

  4. 双11享Go了吗?2017阿里双11在线峰会续写科技盛宴!

    技术成就辉煌,今年的双11毫无悬念地再次刷新了全球记录--11秒交易额破亿,28秒破10亿,3分01秒破百亿,40分12秒破500亿,9小时破1000亿--最终的交易额稳稳定格在了1682亿,不仅创造 ...

  5. 11月22日云栖精选夜读:双11享Go了吗?2017阿里双11在线峰会续写科技盛宴!

    2019独角兽企业重金招聘Python工程师标准>>> 历届双11,阿里以其前瞻性的视角和创新技术一直致力于为大众递交诚意满满的答卷,大浪淘沙后最终沉淀下来的都是技术的烁金.12月1 ...

  6. 阿里巴巴CTO行癫:阿里双11是世界互联网技术的超级工程

    11月11日晚上10点,阿里巴巴集团CTO张建锋(花名:行癫)连线上海双11媒体中心,为700多位中外媒体记者介绍了阿里技术在双11中取得的突破与成绩,表示"阿里双11是名副其实的世界互联网 ...

  7. 直播 | 2017阿里双11在线技术峰会

    技术成就辉煌,今年的双11毫无悬念地再次刷新了全球记录--11秒交易额破亿,28秒破10亿,3分01秒破百亿,40分12秒破500亿,9小时破1000亿--最终的交易额稳稳定格在了1682亿,不仅创造 ...

  8. 停电让服务器自动关机,服务器断网/断电自动关机小工具 断网/断电5分钟后自动关机...

    很多服务器有UPS电源,当断网/断电都会使用UPS电源中储存的电量,当UPS电源中的电量耗尽时也会自动关机,因此当市电断电时在UPS电源电量耗尽之前关闭服务器是明知之举,自己动手研发了这款<服务 ...

  9. 【阿里云资讯】作战指挥系统碾压美军?!阿里双11破千亿背后的重大机密......

    阿里双11破千亿背后的重大机密... 双十一,全球数亿剁手大军的狂欢,为了给剁手大军创造稳定丝滑的体验,阿里巴巴专门成立数万人的"作战指挥室".而数万人之间的无缝协同,极为不易,要 ...

最新文章

  1. 【转】nginx提示:500 Internal Server Error错误的解决方法
  2. sas数据集怎么导出_PCA算法 | 数据集特征数量太多怎么办?用这个算法对它降维打击!...
  3. string:值类型?引用类型?[转]
  4. Got minus one from a read call异常
  5. 邮件服务器在企业网中的应用
  6. Java从控制台中读取数据完全攻略
  7. React中的CSS——styled-components
  8. 有问题,上微信问答群!
  9. iconfont-矢量图标字体的运用
  10. 微博超话自动签到 php,微博超话自动签到器v1.0下载-我爱秘籍
  11. 5g消息服务器,5G消息开启信息服务新篇章
  12. 图像分割—基于区域的图像分割
  13. 图说职场贴士:护航职场的八力
  14. 高中英语话题阅读 计算机,高中英语必修二Unit 3 Computers阅读课的教学设计
  15. FFMPEG的像素格式
  16. 嵌入式和Linux知识总结
  17. 系统服务管理知识-进程守护工具:supervisor
  18. OpenCV+MFC 显示图像
  19. stata 均值和标准差
  20. Tumbler QML Type

热门文章

  1. 随机采样和分布式光线追踪
  2. 激光计算机是谁发明的,五个难以解释的古发明,第四个是计算机祖宗,第五个激光武器雏形...
  3. Therefore, hence, so, then, thus
  4. linux进阶-网络安全系统网站服务
  5. 2019/8/18 ECU和DCU
  6. 陀螺仪的进动及其数学描述
  7. 【重磅】2021年SCI影响因子滚烫式公布!各领域TOP期刊!(附下载链接)
  8. mysql dba视频课_MySQL DBA专家
  9. 1016 Phone Bills (25分)
  10. android 程序运行,Android如何保持程序一直运行