关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

百种异常现场随机注入破坏系统

继去年跑了分、断了电,在9月19日下午的杭州云栖大会技术主论坛现场,专有云现场演示稳定性升级版,在现场搭建的专有云“企业号”数据中心系统上随机注入异常搞破坏。该数据中心由8大品牌服务器搭建,模拟了客户真实的复杂生产环境,同时现场直播应用便搭载在该数据中心的系统上,在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。

现场马劲让助手向观众席中扔出两只猴子玩偶,抢到的观众可以在现场呈现的1-100个异常中随机选取一个异常注入,两位观众分别选择了19号和66号,分别代表的是“ECS云产品网络传输包乱序比例陡增”,模拟ECS网络不稳定,网络急速恶化,传输包乱序陡增的场景,以及“SLB云产品网络传输时延陡增”,模拟SLB所在网络不稳定,传输出现严重恶化,时延陡增的场景。在分别注入这两个异常场景后,直播视频仍然保持顺畅毫无卡顿。这是因为专有云系统日常就是在通过注入这类异常收集反馈进行调整,从而不断打磨系统构建出“专有云免疫系统”。

似乎是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了极端环境下的超级异常——核心ECS集群局部网络异常且另一台ECS计算资源饱和。“这模拟了业务高峰期服务器已经超高负载时的网络故障,这类情况极易引发系统雪崩,一旦雪崩恢复时间很长。”马劲解释道。演示现场阿里云负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用,现场应用却快速恢复正常,观众席响起热烈的掌声。

打磨产品稳定性,阿里云没有好办法只有“笨办法”

阿里云专有云承载着众多企业的关键业务,深知肩责任之重,也深知稳定性对客户业务意味着什么,因此打磨稳定性是专有云不渝的追求。然而,过去大部分系统都搭建在DIY系统上,不具备全系统演练的条件,而今天在阿里云这个“云计算机”上,可以在准生产环境下进行全方位立体化的演练。

混沌工程是专有云针对理论科学搭建系统同时利用实践科学不断打磨系统的最佳组合。阿里云异常库中拥有高达12600种的异常场景,一年365天都在全方位立体化的不断注入打磨系统,以提前帮助客户排除系统中80%的故障。当别人还困扰于硬件层级的异常发生该如何处理时,阿里云专有云已经在用更深层级的组合异常打磨系统。这一切的投入和执着锤炼稳定性都只为持续给客户提供更稳定更可靠的产品。

现实往往不按照故事的剧本走,阿里云没有“好办法”只有笨办法,那就是引入‘混沌工程’理念,在仿真的生产环境中做千倍高频的异常注入,对不符合预期的系统反馈不断优化,从而持续打磨稳定性,助力客户业务稳定性提升。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

黑科技揭秘:百种异常随机注入,专有云为何稳如泰山相关推荐

  1. 黑科技揭秘:百种异常随机注入,专有云为何稳如泰山 1

    摘要: 关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?"2018杭州 ...

  2. 北京冬奥黑科技; 揭秘虎年春晚硬核科技;全球首款AR隐形眼镜问世;索尼3D显示技术路径曝光...

    点击文章内容即可跳转至相应原文阅读 >> 祝大家开工大吉,虎年顺利! 北京冬奥从开幕式就黑科技曝了! 这一次的北京冬奥会,从开幕式就直接火了!首先是从冰立方中破冰而出并随着音乐冉冉升起的奥 ...

  3. 鲜为人知的6个黑科技网站_6种鲜为人知的熊猫绘图工具

    鲜为人知的6个黑科技网站 Pandas is the go-to Python library for data analysis and manipulation. It provides nume ...

  4. ModelArts黑科技揭秘|模型智能评估、诊断,让模型来个“体检

    摘要:华为云AI开发平台ModelArts黑科技加持AI研发,让模型开发更高效.更简单,降低AI在行业的落地门槛.全面的可视化评估以及智能诊断功能,使得开发者可以直观了解模型各方面性能,从而进行针对性 ...

  5. 黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的

    对国际化企业来说语言问题是亟待突破的重要关口.面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键.阿里翻译团队在机器翻译领域做了大量 ...

  6. 黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的 1

    摘要: 对国际化企业来说语言问题是亟待突破的重要关口.面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键.阿里翻译团队在机器翻译领域 ...

  7. 文章伪原创检测在线,黑科技揭秘

    自媒体时代,内容创作已成为一种热门行业,但是许多人为了追求效率和快速发布文章,采用了伪原创的方式.这种行为不仅会影响文章质量,而且还会受到惩罚.那么如何检测文章是否伪原创呢?本文将揭秘文章伪原创在线检 ...

  8. ModelArts黑科技揭秘|弹性训练,让训练资源张弛有度

    摘要:AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中,怎么办? 为帮助企业在AI落地过程中进一步实现降本增效,华为云推出AI黑科技--弹性训练. 今年,AI界最被热议 ...

  9. 黑科技揭秘:阿里云如何做到从业务宕机到恢复业务运行只用一分半钟时间

    2018杭州云栖大会主论坛上,阿里云打造的混合云容灾方案惊喜亮相,并直接在现场进行了全过程的演示,凸显出阿里云技术的强大心智. 整个混合云容灾演示在5分钟内呈现了阿里云秒级RPO,分钟级RTO企业应用 ...

最新文章

  1. 初学者如何在一周内熟练掌握python?
  2. HDU 4652 Dice:期望dp(成环)【错位相减】
  3. 线上分享 | 增长思维:如何选择最优增长模式?
  4. starUML--面向对象的设计过程
  5. 20175213 2018-2019-2 《Java程序设计》第9周学习总结
  6. Python实现控制台清屏
  7. JQuery中的样式切换
  8. python sorted下标_Python列表操作最全面总结
  9. mysql怎么跳出while循环_mysql while,loop,repeat循环,符合条件跳出循环
  10. php模板技术 实例
  11. 小米8护眼模式无效_雷军没有交代的小米9的N个细节,这篇文章全告诉你了
  12. 用python写网络爬虫 -从零开始 4 用正则表达式 编写链接爬虫
  13. Docker监控方案之cAdvisor
  14. python typeerror_Python 新手必须要注意的错误
  15. iOS数据持久化 -- Core Data
  16. Getway 中predicates: - Query=x 标签作用
  17. faster RCNN 与 fast RCNN 一分钟回忆图
  18. GCC与VC2013性能比较
  19. 微信公众号消息推送教程
  20. 残酷事实:程序员没有真正的「睡后收入」,解决办法是利用「复利思维」放大「复业收入」...

热门文章

  1. opengl 安装_一步步学OpenGL(34) -《GLFX,一个OpenGL效果库》
  2. python命令行解析_python命令行解析函数
  3. Java7运行applet_Java applet不会在JRE7下运行,控制台中不会显示错误
  4. linux用户没有创建文件的权限设置密码,Linux学习第五章用户身份与文件权限
  5. matlab qtdecomp,Opencv图像识别从零到精通(25)------区域分裂与合并
  6. mysql 日期类型比价_MySQL 日期时间类型怎么选?
  7. 美国教授北大演讲:并不是每个人都适合做学术
  8. CVPR 2021 | 跨模态点云补全新框架ViPC:用单一视图推断完整信息
  9. 华科一篇 20 年前硕士论文,「神预言」深圳赛格大厦晃动?导师回应
  10. 太厉害了!3小时34分!53岁院士施一公完成人生首马