根据IDC今年7月份发布的《中国公有云服务市场半年度跟踪报告》显示,阿里云的市场占有率已过45%,腾讯云达到10%。在全球市场,根据Gartner最新数据显示,亚马逊AWS占全球份额的51.8%;微软Azure位列第二位,占比13.3%;阿里云位列第三位,占比4.6%;谷歌Cloud云服务占比3.3%;随后是IBM,占比1.9%。可见,这几大主流云供应商占据全球绝大部分市场,一旦云服务出现宕机,受影响的企业将不计其数。

2018年,云计算市场不仅发展迅速,而且问题不断。云供应商与开源社区的矛盾不断升级,主流云厂商均未逃过宕机事件,更有甚者一年出现多次服务宕机,导致企业对公有云的信心持续走低。本文总结了2018年前十大云宕机事故,欢迎各位补充经历过的云服务至暗时刻。

1、谷歌云自动化失效导致宕机  1月18日

事故详情:2018年1月18日,谷歌云自动化机制失效,导致其us-central1和europe-west3两大可用区中的计算引擎停运93分钟。谷歌对此的回应是“网络编程失效”导致Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。
补救措施:工程团队手动切换到替换任务,以恢复数据持久层正常运行。
宕机时间:93分钟
事件后续:谷歌承诺,未来如果配置数据过时,谷歌将停止虚拟机迁移,数据持久层会在长时间运行进程期间重新解析对等体(peer),以便故障发生时迅速切换到替换任务。

2、AWS宕机致部分Alexa失声  3月2日

事故详情:2018年3月2日凌晨,依赖AWS服务的部分Alexa开始出现失声问题,该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa也一直发出系统内置道歉声。随后几小时内,Alexa又接到了成千上万封投诉。据了解,Alexa这一故障源于亚马逊AWS的网络服务出现问题,其他依赖AWS作为骨干网的应用在当天也受到了影响,包括软件开发公司Atlassian,云通讯公司Twilio等。
补救措施:亚马逊AWS的在线支持团队对此进行了修复
宕机时间:数小时(因事发凌晨,未在第一时间发酵)
事件后续:亚马逊AWS未对此故障进行详细说明,只透露与网络连接有关。

3、AWS北弗吉尼亚地区数据中心出现硬件问题  5月31日

事故详情:2018年5月31日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS再次出现连接问题。在此事故中,AWS的核心EC2服务,Workspaces虚拟桌面服务以及Redshift数据仓库服务均受到影响。
补救措施:人为修复
宕机时长:30分钟左右
事件后续:亚马逊公司S3的副总裁兼总经理Mai-Lan Tomsen Bukovec近日接受采访表示,亚马逊从未见过数据中心崩溃。这意味着,过去的每一次事故都未曾导致整个数据中心的崩溃,AWS也在系统设计层面进行了改进以防止此类事故发生。

4、微软Azure爱尔兰数据中心宕机  6月17日

事故详情:2018年6月17日至18日,因爱尔兰数据中心的恒温系统出现问题,微软Azure被高温影响导致存储和网络中断。
宕机时间:5小时以上

5、阿里云故障  6月27日

事故详情:2018年6月27日16:21左右,阿里云出现重大技术故障,16:50分开始陆续恢复,官方给出的故障时间为30分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知bug。
补救措施:人工介入,定位并解决问题
宕机时间:30分钟,恢复时间花费一小时左右
事件后续:本次事故被定义为S1级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

6、腾讯云云硬盘故障  7月20日

事故详情:2018年8月5日,北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文,文中表明,2018年7月20日,腾讯云云硬盘发生故障(腾讯云后期给出的事故原因说明),导致该公司存放的数据全部丢失,并且不能恢复,这是该创业公司近千万元级的平台数据,包括经过长期推广导流积累起来的精准注册用户以及内容数据。
补救措施:腾讯云表示,监控到异常后第一时间向用户告知了故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。但经过多方努力,最终仍有部分数据完整性校验失败。
事件后续:腾讯云提出“赔偿+补偿”方案,并承诺会继续与“前沿数控”保持沟通,帮助其进行业务恢复。

7、腾讯云宕机  7月24日

事故详情:2018年7月24日,用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。
补救措施:运营商第一时间介入抢修
宕机时间:宕机时间不明,恢复时间花费30至40分钟

8、亚马逊AWS故障 Prime Day

事故详情:Prime Day是亚马逊在全球范围内启动的为期36小时的会员促销活动,活动刚开始,亚马逊网站及App就同时发生严重宕机,不光电子商务业务受损,亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解释是AWS管理控制台出现全球性问题。
宕机时间:故障持续了将近6小时
事件后续:AWS发言人表示,间歇性的AWS管理控制台问题并未对亚马逊的消费者业务产生任何有意义的影响。

9、微软云Azure数据中心遭雷劈宕机  9月4日

事故详情:9月4日上午,微软Azure美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个Azure服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括Office365、Active Directory、Visual Studio Online、Visual Studio Team Services等。
补救措施:9月5日上午,微软工程师已恢复数据中心的电力和大多数网络设备,其他服务也在陆续恢复中。
宕机时间:超过24小时

10、谷歌公有云下的Kubernetes服务(GKE)宕机  11月9日

事故详情:11月9日,谷歌公有云上提供的Kubernetes服务(GKE)节点池建置功能出现异常,维运人员无法透过Cloud Console UI建立新节点。

补救措施:谷歌派工程团队调查故障原因,并开始着手维修。谷歌表示,受影响的企业用户可以先改为使用GCP内建的gcloud command,建置新Kubernetes节点。
宕机时间:接近19小时

在过去几年,云供应商还发生过数起大大小小的故障,随着越来越多的企业和政府机构将数据上云,即便只是一个小小的宕机都可能引发很大的灾难。即便是提供99.9%可靠性的阿里云,那0.1%的宕机还是发生了,因此企业不仅要建立完善的灾备保障体系,还应该对灾备系统进行定期演练以防故障发生造成损失。

2018年十大云宕机事故盘点:主流无一幸免!相关推荐

  1. 云宕机事件盘点:IBM云服务全球宕机四小时,安全稳定成空话?

    随着越来越多的企业及应用将它们的数据搬运至云端,即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难. 6月10日,IBM云计算发生了长达四个小时的中断故障,导致多项托管于平台上的互联网服务中断, ...

  2. 2013年度国际十大服务器宕机事件

    1.Healthcare.gov:联邦政府的在线保险网站已经成为IT领域出错的一个典型事件.这次事件已经不单单是一次简单的停机事件.该故障导致了一系列的硬中断和软中断,最终使该网站的功能几乎全部丧失. ...

  3. 2018年十大区块链投资机构盘点-千氪

    2018年,可以说是区块链经历了大起大落的一年,区块链从2017年的一波风口持续烧到了2018年,行业发展如火如荼.在市场大好的背景下,不仅诞生了许多专注于区块链领域的投资机构,同时也吸引了许多互联网 ...

  4. 阿里云爆发史上最严重宕机事故。。。

    阿里云香港区于2022年12月18日出现故障,多个香港和澳门的网站受到影响,包括Linux中国的官网(https://linux.cn/).澳门金融管理局.澳门银河.莲花卫视.澳门水泥厂等关键基础设施 ...

  5. 2018android手机机皇,2018年十大智能手机盘点 谁是年度机皇?

    到了十二月份,就意味着到了总结盘点的时候了.如果有人要问,2018年的年度机皇是什么?可能答案并不统一.有人可能会说iPhone XS Max,有人可能会说三星Note 9,可能还会有人说是华为Mat ...

  6. 网信办拟规定:平台未经用户同意不得强制订阅关注账号;Twitter回应大范围宕机;Krita 4.4.0发布|极客头条

    整理 | 郑丽媛 头图 | CSDN 下载自东方 IC 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 国内 ...

  7. 因一个 Bug,谷歌、GitHub、亚马逊等网站全球大范围宕机!

    整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 打开一个网站,无法访问:换一个网站,又无法访问. 遇到这种情况的你,会认为是什么问题:断网了?可有些社交软件能正常使用:浏览器出 Bug ...

  8. 中国求职者2亿私人简历泄露,APT情报资讯报告2018全球十大安全事件(10401字) (附PDF公号发“简历十大安全”下载)

    中国求职者2亿私人简历泄露,APT情报资讯报告2018全球十大安全事件(10401字) (附PDF公号发"简历十大安全"下载) 秦陇纪2019译汇编 科学Sciences 今天 科 ...

  9. 十大云服务器服务商评测\排名

    云服务器凭借着云计算所带来诸多优势成为了广泛关注的热点话题,作为云计算服务的重要组成部分,云服务器租用服务就是面向各类互联网用户提供综合业务能力的服务平台,它整合了传统意义上的互联网应用三大核心要素: ...

最新文章

  1. s:select 使用
  2. Java并发编程高级篇(八):在执行器中取消任务
  3. python怎么做折线图_python怎么画折线图
  4. 用xlg.tel来管理自己
  5. 面向对象的程序设计之原型模式
  6. (Mybatis)lombok使用
  7. Java常用系统变量收集
  8. ElasticSearch 创建父子类型
  9. 聊聊微信的Dark模式
  10. 命名规范、MVC 开发模式
  11. 一次JDBC与MySQL因“CST”时区协商误解导致时间差了13或14个小时
  12. php如何去除字符串中的空格,php如何去除字符串中的空格
  13. 啦啦外卖45.4至尊版全开源独立版源码
  14. Git的下载安装 (图文教程)
  15. 网页一键分享按钮HTML代码
  16. 思考力——提升企业竞争力的核心因素
  17. 少儿编程微课程10:使用画笔绘制正六边形
  18. 设计一个最优算法来查找一n个元素数组中的最大值和最小值
  19. Android图形shape的gradient渐变色背景
  20. SpringBoot导入导出你会用吗?(EasyPoi)

热门文章

  1. Android sqlite 数据库保存Date 类型
  2. jQuery:has()和jQuery:contains()及jQuery:empty
  3. 结课作业:云计算在物联网中的应用发展
  4. 牛客寒假6-B.煤气灶
  5. IOS 之__bridge__bridge_transfer和__bridge_retained
  6. 架构师是如何炼成的?以天猫APP架构开发模式升级工程为例
  7. 谈谈对Spring IOC的理解
  8. 剑指Offer(Java版):扑克牌的顺序
  9. Linux监控工具介绍系列——free`
  10. 如何将程序添加到系统服务实现开机自启动