亚马逊、谷歌、苹果云端宕机背后的故事

发表于 19小时前|  2117次阅读| 来源 AWS Gigaom|  6 条评论| 作者 王鹏

Amazon Google iCloud
摘要:上周一,AWS东部地区又出宕机问题,对Reddit,Airbnb等多家网站造成了影响,不过在受到影响区域以外的EC2实例和EBS卷都显示正常。不过此次事件的阴霾还未散尽,仅仅几天之后,Google App Engine宕机,10月30日,苹果iCloud也出现了一点点小麻烦。

在10月22日(上周一),Amazon云服务AWS东部地区又出宕机问题,对Reddit, Airbnb, Flipboard, GetGlue, Coursera等多家知名网站造成了影响,不过在受到影响区域以外的EC2和EBS都显示正常,客户还可以进行迁移。此次事件的阴霾还未散尽,在10月26日(上周五),Google App Engine宕机,10月30日,苹果iCloud也出现了一点点小麻烦。作为云计算行业的领军人物,三巨头最近的日子都不是太顺。不过这也侧面反映了云计算对我们生活、工作的影响力越来越大。

亚马逊宕机事件

尽管2011年亚马逊AWS也出现了一些问题,但远远没有2012年这么频繁。从之前6月份由于电力系统的故障,进而影响了AWS的客户之后(2012年6月14日Amazon云服务故障分析),在7月份因为雷击再次造成数据中心宕机,又影响了一批客户的正常使用,(风暴击倒亚马逊数据中心,舆论一边倒?),此次事件发生之后,AWS官方网站对本次宕机事件做出了解释,而且告诉用户AWS正在做的工作,以防止未来再次发生类似的问题。

周一 10:00 AM PDT:美国东部地区的亚马逊弹性块存储(EBS)的性能发生下降,在某些情况下,无法进一步处理I / O请求。问题的根源是运行在EBS存储服务器上的数据收集代理有一个潜在的Bug。每一个EBS存储服务器的代理都关联着一组数据收集服务器和用来维护的报告信息。该数据收集系统的数据是非常重要的,但是对时间却不敏感,因为该系统的设计仅仅容忍延迟或者丢失的数据。

上周,该地区的一个数据收集服务器因为硬件故障被换下。不过替换该服务器部分的一个DNS记录已更新,删除了故障服务器并且添加来了替换服务器。不过在那个时候没有注意到,DNS更新没有成功地传播到所有的内部DNS服务器之上,结果,存储服务器的一小部分并得到没有更新的服务器地址,而且继续尝试联系原来的数据收集服务器。但是由于设计的数据收集服务容忍丢失数据,显然这并不会造成任何直接的问题而且没有发出何报警。然而,因为无法联系到的数据收集服务器,存储服务器上的报告代理引发了潜在的内存泄漏错误:报告代理并没有处理连接失败的问题,而是继续以尝试联系数据收集服务器的方式,慢慢地消耗系统内存。

尽管AWS监控着每个EBS服务器的总内存消耗,但是监控系统没有对此内存的泄漏进行报警。而且EBS服务器动态地使用所有的可用内存用于管理客户数据,因此很难对内存的使用和释放内存进行准确的警报设置。星期一早上,内存消耗的速度已经非常高了,直接影响到存储服务器,它们无法跟上正常的请求处理。

到目前为止,亚马逊已经部署了监测预警系统,对内存泄漏问题进行重点关注。与此同时,也修正了EBS存储服务器上的系统内存监控,从而保证对每个进程的内存消耗进行监控和预警,AWS还将部署资源限制,以防止低优先级的进程消耗过多的主机资源。很关键的部分,AWS更新了内部的DNS配置,以进一步确保DNS的信息更改被可靠的传播,最重要的是,确保AWS的监管的完善性,这些行动完全解决了引发这次事件的问题。此外,AWS正在评估在事件的迅速恶化之前,如何更改EBS故障转移逻辑。亚马逊相信,他们有能力作出调整,从而减少任何类似的相关EBS服务器故障或退化的影响。(原文)

亚马逊在最后表达了深深的歉意:“给您带来不便以及造成的影响,我们深表歉意。我们知道AWS服务对客户业务来说是多么的重要,我们将会更加努力的工作,从本次事件中认真吸取教训,我们看到先前的改变也减轻了本次事件一些影响,而且我们也了解了新的故障模式,在未来的日子里,我们会花很多时间改善我们的服务。”

在亚马逊宕机事件发生后,一位国外网友打趣说:亚马逊又宕机了呀,为什么亚马逊不把Amazon.com放在自己的云服务器上呢?另一位专业网友则在网上留言指责亚马逊无法提供风险预警服务,导致大量网站屡次在毫无征兆的情况下经历长时间的宕机,给网站造成重大损失。

为什么亚马逊频频出现这么多问题,我们依然还会选择它?因为我们知道,AWS目前是最好的云服务,对于大多数用户来说,无论他们遭受到了多么严重的影响,他们还是会选择亚马逊,因为亚马逊帮助他们用较少的成本和精力运营着一个强大的基础架构。许多人在批评亚马逊之前都会首先感谢亚马逊帮助他们做到的事情。因为到目前为止,还没有一家公司能够取代亚马逊!我们也很欣喜地看到OpenStack的蓬勃发展,但是在商用平台始终还是一大软肋,目前绝对不是亚马逊的对手。

谷歌宕机事件

其实,谷歌可以真正算得上一个“云计算”公司,因为云计算的最早提出者是Google公司的高级工程师,克里斯托夫·比希利亚。2006年秋,他向谷歌董事长兼CEO施密特提出了“云计算”这一计划。如果提及谷歌的云计算,那么不得不说GAE(Google App Engine)。Google App Engine 提供一整套开发组件让用户轻松地在本地构建和调试网络应用,之后能让用户在Google强大的基础设施上部署和运行网络应用程序,并自动根据应用所承受的负载对应用进行扩展,免去用户对应用和服务器等的维护工作。同时提供大量的免费额度和灵活的资费标准。不过很不幸,上周五Google App Engine 也宕机了!虽然在8个小时后,谷歌服务恢复正常。但是影响还是存在的。不过让人惊奇的是,谷歌公司很少谈及“云计算”,作为云计算的“鼻祖”,貌似有点太低调了,按照谷歌的说法:“Internet将永生,我们将无处不在。”虽然宕机事件发生,似乎对谷歌影响甚微,相信没有人敢否认谷歌在云计算中的地位。

苹果iCloud出了点小麻烦

毋庸置疑,iCloud是苹果未来愿景的核心部分:“它不仅仅是一个产品,它是未来十年苹果的重点战略!”苹果公司的首席执行官库克在1月宣布:未来所有的设备都应该实现与iCloud无缝地协作,而且iCloud也是最重要的部分。在任何地方,它都能将用户连接到他们的设备,服务和内容。iCloud拥有超过190万用户,而且还在继续增长之中,任何宕机都会影响到很多人。更重要的是,这个问题同时影响着所有的苹果iOS设备,包括iPad,iPhone,甚至苹果电脑,因为iCloud在所有的这些平台上被广泛的使用。在10月30日,苹果的iCloud也遇到了一点点麻烦!用户表示他们在访问iMessage,Apps Store,Game Center以及可能更多地方的时候出现了一些问题。苹果公司的系统状态网页也已经确认该消息,他们正在进行调查。不过似乎也没有人对苹果iCloud的宕机做出太大的反应,虽然乔布斯已经挂帆仙逝,但是苹果似乎没有任何的颓废之势,反而在库克的领导下,发展的很平稳,即使少了一些创新,但是也没人敢小窥这个“庞然大物”。

国内平台更不让人放心

其实云计算目前还存在的问题,云计算巨头的三次宕机事件,其实也给我们敲响了警钟,云计算不是万能的,它本身也存在着很多问题,但是我们绝对不能以此否定云计算的发展。而且在保证应用程序的高可用性和数据的安全性上,极少有一家公司可以拥有像亚马逊、谷歌和苹果这些云计算服务供应商那样的实力,这根本不是一个数量级上的比较。我们对亚马逊、谷歌以及苹果宕机反应强烈只不过是我们对云计算抱有不切实际的期望(100%高可用性)。殊不知我们对自己公司的服务器经常宕机已经习以为常了。我们可以看看国内的平台问题:

  • 京东商城网站出现漏洞,损失2亿多:京东商城充值平台(chongzhi.360buy.com)出现漏洞,积分可以无限制刷Q币话费,有人甚至充了36万话费,还有包括套Q币,彩票等损失惨重,预计京东亏损2个亿左右。据说京东已报案,具体处理措施还没出来。目前漏洞已修复!
  • 2012年10月30日下午16:40开始,阿里巴巴集团旗下的著名的云计算服务商阿里云发生了电力故障,有客户反映其造成了宕机。
  • 盛大,国内云供应商巨头。其产品一直保持着节约成本、弹性扩展、提高效能、安全可靠等特色。然而继4月“麦库记事本”发生故障后,在8月6日发生了机房服务器磁盘损坏,直接导致用户资料丢失。这无疑在云安全上给国内云供应商敲响了警钟。

云计算并不可能万无一失,“出来混,迟早要还的!”

云服务用户首先要承认云服务提供商在保证高可用性上还要继续努力,但是它也不应该成为质疑或反对云计算的理由。另外一点就是高可用性不是与生俱来的,而是要求用户必须做好系统的设计,充分利用云计算提供的机制,而不是把应用程序扔到云端就万事大吉了。其实云计算和其他基础设施一样,不可能是万无一失的,系统和应用在设计时本来就应该为故障做好准备,这点云计算企业应该向一些大公司学习。不过也有很牛的公司并没有受到影响,在上一年4月份,亚马逊的宕机中,Twilio并没有受到影响,当时他们还写了一篇博客文章,分享了自己的经验,文章会在后续推出,敬请期待!(编译/@CSDN王鹏,审校/包研)

亚马逊宕机事件新浪微博热点评论:

@ztyan: 简单的汇总:1. 减少依赖,使得服务能够简单的部署在一个盒子上。 2. 快速的失败侦测以及重试。3. 幂等的服务。4. 将业务逻辑分解成小的无状态服务。5. 如果没有强一致性要求, 读写分离。

@Syupei 艺龙网平台总监:我有一个观点是,“系统中总有一处单点是你永远也无法消除的”。不把这些托付给云,意味着你仍要去搭建一套差不多的体系,以及在这套体系出现问题时如何去快速响应的机制。所以,如果需要在此做出取舍衡量的话,那就仅仅是谈成本而已了。

亚马逊、谷歌、苹果云端宕机背后的故事相关推荐

  1. AWS、Google、Apple云端宕机背后的故事

    摘要:10月22日,AWS东部地区又出宕机问题,对Reddit,Airbnb等多家网站造成了影响,不过在受到影响区域以外的EC2实例和EBS卷都显示正常.不过此次事件的阴霾还未散尽,仅仅几天之后,Go ...

  2. 语音平台三方会战,亚马逊谷歌苹果谁领风骚?

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 三月初有个大新闻爆出:亚马逊的当家花旦 Echo 智能音箱,会在家里静悄悄的时候,突然发出诡异的咯咯笑声... 这是在演恐怖片吗?! 录下这一场 ...

  3. 本月第三次,亚马逊AWS再次遭遇宕机

    12 月 22 日,AWS 遭遇了本月第三次中断,该中断影响了 Slack.Epic Games Store 和其他几项服务,第一次中断发生在美国东部时间上午 7 点 35 分.弗吉尼亚州北部部分用户 ...

  4. 谷歌、脸书、微软、亚马逊、苹果、百度等AI巨头发展路径探析

    来源:中国信息通信研究院.造奇智能 作者:张婷,中国信息通信研究院产业与规划研究所工程师 随着云计算.大数据.算法技术等条件的成熟,人工智能(AI)在产品优化.消费提升.攻克顽疾.应对气候变化等方面表 ...

  5. 亚马逊、苹果、谷歌等巨头:高喊保护隐私,背地阻碍立法

    整理 | 章雨铭 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 信息时代,隐私问题似乎是老生常谈.数字化越发达,隐私就越重要.许多国家在立法保护个人隐私方面也做出了许多努力,如欧盟发布 ...

  6. 基础工资提高至35万美元、带薪病假天数翻倍,亚马逊、苹果为留人才又出新动作

    目前,美国劳动力市场的形势已十分严峻.由于疫情的持续,各行各业的人都选择重新考虑他们的工作安排.同时,越来越多的人选择离职以寻求更好的选择.因此,为了留住和吸引员工,本周亚马逊和苹果相继推出新动作. ...

  7. 亚马逊、苹果等 8 家公司收到 10 起 GDPR 投诉

    美国时间 1 月 18 日,据外媒 BleepingComputer 报道,欧洲非营利组织 NOYB 就商业隐私问题,代表10个用户向奥地利数据保护局提交了10份 GDPR 投诉,指控 8 家在线流媒 ...

  8. AWS云端企业实战圣经:亚马逊如何构造云端计算 pdf电子书

    顶尖云端运算服务案例剖析与深入教学用书,如何保障云端安全?如何节省云端经费?如何架构分布式计算?如何把既有系统直上云端? <AWS云端企业实战圣经:亚马逊如何构造云端计算>完整剖析与深入讲 ...

  9. AI字幕在儿童频道里吐“脏话”,中招比例高达40%,亚马逊谷歌都很祖安丨AAAI 2022...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI AI自动生成的 ...

最新文章

  1. 解决重写父类的方法且不会影响继承的子类的问题
  2. CodeIgniter模型
  3. 10.Object类
  4. 爱培科963方案GPS升级ROM过程以及SDK开发
  5. python列表数据类型一致_python笔记--数据类型--列表
  6. Bailian2767 简单密码(POJ NOI0107-10)【密码】
  7. 如何重置IE浏览器?重置IE浏览器的方法
  8. 梯度消失、爆炸产生的原因以及解决方法
  9. Flink OLAP 助力 ByteHTAP 亮相数据库顶会 VLDB
  10. Django模板语言循环字典
  11. mmdetection安装教程 | 踩坑总结
  12. 搜索与回溯 1215:迷宫
  13. 软件生命周期模型优缺点
  14. 2021-第五空间智能安全大赛-Web-EasyCleanup
  15. 鸿蒙系统陈教授,这位默默无闻的英雄教授,才是鸿蒙之父。
  16. 性格测试小软件有哪些,十个有趣的性格小测试 测试你是什么性格
  17. js加减乘除丢失精度问题及解决方法
  18. python单引号打不出来_python里单引号怎么打
  19. 报错:已处理证书链,但是在不受信任提供程序信任的根证书中终止
  20. 便签app排行榜里好用的便签APP有哪些

热门文章

  1. VMware能识别usb设备,但无法连接(灰色)的问题解决办法
  2. 冷库食品自动化穿梭式货架 电产物流高智能密集存储仓储高效货架
  3. 2023年宁波市网络安全大赛(天一永安杯)-训练赛
  4. 删除node_modules文件夹报错:rimraf : 无法加载文件 C:\Users\chen\AppData\Roaming\npm\rimraf.ps1,因为在此系统上禁止运行脚本。
  5. 双十一的巨大流量之下,退货的回头潮又有多少?
  6. go time 获取本月第一天 最后一天 当天零点 时间戳
  7. deep dream 案例
  8. Go项目(一)、服务器数据拉取和Material Design风格
  9. 中奖名单:八月算法书籍免费送
  10. Android数据存储、文件存储、SQLite数据库简单使用、 sharedPreferences存储(五)