任何时候发生网络服务中断,都会对全球业务造成极大的影响和破坏,而且还会导致收入和声誉的重大损失。尽管应用程序交付依赖于许多网络服务提供商(ISP),但它也越来越依赖于面向网络的服务的大型且复杂的生态系统,例如CDN、DNS、DDoS缓解和公共云。这些服务共同为用户提供卓越的数字体验,即使是短暂的中断也会产生重大影响。

同时,企业越来越依赖Internet传输来连接其站点并访问业务关键的应用程序和服务。现在应用程序完全托管在私有数据中心和办公地点,那些主要通过MPLS进行连接的日子已经一去不复返了。随着企业逐渐采用SD-WAN技术,互联网正在取代/补充MPLS等服务。因此,Internet现在实际上是企业的骨干网,作为一种“尽力而为”的传输方式,可能会对企业产生重大且无法预见的后果。

在过去的一年中,几次大规模的宕机对全球互联网产生了连锁反应,对企业和消费者都产生了不同程度的影响。我们汇总了一些比较严重的宕机事件,以下是按时间顺序排列的2019年最具破坏性的宕机事件:

事件

01

2019年5月13日,中国电信宕机事件揭示了其全球影响力

虽然这不是2019年最具破坏性的宕机事件,但从这次事件也可以看出中国电信的业务范围远远超出了中国大陆。2019年5月13日,中国电信经历了一次重大故障,持续了将近5小时,后续又持续几个小时。中国电信在其主干网上遭受了严重的数据包丢失,主要是中国大陆的网络基础设施受到较大影响,但是也波及了中国电信的新加坡和美国包括洛杉矶等多个节点,全世界有一百多种服务受到干扰。

此次整个长时间持续中断过程中,路由转发到受到影响故障节点的流量全都被丢弃了,也就是说部分在中国国内和国外的用户,使用浏览器或者应用程序访问的大量国外网站均出现了中断。中国的用户尝试访问架设在国外的网站会受到影响,与此同时,国外的用户试图访问中国国内网站也受到影响。

同时这次宕机事件也让美国的网站服务受到了影响,如苹果,亚马逊,微软,Slack,Workday,SAP等等网站服务,下图展示了受到网络故障波以及影响的部分网站和服务。

此次事件说明了中国对全球互联网的一些影响力,同时中国电信网络提供商维护着全球因特网的互联,和全球很多地方的网络提供商保持联系。

事件

02

2019年6月2日-“宕机之夏”始于Google Cloud

在2019年6月2日,Google Cloud Platform发生了严重的网络中断,影响了美国西部、美国东部和美国中部地区的托管服务。此次宕机也影响了Google自己的应用程序,包括GSuite和YouTube。该宕机持续了四个多小时,几天后,Google就此事件发布了官方报告。ThousandEyes 的优势在于能够实时查看宕机情况,并在更详细的信息公开之前有效地揭示宕机的特点和规模。

大约从美国东部时间上午9点开始,相关工作人员观察到试图连接到GCP us-west2-a中托管服务的全局监视器的数据包丢失率达到100%。在GCP美国东部几个地区(包括us-east4-c)托管的站点也看到了类似的损失。

事实证明,部分Google网络完全不可用是由于Google的网络控制平面意外脱机导致的。谷歌后来透露,在宕机期间,一套自动策略确定了哪些服务可以在未受影响的网络中部分访问或不能访问。

从云服务中断中获得的最重要的教训是,确保任何云架构都具有足够的弹性措施(无论是在多区域基础上还是在多云基础上),以防止将来再次发生中断,这一点至关重要。可以说即使在云中,IT基础架构和服务有时也会出现中断。

事件

03

6月24日-Cloudflare用户沦为路由灾难的受害者

就在WhatsApp用户遭遇大规模路由泄漏事件的几周后,互联网又发生了另一起与路由相关的事件,并且造成的破坏要大得多。

Cloudflare是一家CDN服务提供商,2019年6月24日,在将近两个小时的时间里,一个重大的BGP路由错误对试图访问Cloudflare服务的用户造成了严重影响,包括游戏平台Discord和Nintendo Life。经分析发现,该BGP路由泄漏来自多方因素。DQE是一家传输提供商,是此次泄漏的源头,该泄漏是通过DQE和Verizon的客户Allegheny Technologies传播的。不幸的是,Verizon进一步传播了路由泄漏,从而扩大了影响。

此次重大宕机影响了Cloudflare约15%的全球流量,并影响了Discord、Facebook和Reddit等服务,持续时间约两小时。路由泄漏也影响了对一些AWS服务的访问。

该事件的根本原因可归因于DQE使用的BGP优化软件,该软件创建了到Cloudflare服务的路由,而这些路由只能在DQE的内部网络中使用。当这些路线意外地泄露给其中一位客户时,混乱就随之而来了。

这次事件再次提醒我们,在以云为中心的世界中,企业要想成功地向用户提供服务,就必须对网络具有可见性。

事件

04

7月4日-Apple服务在7月4日受到影响

2019年7月4日,连接到Apple网站及其部分服务(例如Apple Pay)的用户经历了长达90多分钟的严重丢包。这个问题导致许多用户无法成功连接到Apple。该数据包丢失是由BGP路由震荡引起的。当一个路由公告被快速连续地(通常是反复)发出和撤回时,BGP路由就会出现问题。

此次事件苹果在早期成功阻止了事情的发酵。

从这次事件中得到的教训是,宕机不会凭空发生,有时仅根据其时机和环境来判断,即使是严重的中断也可能会被忽视(或者反过来,明明不严重却引起严重的骚动)。

事件

05

9月6日-DDoS攻击者瞄准维基百科

由于大规模持续的分布式拒绝服务(DDoS)攻击,2019年9月6日,世界各地对维基百科网站的访问中断了将近9个小时。DDoS攻击可以击垮目标网络的基础设施,并在服务提供商网络内部造成拥塞,从而导致数据包丢失。

在事件过程中,世界各地的HTTP服务器可用性显著下降,并且HTTP响应时间急剧增加。许多地区的用户无法建立Internet连接,无法与维基百科服务器进行持续通信,此次攻击造成了高达60%的数据包丢失,这进一步阻止了对维基百科网站的访问。

虽然DDoS事件在Internet上时有发生,但组织应该主动了解这些事件的范围和影响,并验证DDoS缓解措施是否有效。

来源:SDNLAB,

回顾2019年5个重大宕机事件相关推荐

  1. 云宕机事件盘点:IBM云服务全球宕机四小时,安全稳定成空话?

    随着越来越多的企业及应用将它们的数据搬运至云端,即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难. 6月10日,IBM云计算发生了长达四个小时的中断故障,导致多项托管于平台上的互联网服务中断, ...

  2. YouTube 全球范围宕机事件,华为回应荣耀单飞

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于技术最前线 综合整理:技术最前线(ID:TopITNews) 参考:程序员的那 ...

  3. Redis的KEYS命令引起宕机事件

    摘要: 使用 Redis 的开发者必看,吸取教训啊! 原文:Redis 的 KEYS 命令引起 RDS 数据库雪崩,RDS 发生两次宕机,造成几百万的资金损失 作者:陈浩翔 Fundebug经授权转载 ...

  4. 深入解析和反思携程宕机事件

    携程网宕机事件还在持续,截止28号晚上8点,携程首页还是指向一个静态页面,所有动态网页都访问不了.关于事故根源,网上众说纷纭.作为互联网运维老兵,尝试分析原因,谈谈我的看法. \\ 宕机原因分析 \\ ...

  5. 如何降低数据中心宕机事件的影响

    大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要.对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕 ...

  6. 从谷歌宕机事件认识互联网工作原理

    摘要:谷歌服务器经历了短暂的宕机事件,持续大概27分钟,对部分地区的互联网用户造成了影响.此次事件的原因深究起来需要进入互联网络那深邃的.黑暗的角落. 译者注:本文中提到CloudFlare是一家总部 ...

  7. 服务器系统日志6008,DELL服务器宕机事件6008

    在DELL服务器上安装了windows server 2008 r2 64位标准版,客户在该操作系统上安装了自己开发的视频监控软件.服务器在运行一段时间后,会出现如下情况:(事件ID6008) 1.机 ...

  8. AWS 再次发生宕机事件,云时代下的我们该如何补救?

    屋漏偏逢连夜雨.据外媒 ZDnet 报道,美国东部时间上午 10:26 左右,AWS 网络再次开始出现严重的问题.根据 Outages 邮件列表(供 ISP 和网络运营商报告和跟踪重大互联网问题的中央 ...

  9. 宕机事件为何频发?云原生时代,需要什么样的运维保障体系?

    美联储支付系统宕机.亚马逊云服务宕机.国内 B 站等互联网服务平台宕机--近年来,全球范围内宕机事件频发,系统稳定性逐渐成为行业关注的焦点. 随着互联网服务深度融入生产生活,软件需要完成多样化的需求, ...

最新文章

  1. spring常用的三种依赖注入方式
  2. 2张图片就能「算出」一段视频,Reddit网友都惊呆了 | 旷视北大出品
  3. mysql中添加下拉,如何从MySQL填充的下拉列表中发布数据
  4. Coursera吴恩达《神经网络与深度学习》课程笔记(2)-- 神经网络基础之逻辑回归
  5. 【机器视觉】 global算子
  6. listView当中有嵌套了有onClickListener的控件时ListView自身的onItemClick无响应的解决方案...
  7. oracle中提取日期时间的特定部分,Extract()截取時間的特定部分
  8. 4th, Jan 2012 食物中毒惊魂
  9. Linux 命令(112)—— unalias 命令(builtin)
  10. Benelux Algorithm Programming Contest Final-B解题报告
  11. Windows 11正式发布!网友的这波吐槽,太搞笑了。。。
  12. CP_EndPoint环境中的Hotspot Settings
  13. 浅谈软件外包项目报价
  14. 等级保护三级备案材料有哪些
  15. 已知带头结点单链表中各结点的元素值为整形且递增有序,设计算法删除链表中所有大于mink且小于maxk的元素,并释放被删结点的空间。
  16. python安装you—get_解决you-get安装中的一些小问题(升级pip,安装报错怎么办)...
  17. 什么是cat.1和cat.4
  18. matlab rand randn 每次生成的随机数都一样的解决方案
  19. 记录下今天的搜索成果
  20. oracle 无metalink账号补丁下载方法

热门文章

  1. linux线程同步(1)-互斥量
  2. Failed resolution of: Landroid/support/v7/internal/widget/TintManager;异常解决方法
  3. Bitmap Cache
  4. 数字图像处理之归一化方法
  5. 【机器学习入门笔记12:matplotlib绘图模块的使用】20190217
  6. php post请求后端拿不到值_[精选] uniapp实现多端开发,与PHP是如何结合的
  7. class h5 点击后样式变化_H5学习笔记
  8. Boost.python 编译和使用
  9. TCP/UDP的小事情
  10. 3-unit1 IPv6网络的管理