从谷歌宕机事件认识互联网工作原理

摘要：谷歌服务器经历了短暂的宕机事件，持续大概27分钟，对部分地区的互联网用户造成了影响。此次事件的原因深究起来需要进入互联网络那深邃的、黑暗的角落。

译者注：本文中提到CloudFlare是一家总部位于美国旧金山的内容分发网络(CDN)服务公司，由Project Honey Pot项目的三位前开发人员成立于2009年。2011年10月被华尔街日报评为最具创新精神的网络科技公司。

今天，谷歌服务器经历了短暂的宕机事件，持续大概27分钟，对部分地区的互联网用户造成了影响。此次事件的原因深究起来需要进入互联网络那深邃的、黑暗的角落。我是CloudFlare公司的一名网络工程师，在帮助谷歌从此次宕机中恢复回来提供了一臂之力。下面就是事情发生的过程。

大约在太平洋标准时间2012年11月5号下午6：24分/时间标准时间2012年11月6号凌晨2：24分，CloudFlare的员工发现谷歌的服务中断了。我们使用谷歌的电子邮件等服务，所以，当它的服务不正常时，办公室的人会很快发现。我在网络技术小组工作，因此我立刻接上网络查看是什么情况——是局部区域问题还是全球问题。

问题排查

我很快就意识到，所有谷歌的服务我们都不能连接上——甚至包括连接 8.8.8.8，谷歌的公共DNS服务器——于是，我从追查DNS开始。

dig +trace google.com

下面是我在探测Google.com的域名服务器时得到的回复：

google.com. 172800 IN NS ns2.google.com.

google.com. 172800 IN NS ns1.google.com.

google.com. 172800 IN NS ns3.google.com.

google.com. 172800 IN NS ns4.google.com.

;; Received 164 bytes from 192.12.94.30#53(e.gtld-servers.net) in 152 ms

;; connection timed out; no servers could be reached

无法探测到任何服务器的结果证明确实有什么地方出了问题。尤其是，这意味着从我们的办公室将连接不到任何的谷歌DNS服务器。

我开始网络层查找问题，看看是否是在这个通信层出了问题。

PING 216.239.32.10 (216.239.32.10): 56 data bytes

Request timeout for icmp_seq 0

92 bytes from 1-1-15.edge2-eqx-sin.moratelindo.co.id (202.43.176.217): Time to live exceeded

这里出现了奇怪的信息。通常，我们不应该在谷歌的路由信息中看到一个印度尼西亚的网络服务提供商(Moratel)的名字。我立即进入一个CloudFlare的路由器中查看发生了什么事。与此同时，Twitter上世界其它地方的报告显示了我们并不是唯一遇到问题的地方。

互联网路由

为了理解是出了什么问题，你需要知道一些互联网是如何工作的基础知识。整个互联网是由很多的网络组成，这些网络被称为是“自治系统(AS)”。每个网络都有一个唯一的数字来标志自己，被称为AS号。CloudFlare的AS号是13335，谷歌的AS号是15169。各个网络通过一种叫做边缘网关协议(BGP)的技术互相连接。边缘网关协议被称为是互联网的粘合剂——由它来声明哪个IP地址属于哪个网络，由它来建立从某个自治网络到另外一个自治网络的路由。一个互联网“路由”跟这个词的表意完全一样：由一个自治网络里的IP地址到另外一个自治网络里的另一个IP地址的路径。

边缘网关协议是基于一个相互信任的体制。各个网络基于信任的原则告诉其它网络哪个IP地址属于哪个网络。当你发送一个数据包，或发送一个穿越网络的请求，你的网络服务提供商会联系它的上游提供商或对等提供商，询问它们从你的网络服务提供商到网络目的地，哪条路线最近。

不幸的是，如果当一个网络发出声明说某个IP地址或某个网络在它的内部，而事实不是这样，如果它的上游网络或对等网络信任了它，那么，这个数据包最终将会迷路丢失。这里发生的就是这个问题。

我查看了边缘网关协议传递的谷歌IP的路由地址，路由指向了Moratel (23947)，一个印度尼西亚的网络服务提供商。我们的办公室在加利福尼亚，离谷歌的数据中心并不远，数据包绝不应该经过印度尼西亚。很有可能是，Moratel声明了一个错误的网络路由。

当时我看到的边缘网关协议发来的路由是：

p>tom@edge01.sfo01> show route 216.239.34.10

inet.0: 422168 destinations, 422168 routes (422154 active, 0 holddown, 14 hidden)

+ = Active Route, - = Last Active, * = Both

216.239.34.0/24 *[BGP/170] 00:15:47, MED 18, localpref 100

AS path: 4436 3491 23947 15169 I

> to 69.22.153.1 via ge-1/0/9.0

我查看了其它路由，比如谷歌的公共DNS，它同样被劫持到了相同的(不正确的)路径：

inet.0: 422196 destinations, 422196 routes (422182 active, 0 holddown, 14 hidden)

+ = Active Route, - = Last Active, * = Both

8.8.8.0/24 *[BGP/170] 00:27:02, MED 18, localpref 100

AS path: 4436 3491 23947 15169 I

> to 69.22.153.1 via ge-1/0/9.0

tom@edge01.sfo01> show route 8.8.8.8

路由泄漏

像这样的问题在行业内被认为是起源于“路由泄漏”，不是正常的，而是“泄漏”出来的路由。这种事情并不是没有先例。谷歌之前曾遭受过类似的宕机事件，当时推测是巴基斯坦为了禁止YouTube上的一个视频，巴基斯坦国家ISP删除了YouTube网站的路由信息。不幸的是，他们的这种做法被传递到了外部，巴基斯坦电信公司的上游提供商——电讯盈科(PCCW)信任了巴基斯坦电信公司的做法，把这种路由方式传递到了整个互联网。这个事件导致了YouTube网站大约2个小时不能访问。

今天发生的事情属于类似情况。在Moratel公司的某个人很可能是“胖手指”，输错了互联网路由。而电讯盈科，Moratel公司的上游提供商，信任了Moratel公司传递给他们的路由。很快，这错误的路由就传到了整个互联网。在边缘网关协议这种信任模式中，与其说这是恶意的行为，不如说这是误操作或失误。

修复

解决方案就是让Moratel公司停止声明错误的路由。作为一个网络工程师，尤其是像CloudFlare这样的大网络公司里工作的工程师，很大一部分工作就是和其它世界各地的网络工程师保持联络。当探明问题后，我联系到了Moratel公司的一位同事，告诉他发生了什么事。他大概在太平洋标准时间下午6：50分/世界标准时间凌晨2：50分修复了这个问题。3分钟后，路由恢复了正常，谷歌的服务重新可以工作了。

从网络传输图上观察，我估计全球整个互联网用户的3-5%收到了此次宕机事故的影响。重灾区是香港，因为那是电讯盈科的总部。如果你所处的地区在当时无法访问谷歌的服务，你现在应该知道是什么原因了。

构建更好的互联网

我说这些就是想让大家知道我们的互联网上如何在一个相互信任的机制下建立起来的。今天的事故说明，即使你是一个像谷歌这样的大公司，外部你无法掌控的因素也会影响到你的用户，让他们无法访问你，所以，一个网络技术小组是非常必要的，由他们来监控路由，管理你与世界的联系。CloudFlare公司每天的工作就是确保客户得到最佳的路由。我们照看互联网上的所有网站，确保他们的以最快传输速度提供服务。今天的事情只是我们工作内容的一个小片段。

译文出自：外刊IT评论

英文出自：Cloudflare

从谷歌宕机事件认识互联网工作原理相关推荐

打错一个字母瘫痪半个互联网！亚马逊 S3 宕机事件缘由
2月28号,号称「亚马逊AWS最稳定」的云存储服务S3出现"超高错误率"的宕机事件. 接着,半个互联网都跟着瘫痪了. 一个字母造成的血案 AWS在昨天给出了确切的解释:一名程序员在 ...
谷歌宕机，只有运维背锅吗？
作者|阿文责编|伍杏玲出品|CSDN(ID:CSDNnews) 北京时间 6月3⽇凌晨2点58分开始,有大量用户访问⾕歌服务出现各种错误提醒,并且阻止⽤户访问电子邮件.上传YouTube视频等. ...
黑色八月宕机事件盘点
黑色八月宕机事件盘点摘要:宕机的事件好像8月频频发生,国外苹果iclould.谷歌.微软.Amazon等巨头先后宕机,国内百度.微信也发生故障.各大网络应用和服务都频繁地出现问题,给企业带来了重大 ...
回顾2019年5个重大宕机事件
任何时候发生网络服务中断,都会对全球业务造成极大的影响和破坏,而且还会导致收入和声誉的重大损失.尽管应用程序交付依赖于许多网络服务提供商(ISP),但它也越来越依赖于面向网络的服务的大型且复杂的生态系 ...
云宕机事件盘点：IBM云服务全球宕机四小时，安全稳定成空话？
随着越来越多的企业及应用将它们的数据搬运至云端,即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难. 6月10日,IBM云计算发生了长达四个小时的中断故障,导致多项托管于平台上的互联网服务中断, ...
YouTube 全球范围宕机事件，华为回应荣耀单飞
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于技术最前线综合整理:技术最前线(ID:TopITNews) 参考:程序员的那 ...
深入解析和反思携程宕机事件
携程网宕机事件还在持续,截止28号晚上8点,携程首页还是指向一个静态页面,所有动态网页都访问不了.关于事故根源,网上众说纷纭.作为互联网运维老兵,尝试分析原因,谈谈我的看法. \\ 宕机原因分析 \\ ...
如何降低数据中心宕机事件的影响
大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要.对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕 ...
服务器系统日志6008,DELL服务器宕机事件6008
在DELL服务器上安装了windows server 2008 r2 64位标准版,客户在该操作系统上安装了自己开发的视频监控软件.服务器在运行一段时间后,会出现如下情况:(事件ID6008) 1.机 ...

从谷歌宕机事件认识互联网工作原理

从谷歌宕机事件认识互联网工作原理相关推荐

最新文章

热门文章