博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

Facebook全球宕机6小时的原因,是公司内部工程师的一条错误指令。

最近,Facebook官方针对这次大规模宕机的原因做了回应。

这一新闻已经出现在了微博热榜。

而在回复中,官方也(针对各种神奇的假说)强调:

没有黑客恶意攻击行为,用户的数据也没有受到损害。

在第二天,Facebook又发了另一则声明,详细地说明了这次宕机的技术细节。

那么这场Facebook有史以来持续时间最长,规模最大,造成公司股价蒸发百亿的宕机到底是因为什么?

一起来看看。

日常维护切断网络

一切都开始于日常维护中的一条错误指令。

也就是Facebook engineering平台上的声明中所提到的“配置变化”:

协调数据中心之间网络流量的主干路由器的配置变化导致了通信中断,进而影响了数据中心的的通信方式,最后导致了服务中断。

在日常维护网络基础设施时,工程师经常需要离线维护部分主干网,比如修理一条光纤线路,增加更多容量,或者更新路由器本身的软件。

而上面提到的“配置变化”,就是日常维护工作中主要用于检测Facebook主干网络的可用性的一条命令。

当然肯定有应对这种命令的保护措施,但不巧审计工具(audit tool)中出了个bug……

于是,这个“配置变化”就撒着欢儿,啪一下把Facebook主干网络的所有连接都给切断了。

这一断,应用程序对数据的刷新搜索,上传下载等请求就无法从用户设备传到最近的数据中心了。

而这些数据中心不仅有容纳了数百万台存储数据机器,用于支撑平台运行的大型建筑,还有将主干网络连接到更广泛的互联网和具体应用平台的较小设施。

嗯,差不多就是这样的严重性……

这还没完。

上述数据中心里的小型设施还有一个工作,那就是响应DNS查询。

DNS是互联网的地址簿,能够将浏览器中键入的简单网络名称转换为特定的服务器IP地址。

而这些地址又通过边界网关协议(BGP)向互联网其他地址进行广播,类似一个地图,提供通往各种目的地的线路。

当DNS服务器发现主干网络失去了与互联网的连接时,BGP的“广播”也随之停止。

相当于Facebook短暂地被从互联网这块地图上抹除了存在

只有Facebook受伤的世界完成了

当然,在派遣工程师进入现场数据中心进行修复之后,网络服务也在10月4日下午4点左右逐渐恢复。

在官方回复的最后,他们也提到会通过这次的“演习”加强系统故障的测试、训练和整体恢复能力。

而纵观这次全球大宕机,不仅国外热度爆表,就连国内也上了热搜。

国内外的网友们弔图一堆,苦中作乐。

同为社交媒体的Twitter则高傲尽数显现。

甚至连Netflix都过来蹭了把热度,顺带了夹杂了新剧宣传私货:

而Facebook在这次事件中股价暴跌6%,扎克伯格个人财富一日蒸发逾60亿美元。

现在看来,只有小扎受伤的世界完成了(狗头表情包)。

官方回应:
[1]https://engineering.fb.com/2021/10/04/networking-traffic/outage/
[2]https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/

Facebook全球6小时宕机原因已查明:一条指令所致,内部工程师所为相关推荐

  1. 从春运分析服务器宕机原因

    春运,这一号称人类历史上规模最大的周期性人类大迁徙,2011年如期而至,在从1月19日开始为期40天左右的时间内,铁道部预计客流量将达28.5亿人次,快要把我国大众运个来回了.如此浩大的客流,造就了一 ...

  2. EA周报 |向李彦宏泼水男子寻衅滋事被行拘5日;iCloud 出现宕机,已修复;一线城市年均工资:北京领跑广深首入10万元俱乐部...

    EA周报 2019年7月5日 每周星期五7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. ♬ 点上方绿标可收听周报音频 关闭窗口或屏幕也可听哦~ 热点大事件 一线城市年均工资:北 ...

  3. B站回应HR称核心用户是Loser;微博回应宕机原因;Go 1.19 正式发布|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  4. springboot项目 tomcat8.x 频繁宕机 原因分析

    大家好,我是烤鸭: 今天分享一次线上tomcat宕机原因. 1 .  最近两次的宕机时间部分日志 1.1 2019-04-04 13:22:27.187 [Thread-10] INFO o.s.co ...

  5. 服务器宕机原因有哪些?服务器宕机解决方案

    服务器是数据和网站的载体,如若服务器出现问题,那么放在上面的数据和网站也同样会受到牵连,所谓皮之不存,毛将焉附!所以无论是服务商还是用户都非常关心服务器的正常运营问题,以及当出现问题时,服务商能否快速 ...

  6. Redis 主节点宕机原因及解决方法

    Redis 是一个基于内存的高性能键值存储系统,常用于缓存.消息队列等场景.Redis 支持主从复制,在主从复制中,主节点负责写入数据,从节点则负责读取数据.但是,Redis 主节点有可能会出现宕机的 ...

  7. Facebook解释“宕机”原因:主干路由器配置变化致通信中断,未发现用户数据受影响...

    当地时间10月4日,Facebook就"宕机"发布声明,对服务中断的原因进行解释. 声明中称:"据我们工程团队的了解,协调数据中心之间网络流量的主干路由器的配置变化导致了 ...

  8. Facebook再次发生全球性宕机

    10月9日消息,据国外媒体报道,前日在WhatsApp. Instagram和 Facebook遭遇数小时的大规模宕机后,周五Facebook再次报告其服务出现问题,并随即表示道歉,并把原因归结于又一 ...

  9. 谷歌全球服务均宕机,系因内部存储配额问题引发

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 今天,谷歌全球用户无法访问谷歌的所有服务,如 Gmail.YouTube.Google Drive.Google Maps.Googl ...

最新文章

  1. mysql sql模式_MySQL SQL模式特点汇总
  2. Factory Method工厂方法模式
  3. 运行脚本时用SPOOL保存运行结果的问题
  4. vue2的响应式原理学“废”了吗?继续观摩vue3响应式原理Proxy
  5. 前端学习(358):svn安装
  6. 甘蔗是怎么变成白糖的?
  7. php rabbitmq 封装,PHP rabbitmq扩展安装
  8. 面试精讲之面试考点及大厂真题 - 分布式专栏 01 开篇词:我是怎样带你通过大厂面试
  9. iframe内容适应div大小_使用lt;iframegt;方式在WordPress中插入视频并自适应屏幕尺寸
  10. 超图(hypergraph)
  11. Dell Chromebook11 刷Ubuntu
  12. java怎样实现数据库 选择列属性的select查询??_除了不要 SELECT * ,使用数据库还应知道的11个技巧!...
  13. AIDA64 Business Edition 5.97.4600 多语言绿色版
  14. Word 模板渲染引擎-Poi-tl
  15. 定格动画运用的计算机技术是,定格动画中材料的运用.pdf
  16. 小米手机手机远行linux,Ubuntu的Android Studio调试小米手机的方法
  17. 【区块链技术开发】剖析区块链Ganache模拟器工具及其智能合约部署区块链的查询方式
  18. halocn标定找旋转中心_一种利用旋转中心进行手眼标定的原理性介绍
  19. 想知道手机视频压缩app哪个好用?这几个工具值得一试
  20. 2018,这些重大科技值得期待

热门文章

  1. 如何使用LocalDateTime解析/格式化日期? (Java 8)
  2. Machine.Config在哪里?
  3. Android Studio无法打开解决方法
  4. 坑中速记整理! 使用 kotlin 写第一个 ReactNative Android 模块
  5. 8.10 exec函数
  6. 使用Silverlight4无边窗口
  7. linux消息队列非亲缘,linux进程
  8. python花萼长度表_Python 数据分析答疑 5:Pandas入门
  9. python django flask_Flask 与 Django 的简单对比
  10. 网页测试本地服务器_音视频开发搭建一个直播服务器