3 月 23 日下午 4 点左右,腾讯多个产品出现大规模宕机,暖暖、QQ 飞车,王者荣耀,吃鸡等 90 多个服务受到影响。下午四点半,腾讯云发布公告称:各位用户,2019年03月23日16时左右,因上海当地网络运营商光纤线路大面积故障,腾讯多个产品业务受到影响。目前运营商正在紧急抢修中,我们也正在积极做容灾处理,业务陆续恢复中。后续恢复进展会及时向各位公布。

3月25日,腾讯云官方微信号发布《光纤挖断后的150秒》正式回应此次宕机事件,笔者摘录了部分内容:

3月23日下午,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。

“大概是从下午3点左右开始吧,网吧里面就有不少用户反馈,多款游戏开始出现掉线,无法登陆,甚至无法充值等情况。”来自上海的南汇区的一位网友在微信群里吐槽。这并非个别情况。随即不少群友开始接连反馈遇到类似的问题。

与互联网用户的慌乱鲜明形成对比的是,不少企业用户的情况却相对稳定。据腾讯云的一位用户反馈,故障发生后,他们运维人员立即启动监测,但是未发生业务掉线。

下午4点52分,腾讯云率先对外公告称,腾讯云平台在2019年03月23日监控到上海电信用户访问腾讯云外网有抖动,目前已经逐渐恢复。

在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

启动智能化流量调度系统

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部T级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。

从架构上看,腾讯云公网流量智能调度系统,一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息;另一方面和公网出口设备建立BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。

此次光纤故障,腾讯云从发现到恢复故障,全程花费了2分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在150秒之内恢复网络。

“四纤三路由”高冗余架构

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。

首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。

另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用3条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在50毫秒级自动切换。

腾讯云四纤三路由高度冗余架构

除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。

腾讯云详解宕机故障:光纤挖断后的150秒相关推荐

  1. 云宕机事件盘点:IBM云服务全球宕机四小时,安全稳定成空话?

    随着越来越多的企业及应用将它们的数据搬运至云端,即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难. 6月10日,IBM云计算发生了长达四个小时的中断故障,导致多项托管于平台上的互联网服务中断, ...

  2. 全球公有云一哥AWS十年宕机故障大全

    任何一个公有云供应商,在发展的历史长河中,都遭遇了这样那样的宕机.故障. 或因人为因素.或因雷电太凶.或因机房停电.或因光缆被挖.或因代码错输-- 这些问题的出现与解决,正好也是公有云服务不断优化与提 ...

  3. 阿里云凌晨大规模宕机,华北部分网站陷入瘫痪

    整理 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 今天凌晨,有不少网友反馈称阿里云疑似出现了宕机故障. 据消息称, 北京时间 2019 年 3 月 2 日 23:55 分左右开始, ...

  4. 详解死机的原因和预防方法

    详解死机的原因和预防方法 详解死机的原因和预防方法 如今的计算机已经接近全面普及的程度了,它给人们在工作和学习上提供了极大的方便,不过,计算机的"死机"对于普通的计算机用户来说,却 ...

  5. 智能DNS云解析的宕机切换是如何实现的?-中科三方

    中科三方智能DNS云解析所具备的宕机切换功能可以最大程度保障网站服务器的高可用性和连续性,避免企业因服务器宕机产生的业务损失. 一.服务器宕机的原因有哪些? 1.意外重启 操作员因维护或更新服务器.部 ...

  6. CentOS Linux SELinux 安全上下文错误引起的宕机故障

    (首发:学习日记 CentOS Linux SELinux 安全上下文错误引起的宕机故障 – 学习日记 ) 在某些情况下,我们会用一些外部的文件复制替换系统中原有的文件,如文件损坏,或者安装了错误版本 ...

  7. 网易视频云:HBase —— RegionServer宕机案件侦查

    网易视频云:HBase -- RegionServer宕机案件侦查 网易视频云  2016-04-21 11:45  阅读:92 摘要:网易视频云技术分享:HBase RegionServer宕机案件 ...

  8. 阿里妹子,17分钟,机智化解一场重大宕机故障!

    点击"技术领导力"关注∆  每天早上8:30推送 出品|阿里巴巴新零售淘系技术部 01   紧急!全局性重大故障   急促的电话报警铃声响起,生生撕裂了会议室里专注的空气. &qu ...

  9. CRS磁盘force dismount引起的RAC节点宕机故障

    墨墨导读:本文来自墨天轮"猫瞳映月"投稿,作者主页https://www.modb.pro/u/12330,主要详述CRS磁盘force dismount引起的RAC节点宕机故障处 ...

最新文章

  1. 普渡大学计算机硕士申请条件,普渡大学计算机与信息技术理学硕士研究生申请要求及申请材料要求清单...
  2. 《Ossim应用指南》入门篇
  3. 基于移动位置服务器,移动定位服务器的设计与实现
  4. 【Groovy】使用 Groovy 语言开发服务器 Server 和客户端 Client 套接字程序 ( 服务器端开发 )
  5. 英国正式启用首批5G服务
  6. Python IDLE 如何清屏
  7. 浅谈五大Python Web框架
  8. C#重写ToString
  9. 社群空间站v3.5.2 后台增加一处备注
  10. plugin ‘org.springframework.boot:spring-boot-maven-plugin:‘not found
  11. 【Flask】下载多个文件
  12. 带薪休假,运维汪的春天来了?
  13. SqlServr性能优化性能之层次结构(十五)
  14. callback回调使用 vue_Vue实现剪切板图片压缩
  15. GD32创建工程与启动文件选择
  16. 用javascript实现调用本地用户程序
  17. 关于数据结构(c语言)中结构体声明的LNode, *LinkList
  18. IDEA中配置类提示Spring Boot Configuration Annotation Processor not configured
  19. 【渝粤教育】电大中专电子商务网站建设与维护 (6)作业 题库
  20. 3年功能测试经验,面试拿到15k难吗?

热门文章

  1. 程序员会成为非常内卷的职业吗?
  2. 搜索和其他机器学习问题有什么不同?
  3. X-Forwarded-For 会少记录一次代理服务器的IP
  4. 用 Heapster 监控集群 - 每天5分钟玩转 Docker 容器技术(176)
  5. volatile关键字的作用、原理
  6. 小猿圈linux之运维工程师面试题(答案版)
  7. jquery.cycle.js
  8. 【朝花夕拾】Android性能篇之(二)Java内存分配
  9. 数钱数到手抽筋游戏的测试用例
  10. 借助acs来实现telnet、ssh的远程认证