点击“开发者技术前线”,选择“星标????”

让一部分开发者看到未来

导读:面对极端情况,如果云上的应用没有合理规划灾备,一定会造成业务中断甚至数据丢失,所以云上的应用架构除了利用云原生的服务能力为应用创造更快的迭代速度,还要考虑云原生服务在单元多区域,甚至多云多区域之间的灾备。

来自 | 第一财经 吕倩 来莎莎

7月13日深夜,微博、朋友圈等社交平台纷纷在热议一个话题——B站怎么崩了?“B站崩了”话题一度在微博热搜第一名上,并呈现“爆了”的状态。

与此同时,很多网友反映,A站、豆瓣、晋江……都崩了。

互联网企业难免宕机。尴尬的是,B站的修复进展缓慢,让网友十分着急上火。

子夜时分,“后浪”们的吐槽在社交媒体上发酵。

7月14日凌晨0时20分,A站发微博称,“在修复了”。4分钟后,即0时24分称“已修复,欢迎来玩”。

在宕机约三个小时后,7月14日凌晨2时20分,B站(即“哔哩哔哩”,09626.HK)通过其官方微博就“部分服务器机房发生故障造成无法访问”致歉,称:“昨晚,B站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。耽误大家看视频了,对不起。”

但至于服务器机房发生故障的具体原因,B站并未进一步详细说明。尽管遭遇突发事件,B站港股股价表现尚可,14日微跌收于863.5港元。

具体宕机原因不明

“B站崩了”引发热议后,其背后原因也引发多方猜测。当晚,上海消防第一时间回应称,“经了解,位于上海市政立路485号国正中心内的哔哩哔哩弹幕网B站(总部)未出现火情,未接到相关报警。”

此前,B站技术总监毛剑在公开分享中表示,在应对连锁故障时,要做到——尽可能避免过载;通过一些手段去做限流,以及在无法正常服务时,通过有损服务牺牲掉一些非核心服务去保证关键服务做到优雅降级;重试策略上,在微服务内尽可能做退避,尽可能考虑到重试放大的流量倍数对下游的冲击;考虑在移动端用户无法使用某个功能的情况下,通常频繁刷新页面产生流量冲击,在移动端进行配合来做流控等方式。

但是在现实案例里,B站对突发事件的应对显然不够迅速,有网友在分享帖子下评论称“三个多小时才陆续恢复,这次绝对是一级事故”。

更多猜测聚焦在技术层面。多位接受第一财经记者采访的技术人员表示,B站采用混合云模式,内容分发网络(CDN)也是采用的腾讯云而非自建,因此目前从B站自身角度来考虑的话,更大可能是物理层面的问题,如网络问题、数据中心光纤被挖断、光缆被损害等。

腾讯云在官网客户案例中介绍称,B站采用腾讯云自研GSLB调度体系,结合全网实时监控数据,将用户请求精准调度至最优接入节点,最大程度降低用户访问时延和减少视频卡顿,最终用户用相同的带宽可以流畅地观看更高清的直播视频,提升用户体验,建立平台品牌形象。

实际上除了B站,此前诸多网站均发生过网络事故。

2019年6月1日,亚马逊旗下云服务商AWS中国区的许多互联网公司发生宕机,受影响的包括亚马逊中国官网、VIPKID、流利说、三星应用商店等。后根据AWS的官方调查,AWS北京区域一处道路施工中有几处光缆被切断,导致可用区无法链接网络,进而引发所有可用区中新的实例无法启动的故障。

行业人士认为,AWS因光缆被切断便导致近12小时大面积服务瘫痪,是因为没有做好网络冗余设计,即为确保业务正常运转,除配置主线路外,同时做好第二种、第三种线路的部署。

2020年,AWS宕机又来。去年12月25日,AWS出现大范围宕机,影响软件企业Adobe、流媒体终端商Roku等服务。AWS称,由于处理大量串流数据的Kinesis服务遭遇问题,导致好几个网站错误率提高,并影响更新网站页面的能力,已着手紧急修复。

2020年2月,微盟(02013.HK)收到系统监控警报,经排查后获悉是微盟研发中心运维部核心运维人员贺某通过个人VPN登入公司内网跳板机,对微盟线上生产环境进行了恶意的破坏。随后,微盟诸多客户的小程序电商商城均处于宕机状态,当时恰逢线上购物高峰期,宕机与数据丢失对微盟及其合作商家产生了极为负面的影响。

据不完全统计,近几年,淘宝、拼多多、微信、百度地图、美团、钉钉……都崩过。越是热门的互联网平台,服务器越有可能宕机。

警醒容灾准备必要性

不论是AWS还是B站、微盟,其宕机事故所带来的负面影响均需引发警惕。

另外,目前企业数字化转型渐成大趋势,5G、物联网、工业互联网、云计算、人工智能等新技术在各行各业中的应用越来越多,所产生的海量数据正呈指数级增长。一旦发生数据丢失与网站崩溃,对业务极有可能产生致命性危机。

对于每家公司的运维团队来说,降低容灾TCO、简化容灾方案、业务快速恢复,都是极大挑战。

万博智云首席技术官(CTO)孙琦对第一财经记者表示,虽然互联网应用架构已经从应用层实现了高可靠和冗余的特性,但是面对物理层面或应用逻辑的异常时,也无法全身而退。近几年,云上构建的应用架构的最佳实践已经非常完善,多可用区、弹性可扩展的方式为应用构建提供了便捷。

除了阿里云、腾讯云,主流云服务厂商均提供各种灾备方案。中国电信天翼云的方案为“2+31+X”资源部署,以内蒙古、贵州两大数据中心为核心,定位为冷数据存储、海量密集计算、远程灾备基地;在全国31个省份进行一省一池的核心部署,定位为温数据存储、属地集中计算、专属云等业务;X指下沉到地市甚至区县的边缘节点,定位为热数据高速缓存,边缘计算等业务,承载属地化要求极高的业务。

UCloud优刻得的容灾解决方案显示,在国内,该公司以北京、上海、广州为中心节点,中心之间的网络实现双环、异路、全互联,每个中心下会分布多个可用区、可用区下又有多个数据中心,可以实现同城多活,异地容灾。

UCloud创始人兼CEO季昕华曾在接受记者采访时表示:“云计算公司有四大谎言,分别是云计算先服务于内部客户,再服务于外部客户;云计算能保证100%的安全;云计算消耗大量资金;云计算是不盈利的。”

季昕华称:“云计算虽然比本地研发更安全,但不可能是100%。就算微软、亚马逊、谷歌、阿里、腾讯一样都会出问题。所以用户更愿意使用多家云来服务,多云战略是未来的重要方向。”

在具体容灾落地过程中,腾讯云技术运营服务工程师康开元在腾讯大讲堂上表示,做容灾首先要梳理当前系统“灾”主要有哪些痛点,并对其优先级排序。如单点隐患、难扩展性、运维成本高等现状。而异地容灾的核心特征在于——范围上地域粒度的容灾;流量分布上单地域承载100%业务流量;数据存储方面在数据库及存储均在异地做冷备,数据单向同步;常见使用场景主要在数据层安全级别容灾,业务层较少异地部署。

另外,康开元表示,设计当前系统“容灾”,需要对当前系统潜在灾难逃生通道进行冗余设计——当灾难真正发生,预计多长时间能恢复,或者业务稳定性SLA(service level agreement服务等级协议)的恢复程度。其次,基于容灾范围和目标,需要考虑人力、时间以及资金等成本问题,可用性需要考虑引入方案对现有系统增加哪些不确定因素,评估这些不确定对稳定性影响,扩展性方面主要为后续业务容灾平滑演进。

孙琦告诉第一财经,面对极端情况,如果云上的应用没有合理规划灾备,也一定会造成业务中断,甚至数据丢失,造成更大的损失。所以,云上的应用架构除了利用云原生的服务能力为应用创造更快的迭代速度,还要考虑云原生服务在单元多区域,甚至多云多区域之间的灾备,才能实现最高级别的业务连续性。对于传统的互联网企业尚且有大量的技术团队进行支撑,对于传统企业就需要基于云原生的灾备手段构建自己的备份和容灾站点,保障业务的数据安全性和业务连续性。

— 完 —点这里????关注我,记得标星呀~
前线推出学习交流一定要备注:研究/工作方向+地点+学校/公司+昵称(如JAVA+上海
扫码加小编微信,进群和大佬们零距离END后台回复“电子书” “资料” 领取一份干货,数百面试手册等历史推荐京东官宣涨两个月工资;美团优选取消 996, 开启双休!为什么阿里巴巴不建议使用Arrays.asList、ArrayList的subList?
三款主流的 JSON 解析库性能大比拼,到底谁最牛?
Java 8 “失宠”,开发人员向Java 11 转移
好文点个在看吧!

B站崩了!除了看段子,这个问题应该值得我们关注相关推荐

  1. 昨晚,B站崩了!看了网友们的评论,我差点笑死...

    昨晚,刚洗好澡,突然被群友@出来,说聊聊容灾的话题... 仔细一看,原来是B站挂了... 在很多群里,看到了各种404.500等报错截图: 看看程序员们的反应是这样的: 有把股票联系起来的 有把过去技 ...

  2. b站服务器的硬盘,B站崩了,只因服务器机房发生故障!

    7 月 13 日 23 时许,B站客户端和网页端均出现访问故障,无法打开,页面提示"正在玩命加载数据". △ 崩溃界面 难道是各位用户热情太高涨,视频刷太多,把哔哩哔哩整崩了? 逐 ...

  3. b站服务器的硬盘,B站崩了,多大点事儿?

    .. 7 月 13 日 23 时许,B站客户端和网页端均出现访问故障,无法打开,页面提示"正在玩命加载数据". △ 崩溃界面 难道是各位用户热情太高涨,视频刷太多,把哔哩哔哩整崩了 ...

  4. B站崩了上热搜,A站跟着躺枪!微信、支付宝:跟我们比起来这是小问题

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 今日凌晨,B 站发布公告称,昨晚 ...

  5. 大佬来告诉你在遇到B站崩了,如何防止类似事故的出现?

    昨天刚关注了一个up主分享的面试资料挺不错的还是个新号,头像还挺好的叫什么java小不点 听着名字一定挺可爱的吧!嘿嘿~ 在当我打开电脑进入B站观看昨天没有看完的教程的时候发现 系统卡顿了 坏了,作为 ...

  6. B 站崩了,受害程序员聊聊

    非吃瓜,B 站事件始末分析 + 防治技术分享 大家好,我是鱼皮,昨天小破站崩了的事情相信很多朋友都听说了. 这要是搁以前,不爱吃瓜的我根本不会去关注这种事,崩了就崩了呗,反正天塌下来有程序员大佬们扛着 ...

  7. B站崩了上热搜,说好的高可用呢?

    来源:zhihu 编辑:Emil.小匀 一夜之间,年轻人最喜欢的弹幕视频网站突然崩溃了半小时,随后A站.豆瓣也如出一辙.有网友称「着火」所至,但上海消防队随后出来辟谣.那么,究竟是怎么回事? 崩了! ...

  8. b站服务器崩溃大会员自动续费,骚操作!B站崩了补偿1天大会员会自动续费 官方回应:全额退款...

    日前,哔哩哔哩(简称"B站")在晚上突然崩了,有人正在看视频学习备考,有人跟着学炸猪大肠结果糊了,全网一片欢乐.第二天B站宣布就崩溃一事向用户补偿1日大会员,然而,奇葩的是,多名网 ...

  9. b站老是服务器中断,B站崩了是怎么回事 B站回应部分服务器机房发生故障

    B站崩了是怎么回事?昨天晚上B站.豆瓣等许多网站突然无法访问,不少网友都在怀疑是自己的网络有问题了,那么这个究竟是怎么回事呢?下面快跟随游侠小编一起来看看吧! B站崩了是怎么回事 7月13日晚间,许多 ...

最新文章

  1. 周志华《机器学习》章节整理
  2. Socket 基础解析使用ServerSocket建立聊天服务器
  3. python Elasticsearch 排序
  4. 应运而生的web页面响应布局
  5. 队列的应用、栈的应用
  6. 单片机原理及其应用——单片机控制按键点亮发光二极管
  7. java卡片布局例子_Java编程使用卡片布局管理器示例【基于swing组件】
  8. Array Sharpening CodeForces - 1291B(思维)
  9. 让自己变成一个上进的人
  10. Non-Rigid Registration Under Isometric Deformations
  11. Unity笔记——1.Unity3D脚本基础
  12. Building a LAMP Server
  13. 【车牌识别】基于matlab GUI模拟停车位管理系统【含Matlab源码 898期】
  14. Java开发工程师项目经验以及个人介绍实例
  15. block的名词形式_block是什么意思_block在线翻译_英语_读音_用法_例句_海词词典
  16. 怎样快速找出百度云盘文件夹里分享失败文件
  17. WebVirtMgr + KVM 环境中的 Linux 虚拟机部署
  18. Amazon 发展历程与前景
  19. 什么是AVIF?如何在您的网站上使用AV1图像格式
  20. 离人工智能进入我们的社会还有多远?(CES 2022 新品尝鲜)

热门文章

  1. HTTP状态码及其含义
  2. 录制你的动态美——Java的视频滤镜
  3. AutoCAD 2010中文版详细安装及激活方法图文教程
  4. html怎么复制到Excel表格里,网页上的简历表格怎么复制到excel
  5. axios介绍以及对axios进行二次封装
  6. 程序化交易学习投资失败的原因分析
  7. 写文章很难,ai自动生成文章为你来排忧
  8. 内分泌失调对身体有什么影响?
  9. AngularJS—模拟AngularJS之依赖注入
  10. 简单实现获取短信验证码倒计时效果