疫情期间,在线教育、在线办公需求持续井喷,钉钉作为很多企业首选的在线办公软件,用户量激增,特别是钉钉视频会议、直播的需求随之飙升。同时,钉钉为了响应教育部门“停课不停学”的号召,宣布老师们可以免费试用钉钉在线课堂。

流量如洪流般涌入钉钉,一场资源扩容的技术挑战拉开了帷幕。中小学生集体对钉钉展开了五星分期与在线写歌“泄愤”的策略,钉钉本钉不得不在线求饶。而在大战间隙,一声感叹传出:

流量这么大,钉钉为什么不崩?

从1月28日开始,钉钉音视频会议、直播的访问流量倍数级增长。作为一个在云上成长起来的产品,钉钉开启了在阿里云的资源扩容之路,满足了用户在家办公及在家上课的需求,保证了用户良好的体验,钉钉如何做到的?

如此大型的扩容,面临着两大困境:效率与资源供应

人工扩容困境:效率低下

时间太短。面对流量暴增,留给钉钉技术团队时间只有几天。从1月29日起,钉钉团队就已在阿里云上24小时开始全力扩容,截止2月2日,从最初的2W vCPU扩容到3W vCPU,仅做到了数倍扩容,还远未达到业务需求。

购买与配置非常复杂。钉钉的系统架构包含多种资源,不同于单一的云服务器ECS服务集群,还包含SLB、MongoDB、Redis、EIP等产品。这些资源都需要一个个购买,其之间的关系也需要技人工自行配置。

人工部署效率低、失误率高。钉钉用户群量级大。如果人工部署集群,一个人部署1个集群需要1小时左右,同时也只能操作3-4个集群,还需要大量的配置操作,很容易失误。

部署复杂度高。集群的服务能力自闭环,支持无限扩展,但也会相应提升部署复杂度,而这次扩容涉及8个地域、16个可用区,传统部署方式扩容场景效率低下

大规模集群管理难度大。需要快速扩容近千集群,才能满足几亿人在家办公及学生在家上课的需求。当资源上千后,就很难管理资源之间的关系了,更何况超百万的资源规模。

人工部署,容错率比较差,排查困难。集群之间经常出现偏差,某个集群的SLB监听端口是300,另一个集群是3000,出现问题很难排查。

除却以上困难,建立和运维如此巨大的集群规模还会带来更多的技术挑战。

利用资源编排服务ROS,实现快速自动部署

早在2月2日流量洪峰带来之前,钉钉就通过阿里云的资源编排服务(Resource Orchestration Service,简称 ROS)提高集群部署效率、帮助其快速扩容。而这款服务不负重托,帮助钉钉在短短2小时内新增部署了超过1万台云服务器,这个数字也创下了阿里云上快速扩容的新纪录。

什么选择资源编排服务?

资源编排服务是一款帮助阿里云用户简化云资源创建、更新和删除的自动化服务。其通过资源栈 (Stack) 这种逻辑集合来统一管理一组云资源(一个资源栈即为一组阿里云资源)。利用资源编排服务,云资源的创建、删除、克隆等操作都可以以资源栈为单位来完成。在 DevOps 实践中,资源编排可以轻松地克隆开发、测试、线上环境;同时,也可以更容易实现应用的整体迁移和扩容。

基础设施即代码(Infrastructure as Code)

资源编排服务是阿里云提供的基础设施即代码(Infrastructureas Code,简称IaC)的云产品,使用ROS可以帮助最快速地实践DevOps中关于IaC的理念。

全自动托管服务

ROS产品为全托管服务,无需购买维护IaC模板本身执行所使用的资源,只需要关注业务所需要使用的资源,即模板中定义的资源。尤其需要创建多个项目(对应多个资源栈)时,全托管的自动化可以更快地完成任务。

可重复部署

无论客户是需要部署的环境是开发,测试和生产环境,都可以使用同一套模板进行创建。指定不同的参数可以满足环境的差异化,例如,测试环境的ECS实例数是2台,而生产环境的ECS实例数是20台。或是客户需要进行多地域的部署,使用同一套模板可以进行重复的部署,从而提高部署多地域的效率。

标准化部署

在实践中,不同环境的细微差异往往带来非常复杂的管理成本,延长了问题诊断的时间,从而影响了业务的正常运转。通过使用ROS重复部署,可以将部署环境标准化,减少不同环境的差异,将环境的配置沉淀到模板中。再通过类似代码的严格管理流程,从而保证部署的标准性。

统一的身份认证、安全和审计

和其它的同类产品对比,阿里云官方出品的ROS与其它阿里云产品有着最佳的集成。集成资源访问管理(RAM)提供了统一的身份认证,而无需为单独建立用户认证体系。所有的云产品操作都通过OpenAPI调用,意味着您可以使用操作审计服务(ActionTrail)来审查所有的运维操作,包括ROS本身。

ROS如何服务钉钉扩容?

定义资源模板

ROS帮助钉钉快速创建了描述其所需要用到的阿里云资源(如 ECS 实例、数据库实例等)的模板,以定义它的集群架构。ROS提供可视化编辑器能力,可自动可使用的模板。模板完成后,ROS将自动地创建并配置这些资源,即可实现基础设施即代码(Infrastructureas Code)的理念。

模板解析与执行

当ROS接收到用户创建资源栈的请求时,在执行创建前,首先会对模板进行解析。解析包括语法检查、参数校验、依赖分析等。

依赖分析就是分析出资源间的依赖关系,目的有两个:

  • 保证资源创建的正确性:被依赖资源创建完成后才会创建依赖资源。

  • 提供并行化创建的能力:无依赖关系的资源可以并行化创建。

模板解析完成后,ROS会按照依赖关系创建资源,只有所有前置资源完成创建,后面的资源才会开始创建,类似状态机的机制。

该资源模板可以快速地重复部署,尤其多地域、多可用区部署的情况;同时也可以减少环境之间的偏差,将部署过程和结果标准化,减少因为环境偏差引入的系统问题。

总结

钉钉使用资源编排服务ROS,扩容效率就提升了100倍,陆续为钉钉完成了10万台云服务器的快速扩容和部署,创下了阿里云上快速扩容的新纪录。

目前ROS已经拥有平均每分钟1个集群的扩容效率、每天超百万vCPU弹性能力。未来,可以预见到,疫情结束后,数百万资源回收释放也将是一个浩大的工程。资源编排服务ROS具有一键销毁功能,自动回收集群内所有资源,避免繁琐操作及遗漏。

弹性是云计算最大的优势,也是云计算对整个社会提供的普惠和便利,而阿里云弹性计算资源编排服务ROS作为阿里云上原生的自动化编排部署服务,让云计算的弹性发挥到极致,为钉钉提供了强有力的支持,让钉钉成为使用最频繁最流畅的平台。

战疫期,钉钉如何扛起暴增百倍的流量?【阿里云快速扩容新纪录】相关推荐

  1. 战疫期,钉钉如何扛起暴增百倍的流量?

    疫情期间,在线教育.在线办公需求持续井喷,钉钉作为很多企业首选的在线办公软件,用户量激增,特别是钉钉视频会议.直播的需求随之飙升.同时,钉钉为了响应教育部门"停课不停学"的号召,宣 ...

  2. 在家办公上课成强需求 钉钉峰值流量暴增百倍

    根据公开信息显示,2月12日,钉钉已连续在苹果应用商店霸榜7天.据悉,春节以来,在家办公及在家上课的强需求,使得钉钉后台系统峰值流量暴增百倍.钉钉通过阿里云连续扩容10万台云服务器,抗住了这一巨大的流 ...

  3. 钉钉流量暴增百倍,阿里云抗住了!

    2月12日,钉钉已连续在苹果应用商店霸榜7天.记者采访获悉,春节以来,在家办公及在家上课的强需求,使得钉钉后台系统峰值流量暴增百倍.钉钉通过阿里云连续扩容10万台云服务器,成功抗住这一巨大的流量冲击! ...

  4. 战“疫”期,阿里云云效团队在家高效开发实录

    [以下内容为分享实录,有删节] 如何解决在家办公时 "团队沟通"和"研发流程"问题 软件研发团队在家办公时,会遇到的两个核心问题:团队沟通和研发流程.因为云效团 ...

  5. 钉钉微应用怎么进入_钉钉微应用如何打开本地app (Android)-问答-阿里云开发者社区-阿里云...

    老李归来 2016-01-28 10:14:09 Re钉钉微应用如何打开本地app (Android)经测试,免登认证已成功,执行 dd.device.launcher.checkInstalledA ...

  6. 政府安全资讯精选 2017年第十八期 工信部近三年将466个“问题APP”纳入黑名单;阿里云成为全球唯一完成德国C5云安全基础附加标准审计云服务商...

    摘要: 工信部近三年将466个"问题APP"纳入黑名单:阿里云成为全球唯一完成德国C5云安全基础附加标准审计云服务商:新加坡政府首开漏洞奖励计划,邀"白帽子"渗 ...

  7. 搜狗输入法回应误推地震信息;近亿人在钉钉上报健康情况;Rust 1.41.0发布 | 极客头条...

    整理 |郭芮 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的 ...

  8. #榜样的力量#《新冠战“疫”——中国数据智能产业最具社会责任感企业》榜单正式发布...

    数据猿出品 此次征集评选,源于数据猿推出的<寻找新冠战"疫",中国数据智能产业先锋力量>的公益主题策划活动.数据猿前后联合超过100家媒体的传播力量,为正能量助威,为中 ...

  9. 云钉一体后首亮相,钉钉剑指低代码机遇

    钉钉正瞄准着"星辰大海"的方向前进,我曾经就是干这个的,系统非常之强大,至于钉钉能不能把这个干好,我觉得不是方向的问题,而是组织的事情. 在如此大的平台上做技术输出,TOB要对对企 ...

最新文章

  1. windows cmd命令行中 查看 修改 删除与添加环境变量
  2. 国产操作系统UOS —— 你开始使用了吗?这个新年假期我已安装好了!
  3. Cracking The Coding Interview 9.1
  4. redmine安装指引
  5. 精通java益处_你真的精通Java吗?
  6. 常用宏定义 - 系统相关
  7. STM32那点事(1)_STM32F40_41xx启动文件详解
  8. oracle 游标内存自动释放,详解Oracle隐式游标和显式游标
  9. ST_Geometry效率的测试与分析
  10. Android 开发使用lambda实现 JDK8兼容
  11. 【华为OJ】按单词将句子逆序
  12. 2月26 ubuntu系统备份还原到相同电脑、另一台电脑
  13. directx9又更新了。
  14. 早上如何泡上一杯质量上佳的柠檬水
  15. 计算机任务管理器恢复默认,我的电脑中的任务管理器怎么打不开了,总是提示的“任务管理器已被系统管理员停用”,请问如何才能使任务管理器恢复正常。...
  16. 嵌套iframe页面做打印去掉页眉页脚
  17. 出书挂名流程 出书挂名步骤
  18. tomcat连接池的配置与使用
  19. 自举电路工作原理和自举电阻和电容的选取
  20. ubuntu编译ffmpeg并且demo测试

热门文章

  1. 职场有多少IT精英透支健康和生命?
  2. CodeForces - 160D Edges in MST(思维+tarjan/树链剖分+线段树)
  3. 洛谷 - P2617 Dynamic Rankings(树状数组套主席树)
  4. CodeForces - 1285D Dr. Evil Underscores(记忆化搜索+字典树)
  5. 洛谷 - P2765 魔术球问题(最大流+残余网络上的最大流+路径打印)
  6. POJ - 1328 Radar Installation(贪心+思维)
  7. 服务器数据缓存文件实现,跨域与缓存
  8. 《openssl编程》之基础知识
  9. 关于寻路算法的一些思考(4):A* 算法的变体
  10. PyCairo 中的图片