简介:为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。

本次分享主要包括三个方面,第一是针对和稳定性,云通信业务架构如何保证;第二是从流量和整个流程和机制上,如何保障稳定性;第三是流量控制体系是怎么支持云通信的高可用、稳定性的。

云通信平台技术架构

云通信的整体平台架构构建在阿里云的基础设施之上,技术架构上则分成三层的架构:

第一层架构多网关分组这一层,主要是面向供应链体系,通过多协议适配、多接入方式、多region部署解决供应链资源快速的接入和使用,同时在高可用性上通过物理、逻辑多维度的隔离的隔离措施以及全覆盖的心跳管理体系,解决供应链通道出现故障时的快速隔离和恢复。

第二层是业务处理层,核心包括风控体系以及资源的智能调度、智能决策。主要是针对通信业务比较核心的基础能力平台,技术上基于多队列、削峰填谷、业务客户等维度资源隔离、延迟、限流、降级容灾等一系列的手段保障平台稳定运行。通过这些年的积累,形成了通信业务的安全、调度平台,结合ASR、TTS、NLP等AI技术,解决业务的安全、多模型的调度策略,让通信业务更健康、更高效的触达消费者。

最上层是面向客户的统一接入层,为了能让客户更方便的管理和使用云通信的服务,除了提供官网控制台的基础开通、查询等功能,我也提供了面向开发者的多语言的OpenAPI SDK以及移动、PC端侧SDK,覆盖各种业务场景,通过技术手段帮助客户快速、便捷地集成使用云通信的能力。

多网关分组架构

大促场景下流量是非常大的,云通信在面对洪峰流量的时候,需要按照业务场景进行隔离,针对容灾情况、资源、供应链、热点数据处理进行隔离。这一套非常标准的流程和机制,能保证云通信针对高并发的情况下的系统稳定性,实现客户角度的完全无感知。

流量控制系统架构

通常在大促场景下,客户的入口流量可能会呈现非常大的突发性,从客户入口量进来以后,经过中间这层核心的流量管控机制,最终保证客户的请求非常平稳的分发到不同的地域、分组以及机房。

再举个一个更实际的例子,假设我们把洪峰流量比喻成水流,那么流量控制系统就是三峡这样的水利系统,当遭遇流量洪峰,如果不被很好控制,很有可能会带来业务场景的损失,或者达不到SLA要求,所以流量管控体系非常重要。

基于阿里云通信流量控制系统,即使入口流量非常巨大,也能通过流量控制器将并发流量平缓、稳定的分发到不同网关和地域分组上,保证资源的稳定性。同时,任何一个节点出现了不稳定的情况,系统都会第一时间感知并且做出调整,整个过程客户无感知。对于整个流量控制系统的架构来说,客户从入口流量到出口流量的场景是非常丰富、复杂的,而阿里云通信整体的控制体系可以完成自动化的闭环,利用削峰填谷等平滑调度策略,保证业务的平稳。此外,在决策系统会按照客户与资源的情况进行一个最佳的匹配,确保延迟、成功率、稳定性等均得到保障。

总而言之,阿里云基于数据、算法和平台,打造的一套完整的流量控制体系,可以实现从入口流量的客户场景转换,到资源池、逻辑资源、物理资源、通道、网关连接等全链路的自动化匹配转换,实现全生命周期闭环管理。

从一个具体场景来看,从入口流量开始,假设一个客户批量请求了100万短信,流量控制体系第一道先把客户的请求按照场景先做一层缓冲控制。转换完以后,结合实际的资源情况做了一层供需关系的一个匹配和控制。最终我们分发到单个连接的QPS的时候,从客户的入口流量来说,瞬间请求可能达到10万QPS,而真正分发到单连接的时候就变成非常低了,对于运营商来说,他的系统也是非常稳定的。所以也不会因为客户入口流量冲击导致出口流量不稳定,以此来保证无论客户使用场景多复杂,最终的SLA和请求耗时、延迟都能满足客户需求。

如何保证平台运行稳定?

在企业生产过程中,平台运行的稳定性是重中之重。“在稳定性上, “1、5、10”是我们始终追求的目标,1分钟发现,5分钟定位,10分钟恢复。”在系统的稳定性和高可靠上主要是围绕4个方向展开。

第一是在全链路的容灾体系建设,当前整体链路包括对于第三方的依赖完整支持了双机房、双活高可用体系的建设。在整个链路上通过心跳等实时探测机制,在应用、机器、机房维度出现故障是具备分钟级别隔离的能力。基于阿里本身沉淀的故障演练机制,会通过定期、突袭的演练方式,发现问题逐步迭代完善、演进平台的技术架构。

第二是在统一的接入和网关的接入层面,采用了多region的策略,就近边缘部署,降低接入成本,降低数据在物理网络链路传输过程中的时延,保障通话质量。同时,跨region的容灾体系可以在当某个region出故障的时候,能够切换到另外一个region进行服务,进一步提升服务的稳定性。

第三是主要在网关层面,通过不同的接入方式,以及多维度降级、逃生的容灾策略,基于客户特性、产品特性和资源特性做了不同维度的降级和切换策略来保障极端情况下的业务持续可用。

第四是在整个链路层面进行监测以及分级告警,针对核心业务和核心链路提供7x24小时运维保障,针对系统运行过程中出现的告警定义了p1-p4的分级,对不同级别的告警我们采用了多种的触达方式,如钉钉消息、短信、电话形式进行不同配置的触达,通过告警的升级和触达方式的升级尽可能保证在最短的时间内发现问题、处理问题,恢复线上的生产。

后续更多产品、技术和活动信息,可以进入云通信官方交流群进行了解:

点击观看直播回放:https://yqh.aliyun.com/live/detail/21594

点击进入秒懂云通信,获取更多视频:
https://yqh.aliyun.com/live/cloudcommunication-videos

原文链接:https://developer.aliyun.com/article/780331?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

大促场景下云通信高可用、稳定性实战相关推荐

  1. 开源实践 | OceanBase 在红象云腾大数据场景下的实践与思考

    本文将介绍 OceanBase 在红象云腾大数据场景下的落地实践与思考,希望帮助正在探索 OceanBase 的企业用户快速实现 OceanBase 选型与落地. 作者:童小军 红象云腾 (REDOO ...

  2. 大促场景系统稳定性保障实践经验分享

    简介:11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍. 每到双11 ...

  3. 云原生高可用技术体系的构建

    简介:原来单一的技术环境开始走向分布式.分层的多组件技术架构,越来越多的组件使得保障业务稳定运行的工作也越来越艰巨.本文从容灾.容量.线上防护.演练四个维度全方位讲解如何构建一个真正的高可用体系. 伴 ...

  4. 云原生高可用技术体系构建

    伴随着互联网业务的高速发展,越来越多的线下场景需要转移到线上,而线上业务的量级也在飞速增长,给互联网业务的技术架构带来了严峻的挑战,原来的"一体机+数据库"的方式已经不适用于当前的 ...

  5. 企业级网络架构—云平台高可用网络的修炼之道

    前言 当他睡眼惺忪.手拿红牛.嘴刁香烟迈着沉重的步伐从某网络核心机房走出来的时候,除了看门大爷简短问候之外,也只有刚刚过去的这个黑夜才真正懂得刚刚发生了什么,在外人眼里,这个夜晚再正常不过,和往常一样 ...

  6. 大促场景系统稳定性保障实践经验总结

    简介:11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍. 每到双11 ...

  7. 如何在大流量场景下云淡风轻地进行线上发布?

    简介:本文介绍了微服务治理下金丝雀发布的能力,解决了发布期间少量流量验证新功能的问题. 前言 本文,我们继续聊聊<揭秘大流量场景下发布如丝般顺滑背后的原因>中的另外一环,灰度发布,也叫金丝 ...

  8. 大流量场景下如何云淡风轻地进行线上发布?

    简介: 本文介绍了微服务治理下金丝雀发布的能力,解决了发布期间少量流量验证新功能的问题. 前言 本文,我们继续聊聊<揭秘大流量场景下发布如丝般顺滑背后的原因>中的另外一环,灰度发布,也叫金 ...

  9. 阿里云应用高可用 AHAS 正式商用,可一键提升云上应用可用性

    在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战. 7月17日,阿里云应用高可用服务AHAS 正式商用,包含架构感知.流控降 ...

最新文章

  1. 解决流程自动化“最后一公里问题”,达观数据发布智能 RPA
  2. 【C 语言】文件操作 ( 配置文件读写 | 框架搭建 | 主函数逻辑结构 | 启动无限循环 | 接收用户操作值 | 宏定义 | 显示操作菜单 )
  3. Numpy中矩阵对象
  4. C语言 | C51实现MAX485通信(完整源代码)
  5. linux下面获取当前bing-国内版的壁纸
  6. HTML+CSS+JS实现 ❤️从亮到暗图片滤镜特效❤️
  7. 50年代黄岩师专_300多位30、40和50年代获得第一份技术工作的开发人员的故事
  8. CUDA学习笔记(三)
  9. bzoj 3611: [Heoi2014]大工程(虚树+树形DP)
  10. 【ffmpeg】不带透明通道的视频overlay
  11. java 设置全局热键_第三方包jintellitype实现Java设置全局热键
  12. centos7 部署dzzoffice最新版详细教程
  13. Python笔记-类和实例、继承和多态
  14. python识图找图_初探利用Python进行图文识别(OCR)
  15. Python 树状图怎么画
  16. Unity小地图中点击角色移动功能 (附上demo)
  17. Error: Cannot find module 'chalk'
  18. 数学规划模型(三):整数规划模型
  19. 天龙八单机服务器 修改 藏宝,天龙八部单机版
  20. IE浏览器浏览网页提示证书错误,Chrome、360浏览器显示“不安全”的原因

热门文章

  1. Python可视化 | Matplotlib绘制圆环图的两种方法!
  2. 【Git笔记2】必知习惯和如何版本回退
  3. Github | 备战秋招,最全面试题集合!
  4. Fast R-CNN: 我变快了,也变强了!
  5. redis 判断存在性_实战 | springboot+redis+拦截器 实现接口幂等性校验
  6. 从零开始数据科学与机器学习算法-分类与决策树-06
  7. linux 进程管理 ppt,Linux内核结构与进程管理.ppt
  8. php获取表单后如何保存到数据库中,php – 如何将数据从HTML表单保存到WordPress中的数据库表?...
  9. Quick Search Articles in My Blog
  10. BZOJ 1798: [Ahoi2009]Seq 维护序列seq