想要实现优质高速的互联网视频服务,一定离不开高质量的内容分发网络服务,就是我们常说的CDN,在10月13日云栖大会视频多媒体分论坛上,阿里云高级技术专家空见为大家讲解了CDN服务过程中,数据处理、安全监测、日志分析、智能分析是如何为CDN赋能的。下面是演讲主要内容提炼:

一、业务背景

目前阿里云CDN的节点的数量超过1200个,可承载的带宽能力超过80Tbps,基本能覆盖国内一半的分发要求,海外的部署也是十分广泛的。在产品方面,CDN包括PCDN、安全加速、全站加速等各种子产品,因为分析的场景不同,所以对数据平台的扩展性也提出了更高的要求。从业务规模来看,阿里云CDN现在线上跑着百万级的域名,每个域名的分析都要做,比传统CDN高了两个量级。如此庞大的业务,对于用户内容的分发是好事情,对数据的回收和分析,却是一个不小的挑战。

二、数据需求

CDN的数据有三个关键字:海量、可靠、实时。

海量,CDN目前每秒钟有大几千万的数据访问,每天会沉淀出来5PB的系统日志,所以离线数据通常在EB级别,这个对实时计算和离线分析都有很大的压力;在监控这块阿里云CDN每天达到千亿级别,而且每年CDN数据增长都在100%之上,所以系统必须要有很强的扩展性,并提前设计好各个环节。

可靠,CDN的数据一定要是准确的,不能有毛刺的数据。因为数据的应用场景是很苛刻的,比如计费和监控,不能出现纰漏,不能漏报误报。数据出来后,阿里云CDN还要在全球范围内调度流量,一丝一毫的不准确都可能导致很严重的后果,所以对于数据的准确性要求很高。第二是系统本身的稳定,系统各个环境不能有明显的瓶颈,系统要有足够强的容灾能力,系统的自动恢复方案也要是充分的。

实时,在从前,阿里云CDN是五分钟分析一次数据,不管是计量还是计费,都以这个为标准。现在,因为有了更多的业务场景,以直播为例,如果一个主播推流断掉了,不能马上发现的话,影响的可能就是几十、上百万的用户的观看体验。所以,在实时性上,阿里云CDN现在能做到分钟以及秒级的实时,也就是说,在整个数据的要求上来看,不仅吞吐量要大,延迟也要足够低。

如此大规模的数据,如此严苛的要求,阿里云CDN又如何应对呢?

三、数据收集

下面我们看看阿里云CDN在数据收集方面是怎么做的。现在整个系统数据量化的程度还是比较高的,不光是用户的访问数据,系统的操作数据也是可以量化的。下面是数据收集全貌图:

数据来源,有两个方面,一个是左边的节点,另一个是右边的用户。

先从从左边的边缘节点来看,它是从全球的边缘节点去采集和处理,上面的数据大部分都是访问、回源的日志,节点之间互相探测的日志等,在总数据中占比80%以上。这里的数据量级非常大,而且本身CDN就是分布式系统,所以阿里云CDN将一部分数据分析工作在节点上就先完成了,比如通用的流量、命中率、QPS等指标,会在节点上做预处理,同时,全量的数据也会通过流式传输往数据中心去走。

右面是用户数据,通过浏览器或SDK来访问我们内容的用户,还包括系统上的用户,包括管理员管理配置、业务人员在后台对线上资源进行调配等,一般这里的数据直接通过流式传输平台SLS客户端直接发出。

在中心传输这一层,阿里云CDN采用阿里云本身的SLS产品,SLS支持对数据进行抽取、转化、分发、检索等功能,本身比较灵活,满足了ETL的场景,并且可以在上面做一些客户定制化的处理。SLS下来后,再用Blink对数据进行流式处理,它有一个好处就是中间状态可以保存,不需要应用和外部的第三方存储再做交互,能够满足数据定制化分析的一些场景。原始的访问及分析后的业务数据,最终会沉淀存储在ODPS中。用户也可以选择其他存储方式,比如可以提供文件下载功能的对象存储OSS。另外,时序数据也会存在OTS数据库中,以备实时检索。

以上的数据收集,基本上都是采用阿里云的产品,阿里云CDN的技术专家们只需要把系统串联起来,保证整体可用性即可,如此,就能将更多精力集中在数据的分析和应用上了。

四、数据分析

在数据分析这块,离线方面会做的轻一点,做运营报表和数据挖掘。阿里云CDN更多的是做实时数据分析。这两个分析系统,会将数据最终汇集到专家系统,用于检测这些数据有没有异常,找到异常问题的定位。找到问题根源后,根据其他平台产生的数据,关联起来,用机器学习的算法做一个问题的分类。

数据分析的使用场景包括:
自动化运维,通过机器资源、线上问题的收敛,阿里云CDN目前只需要三个运维就足够了;
智能调度,实时根据大区、节点的情况,合理调度流量和进行节点建设;
用户画像,相当于给用户提供一个体检,给出当前服务的建议,优化业务;
事件中心,记录当前节点上正在发生的事件,关注网络抖动和发布情况。

五、数据应用

左边是官网的截图,用户可以根据自己想要的维度,关注各类报表,看到CDN使用的情况。
中间是内部的监控系统,分钟+秒级监控,用于问题的复排和打标。
右边是事件的数据,显示当前整个平台的流量、事件等级和汇集情况等。

除了业务层数据,阿里云CDN和阿里云IDST联合,对CDN上分发的文本、图片、视频等内容进行鉴定,筛查涉黄等违规内容,防止IP被封。

六、总结

整个CDN数据化为了驱动系统,形成下发、执行、采集、分析的闭环。

在分享的最后,空见总结道:“从业务接入层,我们可以提供方便、快捷的接入环境;在策略执行层,我们可以快速把操作发布到线上,达到秒级生效;在数据生产层,我们将把所有的系统都量化起来,采集到海量、有效的数据;在决策中心层,我们相应对数据进行收敛,只关注关键数据指标,整个是一个闭环的过程。有了数据化的系统,后面的自动化、智能化才有更多发挥的空间。”

阿里云高级技术专家空见: CDN的数据化之路相关推荐

  1. 阿里云高级技术专家白常明谈《边缘云的技术挑战和应用创新》

    简介:随着5G商用周期的开始与新基建的发展, 5G+边缘计算带动并赋能数字化行业,逐渐形成了预期可观的产业规模.5G周期内,直接和间接带动产业规模就高达万亿级,在如此巨大的市场规模下,会有越来越多的行 ...

  2. 阿里云高级技术专家:面向5G的云网一体及云原生应用实践

    7月15日,阿里云高级技术专家李晓成在2020亚太内容分发大会上发表<面向5G的云网一体及云原生应用实践>主题演讲,从边缘计算产业机遇与挑战来解读阿里云边缘计算的布局,并分享阿里云在云网一 ...

  3. 阿里云高级技术专家赵伟:安全加速 SCDN 设计与案例

    此前,阿里云发布了SCDN安全加速解决方案,在CDN加速的基础上,将专业的安全能力赋能 CDN,实现既有加速又有安全的服务.在本次杭州云栖-飞天技术汇CDN与边缘计算专场中,阿里云高级技术专家赵伟从业 ...

  4. 阿里云高级技术专家白常明:边缘云的技术挑战和应用创新

    随着5G商用周期的开始与新基建的发展, 5G+边缘计算带动并赋能数字化行业,逐渐形成了预期可观的产业规模.5G周期内,直接和间接带动产业规模就高达万亿级,在如此巨大的市场规模下,会有越来越多的行业具备 ...

  5. 阿里云高级技术专家周哲:阿里云边缘云原生应用实践

    简介: 为什么需要边缘云原生?边缘云原生的技术特性和优势是什么?它可以为行业提供哪些关键能力?又有哪些场景适合边缘云原生呢?在MEC全球应用开发者大会的"MEC开放论坛"上,阿里云 ...

  6. 阿里云高级技术专家张毅萍:我眼中的边缘计算

    边缘计算是目前公认的大方向,越来越多的边缘计算应用将随着5G建设的步伐而兴起.阿里云边缘计算团队的目标是在行业爆发来临之前,完成基础计算资源平台的构建,为产业提供基于体验的计算调度能力,进而助推整个产 ...

  7. 阿里云高级技术专家带你全面了解云主机性能评测

    钱超,花名西邪,阿里云高级技术专家,超12年老阿里,是云主机性能领域的知名专家. 在目前的云计算测评领域,很多性能测评存在营销的包装,容易引起误导:比如用瞬时性能引导读者得出结论,而不去关注稳定性和隔 ...

  8. 专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行...

    杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网.创新.创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题. 为了帮助大家进一步了解这场全球前言技术 ...

  9. 阿里云高级技术专家林立翔:基于阿里云弹性GPU服务的神龙AI加速引擎,无缝提升AI训练性能

    2023 年 3 月 23 日 14:00,NVIDIA GTC 开发者大会阿里云开发者社区观看入口正式开放,阿里云高级技术专家林立翔带来了题为<基于阿里云弹性 GPU 服务的神龙 AI 加速引 ...

最新文章

  1. 【JavaScript】正则表达式
  2. CentOS查看软件源提供的软件版本命令
  3. mysql中IFNULL(字段名,默认值) 给null设置默认值
  4. 【数据结构与算法-java实现】三 Java数组类实现
  5. git 上传修改文件
  6. notepad++ 查找引用(Find Reference)(适用于c c++及各类脚本比如lua、python等)
  7. 杉岩数据:5种常见容灾复制技术图解
  8. php1500,圆周率1500多位
  9. 《深入理解计算机系统》 CSAPP 入坑推荐
  10. Visual Studio 2017各版本离线安装包获取以及安装教程
  11. 动词ing基本用法_高中英语:非谓语动词 ( 附非谓语口诀)
  12. 简单的Flash网络游戏源代码
  13. Android__逆向__xpose使用
  14. iTween介绍和用法
  15. 斐迅路由器刷华硕固件
  16. 人生总有太多的无奈和遗憾,
  17. 简易支付平台(已对接微信支付)
  18. c语言编程输出1000以内能被3整除的数,【C语言】找出1000以内可以被3整除的数
  19. 【Python web 开发】获取手机短信验证码接口(1)
  20. 机器阅读理解 | (2) 文本问答概述

热门文章

  1. Oracle查询优化-07日期运算
  2. Oracle查询优化-02给查询结果排序
  3. Oracle优化03-Latch和等待
  4. mysql特效_MySQL树 – 前端开发,JQUERY特效,全栈开发,vue开发
  5. centos 更换java版本_centos7更换jdk版本
  6. 关闭占用某一端口号的进程 win10
  7. 2021-01-05 Halcon初学者知识【7】 最简单的测距问题-点与点测距
  8. 2021-05-20 Matlab实现傅里叶变换
  9. 2021-04-29 Python绘制柱状图之可视化神器Pyecharts
  10. 打包跳过编译_Apache Flink v1.9-SNAPSHOT 源码编译