这和我当年做的工作就很像了。

转载自:https://mp.weixin.qq.com/s/veqH753nxWW0Hr0PDB1uSg

中国移动研究院冯俊兰:基于移动通信网络运维中的多指标时空序列预测

冯俊兰 智能运维前沿 今天

点击上方蓝字关注我们

2021国际AIOps挑战赛决赛暨AIOps创新高峰论坛于2021年5月13日在北京成功举行。本文根据中国移动研究院首席科学家、人工智能与智慧运营中心总经理冯俊兰博士现场发言纪要整理而成。

各位领导,各位老师,各位同仁和同学们,大家好。

我分享的内容是移动通信网络运维中的一个特别具体的问题:《基于移动通信网络运维中的多指标时空序列预测》,跟大家介绍一下。

一个企业数据中心的好坏很大程度上取决于它的运营运维能力的强弱,或者说它的智能化运维的能力如何。同样的逻辑,也适用于通信网络,但所面临的问题有所不同。

◆ 移动通信智能化中预测问题

以移动通信网络为例,日常大家经常会用到4G、5G网络服务,这背后的运营运维在公司的整个成本中占比最大。随着大家日常用的流量在大幅增加,该如何控制运营成本,如何实现在用移动互联网的时候成本不增加,是我们需要重点关注的问题,其中有非常多的需要进行智能化运维的点。

运营运维的工作开展,是靠流程来保障的。我们基于规范性流程,比如说参照TM forum提出的eTOM流程梳理出114个运维流程总图,同时考虑企业实际运维流程,完成流程穿越,提炼其中哪些是可以通过智能化的能力进行改进的场景。

在完成这些工作后,发现其中接近20%左右的场景都会涉及到如何做好预测的能力。

把移动通信网络需要智能化的场景分层,最底层的是网元层,再往上是运营运维层,最上面是服务层。就下面的两层而言,不管是网元的智能,还是运营的智能,都把其中需要用到预测能力梳理出来。

  1. 网元智能层面:针对每类网元的流程特点做预测。比如无线网,如何去做预测才能控住电费,让基站的用电量是最经济的,这需要对每个基站的流量做快速的中短时预测,而非长时的预测,具体包括网络的负荷的预测、关键的KPI指标预测等。核心网也类似,需要对用户的行为做预测。IP网的预测周期会更长。

  2. 运营智能层面:在运营过程当中,我们在规划建设阶段需要做长期的预测;维护阶段,会做设备状态的指标预测,短期的时空预测能力都会用到这个环节中来;优化阶段,需要依据预测来做网络的优化,例如大家拿着手机,某天早晨要赶过来会场,在不同的基站之间切换,如何更好地服务用户,就需要对用户的行为做预测,进而做到更好的网络服务。

这是我要演讲内容的大背景,也解释了为什么会专注这个问题。

◆ 时序预测的模型体系

今天的内容里面有很多关于时空预测的问题,先以一个简单的时间序列预测为例(天气预测、股票预测),分析数据为单域的时间序列, x轴是时间点,Y轴是数值,需要预测的是数值随着时间的推移如何变化的。

典型的时间序列预测模型是马尔可夫在九十年代提出的。从左侧算法看到传统的预测建模方法在企业的运营当中是很常用的。比如说周期因子法、转换为图像法(把运维领域复杂的数据,尤其把大量的告警,直接转化为图片的形式做处理)、转换为频域法(转为频域的数据进行处理)、各种线性模型、各种基于因素分解的模型(分析出哪些是长期趋势,哪些是季节性的,哪些是节日性的,哪些是突发的,哪些是随机不可预测的),这些是属于传统建模领域的应用。

另外一个方向是基于监督学习的方法,主要分为两种,一种是基于时间序列的,另外是基于时空序列的(数据状态不再是以时间域为主,而是关于时间和空间的信息)。针对时空序列举个例子,要预测移动通信几百万基站的流量,基站与基站之间形成了一个图,即存在空间关系(基站与基站间的关系),同时存在时间信息(每个基站的流量随着时间变化形成时序数据),这就是一个时空序列,我今天主要讲的内容主题就是围绕时空序列中的预测。

◆ 时间序列VS.时空序列

时间序列和时空序列的区别是什么?左侧是时间序列,原始数据是单一的时间序列,原始数据可以分解为周期性、趋势、噪声等多个维度。右侧是时空序列,可以分为两种形式,一种是时序图片数据,一种是时序表格数据。时序图片数据:预测天气的遥感图片,随着时间的推移图片会有各种变化,图片本身已经存在二维信息,再加时间维度,从而得到基于图片的时空预测。时序表格数据:在移动通信网中,更多是时空表格类数据。在选定的时间段内,网元自身和网元间存在多维度时序数据,构成表格数据;同时存在不同时间段,构成多个时序表格数据。

综上所述,时空序列跟时间序列是完全不同的两个概念,主要体现在几个方面:

◆ 时空序列预测共性问题

  • 第一,输入输出均为时空序列。时间序列预测是输入历史序列预测未来序列,需假设未来序列一定程度上和历史序列有相似之处,这是时序序列预测的前提。但时空序列却不同,时空序列输入是时间空间上的某些序列点,输出同样是时空序列。

  • 第二,空间的相关性。每个节点受空间维度中其他节点的影响。和时间序列不同,时空序列存在空间相关性,例如基站流量预测中,基站间存在各种复杂关系,既有物理连接关系,有业务关系,同时有突发情况关系等。

  • 第三,动态时间相关性。每个时刻的观测值受历史时刻的影响是动态的,随时间变化而变化。

  • 第四,时空相关性。每个时刻各节点的值受历史时刻中各节点值的影响。

要解决的是如何把时间空间相关性在建模时同时准确表达,这是非常关键的点,但在时间序列预测中不需要关注这些问题。

◆ 时空序列公开数据集

通过对业界时空序列数据集梳理发现,交通领域数据集占绝大多数,只有最下面MILAN公开数据集是属于通信领域的。针对交通领域的时空序列预测和移动通信网络有非常多的不同之处,相信这种差异也存在其他领域。

希望通信业界各位代表携手打破壁垒,将更多的数据分享到市场上来,集市场合力,把更多实践中遇到的问题定义清楚,进而带动学术界的进一步发展。

◆ 常用评价指标

时空序列预测需要有一个自身的评价标准。常用的时间序列评价指标包括:MAPE、MAE和RMSE等。推动任何一个领域的向前发展,其评价方式是非常重要的。这里思考是否需要针对时空预测定义新的标准,因为在平时业务中,业务评价指标很难和已有评价指标相对应。如何把业务关注的指标对应到可以进行客观计算的标准,对学术界的发展,对算法工作的探索,是非常有效的。

◆ 移动通信网络时空序列特性:异质性更加突出

移动通信网络领域和交通领域的时空数据建模区别在哪里?以及移动通信网络领域面临的时空序列问题和学术上面临的时空序列问题有哪些不同?

首先,移动通信网络领域的基站(节点)异质性更加突出。不同基站存在非常不同的特性,例如城市基站和农村基站、覆盖站和流量站等,它们之间的特性差异很大。通信网络存在大规模异质节点,如何把节点自身的特性更好地表达在模型中是关键的问题。

第二是 “边”同样存在异质性。例如在高速路场景基站间的关系,和城市密集区基站间的关系,差别非常大,同样的差异存在于农村和城市的基站间关系等。

所以基站(节点)和基站间的关系(边)都是异质的,如何把异质的特性以及其中的时空相关性在模型中表达,是应该关注的问题。

◆ 移动通信网络时空序列特性:突发性不确定性更强

通信网络领域流量数据和交通领域流量数据,同样存在很大差别。

在交通领域中,用户(人)作为一个物理体,在物理空间中存在着一定的连续性,“你现在堵在这里,不可能一会跳到那里”。但是在移动通信网络中,不连续性很强,网络连接可以瞬间在这个基站,瞬间切换到另外一个基站上;同样基站可以瞬间发生较大范围的流量变化(有点类似量子的特性,不受物理空间约束),这也导致很多连续性的假设是不成立的。

另外一点是突发性。突发性的原因有很多维度,包括用户行为的突发性,网络状态的突发性等。从公开的行业数据和中国移动企业自身数据对比来看,移动通信网络的不确定性会更强。

◆ 通信网络结构复杂性

通信网络规模巨大、结构复杂,节点(小区、基站)间的影响关系复杂且动态变化。

在小区级别的预测任务中,一阶邻居小区数量上百,且根据通信网络优化原则,邻居小区位置与数目会持续动态变化,从而导致节点(小区、基站)间影响关系是动态的。

交通流量预测领域会根据连接的密度不同,通常在路口预测群体的流量变化。而通信网络是在某一个节点(小区、基站)计算流量,从而导致二者的邻居节点会有所不同。在交通场景的邻居节点数目平均为1.6个。而在通信网络中,密集城区场景平均邻居节点数目为105.8,稀疏郊县场景平均邻居节点数目为17.8,两个领域的本质区别在于计算量上有非常大的不同,即密集图和稀疏图间的计算会有非常大的不同。

◆ 移动通信网络数据质量影响因素复杂

通信网络是一个强运营的网络,网络质量受到各种复杂因素影响。例如:由于网络的各种应急处理机制,网络资源被不断调度;网络各项技术不断升级,导致网络割接非常多;为了“基站节能”采取的动作,会直接影响通信网络质量;随着数据需求的增加,企业存在大量采集设备,采集设备自身也会存在一定的不稳定性;另外还有不断变化的“邻区关系”;还有“天气”因素,如果大雾天在靠海洋的地区会有大气波导对信号的影响;各种“信号屏蔽”,比如高考的时候会有一个信号屏蔽的设备放在周围,这些都会对网络流量造成影响,流量的突发性很大,这些是通信网络中形成时空序列的很多因素。

相对应,在交通网络领域则会面临着“交通临时管制”、“交通事故/修路”、“采集设备不稳定”等因素的影响数据质量。

◆ 多指标时空序列预测建模

以上介绍的为背景,回答了在移动通信网络中为什么要专门研究时空序列的问题。从2015年开始,有大量的学术文章、工作实践都在做多指标时空序列预测建模。

通过梳理,我们可以清晰了解到在移动通信网络做时空序列相关的内容。

◆ 时空序列预测——ConvLSTM

首先列举的是ConvLSTM,通过“预测未来降雨强度”,解决时空序列的问题(第一篇真正意义解决时空预测问题的文章)。

模型输入输出都是时空数据。模型基于雷达回声图“预测未来降雨强度”,提出时空关系模型,计算数据空间和时间之间的关系。具体实现包括:通过CNN和LSTM,对输入到状态、状态到状态转换进行建模,构建编码器预测结构Encoder和Forecasting,这个工作在做时空序列大都会应用到,值得深入看一下。

◆ 时空序列预测 - 引入图网络(STGCN)

STGCN把图神经网络引入到时空序列的预测当中,有效提取时间域和空间域的依赖关系。本模型首先用Gated-Conv来实现时间信息抽取。与RNN提取时间特征方式不同,Gated-Conv优点在于:不易出现错误累积,可以实现并行处理。模型是三明治式结构,中间层是Spatio graph convolutional提取空域信息,上下用Gated-Conv来提取时域信息。(此外值得一提的是,这几年图神经网络有非常大的进展)。

◆ 时空序列预测 - 引入注意力机制(ASTGCN) 

ASTGCN将注意力机制引入到时空序列预测,用于建模不同邻区节点和时间点对目标节点的影响,但这里的注意力机制不同于NLP中常用的基于transformer的attention,是比较简单的加乘注意力。

◆ 时空序列预测 - 时空同步GCN(STSGCN) 

STSGCN将时空同步引入时空序列预测。该模型区别于对时间信息和空间信息分别建模再组合的方式。该模型不仅考虑本时刻节点间的关系,同时考虑相邻时刻间对本节点当前时刻的影响,时间信息和空间信息不可以完全隔裂建模后组合。

◆ 时空序列预测:Attention Only Model

这篇Attention Only Model的论文是完全通过attention机制来对时空相关性进行建模。注意这里的Attention也是简单机制的Attention,不同于multi-head transformer的Attention,但是这个模型的复杂度非常高。

◆ 时空序列预测:Diffusion Convolutional Recurrent Neural Network

本篇文章引入传播机制,我们在实际应用中参考到这篇文章。

◆ 时空序列预测:Graph Wavenet

这篇paper把Wavenet引入到图网络的时空信息提取,即Graph Wavenet。

◆ 时空序列预测:Node-Specific 时空序列建模(AGCRN)

针对时空序列建模,前面文章均是基于总体图的建模,这篇文章基于node建模,往前更近了一步,对我们实际应用有很大启发。

◆ 长时序列预测:Transformer-Based Attention

本篇文章介绍基于Transformer-Based Attention的时序预测。文章针对Transformer存在的时间和空间复杂度高的缺陷,本文提出ProbSparse self-attention机制,基于原来的transformer做了改进,用在长时时序序列场景。

我们在时空序列预测方向的探索 

接下来,说一下中国移动研究院的工作,方便大家理解今天的演讲内容。

◆ 应用

我们在算法层面,针对时间相关性和空间相关性联合建模、节点和边存在异质性等痛点问题,通过引入联合图卷积和异质性建模等方式,实现通信领域时空数据表达,支撑时空数据预测。

在应用层面,基于时空序列预测算法,实时预测中国移动某省现网70万+小区未来3小时15分钟粒度的业务量与用户数等指标,帮助运维人员及时发现高流量的退服小区并第一时间排障,提升用户体验,助力网络运维智能化。

◆ 移动通信网络智能化创新平台

中国移动目前在做关于移动通信网络智能化的创新平台,作为中国乃至全球最大的运营商,中国移动有责任去带动整个产业的发展。通过搭建创新平台,实现数据共享,推动学术和算法持续研究。同时通过开放平台的业务场景、计算能力、数据以及积累下来的运维知识,支持各种各样的实践和评测。

◆ 网络智能化开放创新平台及生态构建

中国移动提出在 2025年实现L4级的网络智能化。在升级过程中必须有评测标准做保障,才能保障做到L4。期待跟高校、业界同行,不管是传统设备厂家,还是具备AI能力的提供方,有更深入的合作。

目前挑战赛部分演讲嘉宾的PPT已经上传,后续陆续更新,敬请期待!

链接:https://pan.baidu.com/s/19uvpB-WJjED-WPezVjkHbg

密码:mctl

中国移动研究院冯俊兰:基于移动通信网络运维中的多指标时空序列预测相关推荐

  1. 2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测

    2021国际AIOps挑战赛决赛暨AIOps创新高峰论坛于2021年5月13日在北京成功举行.本文根据中国移动研究院首席科学家.人工智能与智慧运营中心总经理冯俊兰博士现场发言纪要整理而成. 演讲内容 ...

  2. Python在网络运维中的应用与分析

    目前Python是新兴技术编程语言的主流之一,随着互联网技术的不断发展,计算机网络的应用范围也随之增加,网络运维自动化和智能化需求越来越高,Python编程语言逐渐盛行,该程序设计语言简单灵活,拥有庞 ...

  3. 网络运维中的一些毁三观的事

    隔好久没有写了,因为公司搬家,大大小小的杂件太多,而且是我一个人要整理公司近百人的器件,所以耽搁了好久,但也感谢这次机会让我有些收获,并得以在这里进行总结. -(此处为什么是省略号??因为我不知道要说 ...

  4. 虚拟网络运维----基于wireshark报文分析快速过滤(tcp,icmp,http)报文时延

    文章目录 虚拟网络运维----基于wireshark报文分析快速过滤(tcp,icmp,http)报文时延 前言 tcp协议高时延报文定位 http协议高时延报文定位 icmp协议高时延报文 虚拟网络 ...

  5. 电信运营商网络运维方案

    随着新一代信息技术加快普及应用,5G.云和人工智能正加速智能社会的到来,三大技术正在重构网络.随着我国5G产业快速推进,中国移动.中国联通.中国电信加快步伐,全业务运营时代已经到来.全业务运营时代的特 ...

  6. 智和信通:立足数字化、智能化、可视化,打造一站式制造业网络运维平台

    新时代下,云.大.物.移.智等新一代信息技术得到快速发展与大范围应用,一方面推动传统制造业改造升级向智能工厂转型,促进海量信息互通共享,但另一方面,也产生了一系列网络运维及安全难题.在"云制 ...

  7. 【SDN】浅谈数据中心网络运维之异常泛洪流量分析及优化

    原文链接:http://dc.idcquan.com/ywgl/158190.shtml 随着IT技术的蓬勃发展,大数据.云计算及SDN等新兴技术的使用已成为未来数据中心建设新趋势,这些技术在为业务带 ...

  8. 基于信创运维平台,实现国产化网络自动巡检

    近年来,以工业互联网.大数据.人工智能.5G技术等为代表的新一代信息技术飞速发展,推动国内企业向数字化经济的变革,数字化变成一股不可逆转的潮流,也是增强企业竞争力的关键所在.北京智和信通积极探索,把握 ...

  9. 命令行接口(CLI)将被取而代之,它不再是网络运维的主要工具

    Gartner声称:到2020年,CLI的使用将日渐式微. 多年来,网络工程师依赖命令行接口:据市场研究公司Gartner的分析师们声称,但是这种使用很普遍的工具正在迅速让位于配置和运维网络的其他方法 ...

最新文章

  1. 开源吞噬世界,得开发者得天下
  2. 从12月7日起.广东移动不再区分cmwap,cmnet流量!
  3. php 安装oracle扩展,win PHP7安装oracle扩展
  4. mysql给字段设置默认值,以及mysql的严格模式
  5. jsp获取连接池的实时连接数_PHP进阶教程-实现一个简单的MySQL连接池
  6. java 方法 示例_Java扫描器具有示例的NextNextShort()方法
  7. 2021.08.24学习内容torch.utils.data.DataLoader以及CUDA与GPU的关系
  8. 看程序员小哥如何机智应对电信诈骗
  9. Exps on March 21st
  10. beautifulsoup爬取网页中的表格_PYTHON爬取数据储存到excel
  11. Android系统的手表adb抓取log日志
  12. 一起来学PCB-0.4-STM32F072C8T6最小核心板原理图设计
  13. 苹果录屏功能没有声音_安卓最高清的录屏软件,没有之一,已解锁VIP功能!
  14. 人脸对齐(十)--人脸对齐综述(综述及2D人脸对齐总结2018.8)
  15. 魔都职场外卖(加班)大赏
  16. 计算机专业试讲10分钟教案,幼儿园10分钟试讲教案
  17. 拉新成功率90% ,企业微信和公众号双重裂变案例分享
  18. catalina 无法验证macos_macOS 10.15 Catalina无法打开app,提示“因为无法确认开发者身份”问题的解决方法......
  19. 读白帽子讲WEB安全,摘要
  20. echarts的学习(六)调色盘的学习

热门文章

  1. 服务器搭建文档整理建议
  2. 分布式缓存redis+本地缓存Caffeine:多级缓存架构在行情系统中的应用
  3. 计算机专业大学几年,20年计算机专业大学排名大全
  4. 《离线和实时大数据开发实战》(二)大数据平台架构 技术概览
  5. PyQt5 “PyTuning“调试软件从0开发总结
  6. i茅台autojs脚本制作
  7. 四川电信“天翼宽带精品数字小区”将是三网融合典范
  8. ret/retf/iret
  9. Linix(CentOS6.5)详细安装
  10. IT运维和信息安全网络安全相关的认证培训有哪些 ?