清华裴丹:AIOps九大发展趋势

在8月28日必示科技主办的2019智能运维技术应用大会上,清华大学计算机系裴丹教授作了题为《智能运维(AIOps)趋势解析》的精彩报告。

裴丹教授是清华大学计算机系长聘副教授、青年千人、博士生导师、美国UCLA博士、ACM和IEEE的资深会员、美国AT&T研究院前主任研究员。其主要研究方向是基于机器学习的智能运维(AIOps),与国内大型金融机构及互联网公司有众多合作,并在智能运维领域发表了100余篇学术论文和20多项美国专利授权。

以下是裴丹教授报告全文整理:

各位嘉宾下午好!大家知道,运维是数字世界的的基础设施级别的技术。随着支撑数字世界的软硬件系统越来越庞大、越来越复杂,运维对智能化的要求就会越来越高。所以我们说,AIOps(智能运维)是运维技术发展必然的趋势。

AIOps在国内正式提出来到现在的实际落地有两三年了,也取得了初步的落地效果。**那么下一步到底怎么做?做什么?未来几年内能进一步达到什么样的效果?**今天我就分享下我最近总结出来的AIOps发展九大趋势。

做趋势预测是有很大挑战和风险的,好在我之前在AIOps领域还有过成功的预测。

我在2018年1月曾给出一个AIOps宏观预测:我说2018年将是AIOps在中国落地的元年,而据我所知在2018年的确有小几十个AIOps项目开始落地,也就是说我的这个预测的确成为了现实。2019年1月我说2019年是AIOps快速发展的一年,而实际上截止2019年8月份在国内有大几十个AIOps项目开始推进;与此同时,我们看到2019年初的时候人行以及各大银行也发文阐述支持AIOps方向。

我在AIOps具体技术上也有个算是成功的预测。2018年中的时候我已经在公开演讲中讲AIOps平台化这个概念了;之后在2018年底,Gartner的报告也基于与世界范围内的客户和厂商的访谈正式提出了AIOps平台化这一方向。

下面这幅图的左下部分是我的团队给出的AIOps平台架构,该图的右下部分是2009年我在AT&T工作时做的智能运维平台的架构,可以看出两幅图在概念上是非常相似的。所以,从这个例子大家可以看出,我能够先于Gartner提出AIOps平台的概念,不是因为真有什么能看到未来的“水晶球”,而是因为我之前在其它场景下做过类似工作,并且在AIOps方向不断努力推进。当我看到需求到了,相关条件成熟了,自然而然就能判断应该做AIOps平台了。所以,所谓的预测能力无非是经验的积累、不断观察、思考,最重要的是不断的亲手实践,就像林肯和图灵奖得主Alan Kay(面向对象编程语言的发明者)所言,预测未来最好的方法就是亲手创造/发明这个未来。

下面我总结一下基于经验、访谈、观察、思考和实践得出的AIOps发展九大趋势,即行业多样化、产业生态化、数据多样化、场景多样化、场景精细化、算法服务化、技术平台化、落地加速化、成熟度评估的加速化。

**第一个趋势就是AIOps落地的多样化,这个结论是基于我通过多种渠道采集到的信息。**我们自己有一个公众号“智能运维前沿”,马上要突破10000个用户了;我们还有一个超过千人AIOps群,已经成功举办了两届AIOps 挑战赛,我一年中会到几十家各行各业机构去进行现场交流。从上述多种渠道采集到的信息清楚表明:现在开始落地AIOps的,除了互联网公司、银行以外,证券、保险,电力、运营商、工业制造、国家机关、自动驾驶公司也都在尝试AIOps落地。

第二个趋势是AIOps产业生态化。各个行业都在试图尝试落地AIOps,给AIOps方向提供了一个很好的产业基础。“产、学、研、用”各方也都在积极跟进,形成了一个AIOps生态系统。在这个生态系统里,专业的人负责专业的事,有越来越多的学术机构从事AIOps原理研究;由机构用户负责提出实际需求,由有预研能力的厂商把AIOps原理上的突破变成实际落地效果;有负责数据采集、接入、存储等的厂商,还有负责集成、交付、维保等的厂商。也就是说,“学、研、产、用”几方专业分工,通力协作。AIOps产业生态化在AIOps落地过程中是一个重要的里程碑,会大力推动AIOps的更快落地。

**第三个趋势是AIOps数据多样化。**数据中心的系统物理架构和软件架构都非常庞大复杂。因此我们必须采集、治理、融合多种运维数据源、从中提取对运维最有用的信息,帮助我们了解数据中心最新最全的运行状态, 从而为AIOps的众多场景服务。因此我们说AIOps数据多样化是必然趋势。

**第四个趋势是AIOps场景多样化。**下图罗列了一些我们与合作伙伴合作、交流时遇到的具体场景。我们分成几个大场景:即异常发现、事件发现、事件分析、系统画像、图谱丰富等。每一个大场景会包含很多的具体场景,比如“事件分析”大场景就包括“异常机器定位”、“交易链条定位”、“多维度异常定位”等多种类型的事件分析。也就是说,当用户认识到AIOps能实际帮助到运维的时候,会自发与生态系统中的伙伴共同找到越发多样化的AIOps场景。

**第五个趋势是AIOps场景精细化。**如下图所示,异常检测(也就是通过分析监控数据自动发现运维故障)就包含单指标异常检测、多指标异常检测、多维度异常检测、日志异常检测等等。而单指标异常检测在检测业务、机器、网络、数据库、存储系统、批处理的异常时,其场景和检测侧重点会有所不同,因此需要针对精细化的具体场景进行AIOps异常检测算法的适当调整或适配。

为了避免AIOps场景多样化和精细化导致的落地工作量增加,我们必须把各类场景用到的AIOps算法共性部分抽象提炼出来作为公用模块,为多个场景服务。如下图所示,从日志数据测量出的指标数据的异常检测,就可以复用单指标异常检测这一算法模块,并且这一算法模块已经服务化,即可以通过API直接调用。所以我们说的第六个趋势就是AIOps算法服务化,提升了效率,让整体服务得更好。

在AIOps场景多样化、场景精细化、算法服务化的前提下,**第七个趋势,即AIOps技术平台化也就水到渠成了。**AIOps技术平台化打穿多个场景、多个数据源、多个算法。如下图所示,上面输入的是各种运维监控数据,输出的就是我们所需要的各种运维智能,中间是各种服务化的AIOps算法。不管具体的某个运维场景有什么样的特点,我们都可以通过整体平台进行自由组合和编排,从而高效落地该运维场景,避免传统方法的重复低效落地。

这也就引出了**第八个趋势:AIOps新算法落地加速化。**以往一个新算法研制出来后,需要大量的工程工作配合才能让新算法产生实际效果。有了平台化之后,只需要通过编排把该新算法、新算法所需数据、已有工程工作“串”在一起,就能够快速落地。比如做了一个0day攻击检测算法ZeroWall,我们在一家具体机构进行尝试的时候,一周内捕获28种0day攻击,每天捕获上万条0day攻击,每天误报数0到6个。如果按照以往方法,我们要花大量的时间去做ZeroWall的落地工作,而有了AIOps平台化, ZeroWall的落地工作就快了很多。

在过去半年期间,各个行业的合作伙伴都提出了AIOps成熟度评估标准化的需求,而银保监会、证监会、人行、工信部相关领导也都表示会支持。这个事情我也已经着手联合各方开始做,预计一两年的时间才能做出一个切实可行的标准。

总结一下AIOps的九大趋势:行业多样化、产业生态化、数据多样化、场景多样化、场景精细化、算法服务化、技术平台化、落地加速化、成熟度评估标准化。这九大趋势将助力AIOps在今后的几年起飞、爆发。

AIOps落地还会遇到各种各样的挑战。我们需要抬头看天,低头看路,目标一致,脚踏实地,一步一个脚印落地AIOps。AIOps是我本人“择一事,终一生”的事业,希望与更多志同道合的同仁一起,为AIOps这个事业共同奋斗!

谢谢大家!

清华裴丹:AIOps九大发展趋势相关推荐

  1. 清华裴丹:AIOps效果落地最后一公里

    9月18日,第五届双态IT乌镇用户大会"智能运维算法研讨会"顺利举行,必示科技携手国泰君安共同举办.本文由清华大学计算机系长聘副教授裴丹在会上的主题演讲及后续演讲整理而成. 今天, ...

  2. 分布式数据库九大发展趋势|文末附完整报告下载

    随着数据成为第五大生产要素,新兴软硬件技术快速发展,各行各业的数据呈指数式增长,传统集中式数据库面对海量数据存储.高并发等场景的局限性愈发凸显.分布式数据库凭借高可用.高可扩展性.高性价比等优势,已经 ...

  3. 清华裴丹:AIOps 落地路线图

    AIOps概念火热,但如何落地?清华大学裴丹副教授在GOPS上海站的主题演讲中,通过庖丁解牛的方式给出了AIOps落地的技术路线图:同时提出AIOps落地战略路线图,通过AIOps Challenge ...

  4. 清华裴丹:AIOps落地路线图

    女主宣言 基于机器学习的智能运维(AIOps,AI for IT Operations)已经成为运维领域的重要趋势.1月11号我们请到清华大学的裴丹教授前来360,关于AIOps的落地实践问题和我们进 ...

  5. 清华裴丹:我在智能运维科研领域的一些思考

    前言 中国应用性能管理行业盛宴-2017中国应用性能管理大会(简称APMCon 2017)于8月10日至11日在北京新云南皇冠假日酒店隆重召开.本届APMCon是由听云.极客邦和InfoQ联合主办,作 ...

  6. 从IoT World 2019看全球IoT九大发展趋势

    来源:全球物联网观察 美国时间5月14日,IoT World2019在美国硅谷圣克拉拉会议中心举行,今年的主题是"工业与IOT的交互",从大会主题演讲内容和现场产品展示来看,随着5 ...

  7. 李彦宏清华“姚班”专讲 分享互联网九大难题

    百度李彦宏清华专讲 分享互联网九大难题 2012-09-19 李彦宏清华"姚班"专讲 分享互联网九大难题 2012-09-19 15:50  牛华网     我要评论(0) 字号: ...

  8. ccf 智能运维 裴丹_裴丹:智能运维算法需要工业界

    裴丹:智能运维算法需要工业界 学术界密切合作实现技术突破 ■商灏 清华的计算机系,国内一流,而其智能运维研究,据业内人士透露,近两年已超越美国同行,为世界最顶尖水平.本篇可能是国内财经媒体首次触及此类 ...

  9. 清华教授解密AIOps:智能运维如何落地?

    随着 AI 技术在各个应用领域的落地及实践,IT 运维也将迎来一个智能化运维的新时代.算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来. 那么, ...

最新文章

  1. 达摩院年终预测重磅出炉:AI for Science 高居榜首,2022 十大科技趋势!
  2. yarn的组成部分_图解YARN工作原理
  3. 直播 | 天津大学副教授张长青:多模态融合的基础问题及算法研究
  4. Android Gradle使用总结
  5. .NET Core on K8S学习实践系列文章索引(持续更新)
  6. android+自定义alertdialog,安卓自定义AlertDialog
  7. “ORA-01034 - Oracle not available”和“ORA-27101 - shared memory realm does not exist”
  8. Linux 操作系统下常见信号详解
  9. NHibernate教程(14)--使用视图
  10. jxta java_JXTA-JavaP2P JXT
  11. 浅谈:百度竞价恶意点击汇总及处理方法
  12. python maketrans函数_maketrans函数
  13. bat文件(实现批量处理)
  14. 使用overleaf或Latex时,表头两行合并
  15. 学习OpenCV3 面阵相机标定方法
  16. Windows 此电脑->设备与驱动器->图标管理
  17. list集合用stream流distinct去重失效问题
  18. MFRC522_管脚示意图
  19. el-dialog内的el-table实现自适应高度
  20. 你告诉我,读书没有用

热门文章

  1. Fenix – 基于 Node.js 的桌面静态 Web 服务器
  2. vue 二级菜单制作
  3. 百度地图去除骑行线路导航中的节点
  4. Typora 破解版 Mac自取
  5. C#编写网络爬虫爬取网页流和图片
  6. MediaRecorder之音频录制
  7. python 单机程序_Python tkinter制作单机五子棋游戏
  8. python社招面试_社招面试的一些感受
  9. 日语敬语(自谦语 郑重语 尊他语)详解
  10. Qt:QSqlQuery