网易有数海量任务调度和智能运维实践
https://mp.weixin.qq.com/s/LJIS7xeHsiTpf12os3DtNw

  1. 根据依赖关系,智能推算出每个具体实例的完成时间。

实现:任务运维中心最核心的一个逻辑就是:根据依赖关系,智能推算出每个具体实例的完成时间。在推算前,需要先将跨流依赖打平,打平的主要目的是为了方便后面的推算。打平的逻辑也比较简单,就是将工作流依赖节点打平为节点依赖节点。如图所示,下游任务1依赖上游任务的c节点,经过打平后变成了下游任务1的a、b节点依赖上游任务的c节点。在依赖完全打平后,我们可以将实例及其依赖关系看成一个很大的dag,这样每个节点的预计完成时间就能比较容易的推算了,具体公式为:当前节点预计完成时间 = 所有上游节点预计完成时间的最大值 + 预计运行时长。这里的预计完成时长可以通过近14天的实例运行时长取平均值计算出来。

拓展:
1)实例运行概况大盘。通过大盘可以宏观展示项目下所有任务的产出进度,它可以显示当前未完成任务数量,完成率,以及预计完成时间等信息。可以方便项目的管理者把控当前项目的产出进度。

2)关键路径的功能。引入了基线的概念,业务团队可以将一些比较核心的任务挂在到基线上,基线具备预警时间与破线时间,如果基线上的所有实例的最晚预计完成时间超过基线所设置的预警或破线时间,就会触发报警,将延迟信息告知到项目值班组的成员。借此可以使得业务团队可以提前感知预警信息,已达到提前解决的目的,最终将事故扼杀在摇篮中。
针对每个基线或者任务,我们还提供了关键路径的功能,通过关键路径可以找到影响该基线、任务产出的最长链路,从图中可以看出,这三个任务的运行时长较长,因此针对这三个任务进行优化,可以获得很高的收益。

3)产出影响分析。我们还将任务血缘与数据血缘进行了打通,为每个任务都提供了产出影响分析的能力,比如图片中的这个任务,它会影响了3个数据产品,下游关联的实例数达到31个,同时可以看到它的预计完成时间为 07:39,通过这个功能,就可以帮助业务在任务发生故障时,评估该任务的影响范围,继而决定该如何处理,同时评估是否需要提前告知下游业务同学。

  1. 大规模故障处理提供了两把利器,分别是冻结池与加速器。

1)冻结。冻结池主要用于大规模数据故障的恢复工作,比如某天某个数据开发同学改写了一个比较上游的ETL任务,将里面的逻辑写错了,但任务不会报错,而是产生了错误的数据。该任务导致的数据错误,往往会通过下游依赖波及整个业务线。冻结池功能可以在极短时间冻结住该任务及其下游的所有任务,被冻结的任务将不会产生调度实例,同时会终止运行中的实例。待数据开发同学修复好上游任务后,点击解冻按钮后,冻结池将会对已经产生实例的任务进行重跑,待重跑成功后将会解冻,对于未产生实例的任务直接解冻即可。在网易内部的一次业务故障中,该功能将原本三天才能完全恢复的故障,缩减到了3小时内恢复。

2)加速器。加速器功能主要面向“计算资源短缺时,保障核心任务产出”的场景。业务同学可以选择几个核心任务,然后点击加速功能,加速器会先将当前项目下的所有任务全部冻结,然后根据这几个核心任务向上推算它的所有上游任务,并将这些任务解冻。通过将非核心的任务冻结住,以减少对现有资源的消耗,保障核心任务有足够的资源执行。

网易有数海量任务调度和智能运维实践(整理)相关推荐

  1. OceanBase在蚂蚁金服的智能运维实践之路

    OB君:蚂蚁金服资深技术专家虞舜将在本文为大家分享蚂蚁金服数据库所面对的业务挑战,解读OceanBase的自治数据库体系,解密OceanBase在天猫双11大促期间的稳定性解决方案,探索OceanBa ...

  2. 阿里智能运维实践|阿里巴巴DevOps实践指南

    编者按:本文源自阿里云云效团队出品的<阿里巴巴DevOps实践指南>前往:https://developer.aliyun.com/topic/devops,下载完整版电子书,了解阿里十年 ...

  3. 智能运维实践——魅族技术开放日第十三期现场纪实

    10 月 20 日,由魅族科技联合Flyme.麦思博(msup)有限公司.百度云主办的第十三期魅族技术开放日"智能运维实践"在深圳虚拟大学园触梦社区顺利召开,近200位运维从业者齐 ...

  4. 苏宁海量服务器自动化配置运维实践

    运维的演进 人力运维阶段 在IT产业的早期,服务器运维是通过各种Ad Hoc命令或者Shell脚本来完成基础设施的自动化工作,这种方式对于简单,一次性的工作很方便,但是对于复杂和长期的项目,后期的脚本 ...

  5. 中国民生银行:智能运维引领数据中心数字化转型

    今天我演讲的题目是<智能运维引领数据中心数字化转型>,跟大家分享民生银行在智能运维领域的探索和实践. 01 数字化转型,运维新挑战 金融行业是对信息技术应用最为广泛和彻底的行业.首先,我从 ...

  6. 阿里云日志服务SLS,打造云原生时代智能运维

    2021年10月21日,阿里云针对企业运维难题,在云栖大会为大家带来了一场<智能运维论坛>的主题演讲.在会上,阿里云资深技术专家.日志服务技术负责人简志提出"云原生时代,企业业务 ...

  7. 赠书 | 十年运维经验总结出的智能运维系统落地方案,不得不赞

    对于互联网公司来说,系统复杂化导致的人工运维成本激增已经是普遍现象,采用智能运维是行之有效的应对策略.智能运维的核心思想是利用算法来处理海量运维数据,积累运维经验,从而代替人工思考判断,以自动化的过程 ...

  8. 值得一看的智能运维AIOps关键核心技术概览

    作者:Neeke Gao,云智慧企业效能高级总监 前言 传统运维管理的人工及被动响应方式,已经无法支撑数字化业务灵活.快速的发展,要靠智能运维(AIOps)能力来获得数据分析和决策支持.而从传统ITO ...

  9. ccf 智能运维 裴丹_智能运维是什么?

    以下内容出自<应用智能运维实践>. 近几年,人工智能技术发展很快,通常理解的智能运维是把人工智能技术应用在IT运维领域,替代人工进行风险管理决策.从通过机器实现自动化流程.替代人工并解放运 ...

最新文章

  1. Linux那些事儿 之 戏说USB(28)设备的生命线(十一)
  2. http协议的队首阻塞
  3. matlab simulink互感,Simulink互感模块用set_param函数不能正确赋值
  4. linux中iso文件怎么安装系统文件,我有linux的iso文件,要怎么安装系统
  5. ==和equals()比较
  6. 超级计算机操作系统有什么不同,超级计算机功能强大吗?它与普通计算机不同,但也使用Windows系统...
  7. oracle/PL/SQL编程(4)
  8. STM32 IWDG时间计算方法
  9. steam新授权软件_「西米软件推荐」桌面乱七八糟的人,请认真看完
  10. 简易版WoMic(二)
  11. cef 前进后台 实现_使用CefSharp前端后台交换
  12. word怎么把页面顺序倒过来_word设置倒序打印的方法
  13. ShuffleNet神经网络
  14. 如何写一份合格的SAP功能开发说明书--报表类
  15. windows手动清理垃圾文件
  16. 利用selenium 爬取豆瓣 武林外传数据并且完成 数据可视化 情绪分析
  17. 如何批量将手写数据转Excel?
  18. python保存3通道图片为8位深度图
  19. 加州理工学院宋飏老师招收机器学习全奖博士生|2023秋季
  20. 如何取消计算机关机,如何取消电脑自动关机

热门文章

  1. oracle单行子查询返回多个行 order by,单行子查询返回多个行
  2. Excel数据分析系列(5):Excel 数据可视化
  3. 《Thinking in Bets》读书分享 - 如何在信息不完全情况下做出更好的决策(1)
  4. charles(抓包神器)
  5. c 语言 时间间隔(多实例测试)
  6. 华为云 ModelArts 应用轻松实现图片识别
  7. 测评Mimick模型对词向量重构效果
  8. 如何正确使用数据可视化图表?
  9. 无线传感器网络路由协议
  10. 腾讯、百度、高德、谷歌、天地图地图瓦片