导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。基于智能化,阿里巴巴重塑了运维体系。通过智能化建设,基础设施的交付效率提升了247%,需求预测准确率达到了每个月至少85%,物理机集群实现了100%全自动化运维。以下是他的演讲内容实录。

大家好,很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。

在开始智能化运维之前,先跟大家分享一下过往两年内,阿里巴巴在专业领域- 里做的大量创新:

  • 我们已经开始大规模使用液冷集群来支持高密度计算
  • 我们在FPGA建设了统一的编译平台,可以提升研发效率接近30倍以上
  • 网络端我们也开始做大量的创新,总的带宽从25G到100G到400G

这些创新支持了现有所有AI业务的发展,同时我们也把AI融入到基础设施领域,让AI重塑现有的基础设施。

智能化可以给未来的基础设施带来什么?

我们把智能化带来的价值分为三层:

最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是,逐步透明化可以帮我们发现基础设施层可以突破的技术点,每家公司的业务都是不同的,对底层也会有不同的诉求,这是最下层数据驱动决策层的价值。

第二层是全局优化。我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道,数据中心内部会规划上架密度,怎样的上架密度是更合理的方式?传统的方式是先对服务器的功耗提出一个评估,然后对IDC机架做评估,而现在的方式是把优化变成实时动态的方式,来提升数据中心的利用率。

最后一层是变革。当我们把智能化的能力运用到平台,就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有的数据中心的运维模式都是属于被动式响应。当智能化后,使用预测算法,就可以提前预估到所有故障,将所有故障的响应方式从被动响应转化为主动服务。

阿里巴巴运维体系重塑

智能化建设最关键的三件事情:

第一, 要把基础设施全面数字化,让所有东西都变成可衡量的体系。
第二, 建设端到端、从业务到基础设施全链条的自动化平台,保证你的决策规划和响应速度。
第三, 建立TCO模型,实现很好的反馈机制,利用反馈不断优化我们的模型。

在智能化领域,我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑,基于这样的思路,阿里巴巴重新规划建设了基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。
通过为这三大平台引入智能化,我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里,我们对这3大平台的改进与思考。

一、 基础设施规划与交付平台

首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC建设、生产供应链以及OS交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责:第一是提升整体交付效率;第二是保证在不断供的情况下实现成本最优。

我们在很多领域里引入算法后,做了很多大的改造。第一个改造是基于机器学习的方式,建立业务规划驱动。这种方式可以让业务具有更强的规划性,在平台可以快速把业务的规划转化成基础设施的规划,提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近247%。

第二个改造是,在链路已经全面在线化的时候,引入智能预测/预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。

第三个改造,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链。

我们在做需求预测,业务端的数据,包括前端的数据,比如阿里云的销售数据,以及下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式。目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。

二、集群自动化运维平台

集群自动化运维平台解决的核心问题是:

一、 怎样提升服务器规模化后的运维效率问题,以及基于业务视角的成本最优的解决方案。
二、 怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。

但是,当你业务发展规模到一定阶段的时候,故障一定是不可避免的,我们怎么做?

第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维。阿里巴巴现在物理机集群已经100%运用全自动化运维方式,这是第一层在工程上的建设结果。

在智能化领域,我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于:第一,基于我们的数据平台,可以把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化;第二,通过对不同类型业务的专业优化,来提升整体业务的成本竞争力。

第二,我们引入了一些算法去做智能异常检测,包含两部分:第一部分是我们在基础设施领域在硬件领域做了大量的故障预测,通过故障预测去提前发现故障;第二部分是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,在万分之八的误报率条件下,召回率比业界最新进展提升20%以上,我们还在做宕机、网络故障预测以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。

三、数据中心智能运营平台

最后一个平台是阿里巴巴的数据中心运营平台,这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。

怎么解决运维效率的问题?通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。
我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。对于最核心的业务,我们最大可以提升接近20%的机柜密度。

同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高,希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化,目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化,实现动态优化PUE。

除了刚才介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都会大量投入智能化,实现全方位的智能化建设。

我今天分享就到这里,谢谢大家!

原文链接
本文为云栖社区原创内容,未经允许不得转载。

阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设相关推荐

  1. 阿里云周宇:神龙计算平台智能运维体系建设

    嘉宾 | 周宇   整理 | 吴林锋 出品 | CSDN云原生 2022年4月12日,在CSDN云原生系列在线峰会第1期"SRE与智能运维峰会"上,阿里云高级技术专家.神龙计算平台 ...

  2. 不信你不来!周老师带你用ArkControl实现自动化运维体系建设

    数据技术嘉年华等你来 活动预告:本周五,周六,北京市东三环中路61号富力万丽酒店,相聚数据技术嘉年华,(99元票务)免费购票倒计时,点击查看大会详情. 周彦伟老师带来主题"ArkContro ...

  3. 安全运维体系建设思路

    安全运维体系是指企业或组织在信息系统运维过程中,为保障信息系统的安全性.可靠性和可用性而建立的一套完整的体系,是企业信息安全管理的重要组成部分之一.通过建立完善的安全运维体系,可以有效地保障企业的信息 ...

  4. 从《进化/运维技术变革与实践探索》看运维体系建设与个人成长

    最近在学习赵成大佬的<进化/运维技术变革与实践探索>一书,在极客时间也有教程.整本书从以下的四个方面进行了梳理:应用运维体系建设.效率和稳定性等方面的最佳实践.云计算方面的思考和实践.个人 ...

  5. 运维体系建设(第一章)

    一.前言 运维的基础工作通常是针对现有系统及项目的,例如服务器.各类云产品,正在运行的项目.监控.账号权限管控,项目上线等等,是宽泛而繁琐的,少有建设性的内容. 那当我们接手一套新的系统,就有必要将它 ...

  6. 神同步的智能运维体系和世界杯442阵型

    世界杯如火如荼地踢,动如脱兔的运动员在屏幕前挥洒汗水.静如处子的程序员们稳坐屏幕前敲键盘. 可是谁说IT人除了盯着屏幕大呼小叫,就没法参与世界杯了呢?不管做的是什么产品什么领域,冥冥之中总有一根红线跟 ...

  7. 运维体系建设(第二章)

    本文主要说明实践了运维标准化的一些实践流程供大家参考 一般公司运维发展的几个流程如下 第一阶段:运维流程化:`一般运维工作按照一定的流程执行,不依赖于运维人员的经验,有一定基本的标准(例如购买ecs资 ...

  8. 云平台下的运维体系建设工作内容

    一.系统运维 系统运维负责IDC.网络.CDN和基础服务的建设(LVS.NTP.DNS):负责资产管理,服务器选型.交付和维修.详细的工作职责如下: IDC数据中心建设 收集业务需求,预估未来数据中心 ...

  9. 应对双11挑战,阿里巴巴智能化运维体系演进与建设

    导读:DevOps 的概念提出接近10年了,提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律.根据2016年DevOps调查报告显示,一个低效的IT组织跟一个高效的IT组织相比 ...

最新文章

  1. 【每日一算法】相交链表
  2. WindowManager.LayoutParams.type属性
  3. python应该怎么自学-我是一个毫无基础的菜鸟,想自学Python,该怎么入手?
  4. Dubbo 序列化协议 5 连问,这谁接得住啊?
  5. jms.jar 2.0_JMS 2.0中JMSContext的类型
  6. 动手学深度学习(PyTorch实现)(九)--VGGNet模型
  7. 软件测试面试题 背完面试没问题 亲测
  8. Hybrid App的架构
  9. Android获取手机MAC地址
  10. 繁星闪烁 ,芳华似锦,走自己的路
  11. 2021年中国货物进出口规模及呈现的五大特点分析:货物进出口快速增长,贸易结构持续优化[图]
  12. luogu1042 乒乓球(NOIP2003普及组第1题)
  13. 2023最新大数据毕业设计论文题目(117篇)
  14. win10网络邻居看到linux,win10网络邻居找不到其他电脑怎么办
  15. 搜索词纠错、相关搜索的原理与实现
  16. 如何写出网站策划方案
  17. .net5项目集成百度富文本编辑器umeditor最全教程(含源码)
  18. 如何通过通达信接口获取最近的分钟级别行情数据?
  19. 《蜀剑苍穹》蓄势待发 1月7日闪耀内测
  20. 为什么睡袋怎么放_秋季昼夜温差大,宝宝睡觉该怎么盖被好?教你几招轻松解决...

热门文章

  1. vestacp 远程mysql_免费使用VestaCP控制面板的文件管理器 | 雷雨博客
  2. run till exit from #0_华为认证hcip H13821 v2.0云服务考试真题每日一练(一)
  3. vba php,VBA
  4. sublime运行python代码_怎么用sublime运行python
  5. java代码复数包括虚部和实部,Java中编写Applet程序验证复数类(在问题补充中)实现接收用户输入的复数的实部和虚部,计算复数与复数,复数与实数的加减,乘除操作...
  6. python垃圾回收 采用方式_python-面向对象-10-__del__析构方法/垃圾回收机制
  7. php弹幕技术轮询,PHP+Ajax实现在线聊天长轮询
  8. c++ map 初始化_如何调整Linux内核启动中的驱动初始化顺序?
  9. linux内存使用策略swap,Linux Swap使用分析
  10. 耿美玉起诉饶毅名誉侵权,法院判了!驳回请求,但对饶毅方也应给予批评