只有今天周密的“运”筹帷幄,才有将来持续的“维”护稳定。不久前,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。

一、降低延迟,避免系统性能急剧变化

运维的本质是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。在 ICT 行业里,运维人常常调侃“运维是对应用的承诺,不离不弃一辈子”。他们就像是数据中心和公司里IT资源的管家、保安、救火员。

阿里云智能资深技术专家、对象存储研发负责人罗庆超对此深有体会。他回忆起了阿里云大客户请求延时抖动保障的过往,指出云存储服务请求的延时抖动厉害的时候,应用整体性能会产生过山车式的变化。

而云上的请求延时包含网络延时和存储延时,云服务的网络非常复杂,包含BGP(Border Gateway Protocol)和静态的公网以及数据中心内的网络。找出影响延时的拥塞点和合理调度,对避免造成拥堵至关重要。

存储服务还要处理好介质访问的延迟问题,机械/固态盘也是个复杂的系统,压力越大延迟越高。特别是在分布式存储系统中,还会带来病毒式的传染效应。对象存储OSS为了降低延时的抖动,从快速监控、准确告警、根因分析、优化调度入手,将延时抖动控制在合理的方差范围内,保证了良好的客户体验。

华中科技大学研究员、博士生导师吴非笑言,由于自己来自高校,并未亲身感受到运维人的压力,但能理解堪比永动机的7*24待命之不易。当前云存储的可靠性要求是11个9,固态硬盘和传统机械硬盘是云存储中最基础的数据存储单元,维护起来并不简单。前者的存储介质由闪存构成,从原理上讲,闪存就像一道门,每开一次就有一次磨损,在使用过程中不可避免会出现老化,逐渐吱呀作响,故障也接踵而至;后者像机械机器一样不停摆动,但终有停转之时。在由成千上万的固态盘或硬盘所构成的存储系统里,要保证如此高的可靠性,运维人的压力可见一斑。

二、因时而变,智能化运维大势所趋

“欲善新基建,必先利运维”。在企业数字化进程中,运维则是浓墨重彩的一笔。

字节跳动数据库存储技术负责人张雷表示,从传统的手动运维,到DevOps的自动化运维,再到AIOps的智能化运维,运维技术在近十几年实现了跨越式发展。字节云数据库云存储整个运维体系的发展历程,也大致分为三个阶段。

第一个阶段在2016年以前,整体的数据库和存储的体量都不是特别大,团队运维还处于“刀工石斧”的状态,也就是基本上靠人工就能搞定。

第二个阶段是2017到2021年,业务的规模飞速发展,云存储的系统也达到了EB量级,数据库的规模都是几千甚至上万套库,人工运维天花板已显现,因此运维团队转而构建一些自动化的运维平台,依托这些平台去搞定运营问题。

第三个阶段是自2021年年中,依托AI等技术的第三代运维体系开始构建。将运维人员的知识和运维经验与大数据、机器学习技术相结合,融入到运维系统中代替人力,从而解决更大规模上的运营效率问题。

在这三个阶段中,整个业务体系的发展,呈现出两方面的能力跃迁:一方面是运维的文化、组织、能力的提升,通俗的理解就是大家摸黑前行,从做个体运维到成体系、成建制地构建了专职的运维的SRE的团队去运维;另一方面,整个运维体系和服务化的一些技术体系也都在前进,比如从最早期的管理几十台服务器到现在管理几十万台服务器,就是技术体系不断演进去支持的。总而言之,运维的文化和组织、以及运维的技术体系,这两条路是齐头并进的。

三、快速定位,诊断问题根因所在

随着业务走上云端,运维也逐步“云化”。资源监控、终端管控、安全支持等运维服务转化为云端应用,企业可以根据需求实现订阅。

张雷表示通常会关注服务的黄金指标,尤其是跟稳定性相关的一些黄金指标,因为对于大型在线服务而言,稳定性可能是第一位的。此外,他更关注长期的所依赖服务的一些技术演进路径,以便未雨绸缪,保证在技术或者产品形态上发生巨变时,运维/运营体系不会掉队。

罗庆超指出阿里云对象存储OSS作为服务的提供商,要做到服务承诺的SLA(服务级别协议)和 SLO(服务级别目标)这两个关键指标。细而言之,OSS官网承诺了可用性的SLA为业界领先的99.995%,那作为服务商就一定会按指标准来度量请求的成功率,想尽千方百计来保证该指标。SLO则是更详细的服务项承诺,例如保障客户的请求整体的带宽要能够达到稳定的Tbps级量级,同时一些典型的请求时延能够保证在100ms这个量级,不能有太大的波动。

近期阿里云还会发布一个可观测服务CloudLens,会为客户提供主流云产品的运维知识。CloudLens为对象存储OSS提供了用量分析、性能监控、安全分析、数据保护、异常检测、访问情况分析等功能,从而在成本、性能、安全、数据保护、稳定性、访问分析6大维度支撑客户的管理能力。

吴非认为,为了支撑应用的快速发展,存储技术也在不断演进。从传统的磁盘阵列到集中式存储,再到现在系统里可能有几十或者上万台服务器的分布式存储。在技术上首先需要考虑怎样保证成千上万台服务器能够可靠运行。从运维的角度看,就是要不出故障或者少出故障,或者快速检测出故障,达到快速修复、快速恢复、快速检测等指标。

近年来AI发展得如火如荼,高校科研人员也在做用AI提前预测系统故障的相关研究,希望在系统故障发生前完成数据迁移,从而有效减轻运维的压力。

四、产学研用,打造成长共同体

运维为业务系统提供的保障,既离不开阿里云这样的服务提供商的布局,又离不开字节这样的产品使用方的努力。而高校及科研院所作为基础理论技术与前沿技术研究的主体,在较多关键前沿技术方面拥有深厚的基础技术储备和丰富的理论研究基础。因此,产学研合作创新是产业发展需要重视的一个板块。

吴非表示,用“共同成长体”去定义这样的合作关系较为妥帖,这个链条包含了创新链、产业链以及用户链。正是因为有这样的联盟将用户方、研发方链接在一起,促进彼此的发展。用通俗的说法就是产、学、研、用为一体,各方共同成长、促进技术的发展与落地。

比如高校研究云存储的可靠性问题时,提出一种新算法,在推进算法落地应用过程中,可能需要跟字节跳动、阿里云等企业合作,在实际系统上部署算法,推动产业发展。

吴非还提到,在产学研界跨界创新也成为高校专家学者自身职业发展规划中的重要一环。不少专家学者在产业界致力于推动技术落地之后再次选择回归学术界,这个叫做“学术休假”。她相信,未来学术界和产业界之间会进一步深入融合。

张雷认为,产学研一体化是技术从诞生到广泛应用的重要背后推手。最近几年,云存储系统的一些技术已然固化,他首先希望学术界、研究界能够在基础设施领域里带来更多突破:无论是存储的介质、还是整个云存储体系结构的突破,亦或是一些体系、运维思路、方法上的突破,都可以为行业带来新生机。其次,产业界也要精益求精,大胆尝试新技术、新方法、新思想,并将其融入到合适的场景中。因为产业界的大型企业如字节跳动,整个技术体量、服务器、数量存储量规模都比较大,其实有一个非常好的技术杠杆效应。即使看起来一个非常小的一个技术优化,但放到体量大的场景下就能产生非常大的价值。所以,产学研各方的互相支撑是十分必要的。

罗庆超指出,阿里云作为服务供应商,共同成长核心有两点:一是为共同的运维能力提供底座的服务,二是吸收客户和业界、学界提供的一些输入以及先进思想,从而帮助底座成长。

针对两位嘉宾提到的产学研结合,罗庆超表示,在共同成长的演进上有两个阶段可能会非常重要。第一个阶段中,CCIA这样组织提供了一个共同成长的土壤和生态,把这个CCIA运作好,可以为运维、技术的共同成长打下坚实的基础。第二阶段,共同成长体一定要结出成果,比如通过CCIA这个组织,搭建交流桥梁,孵化出一些在业界颇具影响力的标准白皮书或者技术上的创新点子。

结语:随着高校功能从人才培育、科学研究延伸到社会服务,企业、协会与高校合作将进一步深化,这无疑有利于形成良性发展的循环圈,推动存储科技成果加速市场化,而在这个过程中,不管是用户还是厂商都将受益匪浅。

原文链接

本文为阿里云原创内容,未经允许不得转载。

关于运维,阿里云、字节、华科的专家如是说相关推荐

  1. 从传统运维到云运维演进历程之软件定义存储(一)

    运维是企业业务系统从规划.设计.实施.交付到运维的最后一个步骤,也是重要的步骤.运维从横向.纵向分可以分为多个维度和层次,本文试图抛开这纷繁复杂的概念,讲述一个传统的企业级运维人员转型到云运维人员,尤 ...

  2. 售电公司盈利模式,浅谈电力(运维)云平台运用

    2015年3月25号,国务院发布<中共中央.国务院关于进一步深化电力体制改革的若干意见>(中发[2015]9号),简称"电改9号文".本次电改将有利于还原电力的商品属性 ...

  3. 传统运维与云运维到底有什么不同呢?

    主要是线下和线上的工作环境的不同,采用了云服务即代表IaaS底层的硬件问题不再需要我们去解决.现在的运维再也不是一个整日沉浸机房和物理设备打交道的打工人,相反而是坐在办公室里监视着云服务运行情况的打工 ...

  4. BatBot智慧电力(运维)云平台

    云平台背景 据国家电网公司的统计,10kV及以上供电电压等级的工商业用户有200万户以上,此类"用户侧变配电所"产权归电力用户所有,配电房.开关站.电缆井的数量也越来越多,这些供电 ...

  5. 【IT运维】传统运维与云运维到底有什么不同呢?

    很多IT运维人员最近比较困惑的一个问题就是,是否要转为云运维?传统运维与云运维到底有什么不同呢?谁能简单说一下. 第一.工作场景不同 主要是线下和线上的工作环境的不同,采用了云服务即代表IaaS底层的 ...

  6. 前沿分享|阿里云数据库解决方案资深专家 李圣陶:云原生数据库解决方案 加速企业国产化升级

    简介: 本篇内容为2021云栖大会-企业级云原生数据库最佳实践论坛中,阿里云数据库解决方案资深专家 李圣陶关于"云原生数据库解决方案 加速企业国产化升级"的分享. 本文从几大视角来 ...

  7. 阿里云弹性计算产品专家张新涛:元宇宙应用时代的澎湃算力

    2022 年 9 月 2 日,在世界人工智能大会"区块新生 数字宇宙--元宇宙技术与生态合作"分论坛上,阿里云弹性计算产品专家张新涛带来了题为<澎湃算力,同频沉浸>的主 ...

  8. 云服务器运维兼职,云服务器的维护工作主要有哪些?

    云服务器因为响应速度更快.更方便使用.升级更方便.具有较高的性价比等优势是很多用户建站的首选方案.我们在购买云服务器后,要想保证长期稳定的使用,除了依靠云服务商的技术支持,自身必要的安全维护手段也是不 ...

  9. 服务器运维事项,云服务器的运维工作要注意的事项

    从字面意思来看,云服务器的运维指的是对云服务器的运营和维护. 运维,是以技术为依托.通过技术软件来实现服务器稳定安全工作的服务. 在日常的运维工作中,云服务器的配置以及技术需求,决定了运维需要技术人员 ...

最新文章

  1. 7个让你惊叹的HTML技巧
  2. 《女性的选择》--[日]今野由梨
  3. 容器打印日志到控制台阻塞的排障
  4. SpringMVC视图解析器(转)
  5. java中的进制输出转换_java中进制的转换,Byte与16进制的转换
  6. 长期演进技术(LTE,Long Term Evolution)
  7. 自动驾驶算法-滤波器系列(八)——IMM交互多模型介绍
  8. Matlab toolbox Manopt流形优化工具包介绍
  9. HC-05与JDY-09蓝牙模块对比与使用
  10. 项目经理需要什么职称 计算机,项目经理要什么职称
  11. 3大奇葩排序之猴子算法
  12. Matlab运动模糊,维纳滤波
  13. PyCharm 里面的 c、m、F、f、v、p 分别代表什么含义?
  14. XShell4 SSH服务器拒绝了密码解决办法
  15. SpringDataJpa (二)-动态查询多表操作
  16. Hbase学习中遇到的问题
  17. 数据库管理系统MySQL(一)
  18. Qt事件体系概述(The Event System)
  19. 学习随笔#12 最优化控制(Optimal Control)
  20. 股市有风险,入市需谨慎,风险和谨慎如何理解?

热门文章

  1. 如何在vs studio中使用代码云托管
  2. 小米平板刷android l,小米平板5即将杀到:骁龙870/天玑1200双芯片+11寸高刷大屏!...
  3. Day4 - 迭代器生成器、装饰器、Json pickle 数据序列化、软件目录结构规范
  4. Java-截取PDF中的某一页作为缩略图
  5. Radmin LAN 深受 600 万用户的信任,免费的外网连接工具
  6. freeswitch笔记2:呼叫中心坐席转接
  7. 模糊控制中比例系数的确定和输入e和ec,即变化和变化率的选取
  8. 【整理】什么是SDK(软件开发工具包)
  9. NASA重新评估SLS火箭后定于2020年6月首飞,比原定计划延后一年
  10. 【金融客服AI新玩法】语言学运用、LSTM+DSSM算法、多模态情感交互