在过去半年中,作为新零售的典型代表——盒马鲜生飞速发展,比如:

2017年9月,盒马鲜生五城十店同开,“盒区房”成为新零售行业新名词;

2017年10月,盒马鲜生上线SOS服务,实现30分钟内必达;

2017年11月,盒马鲜生推出“日日鲜”,蔬菜、肉类、牛奶等不隔夜;

2017年12月,盒马鲜生首家便利店F2正式开业;

2018年1月,盒马鲜生推出多品类7×24小时配送服务。

新零售的高效稳定运行有什么秘诀吗?

+

为保证盒马鲜生业务的稳定性,阿里巴巴GOC(Global Operations Center,阿里全球运行指挥中心)凭借丰富的运维保障经验,结合其业务的实际情况,在一个月内通过“运行无间”协助业务团队完成多项稳定性任务的优化升级,保障盒马鲜生半年内20多家门店在业务快速发展的同时,其业务系统始终稳定运行。

基于此,GOC新零售运维保障树立了新的标杆。

如何做新零售的运维保障?目前阶段,就是全生命周期新零售场景故障的管控,形成体系闭环,实现快速解决、持续改进,并支撑产品的有效落地。大致可以分为以下三个层面:

第一,线下门店故障的快速感知与恢复。新零售的线下门店强调用户体验,GOC通过业务监控、一键反馈、应急响应、快速恢复等方式迅速消除故障对于业务的影响,持续保障优质的可续服务体验。

第二,智能硬件故障的高效有序处理及复盘。新零售的智能硬件追求创新,GOC保障智能硬件在新业务场景下快速迭代创新的同时,杜绝故障重复发生。

第三,供应链故障的有效防范,即通过稳定性数据分析、仓储配送链路稳定性建设,提前预判仓储配送负荷高点,防止所有能预防的故障。

具体来说,按照阿里的运维保障域体系,可以分为以下七个部分:

1.故障防范

2.故障感知

3.应急响应

4.快速恢复

5.原因定位

6.故障复盘

7.演练验收

下面,将详细介绍这七部分内容,具体来看如何保障新零售业务的安全稳定运行。

第一,故障防范。

在新零售故障防范阶段,GOC重点关注三方面问题:一是数据运营,二是平台管控,三是日常演练。

首先,看看新零售的稳定性数据运营。稳定性数据主要是围绕业务连续性,一般来说,包含故障情况、处理时长、监控占比、改进落地等维度,然后分析实际数据,出具规范的稳定性分析报告。但具体到新零售业务时,区域门店、智能硬件、采配物流等功能的流畅体验变得尤为重要,因此我们也加大了对其稳定性情况地分析,比如统计故障具体影响多少门店;门店营业期间的故障耗时及占比;故障中多少比例是门店投诉上来的,还是由监控先发现的。

其次,新零售平台的管控。核心产品是ChangeFree,它是阿里巴巴基于数据运营实现变更管控的平台。当新零售业务的故障刚出现时,线下用户刚刚有感知,通过快速回滚就可以进行故障恢复。

这中间有两个关键点:一是,看变更能否发到线上,期间会有一系列的管控,可以通过严格的变更红线来衡量线上变更;二是,看变更到线上后是否符合预期,这是非常关键的。符合预期不是说是否符合变更人的预期,而是指它是否符合不影响线上业务的预期。这是客户最在意的,也是GOC最关注的。比如阿里巴巴中台的某技术团队做了一个非核心的边缘变更,但这个变更通过几层链路的传导,可能会传到新零售交易的核心链路,那么整个线下交易就会被阻塞。在出现这种情况时,如果没有一个好的平台作为支撑,用户很难找到引发这个故障的具体变更。而GOC通过大量的实际案例,以及算法,可以轻松解决这类问题。

最后,日常演练很重要,要把它当作日常的事情来做。特别是对于新零售业务来说,日常演练必不可少。

第二,故障感知。

对于故障感知,GOC有三点心得。

首先是新零售业务监控。业务监控是监控的一种,它与故障等级定义相关联,在保障新零售业务的稳定运行方面特别有用。例如,故障等级定义为当新零售交易量下跌超过5%达到重大业务故障级别,那么一旦发生新零售业务某处量值异常下跌10%,全链路上某些系统稳定性偏低的团队就会比较紧张,怕是自己的原因导致的,会采取措施尽快响应并恢复,否则时间久了,就会发酵成更大的问题。现在,大家都已认同业务监控的重要性,通过大家公认的业务监控,很多很复杂的故障,也能有效集中力量去快速恢复。

其次是全维度监控,即从各个维度,包括在IDC、网络、应用、系统和业务等层面进行监控。业务层面还可以再细分,不是所有的接口都是很“致命”的接口,有些接口的重要性会降级。比如,“双十一”时,会把购物车中是否已收货的状态接口降级,用户暂时不可见,但是不会影响下单和支付。

最后是智能监控,其核心是为了解决报警不准的问题。一般来说,新零售业务刚开始的时候,业务量不太大,但很关键,会出现经常抖动的情况。GOC主要通过智能监控来解决频繁报警的问题,即通过算法计算预测业务的基本趋势形成一条业务基线,与业务实际值进行比较,报警可以只设一个相对于预测基线的水位有没有下跌即可,不仅方便,而且准确。

第三,应急响应。

在新零售运维保障上,GOC做了非常多具有挑战性的事情,比如7×24小时应急。新零售业务通常不会7×24小时营业,但是在非营业期间,往往会有更多的生产环境变更、演练等操作,7×24小时应急可以更好地保障新零售的业务连续性。

现在,GOC已经在美国的硅谷,以及北京和杭州实现7×24小时应急响应。未来,GOC希望在中东或者欧洲也能拥有一支具有快速响应能力的团队,真正实现日出而作、日落而息的7×24小时应急服务。

第四,快速恢复。

对于新零售业务来说,快速恢复是最重要的事情。不管是故障感知,还是应急响应,其最终目标都是要快速恢复。往往快速恢复还有一个误区:不是故障恢复了,业务就自然恢复了,有时故障可以先不恢复,而业务先恢复了。

这其中有一个关键点,就是隔离,隔离后就可以让用户不受影响。因此GOC推出了“一键恢复”,非常方便,在很多场景下,应急响应同学轻松一键,便能快速恢复故障。

第五,故障定位。

故障定位包含初因定位和根因定位。这是一对矛盾。

初因定位对于我们来讲,最浅层的故障原因就两种可能:要么是容量不够,要么就是有变更。这里的变更是指非常广义的变更。阿里巴巴对于变更的定义是集团通行的,即生产环境中的一切操作都属于变更,比如从跳板机登录生产机的操作也属于变更。

GOC对于变更的定义十分严格,很多开发人员并不理解。曾经发生过这样的案例:较早前出现过一次影响面较大的复杂故障,详查原因,原来是有人在线上改了一台机器JVM的参数,产生了连锁反应,影响到上下游很多应用。因此,在实际工作中要“敬畏”生产环境,严格把控。

第六,故障复盘。

故障复盘有两个方面:总结沉淀和措施改进。ITIL中也有故障复盘,就是把导致这个故障的前因后果按照时间序列列出来,并且列出所有故障改进的Action。

GOC会关注故障改进的及时完成率,而不是看完成率。为一个故障推出改进措施时,这个改进措施会影响故障的再次发生,如果及时将故障消除,那么这个故障再发生的概率就会降低很多。如果不能及时消除故障,那么第二天该故障很有可能再次发生。这个风险必须及时消除。新零售业务的很多团队,在每次故障之后能够及时核对和检查改进措施是否已完成,及时发现线上的风险,并将其消灭。

第七,演练验收。

演练验收有一个悖论,每次运营人员问开发人员,优化措施是否完备,得到的答复都是没问题,但故障仍旧再次发生。而开发人员对此的解释是,这是意外情况。

解决这一问题,应该通过演练进行验收,跟进具体改进措施的结果是不是达到了预期。相比于淘宝、天猫,阿里巴巴的新零售业务虽然开展不久,但演练已经做了很多次。

演练验收的一个核心点是,要具备隔离环境的能力,以及完善的演练机制,切实将线上的Action尽快落地到演练中,变成日常性的工作,只有反复演练,才能在故障发生时做到心里有底。通过演练系统,可以很快地落地,并且形成闭环,这对新零售业务团队是非常宝贵的经验。

通过运行无间最佳实践落地的新零售运维保障方案可参考下图所示。

新零售的运维保障还在路上

+

从电子商务起家的阿里巴巴深知业务稳定运行的重要性。

新零售业务在发展的过程中,往往面临问题渠道多,恢复速度慢,系统链路长,大量新型智能硬件广泛使用的挑战。但是GOC确实是一支善于打胜仗的队伍,借助运行无间最佳实践,仅用一个月时间,就将新零售的代表盒马鲜生的业务稳定性水平提升到阿里巴巴集团的平均水平,并且经受住了“9·28”“双11”“双12”等重大活动的考验。

GOC在阿里巴巴有超过10年的运维保障经验,曾协助阿里经济体的各个业务,如B2B、淘宝、支付宝、天猫、手淘、阿里云、钉钉、高德、优酷、盒马鲜生等实现快速增长。GOC一直专注于运维保障领域,积累了数万起故障管理经验,以及超过百万的工单管理经验,在开发行业运维保障解决方案方面处于业内领先地位。

从底层的产品支撑,包括故障管理平台、应急响应平台、变更管理平台、容灾演练平台、运行分析平台,到涵盖问题收口、监控发现、核心链路梳理、硬件业务监控、工单管理、快速定位、一键恢复等众多功能在内的运行无间解决方案,GOC靠着对稳定性问题的深刻洞察,以及技术创新和解决实际问题的能力,使业务在基于实体门店和智能化物流、精准化运营的新零售道路上走得更加快速、稳健。

探索新零售运维保障解决方案的最佳实践,GOC仍在路上。

想了解更多有关新零售应用IT运维方面的内容,请关注本公众号的《谁来保卫“新零售”的稳定运行?阿里巴巴GOC运维保障浮出水面》一文。


Happy

过年了!今年过年有什么不一样?

“云报”将首次携手云计算领域的16家小伙伴(还有神秘大来宾哟),从大年三十开始,一直到正月十五,每天一家厂商给大家拜年,并有红包奉上。欢迎关注云计算及相关技术和应用领域的小伙伴们加入“云报——2018春节团拜会”群,一起欢乐!

有意者,可以填加涛哥的微信TAOGEBJ,注明“入群”即可;或者在文章下留言。

HELLO 2018




最“全”新零售运维保障解决方案——阿里巴巴GOC技术实践经验独家曝光相关推荐

  1. 腾讯云DevOps技术揭秘:新时代运维重器Tencent Hub最佳实践

    随着云计算和容器技术的发展以及微服务架构的兴起,服务能够实现细粒度的部署,维护和伸缩.在使开发人员能快速开发的同时,这些技术也给系统和应用的运维带来了更大的挑战.DevOps理念也应运而生,强调研发和 ...

  2. 新开班全栈Linux运维-Linux云计算运维与高级架构班课程 全新自动化运维必学课程

    新开班全栈Linux运维-Linux云计算运维与高级架构班课程 全新自动化运维必学课程 全栈Linux运维的课程意义,在于让同学们从Liunx基础课程开始,一路直通Liunx运维高级架构师的级别.全新 ...

  3. 智慧轨道交通运维监控解决方案

    交通作为国民经济和社会发展的基础性.先行性产业,在整个社会经济.民生发展中占有举足轻重的地位,随着包括5G基站建设.城际高速铁路和城市轨道交通.大数据中心.工业互联网在内的新基建按下加速键,轨道交通云 ...

  4. 运行无间:阿里巴巴运维保障体系的一种最佳实践

    本文根据 GOPS2017·上海站演讲<阿里巴巴运维保障体系的一种最佳实践>整理发布 前言 阿里巴巴全球运行指挥中心,GOC (Global Operations Center)保障阿里经 ...

  5. 绿色双碳目标发展:ZTMap三维融合渲染平台打造数字孪生智慧电力运维保障系统

    前言 2021年3月,中央财经委员会第九次会议正式提出"构建以新能源为主体的新型电力系统" 深化电力体制改革,实现"双碳"目标.面对 下半年双碳目标政策的爆发性 ...

  6. 电力营销系统的业务连续性,需要这样的运维保障

    "互联网+"是我国工业和信息化深度融合的成果,它的出现改变及影响了包括电力行业在内的众多行业.作为"低调"又无处不在的电力系统,与人民群众的日常生活紧密相关,& ...

  7. 北京智和信通:IT资产全生命周期运维监控管理方案

    IT资产是企业开展正常业务运营和拓展不可或缺的资源,也是企业财产的重要载体.随着信息科技的快速发展,各企业对IT资产的依赖逐渐增强,IT资产的可靠性和有效性面临着愈来愈大的挑战.例如IT资产管理混乱, ...

  8. 大数据开源项目,一站式全自动化全生命周期运维管家ChengYing(承影)走向何方?

    原文链接:三分钟走进袋鼠云一站式全自动化全生命周期运维管家ChengYing(承影) 课件获取:关注公众号 ** "数栈研习社",后台私信 "ChengYing" ...

  9. 新IT运维时代 | Docker运维之最佳实践-下篇

    2019独角兽企业重金招聘Python工程师标准>>> 上篇针对操作系统.主机配置.容器镜像.容器运行时四大方面分享一些Docker的运维经验,本篇将着重在Docker Daemon ...

最新文章

  1. 【转】 Android中退出程序的提示框
  2. ASP.NET MVC 4 (十一) Bundles和显示模式
  3. 小程序订单点击不同页面_小程序跳转页面参数丢失
  4. elk中kibana中如何显示写入elasticsearch的数据
  5. 信息学奥赛一本通C++语言——1093:计算多项式的值
  6. 徐明星斥资超4亿香港买壳:史玉柱女儿现身股东行列
  7. UIView 移除子视图
  8. 推荐系统笔记二、矩阵分解协同过滤
  9. HDOJ 2037 今年暑假不AC
  10. 【一键新机】免root/不刷机/拒绝Xposed 实现 Android改机,全新技术分析。
  11. 16 Cesium—矢量数据
  12. 编译安装freeswitch-1.4.26
  13. Palabos User Guide中文解读 | 第十四章 | 网格加密Refinement
  14. FOC 电流环PI控制器出来后为什么是电压?整定参数跟电机参数有关系吗?
  15. 【数据分析】销售案例——杜邦分析法
  16. 热烈祝贺黄雪斌,魏巍新婚大喜
  17. qpython3l最新版下载_qpython3l
  18. 飞利浦e570有JAVA吗_功能机怎么了?飞利浦E570的待机长达170天
  19. 青龙-聚看点(稳定的毛)
  20. 16款测序平台性能大PK!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布

热门文章

  1. 【CS231n】斯坦福大学李飞飞视觉识别课程笔记(八):线性分类笔记(下)
  2. 用python输入三个整数判断能否构成三角形_用户输入三个数字,判断能够构成什么三角形?...
  3. 矩阵不可逆的充分必要条件
  4. nodejs request模块用法
  5. 找工作、备考、面试刷题网站推荐(牛客网、力扣、计蒜客、hihocoder、七月在线)以及acm竞赛oj
  6. Edge无法连接到代理服务器
  7. 合服操作 first
  8. 数据仓库缓慢变化维度SCD?你想知道的都在这里
  9. 香蕉派 BPI-M5折腾记录(2)—— 编译u-boot
  10. 勤于奋聊聊现在还有哪些副业可以做