​上海韵达货运有限公司(以下简称“韵达”)创建于1999年。2020年,韵达递送包裹超140亿件,同比增速达41%,市场份额近17%。

图1 韵达货运区

韵达自主研发了先进的快件运营信息管理系统,并在全网络快递员中统一投入使用手持终端设备,实现了快件操作与信息采集的同步和快件运营信息的实时传递。运营信息系统的运行依赖网络,因此,网络的稳定性和可靠性成为了支持韵达业务生命线的关键问题。面对越来越复杂的网络构架和爆发式增长的应用上线,运维团队常常需要解决业务系统突然中断、性能下降、用户访问异常等等问题。之前韵达采用的是基于SNMP的传统监控,只能监控物理设备利用率,无法直观展示和分析应用的性能以及用户体验等情况,因此急需建设一套新的网络性能监测系统,解决上述的运维难点。

2020年,韵达上线了新一代的智能流量分析系统——智维数据nCompass网络流量监控平台,实现了多源数据采集以及业务性能和网络性能可视化监控,为业务系统与应用性能故障分析提供了可靠的数据支撑。本次记者采访了韵达快递运维部项目负责人(以下代称“PI”),请他揭秘如何通过网络流量智能分析提升系统故障处置效率,支撑系统稳定快速运转的背后故事。

1

江浙沪隔天到,多数城市两天到!

“快”的保障是强大稳定的自动化、数字化全流程

记者:快递业的数据化运营是什么样的特点?前台看到的送件、收件跟后面的流量数据运维是什么样的关系?

PI:举个例子,消费者在淘宝上面买一个化妆品,这个化妆品下单以后,淘宝会推送给各个物流公司,由这些物流公司接单,接单以后订单信息会流转到韵达的软件平台,通过中间的消息队列推送到数据库,再通过app推送工单到快递员。快递员收到信息后开始收件,这个快递会被送到我们的营业网点,由营业网点进行分拨,通过中间的中转再送到收件方所在的城市,再通过分拣,订单处理到收件网点,再通过快递员送到消费者手里。在韵达,我们整个过程都是全自动的,现在我们江浙沪能做到隔天到,除偏远地区外能做到两天到。

图2 韵达网络快件业务全流程

记者:因为对效率要求很高,所以对于网络效率和稳定性是不是要求也特别高?

PI:肯定的。菜鸟推送的订单假如由于网络问题我们没有及时响应,订单就会推送给别的快递公司,我们业务量就会受影响了,没有业务量就没有市场份额,没有利润的产生,面对市场竞争来讲,没有业务量就没有生存权。所以,快递的核心是效率,而我们每个流程都是通过云端,网络数字化去流转的,要达到最优转化,网络的稳定性和效率是重点

2

自动告警,智能分析

实现稳定、连续的网络支撑

记者:在保障网络稳定性上,韵达有哪些难点问题急需解决?之前是如何处理的?

PI:以前有网络故障发生因为无法将证据留下来只能等到下次故障再现才能通过假设、验证等等一系列流程最后确定原因。另外虽然每个应用都配套了自己的监控,但是看不到整个访问链的相互关系,当应用性能下降,我们只能通过人工经验逐个排查,如果不能及时解决就会影响到前端的业务流转。另外还有一些合规性和管理风险的问题,比如符合等保2.0的要求,国家监管部门的要求,以及出于数据安全防护的要求,需要做到运营的精细化管理。

记者:这次采用新的网络流量监测分析平台,解决了哪些问题?

PI:现在韵达采用的是智维数据的nCompass的网络流量监控平台,网络上有故障发生,可以通过nCompass溯源找到问题根源,有隐患发生也有自动告警,我们可以先把这个故障梳理掉,让业务恢复。应用层有问题也能给我们发出告警,应用组可以通过排他的方式把问题迅速解决。

以前虽然每个应用都配套了自己的监控,但是看不到整个访问链,现在我们可以通过nCompass对接负载均衡的API接口,看到是哪个节点出了问题,把原来其他的比较零碎的可视化能力规整到一起,这样能看到整体每个节点发生的问题,实现整体的运维监控能力。

还有我们4月份安全演练的时候nCompass也起到了很大作用,能帮我们通过流量回溯定位到公网地址。

3

多场景落地智能运维,新技术护航业务生命线

记者:能不能请您介绍几个流量监控平台帮助解决运维故障,提升业务流程效率的例子?

例1:下单/访问流程突发故障

PI:举例来说,web页面无法访问这是我们会遇到的常规问题之一,有一种常见现象是证书切换问题,现在监管部门要求所有对外网站都要加载证书,有些应用要实现平滑的切换,HTTP过来的应用我们会通过301做永久重定向,重定到HTTPS上面去,这样客户就能访问了,同时这个应用也实现了安全证书加密。当遇到用户反馈页面打不开,我们就可以通过nCompass来分析一下这个应用到底有没有成功跳转,还是错误跳转到别的地方去了。

还有一些页面打不开是由于调用第三方接口失败造成的。在韵达,应用是通过API形式给第三方调用的,不通有很多种,一种是对方加了白名单,但是我们这边的防火墙没有放行。那么这个请求有没有通过,我们同样也可以通过nCompass去监控它。

图3 HTTP页面监控

还有会出现运营商骨干网振荡了,导致页面打不开。比如在去年曾经有一天我们接到用户投诉后,通过nCompass去溯源,发现只有上海的DNS有问题,我们反馈给下面的快递员或者反馈给客户第三方,是哪个地方现在不好,需要切换一下线路。因为电信、联通、移动都是各自的网,骨干网、城域网、承载网,承载网还分A和B,不可能所有的网同时出问题。

图4 DNS分析界面展示

再比如有用户反馈网站打不开,应用组怀疑是DNS解析失败,这时候我们通过nCompass去检查,发现DNS解析率是99%,说明DNS解析正常,那么我们就可以反馈给应用组,请他们去排查其他问题。

案例2:快递员手持终端信息丢失

PI:另外一种类型的故障是快递员的手持终端(“韵镖侠”)信息丢失。快递员接到快件后,需要把快件信息上传到IDC机房,如果上传了但后端的服务器没有收到,那么这个快件的信息就丢失了,对我们来说其实就是快递丢了,因为客户在物流跟踪平台上就查不到信息了。对于快递公司来说,每天的业务都是海量的,是没有办法再人工查找的,造成的客户损失,只能由公司赔付,就会造成公司的直接经济损失。

图5 故障分析页面展示

怎样防止这样的事情再发生,减少客户投诉和经济损失呢?这时候就需要定位这个数据到底是丢在了哪里?是丢在公网还是丢在机房,我们可以使用nCompass去检查有没有收到这个系统报告,是经过防火墙以后丢掉的还是到核心交换机以后丢的,这样我们可以精确的查一下这个设备是不是有问题,或者是不是有安全策略把请求屏蔽了,或者转化的时候转化性能不足,准确定位到问题所在,再快速处置,解决这个问题。

案例3:链路优化管理与重大事件全局监控

记者:链路管理是韵达特别重视的,您能不能大概讲一下韵达的链路管理为什么重要?他跟业务是什么样的关系?

PI:链路管理指的是运营商带宽的问题,要保障网络畅通的稳定性,我们可以通过nCompass去设置几个监测点,比如这个点是腾讯云或者阿里云的骨干节点,这种点一般都不会变,我们可以把它设置成一个监测点,比如这个监测点是监测北京的网络线路的,通过主动探测,简单设一个ping包,用nCompass看一下抖动、延迟有没有问题,如果此时监控主动告警告诉我某个骨干有问题,我们可以将出口的负载均衡切换到另外的链路上,就能够保证外部访问正常。我们设置多出口的目的是保持网络稳定,当故障突发,当延迟低达不到的时候就要保稳定,至少要保证线路不断。

图6 链路监控、分析视图

nCompass提供了我们全局的可视化监控能力,把负载均衡和链路管理、业务监控都统一到一个平台上来。比如我们在双十一、双十二通过nCompass可以看到实时进来的流量带宽,包括应用之间互访的延迟,这样对于大型促销或业务流量特别大的时候会有一个基础保障。

图7 数据中心全局流量监控视图

通过nCompass主动告警,我们可以实时监测流量是否稳定,延迟的指标高低,应用负载率等等。有问题我们可以提前处理掉,因为从业务开始报障到故障发生还是有一点时间,这个时间我们就可以做到先知先觉。这样能避免我们出现大范围的故障,保障前台业务运转和整体网络运维的效率。

案例4:符合等保2.0合规要求

记者:请介绍一下流量平台在合规和安全方面的应用场景?

PI:三级等保有几个要求,一个是网络层、应用层的日志必须要存半年,应用要有Ddos保护,另外应用一定要上WAF,我们的Ddos保护有了,现在要解决的是我们的日志需要存半年。但是因为我们的访问量太大,所以当时我跟nCompasss提了一个定制化的要求,应用层的监控把里面的负载包括Payload这块全部去掉,把包头保留下来,至少我们能知道是谁过来访问了什么。一是为了符合等保的要求,监管部门的要求,另一方面是数据保护要求,如果哪一天,有人偷偷调我们的接口,非法窃取我们的数据,这个时候我们报案需要提交有效证据,比如对方的IP地址。因为现在的IP地址都是有备案和实名认证的,而我们因为在应用层的中间环节做了Syslog,应用日志就需要包含包头信息,此时利用nCompasss将应用日志与网络日志结合后就能溯源到对方的IP地址。

图8 日志回溯功能展示demo

而在此之前我们遇到过因为无法查找到三个月前的数据记录,导致报案没有证据的情况,现在nCompasss帮我们很好的解决了这个问题。

展望:

进一步的数据整合,搭建完整的运营数据监控

是未来实现AIOps,

提升全流程效率的最佳方案!

记者:未来还有什么样的数据化运营设想?

PI:快递企业作为网络型组织,面对成千上万的快递网点,面对管控难度越来越大的情况,需要以AIOps等新技术为抓手,来帮助实现对越来越多网点的可视化管控。在信息系统中能够第一时间看到所有的数据,实时处理,才能实现实时决策、实时优化,帮助管控和平衡整个网络。

目前韵达已经通过nCompass实现了在网络层的监控,未来希望通过进一步的数据整合,将所有的网络层数据,应用层数据,包括虚拟机互访,K8S集群互访全部数据都整合到nCompass平台上来,通过nCompass实现清晰直观地看到任何数据,这个对我们未来来说是相当重要的。以后无论是网络、应用还是虚拟机问题,我们希望都可以通过nCompass来排查,这样解决问题的方式变得更加简单,人效会更高。

韵达的业务流程是非常明确的,现在智维数据也在打造“场景化”的解决方案,我们希望以后的合作,双方能将技术与场景结合得更紧密,进一步的提升IT运营效率。

技术解析韵达快递,支撑业务生命线高效流转的底层逻辑相关推荐

  1. 韵达快递上门取件API技术对接文档 java

    韵达快递上门取件,是电商平台为寄件用户提供的通过一键下单到快递员,并在2小时上门取件的寄件服务.适用于散客在线寄件.电商退货上门取件等业务场景:通过API指令由系统自动将消息发送给物流公司和快递员,由 ...

  2. 韵达快递 | 快递单号查询API

    如何利用快递鸟提供的接口来查询韵达快递的物流轨迹. 讲解之前我们来看一下,接口完成以后的实际显示效果 以下是产品应用截图,调用快递鸟接口获得的轨迹信息: 实际上快递鸟返回的报文信息会更详细,在给客户展 ...

  3. 韵达快递 单号查询接口开发

    今天我们来聊如何利用快递鸟提供的接口来查询韵达快递的物流轨迹. 讲解之前我们来看一下,接口完成以后的实际显示效果 以下是产品应用截图,调用快递鸟接口获得的轨迹信息: 实际上快递鸟返回的报文信息会更详细 ...

  4. 韵达快递客户端 服务器未响应,韵达快递网点客户端

    韵达快递网点客户端是款针对韵达快递进行研发推出的客户端:软件的使用,需要对账号进行登录,主要的目的是为了帮助网点进行业务开展的服务,而且只要您是韵达的网点,都要使用到该软件:软件的操作简单,使用也方便 ...

  5. 韵达快递高品质冷链服务,助力各类生鲜产品高效运输

    众所周知,水果大都存在保质期短.损耗率高的问题,为了保证水果的新鲜程度.减少浪费,就需要依靠低温保存,水果冷链储藏运输必不可少.下面,我们就以韵达快递的冷链服务为例,来看看韵达冷链是如何做好水果运输呢 ...

  6. 韵达快递单号可以批量查询吗

    及时跟踪快递的物流状态,一定程度上可以降低快递的丢失率,减少快递售后的经济损失.如何能够及时跟踪到大量快递的物流状态呢?接下来小编给大家介绍一款软件:"固乔快递查询助手",教大家如 ...

  7. 同时查询多个韵达快递物流信息,分析出多次派件的单号

    在电脑上如何同时查询多个韵达快递物流信息,分析出物流中有多次派件的单号.一起随小编来看用快递批量查询高手查询并分析的方法. 登录上快递批量查询高手,在"添加单号"的功能上导入单号保 ...

  8. 手把手教你分析韵达快递问题件

    在查询单号物流时,我们该如何快速的分析出快递的问题件呢?而什么是快递问题件?一般多次揽收.退回件以及提前签收都算,下面一起来试试. 材料准备: 一台WIn系统的电脑 快递批量查询高手 多个韵达快递的单 ...

  9. 教你批量查询韵达快递物流并分析出包含提前签收的单号

    请问快递批量查询高手可以批量查询韵达快递的物流信息,并分析出提前签收的单号吗?下面的回答当然是可以的,下面一起来操作. 所需工具 快递批量查询高手 多个韵达单号 实例步骤 运行快递批量查询高手,点击& ...

最新文章

  1. 基于android os 5.1,Android 5.1.1版氢OS快速体验
  2. oracle游标错误,ORACLE游标与错误处理
  3. UA池和IP代理池使用
  4. mysql数据库面试总结(一)
  5. 信息学奥赛一本通 1982:【19CSPJ普及组】数字游戏
  6. linux主机与路由器建立隧道的方法
  7. Observable与Observer
  8. python的文件夹_Python文件夹与文件的操作
  9. 美赛论文成绩批量爬取
  10. 尽挥洒最终版 思嫣_温州方言歌曲_温州话歌曲
  11. 使用commons-lang3实现Unicode码转中文
  12. 银行手机APP软件做性能测试吗,浅谈银行开放平台应用系统性能测试
  13. element UI 学习
  14. 关于苹果的iOS cercertificate的创建问题
  15. sp许可证有什么用呢?
  16. arm-linux-gnueabihf 交叉编译ffmpeg
  17. 黑客术语大全及其解释
  18. 【数学知识】||x||(范数 norm)
  19. 测试必会之 Linux 三剑客之 grep
  20. 【微信小程序】WXSS和全局、页面配置

热门文章

  1. 用matlab求双侧曲面积分,基于Matlab的两类曲面积分计算
  2. 100多家奢侈品品牌为何选择入驻苏宁易购?
  3. 亚马逊listing文案这样写,排名更靠前-跨境知道
  4. 汉字国标码转区位码的实验( EduCoder实验一)
  5. iphone12发布会直播地址苹果12发布会在线观看入口
  6. 使用torchsummary打印出神经网络的形状和参数大小
  7. (L159951)Django2001
  8. 【使用OpenFeign在微服务中进行服务间通信】—— 每天一点小知识
  9. excel一列求和_Excel表格怎么求和
  10. 提示您与该网站的连接不是私密连接怎么办?