前文回顾:

基础篇|链路追踪(Tracing)其实很简单

使用篇|链路追踪(Tracing)其实很简单:请求轨迹回溯与多维链路筛选

使用篇丨链路追踪(Tracing)很简单:链路实时分析、监控与告警

最近一年,小玉所在的业务部门发起了轰轰烈烈的微服务化运动,大量业务中台应用被拆分成更细粒度的微服务应用。为了迎接即将到来的双十一大促重保活动,小玉的主管让她在一周内梳理出订单中心的全局关键上下游依赖,提前拉通各方对齐重保方案。这个任务可愁坏了小玉,平时她只与直接上下游业务方打交道,现在要梳理出订单中心完整的依赖路径,头发愁掉了一大把仍然不知道该如何下手。无奈之下,小玉再次求助于万能的小明。

针对小玉的问题,小明提出了一个想法,首先调用链可以追踪一次请求的完整调用路径,但是单条调用链无法反映出所有的调用分支,也无法通过流量大小体现出依赖的强弱,而逐条分析调用链的成本又太高。那么,是否可以通过程序将一批具有相同特征(比如经过某个应用,或者调用了某个接口)的调用链聚合成一颗树,通过分析这棵树的形态与流量,就可以快速梳理出关键节点与依赖路径,而这就是链路拓扑功能的雏形。

如上图所示,入口应用 A 依赖了多个不同深度的下游应用,并且每次调用的路径并不相同。为了梳理出应用 A 的完整调用依赖,可以将多条调用链聚合成一棵树,从根节点到叶子节点的每条路径都代表着一种流量流转路径,而节点的状态反映了流量的特征,比如次数、耗时、错误率等。通过调用链聚合,综合分析端到端流量路径与状态的方法就是链路拓扑。链路拓扑与调用链的关系就好比样本集与离散样本点,前者反映了整体的分布情况,可以有效避免单个样本随机性对评估结果的影响。

01

链路拓扑的经典应用场景

Aliware

链路拓扑最核心的价值,就是通过分析节点间依赖路径与状态,提供强弱依赖梳理、瓶颈点分析、影响面分析、故障传播链分析等能力,下面我们来深入了解下这些经典用法。

(一)强弱依赖梳理

链路拓扑最典型、最被人熟知的应用场景就是依赖梳理,特别是在一个大型分布式系统中,数以万计的应用间依赖关系复杂到令运维同学怀疑人生。下图展示了 2012 年的淘宝核心链路应用拓扑,密密麻麻如蛛网般的依赖关系已经远远超出了人工梳理的范畴,而这种情况在微服务迅猛发展的当下并不少见。

在复杂业务环境中,不仅需要梳理出依赖关系图,还需要识别哪些是影响核心业务的强依赖,哪些是“无伤大雅”的弱依赖。针对强依赖要投入更多的人力与资源,建立更加完善的保障体系,比如电话告警,联合压测等。针对弱依赖,可以考虑是否能够移除,或者建立次一级的保障措施。

区分强弱依赖的方式主要有以下几种:

  1. 根据流量大小进行区分。这是一种简单粗暴的区分方式,大于一定流量阈值或比例的就识别为强依赖,否则视为弱依赖。这种判断方式的好处是简单清晰,可以由链路追踪平台自动识别,无需人力干预。缺点是不够准确,一些特殊的关键依赖虽然流量不大,但是却会直接影响业务的稳定性。

  2. 根据同步/异步调用类型进行区分。这种区分方式的好处也是简单、易操作,减少了异步非阻塞(如消息)调用的干扰。缺点是在同步调用为主的业务中筛选效果不佳,而在异步调用为主的业务(红包、热点推送)可能造成误判。

  3. 人工标注。鉴于业务的差异性,由业务 Owner 对自身依赖的直接下游的强弱性进行人工标注识别,可靠性会更高。但是这种方式对于人员经验和时间成本要求很高,并且无法自适应业务的变化。

  4. 半人工标注。首先由链路追踪平台根据流量大小、同步/异步进行初步的强弱依赖识别,再通过有经验的同学进行人工标注修正。这样既节省了人力成本,也能有限度的自适应未来的业务变化。

强弱依赖梳理是相对低频的工作,通常发生在在大促或重保活动准备阶段、新应用上线或老应用下线、上云搬站等场景。比如阿里在每年双十一大促前,都会梳理核心业务的强弱依赖,并与往年进行对比,以便更好的进行针对性保障。

(二)瓶颈点/影响面分析

链路拓扑在问题诊断领域最常见的用法就是瓶颈点分析与影响面分析。前者是从当前节点向下游寻找导致问题发生的原因,主要用于问题定位;而后者是从问题节点向上游分析被影响的范围,主要用于业务风险定级。

接下来,我们通过一个数据库异常的案例,对比下这两种用法与视角的区别,如下图所示。

  • 某天上午,应用 A 的管理员收到用户反馈服务响应超时,通过查看链路拓扑状态,发现 A 应用依赖的 D 应用接口变慢,而 D 应用调用数据库接口也出现异常。因此,小 A 通知小 D 即刻排查数据库连接等状态,尽快恢复可用性。这就是一个瓶颈点分析的过程。

  • 由于小 D 业务不熟练,半小时过去了还没有完成有效的恢复动作,并且触发了数据库服务端异常。负责 DB 运维的同学收到数据库服务端告警后,通过链路拓扑向上回溯业务影响面,发现直接依赖的 D、E 两个应用均出现了大量慢 SQL,并导致间接依赖的应用 A、B 出现不同程度的服务响应超时。果断执行了数据库扩容,最终恢复了全部应用的正常访问。这就是通过影响面分析,辅助运维决策的过程。

瓶颈点与影响面分析主要是基于一段时间内的静态拓扑数据,并没有体现时间变化对拓扑节点状态的影响,无法回溯故障传播的过程。如上图右侧所示,如果只看这一张拓扑,我们难以判断出导致数据库服务端异常的应用到底是 D 还是 E。那么,是否能够动态回放链路拓扑的变化,更直观的分析问题源与传播趋势?答案无疑是肯定的,请看下文介绍。

(三)故障传播链分析

抛开时间的维度,问题源与影响面的边界并不是很清晰。一个被影响方可能会成为新的问题源,引发更大的故障。因此,为了能够更加真实的还原故障演变过程,我们需要观察并对比一组时间线连续的静态链路拓扑快照集,通过不同快照之间节点状态的变化还原故障传播链。这就好比通过监控视频还原凶案发生过程,要比单独的一张照片更加可靠。

以上一小节的数据库故障为例,一开始应用 D 由于请求缓存未命中,从而大量请求数据库导致慢 SQL,进而影响上游应用也出现响应超时。随着情况继续恶化,数据库服务端也开始过载,进而影响了应用 E 的正常调用。最后,应用 A、B 均出现大量响应超时,API 网关由于连接不足开始拒绝访问,引发更大面积的服务不可用。

在真实生产环境中,拓扑依赖与故障传播的过程可能会更加复杂,为了简化分析过程,可以根据一定规则将节点状态提取为各类异常事件,观察不同时刻的异常事件数量也可以辅助判断故障发生、传播与恢复的过程,如下图所示。

02

链路拓扑聚合维度

Aliware

链路拓扑的聚合维度决定着拓扑节点的类型,面向不同的用户角色,提供了差异化的分析视角。在实际应用中,最典型的三种链路拓扑聚合维度分别是应用、接口与自定义维度,分别对应着应用拓扑、接口拓扑和业务拓扑。

  • 应用拓扑, 顾名思义就是根据应用名称进行链路聚合,反映了应用间的依赖关系与总体流量状态。由于数据聚合粒度较粗,局部异常会被平均值掩盖,不适合精细化的问题诊断,更适合全局依赖梳理与重大故障定界,用户角色偏向于 PE 运维或 SRE 稳定性负责人。

  • 接口拓扑, 是在服务接口这一维度进行的链路聚合,相比于应用拓扑更贴近研发视角,因为日常迭代的对象通常是某个具体的服务接口,无论是新接口上线、老接口下线或核心接口重保,接口粒度的链路拓扑更符合研发测试流程与职责划分习惯。应用与接口都是链路追踪领域的基础对象,对应的拓扑可以由链路追踪平台自动生成,无需过多的人工干预,使用起来较为方便。

  • 业务拓扑, 是根据自定义维度聚合生成的偏业务视角的链路拓扑,通常比接口维度要更深一级,比如某个下单接口可以根据商品类目维度进一步细分为女装或家电,如下图所示。业务拓扑一般无法由链路追踪平台自动生成,需要用户结合业务特性定制聚合规则。此外,自定义维度的来源比较广泛,可以是手动添加的 Attributes 自定义标签,也可以是 HTTP 请求出入参,或者是所在机器的环境标签。在这方面,开源社区缺乏相应的标准,而各大厂商的商业化实现差异也比较大。

综上所述,不同聚合维度生成的链路拓扑具备不同功能定位与特性,如下表所示:

03

链路拓扑生成方式

Aliware

为了最大程度的保留链路数据的端到端关联信息,链路拓扑通常是基于调用链明细数据直接聚合生成,而不是基于指标数据的二次聚合。细心的读者可能会发现这里隐藏着一个颇具挑战的技术难题,就是如何平衡海量链路数据聚合的实时性、准确性与灵活性。理想情况下,我们希望基于符合条件的全量调用链明细数据快速生成最真实的链路拓扑,实现“又快又准又灵活”。但在实际应用中,鱼与熊掌不可兼得,我们只能在“快”、“准”、“灵活”之间进行抉择,也因此衍生出了不同的链路拓扑生成流派。

(一)实时聚合

实时聚合是根据用户指定查询条件,动态筛选调用链并生成拓扑图的一种方式。这种方式的好处是实时性较高,使用非常灵活,可以指定任意条件,比如查看大于 3S 的调用链生成的拓扑,或者仅包含异常调用的拓扑。缺点是当满足条件的调用链明细数据量超过一定阈值后,可能会打爆实时聚合计算节点,因此,通过会设定一个聚合条数上限,比如5千条,牺牲一定的数据精确度,换来极高的灵活度与实时性。

(二)离线聚合

离线聚合是根据一组事先定义好的聚合规则,周期性生成拓扑数据的一种方式。例如不包含任何筛选条件的应用、接口这种基础拓扑数据就可以通过离线聚合生成。这种聚合方式的好处是可以利用离线计算的水平扩展性,支撑海量链路数据的聚合计算,生成结果会更加准确。缺点是实时性较差,聚合规则变更到新拓扑生成的周期较长。离线聚合通常用于全局拓扑数据的精确计算。

(三)预聚合

预聚合是一种理论上可行的拓扑生成方式,它的思路是从入口节点开始,不断向下透传全链路的完整调用路径信息,并在端侧生成相应的预聚合指标。不考虑透传信息的长度限制与端侧预聚合开销,这种方式的好处就是节省了在服务端将明细数据转化为拓扑数据的过程,实现又快又准的目标。但是缺陷就是不支持自定义规则,否则透传与预聚合的开销会直线上升,影响业务进程的性能与稳定性。预聚合的原理示意图如下所示。

04

3D 拓扑

Aliware

流量与资源是一对“好兄弟”,二者密切相关。流量影响着资源分配,而资源反过来又约束着流量状态。大部分流量异常归根结底是资源配额不足或分配不合理导致的,比如峰值流量瞬间耗尽资源,或者流量不均导致的“热点”等。我们在定位流量异常根因的过程中,往往需要结合相对应的资源状态进行分析;反过来,当一个资源节点出现异常时,我们也希望知道它会影响其上运行的哪些流量?因此,在代表流量的链路拓扑上,关联相对应的资源数据,形成更加完整的 3D 拓扑,貌似是个不错的选择。

如下图所示,3D 拓扑不仅包含 PaaS 层的应用、接口流量节点状态与依赖,还可以下钻查看相对应的 IaaS 层进程、实例等资源状态。3D 拓扑为流量与资源建立了一个连接,帮助我们更直观的定位资源瓶颈引发的流量异常问题。

3D 拓扑以一种巧妙的方式传递了更多的信息,但是它也有一个非常致命的缺陷,就是信息密度过于集中。在复杂拓扑环境下,表现可能还不如 2D 拓扑来的直观,大大降低了它的实用价值。如下图所示,当实例规模达到数百,接口数量达到上千时,3D 拓扑交互上的复杂性显著降低了诊断排查的效率,更多用于大屏展示。

为了降低 3D 拓扑的交互成本,一种可能的思路是结合智能诊断技术,自动突出异常链路,精准收敛展示数据范围。不过,这对于技术与产品的要求较高,实用性还有待大量真实生产环境的检验。

使用篇丨链路追踪(Tracing)很简单:链路拓扑相关推荐

  1. 全链路追踪竟然如此简单? bytebuddy搭建全链路追踪的demo 附代码

    大家好,我是烤鸭:     最近一直在研究全链路追踪,比如cat.skywalking.zipkin等.     发现 skywalking 是基于bytebuddy 实现的,想自己试着写一下demo ...

  2. 监控链路追踪Tracing Skywalking(二)

    1.需求 ​ 公司项目采用微服务的架构,服务很多,人工监控是不可能的,项目的访问量很大,想通过日志查找某个方法中性能的问题也是非常困难的.但是系统的性能问题是不能忽视的.系统性能检测的问题如鲠在喉,经 ...

  3. PHP分布式链路追踪,SkyWalking:分布式架构链路追踪-SkyWalking介绍

    前面几篇文章提到了微服务相关系统的使用与搭建,在微服务架构下的问题也比较突出.正常系统下我们的每个请求都会在同一个系统中进行输出.但是在微服务架构中一个请求可能设置一到多个服务进行处理.服务之间相互依 ...

  4. 链路追踪_springcloud-第九回 链路追踪Sleuth

    背景 微服务架构下,几乎每一个前端请求都会形成一个复杂的分布式服务调用链路,在每条链路中任何一个依赖服务出现延迟超时或者错误都有可能引起整个请求最后的失败,为了快速定位和解决问题,需要追踪服务请求序列 ...

  5. 链路追踪(Tracing)的前世今生(上)

    本文以 Dapper 论文为切入点,延伸到其相关的论文内容,结合历史时间线发展的线索,给读者展示出软件从业者对链路追踪技术的探索和实践. 带着疑问看历史 提起链路追踪,大部分人都会想起 Zipkin. ...

  6. 阿里云发布链路追踪服务Tracing Analysis

    近日,在杭州云栖大会上,阿里云发布了链路追踪服务Tracing Analysis,成本是自建链路追踪系统的1/5或更少,可为分布式应用的开发者提供完整的调用链路还原.调用请求量统计.链路拓扑.应用依赖 ...

  7. 【架构实践】全链路实时追踪系统架构实战: 链路追踪系统 Tracing Analysis System

    目录 什么是链路追踪Tracing Analysis? 产品架构 产品功能 为什么需要分布式追踪系统? 什么是调用链(Trace)? OpenTracing数据模型 数据是如何上报的?

  8. istio多集群链路追踪,附实操视频

    理论篇 什么是可观测性 这里的可观察性主要指服务网格的可观察性,也就是需要观测服务网格中运行的微服务.为什么可观察性很重要,因为随着微服务架构的流行,一个系统可能运行成百上千微服务,如果系统出现故障, ...

  9. 《深入理解 Spring Cloud 与微服务构建》第十四章 服务链路追踪 Spring Cloud Sleuth

    <深入理解 Spring Cloud 与微服务构建>第十四章 服务链路追踪 Spring Cloud Sleuth 文章目录 <深入理解 Spring Cloud 与微服务构建> ...

  10. 【微服务】链路追踪 jaeger

    最近做了一点traces相关的工作,看了关于jaeger的一些内容,来水一篇.(艰难地保持着一月一篇) 为什么需要链路追踪 随着应用的发展,分布式是不可避免的趋势,无论是随着业务的复杂庞大由单体应用拆 ...

最新文章

  1. linux 内核模块声明 MODULE_LICENSE
  2. java set 取第一个_set集合取第一个元素的几种方法
  3. sccket服务器信息获取,websocket断线后重新new了地址,ws.onmessage没有数据
  4. NGINX(二)内存池
  5. 完整java开发中JDBC连接数据库代码和步骤[申明:来源于网络]
  6. Ajax请求中的Redirect()
  7. 【Vegas原创】xp_sendmail提示“邮件已发送”但收不到邮件的解决方法
  8. 差分进化算法_差分进化算法入门及实例应用
  9. Android WebView性能分析与优化
  10. 货币金融学(2): 利率/金融市场
  11. 怎么讲bpm文件读入Matlab,bpm Matlab环境下基于期望传播算法的贝叶 类器工 238万源代码下载- www.pudn.com...
  12. 小学计算机教学笔记,信息技术在小学数学教学的运用
  13. CondConv: Conditionally Parameterized Convolutions for Efficient Inference论文解读
  14. python画五角星
  15. 密码库LibTomCrypt学习记录——(2.25)分组密码算法的工作模式——EAX加密认证模式
  16. python爬取QQ音乐免费歌曲 2020.7.26
  17. Unable to add window——token android.os.BinderProxy@196e65b8 is not valid;is your activit is running?
  18. 润和软件助力深圳集成电路应用开发职业技能竞赛圆满收官
  19. linux命令行was集群启停,通用服务启停shell脚本
  20. zscore标准化步骤_z-score的标准化究竟怎么弄?

热门文章

  1. Linux环境下PGI编译器pgf90的安装
  2. “买不来”的数字化转型,每家的“乐高”都不同
  3. 易课寄在线购课系统开发笔记(三十一)--登录注册页面实现
  4. KM匹配 hdu2853(模版
  5. URL验证以及解析的Python实战代码
  6. Python系列15——正则表达式
  7. Kafka可靠性分析
  8. 小米手机liveplayer安装包_小米直播助手手机版官方下载
  9. 蚂蜂窝特价 v4.4.0 官方安卓版
  10. 主动近红外与深度图融合的SLAM方法调研