背景
大部分业务监控都是业务同学自己按照需求配置,业务间的监控一般无法感知到。这种玩法存在一些问题:

  • 日志格式不标准,大部分都是自己用

  • 监控配置繁琐,阈值调整反反复复,新产品上线需要从头来一遍

  • 业务间的监控不好做,彼此口径不统一

  • 应急处理时不同平台间无法统一口径

主要痛点就是监控零散、配置繁琐、应急效率低。

新生态业务监控
为解决目前的监控痛点,我们推出了基于两码标准建设的业务监控lego。通过两码的标准化管控,实现业务口径的统一、标准管理。

所谓生态是指监控体系的发现、定位、变更、预案等,基于这套标准,大家统一口径后能实现互通。

下面详细介绍新业务监控的玩法。

数据标准化
通过标准日志格式,来统一管控业务唯一标识。不同系统通过业务标识来沟通,达到口径一致的效果。标准日志格式主要包括:

  • 非扩展区域,每个字段的含义都是固定的,可枚举的字段,枚举值是固定

比如 产品码=收钱码,事件码=支付,结果=成功,就很容易计算出"收钱码业务的支付笔数"。

  • 扩展区域,支持业务自定义数据打印,但是必须可理解/管控。 以服务端日志举例, 以K-V形式打印(key1=value1, key2=value2,…),其中key 要求提前申请,确保同样语义的业务含义的key定义是一致的。比如 pid=2088xxxxxxx(张三烧烤的店铺ID),再结合非扩展区域,就可以衍生出"张三烧烤的收钱码的支付笔数"。

目前在蚂蚁,SPM、两码规范,分别从客户端/服务端视角进行了业务身份的定义,在这里不进行展开,相关文档见 https://lark.alipay.com/dc/antlogmng/vm5i1z https://lark.alipay.com/architecture/doc/hfsvf3

通过标准日志格式,我们就有了最基础的能力:

  • 统一的业务语义

  • 清晰的产品地图

  • 自动的生命周期管控

数据模型化
基于标准数据,监控系统就可以设计出一套模型,标准数据进入模型后,自动完成监控部署。监控领域模型有兴趣可以看下lego的专题文章。

监控部署自动化
有了标准的日志,日志的切分就是标准化的,数据计算也是标准化的;通过标准数据建模,就可以自动完成监控初始化。简单说就是:

日志上线后,数据采集、数据计算、数据建模就自动完成了。

智能算法引擎
通过机器学习的能力来简化人工调整阈值的过程,lego的算法模块包括离线和实时两部分,通过协作完成动态阈值调整。


应急体系
有了业务唯一标识,不同平台间的互通就具备了。lego的监控告警发生后,就可以用唯一标识去查询其他兄弟平台的数据,提供给应急同学分析,达到快速应急恢复的要求。

两码一号(九):业务监控相关推荐

  1. 两码一号:整体方案回顾

    前言 17财年蚂蚁启动了"两码一号"项目,旨在建立蚂蚁全站统一的业务标识及关联方式,为全站的产品事件数据在业务信息层面打通全站脉络.经过一段时间的打磨和锤炼,我们对两码一号又有了全 ...

  2. 两码一号(四):蚂蚁产品大盘

    前言 蚂蚁有没有所有产品的地图信息? 这个产品的问题应该找哪位产品经理? 这个产品倒底是在线上还是已经下线了,在哪能查到? 从哪里能找到一个产品的具体说明.关联应用.架构师?等等诸多问题. 这些问题是 ...

  3. 两码一号(二): 两码生态

    前言 2017年是两码的生态之年,伴随着资金线两码95水位的收官,两码的工作重心,也从蚂蚁全站重资产投入过渡到轻资产消费能力构建上.' 两码搭台,生态唱戏,价值共享 ,共守共建'是我们围绕生态构建两码 ...

  4. 两码一号:两码定义原则

    背景 本文主要是阐述一件事情就是产品.事件定义的原则,即什么样的情况下才能定义成一个产品,或是一个事件. 涉众:蚂蚁全站产品.业务方.技术方.运营方.公司内任何对产品码事件码定义感兴趣的人员. 蚂蚁产 ...

  5. 主动做了业务监控,产品经理对我竖起大拇指

    监控,一直是个可以聊很久的话题.除了系统监控,还有一个往往容易被忽略,今天我们就来聊聊这个容易忽略的业务监控. 监控什么? 作为开发人员,不仅仅是把功能开发出来就行了,对于你负责的产品或者模块,你需要 ...

  6. 企业如何做好业务监控​?

    新钛云服已累计为您分享653篇技术干货 为什么要做业务监控? 通常情况下,大部分企业都会做基础设施监控,觉得做好基础设施监控就可以解决大部分问题.至于业务方面监控,等有人来说了再处理就行.殊不知这种想 ...

  7. 《一文带你读懂:云原生时代业务监控》

    点击上方蓝字关注我们! 对业务来说,完备的应用健康性和数据指标的监控非常重要,通过采集准确的监控指标.配置合理的告警机制,我们能够提前或者尽早发现问题,并做出响应.解决问题,进而保证产品的稳定性,提升 ...

  8. 《企业内部控制应用指引第7号——采购业务》全文及解读

    针对财政部颁发的<企业内部控制应用指引第7号--采购业务>(全文附后),财政部会计司对主要条款进行解读,尤其在采购流程中的风险和管控措施方面,给出较为具体的分析,现整理推送,旨在公益分享学 ...

  9. 腾讯业务监控的修炼之路

    作者丨李光:现任职于腾讯社交网络运营部/织云产品团队,负责织云监控告警平台规划与运维新产品开发工作,具有多年业务运维.运营规划经验. 概述 本文作为监控告警产品的专题系列的第二篇文章,主要讨论的是IA ...

最新文章

  1. python3.7.2安装-CentOS 7中Python3.7.2的安装
  2. 使用css绘制小三角
  3. 详解JavaScript中void语句的使用
  4. 装饰器3--装饰器作用原理
  5. Binder 和parcel 讲解
  6. Tensorflow深度学习应用(进阶篇)
  7. Redis 与 key 相关的常用命令
  8. dnt 删除不良数据
  9. vs2012生成的项目,如何在只装有VS2010的电脑上打开
  10. gitee添加成员_成员权限管理,到底能有多精细?
  11. 小甲鱼Python课后习题028
  12. 如何用 Nginx 禁止国外 IP 访问网站 ?
  13. C语言 队列的实现(链表实现)
  14. pve万兆网卡驱动_WiFi 6扩展有什么选择?Killer AX1650X无线网卡深度测评
  15. 学术会议 Rebuttal 模板
  16. Microsoft Visual SourceSafe 2005 服务端安装配置过程以及出现的问题,以及解决方法!...
  17. python获取List的形状
  18. SDR HDR 区别
  19. Python操作word基础
  20. 服务器nvme硬盘识别不了,解决部分主板无法识别NVMe协议的固态硬盘问题

热门文章

  1. 在华为云服务器上用WP搭建公司官网
  2. Eclipse_Java文件注解乱码
  3. (记录)golang获取mongo的ObjectId
  4. 尤雨溪:Vue3 将在2022年2月7日成为新的默认版本(你准备好了吗?)
  5. nyoj-1016-德莱联盟(向量叉乘判断线段相交)
  6. 三种方式,实现多可系统外网访问
  7. 练习题 斐波那契数列
  8. 分水岭算法c语言,Opencv分水岭算法学习
  9. 关于UI设计学习,推荐6个高质量的学习网站!
  10. [BZOJ1050] [HAOI2006] 旅行comf (Kruskal, LCT)