Cat功能强大且多,光日志的报表和图表分析就有十几种,但文档却很少,寥寥无几找到一些粒度却还很粗而且都是偏功能性的介绍。此外cat的配置也特别丰富,但几乎所有的cat文档里却鲜少提及。这些都导致很多方面都是缺失的,尤其是对于使用者来说,缺失了这些可能就意味着后面会步入大坑。

大纲

大众点评Cat–整体架构
大众点评Cat–server架构分析

整体架构

Cat的定位是实时监控平台,但是与其说是监控平台,更像是个数据仓库,在数据仓库的基础上提供丰富的报表分析功能。

Cat分c端和s端,c使用cat接口向s上报统一格式的日志信息。Cat的c是产生日志的地方(一般来说就是被监控的应用,上图中的应用节点),相应的s则是接受日志、消费日志的地方(上图中的server节点),日志消费后生成会日志报表。

S分为job machine, alert machine和sender machine,前者表示可以运行定时任务的节点,后者则代表可以进行告警任务的节点。定时任务将报表数据转换成图表数据;告警则基于一定规则对报表数据做筛选剔出相应的告警数据,还有种特殊的告警用于对第三方应用做ping(2次ping不通或者超时则告警),告警节点如果不同时是发送节点则只保存告警信息,如果是发送节点则发送消息提醒(微信,短信,邮箱)给相应的运维人员。

运维人员可以直接通过s端提供的web前台功能查看报表信息以及图表信息。

服务节点除了对日志做处理还提供rest服务–报表数据查询和基础数据查询及变更接口。Cat前台提供功能做配置变更和查询,用户也可以编程调用rest接口做变更和查询。Cat集群内部,不同节点之间数据交换都是通过rest服务来的,例如后面要介绍的应用节点到服务节点拉取路由信息查询以及告警节点向服务节点拉取报表信息等。

消息树结构


Cat使用消息树(MessageTree)组织日志,树的每个节点都是一个消息(Message),消息共有5种具体类型,分别是Transaction, Trace, Event,Heartbeat和Metric。每个消息树都有一个唯一的messageId,且消息树之间有单父级关系。

Transaction可以理解为是一个事务,它分为三种–独立事务,分支事务以及标记事务。事务之间可以互相嵌套,事务还可以嵌套任意其他消息类型,也只有事务才可以嵌套消息。

分支事务是从当前事务里派生出的异步事务,当前事务不需要等待其完成。分支事务创建新的消息树,和主事务之间是平行的关系。主事务通过新建event记录与分支事务之间的关系(一种软连接关系),分支事务通过设置消息树的parentMessageId维护与主事务消息之间的关系。

标记事务和分支事务之间非常类似,但标记事务是当前事务的子事务而不是另一个平行事务。其他线程可以通过tag(标记)找到标记事务并进行绑定,标记事务创建新event记录绑定信息,每一次绑定对应一个event,event里记录绑定线程的事务信息;同时绑定线程会也通过parentMessageId维护与主事务消息之间的关系。

Event代表系统是在某个时间点发生的一次事件,例如新用户注册、登陆,系统异常等,理论上可以记录任何事情。

Trace记录debug或者info信息。

Metric记录一些指标信息,cat提供logMetricForSum, logMetricForCount以及logMetricForDuration对指标做简单的度量统计。

Heartbeat则是用来记录系统的心跳信息,例如cpu,内存等等。Cat默认收集c端(见上节c和s的区分)节点的心跳信息。对报文结构感兴趣的可以查看status.xsd。

关键配置的静态结构

Cat有三个重要配置,分别是ClientConfig, RouterConfig和ServerConfig,分别代表客户端信息,服务路由信息以及服务端配置信息。

每个客户端对应一组对服务器以及一个domain信息,客户端默认从这组服务中的一个节点上拉取路由配置信息。客户端的查询参数里带有domain信息,服务端的路由配置里如果有相应的domain则返回相应domain下的一组server信息,如果没有则返回default servers。

返回的路由信息包含一组日志服务节点以及采样比例(sample),日志服务节点包含权重,socket端口号以及id(ip)。采样比例是指客户端的cat日志多少次里抽样发送1次,例如0.2则代表记录5次日志会忘服务端发送1次。

客户端拉取到router信息后,和router的日志server列表中第一个可用server之间建立netty channel,并启动一个线程对channel进行维护。对channel的维护主要包括:
1. 比较服务端路由信息和客户端上次抓取的是否一致,不一致则更新客户端router信息,并重新建立新channel
2. 判断当前channel状态,如果状态不正常,则从router的server列表里重新找出一个能用的server建立channel

客户端拉取不到router信息时,默认使用客户端下的server列表作为远程日志服务器组。

ServerConfig主要用于服务端节点的职能描述,主要有以下几类功能:
1. 定义服务节点职能,可以运行哪类任务,以及是否可以发送告警信息和是否是hdfs存储节点。
2. 通过consoleConfig定义相应报表数据的获取节点,一般用于告警节点远程拉取所有节点的报表数据进行筛选。
3. ConsumerConfig定义各种类型的事务时间阈值,从名字可以看出来分别定义url,sql以及cache类型的事务时间的阈值,超过这个时间会被认为是一个problem。

大众点评Cat--架构分析相关推荐

  1. 大众点评CAT开源监控系统剖析

    参考文档: 大众点评的实时监控系统分析(一) CAT_source_analyze 透过CAT,来看分布式实时监控系统的设计与实现 深度剖析开源分布式监控CAT [分布式监控CAT] Client端源 ...

  2. 一、springboot项目集成大众点评cat

    一. 什么是CAT 1.cat简介 Cat是基于Java开发的实时应用监控平台,为美团点评提供了全面的实时监控告警服务 • CAT作为服务端项目基础组件,提供了java, c/c++, node, p ...

  3. cat 大众点评 mysql_搭建大众点评 CAT 监控平台

    搭建大众点评 CAT 监控平台 CAT(Central Application Tracking)是基于Java开发的实时应用监控平台,包括实时应用监控,业务监控.关于CAT的具体介绍可移步到CAT官 ...

  4. 三、美团大众点评CAT监控系列文章---Springboot集成CAT并实现邮件告警

    文章目录 一.配置过程 二.相关的参考文档 三.系列文章 一.配置过程 登录自己的cat服务端 默认登录用户名和密码都是 catadmin添加一个监控规则: 如下面的监控规则就是说,如果在一分钟以内访 ...

  5. 二、美团大众点评CAT监控系列文章---CAT监控的服务端配置

    文章目录 一.服务端下载和配置 二.相关的参考文档 三. 系列文章 一.服务端下载和配置 运行环境及开发工具如下: Jdk8 ,tomcat8,windows10,itellij idea,maven ...

  6. 大众点评cat接入记录

    背景 因为公司api接口时不时的被人攻击,频繁的撞库,所以需要一套完整的监控体系来管理所有的接口.组内其他人正在快速迭代一个初期的监控报警体系,而我闲着没事就顺便看了下大众点评的cat,刚好以前的同事 ...

  7. Centos6.5部署大众点评CAT

    CAT (Central Application Tracking) 简介: CAT 是大众点评开源的一套基于java的实时应用监控平台,主要应用于服务中间件框架(MVC 框架.RPC 框架.持久层框 ...

  8. cat 常用的日志分析架构方案_大众点评Cat--架构分析

    转自:http://blog.csdn.net/szwandcj/article/details/51025669 Cat功能强大且多,光日志的报表和图表分析就有十几种,但文档却很少,寥寥无几找到一些 ...

  9. 大众点评cat监控系统

    点评的cat做业务监控确实不错,听说cat 2 快要出来了..... 搭建.文档 cat github地址:https://github.com/dianping/cat  相关文档:搭建文档  怎么 ...

最新文章

  1. 模板 - 最小树形图(朱刘算法)
  2. c语言个人账册报告的课题来源,C语言个人账簿管理系统报告
  3. Redis面试题详解
  4. [luogu4128][shoi2006]有色图
  5. mysql grant 表通配符_mysql如何使用GRANT表----访问控制
  6. 大学c语言常用语句意思,C语言常用语句
  7. (转)微服务架构 互联网保险O2O平台微服务架构设计
  8. Lua-泛型for循环 pairs和ipairs的区别
  9. I00010 打印1到输入数之间的回文数
  10. 如何搭建大数据分析平台
  11. matlab 中函数regionprops 求解区域面积的原理
  12. (学习日记)裘宗燕:C/C++ 语言中的表达式求值
  13. 如何安全地终止线程interrupt()、isInterrupted()、interrupted()的区别与使用
  14. 闲置安卓手机改造linux服务器
  15. 应届毕业生应该怎样写简历?
  16. PyQt5的Label鼠标的划过和单击
  17. 违背妇女意志_2018年国际妇女节:在技术中庆祝妇女
  18. Unity3D压缩和解压缩文件
  19. django中models的filter过滤方法
  20. java中双冒号的用法

热门文章

  1. Windows Server 2008密码破解
  2. 作为数字化转型的布道者,疫情后我们还需要坚守什么?
  3. 你可能已经被运营商http劫持了
  4. 计算机如何添加新用户,笔记本电脑怎么样快速添加新用户帐号
  5. 深信服X计划-云计算基础1
  6. 图解Linux命令之--hwclock命令
  7. 什么是色彩管理,OPPO 全链路色彩管理全在哪?
  8. Hadoop性能调优全面总结
  9. 微生物菌群宏基因组研究技术分享
  10. 怎么关闭windows中不在控制面板上的smartscreen筛选器