使用 TiUP 部署 TiDB 集群时,一键部署监控系统 (Prometheus & Grafana),监控架构参见 TiDB 监控框架概述。

目前 Grafana Dashboard 整体分为 PD、TiDB、TiKV、Node_exporter、Overview、Performance_overview 等。

对于日常运维,我们单独挑选出重要的 Metrics 放在 Overview 页面,方便日常运维人员观察集群组件 (PD, TiDB, TiKV) 使用状态以及集群使用状态。

以下为 Overview Dashboard 监控说明:

Services Port Status

  • Services Up:各服务在线节点数量

PD

  • PD role:当前 PD 的角色
  • Storage capacity:TiDB 集群总可用数据库空间大小
  • Current storage size:TiDB 集群目前已用数据库空间大小,TiKV 多副本的空间占用也会包含在内
  • Normal stores:处于正常状态的节点数目
  • Abnormal stores:处于异常状态的节点数目,正常情况应当为 0
  • Number of Regions:当前集群的 Region 总量,请注意 Region 数量与副本数无关
  • 99% completed_cmds_duration_seconds:单位时间内,99% 的 pd-server 请求执行时间小于监控曲线的值,一般 <= 5ms
  • Handle_requests_duration_seconds:PD 发送请求的网络耗时
  • Region health:每个 Region 的状态,通常情况下,pending 的 peer 应该少于 100,miss 的 peer 不能一直大于 0
  • Hot write Region's leader distribution:每个 TiKV 实例上是写入热点的 leader 的数量
  • Hot read Region's leader distribution:每个 TiKV 实例上是读取热点的 leader 的数量
  • Region heartbeat report:TiKV 向 PD 发送的心跳个数
  • 99% Region heartbeat latency:99% 的情况下,心跳的延迟

TiDB

  • Statement OPS:不同类型 SQL 语句每秒执行的数量。按 SELECTINSERTUPDATE 等来统计
  • Duration:执行的时间
    • 客户端网络请求发送到 TiDB,到 TiDB 执行结束后返回给客户端的时间。一般情况下,客户端请求都是以 SQL 语句的形式发送,但也可以包含 COM_PINGCOM_SLEEPCOM_STMT_FETCHCOM_SEND_LONG_DATA 之类的命令执行的时间
    • 由于 TiDB 支持 Multi-Query,因此,可以接受客户端一次性发送的多条 SQL 语句,如:select 1; select 1; select 1;。此时,统计的执行时间是所有 SQL 执行完之后的总时间
  • CPS By Instance:每个 TiDB 实例上的命令统计。按照命令和执行结果成功或失败来统计
  • Failed Query OPM:每个 TiDB 实例上,每秒钟执行 SQL 语句发生错误按照错误类型的统计(例如语法错误、主键冲突等)。包含了错误所属的模块和错误码
  • Connection count:每个 TiDB 的连接数
  • Memory Usage:每个 TiDB 实例的内存使用统计,分为进程占用内存和 Golang 在堆上申请的内存
  • Transaction OPS:每秒事务执行数量统计
  • Transaction Duration:事务执行的时间
  • KV Cmd OPS:KV 命令执行数量统计
  • KV Cmd Duration 99:KV 命令执行的时间
  • PD TSO OPS:TiDB 每秒从 PD 获取 TSO 的数量
  • PD TSO Wait Duration:TiDB 等待从 PD 获取 TS 的时间
  • TiClient Region Error OPS:TiKV 返回 Region 相关错误信息的数量
  • Lock Resolve OPS:TiDB 清理锁操作的数量。当 TiDB 的读写请求遇到锁时,会尝试进行锁清理
  • Load Schema Duration:TiDB 从 TiKV 获取 Schema 的时间
  • KV Backoff OPS:TiKV 返回错误信息的数量

TiKV

  • leader:各个 TiKV 节点上 Leader 的数量分布
  • region:各个 TiKV 节点上 Region 的数量分布
  • CPU:各个 TiKV 节点的 CPU 使用率
  • Memory:各个 TiKV 节点的内存使用量
  • store size:每个 TiKV 实例的使用的存储空间的大小
  • cf size:每个列族的大小
  • channel full:每个 TiKV 实例上 channel full 错误的数量,正常情况下应当为 0
  • server report failures:每个 TiKV 实例上报错的消息个数,正常情况下应当为 0
  • scheduler pending commands:每个 TiKV 实例上 pending 命令的个数
  • coprocessor executor count:TiKV 每秒收到的 coprocessor 操作数量,按照 coprocessor 类型统计
  • coprocessor request duration:处理 coprocessor 读请求所花费的时间
  • raft store CPU:raftstore 线程的 CPU 使用率,线程数量默认为 2(通过 raftstore.store-pool-size 配置)。如果单个线程使用率超过 80%,说明使用率很高
  • Coprocessor CPU:coprocessor 线程的 CPU 使用率

System Info

  • Vcores:CPU 核心数量
  • Memory:内存总大小
  • CPU Usage:CPU 使用率,最大为 100%
  • Load [1m]:1 分钟的负载情况
  • Memory Available:剩余内存大小
  • Network Traffic:网卡流量统计
  • TCP Retrans:TCP 重传数量统计
  • IO Util:磁盘使用率,最高为 100%,一般到 80% - 90% 就需要考虑加节点

图例

Overview 面板重要监控指标详解相关推荐

  1. 通达信板块监控指标_板块全能显显示板块板块监控指标详解 通达信全能监控...

    板块全能显显示板块板块监控指标详解 通达信全能监控详细说明 第一股票公式网(www.chnmoney.com)告诉您:当前正要下载:板块全能显显示板块板块监控指标详解 通达信全能监控 { 参数 RN: ...

  2. TiDB 重要监控指标详解

    使用 TiUP 部署 TiDB 集群时,你可以一键部署监控系统 (Prometheus & Grafana),参考监控架构 TiDB 监控框架概述. 目前 Grafana Dashboard ...

  3. TiKV 监控指标详解

    使用 TiUP 部署 TiDB 集群时,一键部署监控系统 (Prometheus & Grafana),监控架构参见 TiDB 监控框架概述. 目前 Grafana Dashboard 整体分 ...

  4. PD 重要监控指标详解

    使用 TiUP 部署 TiDB 集群时,一键部署监控系统 (Prometheus & Grafana),监控架构参见 TiDB 监控框架概述. 目前 Grafana Dashboard 整体分 ...

  5. 【kibana】kibana node 监控指标 详解

    1.概述 2.Overview 3.Advanced 3.1 Index Memory - Elasticsearch

  6. zabbix 监控过程详解

    监控过程详解 1.修改密码及中文版 按如上操作即可,选择中文以后,点击下面的update即可更新成功 为了安全起见修改密码 修改完成后同样点击更新即可. 2.创建主机及主机群组 1.定义一个主机群组 ...

  7. 消费金融五类风控指标详解

    一.序言 现在消费金融.现金贷发展的非常迅猛,几乎渗透于任何场景.最近一两年以来,国家对P2P的政策管制和对校园贷款.现金贷的政策越来越严格,笔者作为消费类金融从业者,需要学习的知识更多. 目前市面上 ...

  8. Linux top 命令基础用法和指标详解

    top Linux top命令用于实时显示 process 的动态. 参数说明: d : 改变显示的更新速度,或是在交谈式指令列( interactive command)按 s q : 没有任何延迟 ...

  9. Zabbix5.0监控系统安装详解

    Zabbix5.0监控系统安装详解 一.Zabbix介绍 二.Zbbix的LAMP环境安装 1.防火墙和SElinux配置 2.安装LAMP环境 三.安装Zabbix软件 四.Zabbix的Mysql ...

最新文章

  1. 如何使用XenServer使用本地ISO镜像
  2. AttributeError: module ‘cv2‘ has no attribute ‘SIFT‘
  3. 【控制】《多智能体系统的动力学分析与设计》徐光辉老师-第10章-带有分层领航者的多智能体系统的混杂协调
  4. 嵌入式linux开发考试题目,练一练!3道经典嵌入式Linux面试题,答案在文末。
  5. [BZOJ 5074] 小B的数字
  6. java markdown转word_一键将 Word 转换为 Markdown
  7. 使用MyBatis框架连接MySQL数据库查询记录,全部步骤
  8. python机器学习库sklearn——k均值聚类
  9. [转载] 利用python制作简单计算器
  10. JavaWeb — 获取复选框的值时,要注意不是得到显示的值,而是得到value值
  11. 缓存与缓冲的区别 cache与buffer的区别
  12. java基础练习(持续更新)
  13. 2022 VMware下载安装教程
  14. 1026 程序运行时间(C语言)
  15. 微信支付宝扫码支付简介
  16. 数字创意产业定义与研究范围
  17. 说出数据连接池的工作机制是什么?
  18. IOC和DI到底是什么?
  19. 算法时间复杂度计算方法
  20. python绘制缓和曲线_CAD中缓和曲线的画法 - AutoCAD基础应用 - CAD论坛 - 明经CAD社区 - Powered by Discuz!...

热门文章

  1. CentOS安装中文语言包
  2. [下载]黑莓BlackBerry开发官方文档系列
  3. iphone用GDB修改游戏教程!详细的图文教程!
  4. USB存储禁用及解禁
  5. 真实地图最短路径规划(A*算法)
  6. 耳机插入电脑为啥没声音,解决方案
  7. “关爱你我他,温暖千万家”——爱心温暖事实孤儿心田
  8. 鼠标侧键能改为ctrl吗_垂直鼠标真的能告别鼠标手吗?
  9. [绍棠] 关于 @synchronized
  10. Oracle生成日期列表