PingCAP Clinic 诊断服务(以下简称为 PingCAP Clinic)是 PingCAP 为 TiDB 集群提供的诊断服务,支持对使用 TiUP 或 TiDB Operator 部署的集群进行远程定位集群问题和本地快速检查集群状态,用于从全生命周期确保 TiDB 集群稳定运行、预测可出现的集群问题、降低问题出现概率、快速定位并修复问题。

PingCAP Clinic 服务提供以下两个组件进行集群诊断:

  • Diag 诊断客户端:部署在集群侧的工具,用于采集集群的诊断数据 (collect)、上传诊断数据到 Clinic Server、对集群进行本地快速健康检查 (check)。如需了解 Diag 工具可采集的详细的数据列表,请参阅 PingCAP Clinic 数据采集说明。

    注意

    Diag 诊断客户端支持 TiDB v4.0 及以上的集群,不支持使用 TiDB Ansible 部署的集群。

  • Clinic Server:部署在云端的云服务。Clinic Server 提供 SaaS 模式的诊断服务,不仅能接收上传到该组件的诊断数据,也可以提供在线诊断环境,用于存储、查看和诊断已上传的诊断数据,并提供集群诊断报告。根据数据存储的位置不同,Clinic Server 分为以下两个独立的服务:

    • Clinic Server 中国区,数据存储在 AWS 中国区(北京)。
    • Clinic Server 美国区,数据存储在 AWS 美国区。

使用场景

  • 远程定位集群问题

    当集群出现无法快速修复的问题时,可以求助社区论坛或者联系 PingCAP 技术支持。当申请远程协助时,你需要先保存问题现场的各种诊断数据,然后将其转发给相关技术人员。此时,你可以使用 Diag 诊断客户端,对诊断数据进行一键采集,快速收集完整的诊断数据,替代复杂的手动数据采集操作。随后,你可以将其诊断数据上传到 Clinic Server,供 PingCAP 技术人员查看。Clinic Server 为诊断数据提供了安全的存储,并支持在线诊断,提升了技术人员进行问题定位的效率。

  • 快速检查集群状态

    即使集群可以正常运行,也需要定期检查集群是否有潜在的稳定性风险。PingCAP Clinic 提供的本地和 Server 端的快速诊断功能,用于检查集群潜在的健康风险。

工作原理

本章节主要介绍 Diag 诊断客户端(以下简称为 Diag)采集集群诊断数据的工作原理。

首先,Diag 需要从部署工具 TiUP (tiup-cluster) 或 TiDB Operator (tidb-operator) 获取集群拓扑信息,然后通过不同的数据采集方式来采集不同类型的诊断数据,具体采集方式如下:

  • 通过 SCP 传输服务器文件

    对于使用 TiUP 部署的集群,Diag 可通过 SCP (Secure copy protocol) 直接从目标组件的节点采集日志文件和配置文件。

  • 通过 SSH 远程执行命令采集数据

    对于 TiUP 部署的集群,Diag 可以通过 SSH (Secure Shell) 连接到目标组件系统,并可执行 Insight 等命令获取系统信息,包括内核日志、内核参数、系统和硬件的基础信息等。

  • 通过 HTTP 调用采集数据

    • 通过调用 TiDB 组件的 HTTP 接口,Diag 可获取 TiDB、TiKV、PD 等组件的实时配置采样信息与实时性能采样信息。
    • 通过调用 Prometheus 的 HTTP 接口,Diag 可获取报警信息和 metrics 监控数据。
  • 通过 SQL 语句查询数据库参数

    通过 SQL 语句,Diag 可以查询 TiDB 数据库的系统参数等信息。对于这种方式,你需要在采集数据时额外提供访问 TiDB 数据库的用户名和密码。

Clinic Server 使用限制

注意

  • Clinic Server 诊断服务在 2022 年 7 月 15 日至 2023 年 1 月 14 日期间提供免费服务。后续如需收取相关费用,PingCAP Clinic 运营团队将在 2023 年 1 月 14 日前通过邮件通知用户。
  • 如果需要调整使用限制,可以联系 PingCAP 技术支持。
诊断服务类型 使用限制
每个组织最多可以创建的集群数量 10 个
诊断数据存储容量 50 GB/集群
诊断数据最长存储时间 180 天
数据包最大大小 3 GB
诊断数据重建保存时间 最长 3 天

PingCAP Clinic 诊断服务简介相关推荐

  1. 使用 PingCAP Clinic 诊断 TiDB 集群

    对于使用 TiUP 部署的 TiDB 集群和 DM 集群,PingCAP Clinic 诊断服务(以下简称为 PingCAP Clinic)可以通过 Diag 诊断客户端(以下简称为 Diag)与 C ...

  2. PingCAP Clinic 快速上手指南

    本指南介绍如何使用 PingCAP Clinic 诊断服务(以下简称为 PingCAP Clinic)快速采集.上传.查看集群诊断数据. PingCAP Clinic 由 Diag 诊断客户端(以下简 ...

  3. PingCAP Clinic 数据采集说明

    本文提供了 PingCAP Clinic 诊断服务(以下简称为 PingCAP Clinic)在使用 TiUP 部署的 TiDB 集群和 DM 集群中能够采集的诊断数据类型,并列出了各个采集项对应的采 ...

  4. PingCAP Clinic 服务:贯穿云上云下的 TiDB 集群诊断服务

    伴随着 TiDB 6.0 的发布,PingCAP Clinic 服务也揭开了她的面纱,提供 Tech Preview 版本给广大用户试用. Clinic 服务源于 TiDB Cloud, 以智能诊断提 ...

  5. Autosar学习笔记——(三)诊断服务

    1. 汽车诊断的定义 1.1 在线诊断(Onboard Diagnostic System) 通过车辆自带的在线诊断系统对ECU的软硬件及各传感器参数进行某些常见故障的实时监控与发现,当系统判断电控系 ...

  6. 【学习笔记】SAP OData服务简介

    SAP OData服务简介 之前有一篇博文介绍过OData:OData简介 OData服务在数据提取方面有如下优势: 适合流行的REST模式: 将数据服务提供给任何可以进行HTTP调用的设备或者客户端 ...

  7. AD 域服务简介(二)- Java 获取 AD 域用户

    博客地址:http://www.moonxy.com 关于AD 域服务器搭建及其使用,请参阅:AD 域服务简介(一) - 基于 LDAP 的 AD 域服务器搭建及其使用 一.前言 先简单简单回顾上一篇 ...

  8. J2EE基础之Web服务简介

    J2EE基础之Web服务简介 1.什么是Web服务? 在人们的日常生活中,经常会查询网页上某城市的天气信息,这些信息都是动态的.实时的,它是专业的气象站提供的一种服务.例如,在网上购物时,通常采用网上 ...

  9. 《深入理解 Spring Cloud 与微服务构建》第一章 微服务简介

    <深入理解 Spring Cloud 与微服务构建>第一章 微服务简介 文章目录 <深入理解 Spring Cloud 与微服务构建>第一章 微服务简介 一.单体架构及其存在的 ...

最新文章

  1. 使用Jupyter Notebook编写技术文档
  2. 69张图看懂Elon Musk的脑机接口芯片项目
  3. 马斯克一作!Neuralink脑机接口细节公布,特殊材料防大脑损伤,专用芯片助技术落地...
  4. Java并发—锁的四种状态
  5. [ js处理表单 ]:保存、提交
  6. CAP 发布 5.0 版本正式发布
  7. 5-Dockerfile文件
  8. JS 常用函数一(弹对话框、操作HTML元素、写HTML文档、写到控制台、查找元素、元素插入内容、改变HTML属性、计时)
  9. Linux常用的查看设备的命令
  10. 基于节点类的二叉树实现及部分操作函数
  11. python语言发展历时_编程语言十年发展史
  12. [.NET] 《Effective C#》快速笔记(一)- C# 语言习惯
  13. 人为什么要去旅行?旅行跟旅游的区别是什么?
  14. 掌握 Android开发的前后端应用
  15. vbs代码弹计算机,如何恶搞朋友的电脑?超简单的vbs代码
  16. 基于Java+SpringBoot+vue+elementui社区疫情防控系统详细设计实现
  17. pdffactory 打印字体_pdfFactory Pro
  18. 阿里倡导成立“罗汉堂”, 6名诺贝尔奖得主加入
  19. 记一次Oracle 11g xe 导出导入使用过程
  20. spm + host

热门文章

  1. 数字图像处理第九章笔记——形态学图像处理
  2. 有用AI应用网站【​All Things AI: https://allthingsai.com/​】
  3. 阿里云主机Linux服务器配置步骤详解
  4. linux系统安装时无线键盘吗,[操作系统]用无线键盘鼠标装多系统或者装红旗LINUX4.0的朋友们进...
  5. 手机群控系统(补充篇)
  6. delphi直接打印jpg文件
  7. python数据分析案例(四):共享单车租用分析
  8. 深度强化学习(DRL)一:入门篇
  9. 中国电视企业逆势增长,助推中国制造走向世界
  10. SpringCloud远程调用报错feign.FeignException: status 405 reading FlightDataClient