Prometheus GPU 监控

  • 1,Prometheus GPU 监控
  • 2,安装gpu-monitoring-tools
    • 2.1,设置`dcgm-exporter`开机启动
  • 3,Prometheus修改配置
  • 4,grafana
  • 5,使用监控面板`9957`可以切换节点
  • 6,Grafana设置
  • 7,使用`12027`
  • 8,使用GPU-Nodes-Metrics-Nvidia 12639

1,Prometheus GPU 监控

  • 安装DCGM
  • datacenter-gpu-manager_1.7.2_amd64.deb
# dcgmi --versiondcgmi  version: 1.7.2

2,安装gpu-monitoring-tools

# git clone https://github.com/NVIDIA/gpu-monitoring-tools.git
# cd gpu-monitoring-tools/
# make binary
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
# make install
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
install -m 557 dcgm-exporter /usr/bin/dcgm-exporter
install -m 557 -D ./etc/dcgm-exporter/default-counters.csv /etc/dcgm-exporter/default-counters.csv
install -m 557 -D ./etc/dcgm-exporter/dcp-metrics-included.csv /etc/dcgm-exporter/dcp-metrics-included.csv
  • 运行dcgm-exporter
# which dcgm-exporter
/usr/bin/dcgm-exporter
# dcgm-exporter
INFO[0000] Starting dcgm-exporter
INFO[0000] DCGM successfully initialized!
INFO[0000] Pipeline starting
INFO[0000] Starting webserver
  • 测试,可以看到监控数据
# curl 192.168.1.2:9400/metrics

2.1,设置dcgm-exporter开机启动

  • vim /lib/systemd/system/dcgm-exporter.service 新建服务
[Unit]
Description=dcgm-exporter service[Service]
User=root
ExecStart=/usr/bin/dcgm-exporterTimeoutStopSec=10
Restart=on-failure
RestartSec=5[Install]
WantedBy=multi-user.target
# systemctl daemon-reload
# systemctl enable dcgm-exporter.service
# systemctl start dcgm-exporter.service
# systemctl status dcgm-exporter.service

3,Prometheus修改配置

  • 添加dcgm-exporter
    # dcgm-exporter- job_name: 'gpu'static_configs:- targets: ['192.168.1.2:9400']
# cat prometheus.yml- job_name: 'prometheus'# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ['localhost:9090']# node_exporter- job_name: 'node'static_configs:- targets: ['127.0.0.1:9100','192.168.1.2:9100']# dcgm-exporter- job_name: 'gpu'static_configs:- targets: ['192.168.1.2:9400']
  • 重启prometheus
systemctl restart  prometheus.service

4,grafana

5,使用监控面板9957可以切换节点


6,Grafana设置

  • 监控功率,instance为ip地址
DCGM_FI_DEV_POWER_USAGE{instance="192.168.1.101:9400"}
  • 显卡使用率
DCGM_FI_DEV_GPU_UTIL{instance="192.168.1.101:9400"}

7,使用12027

   # dcgm-exporter- job_name: 'gpu-metrics'static_configs:- targets: ['127.0.0.1:9400','192.168.1.101:9400','192.168.1.102:9400']

  • 手动设置监控
  • 查看显卡指标
curl http://127.0.0.1:9400/metrics
  • 使用功率
DCGM_FI_DEV_POWER_USAGE{instance="127.0.0.1:9400"}
  • 内存使用
DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}
  • 总内存
DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}+DCGM_FI_DEV_FB_FREE{instance="127.0.0.1:9400"}
  • GPU使用率
DCGM_FI_DEV_GPU_UTIL{instance="127.0.0.1:9400"}
  • GPU内存使用率
DCGM_FI_DEV_MEM_COPY_UTIL{instance="192.168.0.114:9400"}

8,使用GPU-Nodes-Metrics-Nvidia 12639

参考:

  1. Prometheus + Grafana 监控 NVIDIA GPU
  2. DCGM 1.7.2 Downloads (December 2019)
  3. GPU Nodes v2
  4. NVIDIA/gpu-monitoring-tools
  5. NVIDIA DCGM Exporter Dashboard
  6. GPU Nodesby bkeyzers
  7. Integrating with DCGM
  8. 安装dcgm
  9. 基于DCGM和Prometheus的GPU监控方案 dcgm r采集指标项以及含义

Prometheus GPU 监控相关推荐

  1. 实战 Prometheus 搭建监控系统

    欢迎关注方志朋的博客,回复"666"获面试宝典 Prometheus 是一款基于时序数据库的开源监控告警系统,说起 Prometheus 则不得不提 SoundCloud,这是一个 ...

  2. 基于 Prometheus 的监控系统实践

    监控作为底层基础设施的一环,是保障生产环境服务稳定性不可或缺的一部分,线上问题从发现到定位再到解决,通过监控和告警手段可以有效地覆盖了「发现」和「定位」,甚至可以通过故障自愈等手段实现解决,服务开发和 ...

  3. 搭建prometheus+grafana监控系统

    prometheus简介 Prometheus是最初在SoundCloud上构建的开源系统监视和警报工具包 .自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发 ...

  4. Grafana+Prometheus系统监控之webhook

    概述 Webhook是一个API概念,并且变得越来越流行.我们能用事件描述的事物越多,webhook的作用范围也就越大.Webhook作为一个轻量的事件处理应用,正变得越来越有用. 准确的说webho ...

  5. 使用Prometheus+Grafana 监控MySQL/MONGODB

    使用Prometheus+Grafana 监控MySQL/MONGODB 之前就久仰 Prometheus 大名,因为有用zabbix 进行监控,就没去安装它.现在正好用上监控MONGO+MYSQL. ...

  6. Prometheus 系统监控方案

    最近一直在折腾时序类型的数据库,经过一段时间项目应用,觉得十分不错.而Prometheus又是刚刚推出不久的开源方案,中文资料较少,所以打算写一系列应用的实践过程分享一下. Prometheus 是什 ...

  7. 基于Prometheus+Grafana监控SQL Server数据库

    墨墨导读:本文整理了基于Prometheus+Grafana监控SQL Server数据库的全过程,分享至此,希望对大家有帮助. 搭建SQL Server环境 使用容器建立SQL Server环境非常 ...

  8. Prometheus+Grafana监控PostgreSQL

    Prometheus+Grafana监控PostgreSQL Prometheus:2.32.0 Grafana:8.3.3 PG:13.2 Linux:CentOS7.6 docker:18.06. ...

  9. Linux安装prometheus+grafana监控

    一.在业务中遇到服务器负载过高问题,由于没有监控,一直没发现,直到业务方反馈网站打开速度慢,才发现问题.这样显得开发很被动.所以是时候搭建一套监控系统了. 由于是业余时间自己捯饬,所以神马业务层面的监 ...

最新文章

  1. my wordpress
  2. 记一次事务报错问题 Transaction synchronization is not active
  3. php 获取汉字,php 获取汉字长度
  4. win10开启telnet客户端
  5. QT的QWizard类的使用
  6. C编程实践:简单的通讯录
  7. Mysql入门的10条语句
  8. 第十四篇 元类编程(二)
  9. php oop 效率,浅谈PHP的oop
  10. lambd 创建线程_连接到Qt信号的Python lambda函数在其他线程中创建时不运行
  11. java初_JAVA的初体验
  12. Linux之磁盘挂载
  13. 设置eclipse主题
  14. HTML5 CSS3学习
  15. 电脑只能上QQ不能上网怎么办
  16. When Machine Learning Meets Congestion Control: A Survey and Comparison
  17. SVM之线性不可分与核技巧
  18. 一种简单、安全的Dota全图新思路 作者:LC
  19. 《大学》《中庸》全文及翻译 (转载)
  20. 如何破解超级用户密码?

热门文章

  1. RKE2安装kubernetes(2)
  2. 前端 react教程(详细版)
  3. 办公室打印服务器方案
  4. 高防IP和云防护的好处
  5. 记SpringBoot aplication.yml文件配置的一个小坑
  6. matlab的xcorr函数,Matlab_xcorr_互相关函数的讨论
  7. hello,handsome...
  8. saleae逻辑分析仪-串口
  9. 搜索不到投屏设备怎么办_【蜜蜂市场科普】用乐播投屏时,搜不到设备怎么办?...
  10. 都工作两年了,还不知道浮点数如何转二进制?