Prometheus GPU 监控
Prometheus GPU 监控
- 1,Prometheus GPU 监控
- 2,安装gpu-monitoring-tools
- 2.1,设置`dcgm-exporter`开机启动
- 3,Prometheus修改配置
- 4,grafana
- 5,使用监控面板`9957`可以切换节点
- 6,Grafana设置
- 7,使用`12027`
- 8,使用GPU-Nodes-Metrics-Nvidia 12639
1,Prometheus GPU 监控
- 安装
DCGM
datacenter-gpu-manager_1.7.2_amd64.deb
# dcgmi --versiondcgmi version: 1.7.2
2,安装gpu-monitoring-tools
# git clone https://github.com/NVIDIA/gpu-monitoring-tools.git
# cd gpu-monitoring-tools/
# make binary
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
# make install
go build -o dcgm-exporter github.com/NVIDIA/gpu-monitoring-tools/pkg
install -m 557 dcgm-exporter /usr/bin/dcgm-exporter
install -m 557 -D ./etc/dcgm-exporter/default-counters.csv /etc/dcgm-exporter/default-counters.csv
install -m 557 -D ./etc/dcgm-exporter/dcp-metrics-included.csv /etc/dcgm-exporter/dcp-metrics-included.csv
- 运行
dcgm-exporter
# which dcgm-exporter
/usr/bin/dcgm-exporter
# dcgm-exporter
INFO[0000] Starting dcgm-exporter
INFO[0000] DCGM successfully initialized!
INFO[0000] Pipeline starting
INFO[0000] Starting webserver
- 测试,可以看到监控数据
# curl 192.168.1.2:9400/metrics
2.1,设置dcgm-exporter
开机启动
vim /lib/systemd/system/dcgm-exporter.service
新建服务
[Unit]
Description=dcgm-exporter service[Service]
User=root
ExecStart=/usr/bin/dcgm-exporterTimeoutStopSec=10
Restart=on-failure
RestartSec=5[Install]
WantedBy=multi-user.target
# systemctl daemon-reload
# systemctl enable dcgm-exporter.service
# systemctl start dcgm-exporter.service
# systemctl status dcgm-exporter.service
3,Prometheus修改配置
- 添加
dcgm-exporter
# dcgm-exporter- job_name: 'gpu'static_configs:- targets: ['192.168.1.2:9400']
# cat prometheus.yml- job_name: 'prometheus'# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ['localhost:9090']# node_exporter- job_name: 'node'static_configs:- targets: ['127.0.0.1:9100','192.168.1.2:9100']# dcgm-exporter- job_name: 'gpu'static_configs:- targets: ['192.168.1.2:9400']
- 重启
prometheus
systemctl restart prometheus.service
4,grafana
5,使用监控面板9957
可以切换节点
6,Grafana设置
- 监控功率,
instance
为ip地址
DCGM_FI_DEV_POWER_USAGE{instance="192.168.1.101:9400"}
- 显卡使用率
DCGM_FI_DEV_GPU_UTIL{instance="192.168.1.101:9400"}
7,使用12027
# dcgm-exporter- job_name: 'gpu-metrics'static_configs:- targets: ['127.0.0.1:9400','192.168.1.101:9400','192.168.1.102:9400']
- 手动设置监控
- 查看显卡指标
curl http://127.0.0.1:9400/metrics
- 使用功率
DCGM_FI_DEV_POWER_USAGE{instance="127.0.0.1:9400"}
- 内存使用
DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}
- 总内存
DCGM_FI_DEV_FB_USED{instance="127.0.0.1:9400"}+DCGM_FI_DEV_FB_FREE{instance="127.0.0.1:9400"}
- GPU使用率
DCGM_FI_DEV_GPU_UTIL{instance="127.0.0.1:9400"}
- GPU内存使用率
DCGM_FI_DEV_MEM_COPY_UTIL{instance="192.168.0.114:9400"}
8,使用GPU-Nodes-Metrics-Nvidia 12639
参考:
- Prometheus + Grafana 监控 NVIDIA GPU
- DCGM 1.7.2 Downloads (December 2019)
- GPU Nodes v2
- NVIDIA/gpu-monitoring-tools
- NVIDIA DCGM Exporter Dashboard
- GPU Nodesby bkeyzers
- Integrating with DCGM
- 安装dcgm
- 基于DCGM和Prometheus的GPU监控方案 dcgm r采集指标项以及含义
Prometheus GPU 监控相关推荐
- 实战 Prometheus 搭建监控系统
欢迎关注方志朋的博客,回复"666"获面试宝典 Prometheus 是一款基于时序数据库的开源监控告警系统,说起 Prometheus 则不得不提 SoundCloud,这是一个 ...
- 基于 Prometheus 的监控系统实践
监控作为底层基础设施的一环,是保障生产环境服务稳定性不可或缺的一部分,线上问题从发现到定位再到解决,通过监控和告警手段可以有效地覆盖了「发现」和「定位」,甚至可以通过故障自愈等手段实现解决,服务开发和 ...
- 搭建prometheus+grafana监控系统
prometheus简介 Prometheus是最初在SoundCloud上构建的开源系统监视和警报工具包 .自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发 ...
- Grafana+Prometheus系统监控之webhook
概述 Webhook是一个API概念,并且变得越来越流行.我们能用事件描述的事物越多,webhook的作用范围也就越大.Webhook作为一个轻量的事件处理应用,正变得越来越有用. 准确的说webho ...
- 使用Prometheus+Grafana 监控MySQL/MONGODB
使用Prometheus+Grafana 监控MySQL/MONGODB 之前就久仰 Prometheus 大名,因为有用zabbix 进行监控,就没去安装它.现在正好用上监控MONGO+MYSQL. ...
- Prometheus 系统监控方案
最近一直在折腾时序类型的数据库,经过一段时间项目应用,觉得十分不错.而Prometheus又是刚刚推出不久的开源方案,中文资料较少,所以打算写一系列应用的实践过程分享一下. Prometheus 是什 ...
- 基于Prometheus+Grafana监控SQL Server数据库
墨墨导读:本文整理了基于Prometheus+Grafana监控SQL Server数据库的全过程,分享至此,希望对大家有帮助. 搭建SQL Server环境 使用容器建立SQL Server环境非常 ...
- Prometheus+Grafana监控PostgreSQL
Prometheus+Grafana监控PostgreSQL Prometheus:2.32.0 Grafana:8.3.3 PG:13.2 Linux:CentOS7.6 docker:18.06. ...
- Linux安装prometheus+grafana监控
一.在业务中遇到服务器负载过高问题,由于没有监控,一直没发现,直到业务方反馈网站打开速度慢,才发现问题.这样显得开发很被动.所以是时候搭建一套监控系统了. 由于是业余时间自己捯饬,所以神马业务层面的监 ...
最新文章
- my wordpress
- 记一次事务报错问题 Transaction synchronization is not active
- php 获取汉字,php 获取汉字长度
- win10开启telnet客户端
- QT的QWizard类的使用
- C编程实践:简单的通讯录
- Mysql入门的10条语句
- 第十四篇 元类编程(二)
- php oop 效率,浅谈PHP的oop
- lambd 创建线程_连接到Qt信号的Python lambda函数在其他线程中创建时不运行
- java初_JAVA的初体验
- Linux之磁盘挂载
- 设置eclipse主题
- HTML5 CSS3学习
- 电脑只能上QQ不能上网怎么办
- When Machine Learning Meets Congestion Control: A Survey and Comparison
- SVM之线性不可分与核技巧
- 一种简单、安全的Dota全图新思路 作者:LC
- 《大学》《中庸》全文及翻译 (转载)
- 如何破解超级用户密码?
热门文章
- RKE2安装kubernetes(2)
- 前端 react教程(详细版)
- 办公室打印服务器方案
- 高防IP和云防护的好处
- 记SpringBoot aplication.yml文件配置的一个小坑
- matlab的xcorr函数,Matlab_xcorr_互相关函数的讨论
- hello,handsome...
- saleae逻辑分析仪-串口
- 搜索不到投屏设备怎么办_【蜜蜂市场科普】用乐播投屏时,搜不到设备怎么办?...
- 都工作两年了,还不知道浮点数如何转二进制?