DCGM-Exporter 安装 显卡监控 Prometheus
DCGM-Exporter 安装 显卡监控
- 1.使用docker方式
- 2.查看显卡参数
- 3.Prometheus配置文件修改
- 4.grafana仪表板导入
1.使用docker方式
- 安装显卡驱动
nvidia-smi
可以查看 - 安装Nvidia Docker
docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04
# docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04
Unable to find image 'nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04' locally
2.0.13-2.1.1-ubuntu18.04: Pulling from nvidia/dcgm-exporter
171857c49d0f: Pull complete
419640447d26: Pull complete
61e52f862619: Pull complete
2a93278deddf: Pull complete
c9f080049843: Pull complete
8189556b2329: Pull complete
293c994cc6c2: Pull complete
f79d1a4211c3: Pull complete
fe75137a11ed: Pull complete
35772a4b9159: Pull complete
fdd8c9ae911c: Pull complete
Digest: sha256:31ac69add9788b12f7635d1af23a51b8d740d897a7d4050568190ad8ff6a9a5d
Status: Downloaded newer image for nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04
198fdc1b5cff4661a6ff7cef80b6b033ff1380340614dc886e5a60c7bd7754f5
# docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
198fdc1b5cff nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04 "/usr/local/dcgm/dcg…" About a minute ago Up About a minute 0.0.0.0:9400->9400/tcp objective_morse
2.查看显卡参数
curl localhost:9400/metrics
# curl localhost:9400/metrics
# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
# HELP DCGM_FI_DEV_MEMORY_TEMP Memory temperature (in C).
# TYPE DCGM_FI_DEV_MEMORY_TEMP gauge
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
3.Prometheus配置文件修改
vim prometheus.yml
- 添加
dcgm-exporter
scrape_configs:# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.- job_name: 'prometheus'# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ['localhost:9090']# node_exporter- job_name: 'node'static_configs:- targets: ['127.0.0.1:9100','192.168.10.3:9100']# dcgm-exporter- job_name: 'gpu'static_configs:- targets: ['192.168.10.3:9400']
systemctl restart prometheus.service
IP:9090
4.grafana仪表板导入
- 使用
12639
参考:
- gpu-monitoring-tools
DCGM-Exporter 安装 显卡监控 Prometheus相关推荐
- 开源监控Prometheus二进制安装
Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB).Prometheus使用Go语言开发,是Google BorgMon监控系统的开源版本. Promethe ...
- 开源监控Prometheus介绍,安装,配置,使用详解
介绍 什么是Prometheus? Prometheus是一个开源监控系统,前身是SoundCloud的告警插件.从2012年开始,Prometheus逐渐被大量公司使用.该项目的社区也便跃起来,收到 ...
- 服务器运维监控指标,运维体系~指标监控~Prometheus监控告警与日志
一 Prometheus 入门 1.1 入门介绍 运维体系~指标监控 先来一张图,说明一下Prometheus监控相关的软件和知识点. 1: 首先要安装:Prometheus, 负责收集各种监控指标, ...
- 系统监控——prometheus(普罗米修斯)的部署
系统监控--prometheus的部署 一.prometheus简介 1.优点 2.组件 3.架构 二.环境包准备 三.安装运行 四.网页访问 五.安装图形化界面 一.prometheus简介 pro ...
- 服务器监控-prometheus使用(4):收集器搭建篇
文章目录 0.系列目录 1.前言 2.Telegraf 2.1 安装 2.2配置 2.2.1 inputs.system.conf 2.2.2 inputs.activemq.conf 2.2.3 i ...
- 监控--Prometheus
监控nginx示例 stub_status模块 用于实时监控nginx的网络连接,这个模块是nginx官方提供的一个模块. # 编译nginx,支持stub_status模块 [root@zzgrhe ...
- 云计算监控—Prometheus监控系统(文末赠书)
陈金窗 刘政委 张其栋 郑少斌 读完需要 20 分钟 速读仅需 7 分钟 本文摘自于<Prometheus 监控技术与实战>一书,从云计算时代的业务特点出发,探讨了云计算监控的目标和挑战, ...
- RTX5000安装显卡驱动 CUDA9.0 CUDNN
最近公司买了台RTX5000的服务器,裸机一台,需要安装显卡驱动,CUDA,CUDNN,tensorflow-gpu-1.8, 以前没有装过,导致安装过程中遇到好多坑,最初安装随便搜的个教程安装完后, ...
- 【第7期】云计算监控——Prometheus监控系统
本文摘自于<Prometheus监控技术与实战>一书,从云计算时代的业务特点出发,探讨了云计算监控的目标和挑战,梳理了云资源监控的范围及监控系统实现的一般方式.接着从开源监控软件的演进出发 ...
- fedora18 fedora17安装显卡驱动和网卡驱动
fedora18 fedora17安装显卡驱动和网卡驱动 最近一直有种想购物的冲动,压抑了好久,最后购买了一个镁光M4固态硬盘,使用了很长时间fedora系统,恰巧看到fedora 18 alpha版 ...
最新文章
- html 乱码_html小坑:网页变成乱码
- ajax catch,promise记得写上catch
- Rhel7/Centos7 修改运行级别
- 《C程序设计语言》-第2章-习题
- 程序员 论坛 linux,用了五年Linux,三分钟带你揭开Linux过程内幕
- 虚拟化平台cloudstack(7)——新版本的调试
- io_uring 新异步 IO 机制,性能提升超 150%,堪比 SPDK
- 软件安全测试培训大纲
- cacti监控linux和windows磁盘io,为CactiEZ(或者Cacti)增加监控磁盘IO功能
- java农历万年历课程设计_Java编写多功能万年历程序的实例分享
- 50多首经典的广播电台背景音乐推荐下载
- 靠腾讯光速上位,但同程艺龙可不能忘了“练内功”
- javaweb羽毛球教练场地预约管理系统ssm
- php示例代码之使用MySQLi接口
- FreeRTOS-消息队列详解
- fopen()、fwrite()、fread()函数使用说明与示例
- 放大电路中的反馈(二)负反馈对放大电路影响
- 2022 199管综真题及答案解析
- php文件教程,php文件操作
- vue根据后端菜单数据生成动态路由
热门文章
- 使用VMware虚拟机搭建Panabit透明网桥环境
- 两个服务器微信消息模板发不出去,小程序模板消息调用send大部分情况下发送不出去,但有时又可以发送,什么情况?...
- 分析Kettle性能测试过程中的STARTDATE时间问题
- DDWRT几种无线工作模式简介
- OpenCVSharp Mat.Set<T>修改像素颜色
- notion函数_最适合设计师的笔记软件 Notion
- VBA字符处理 特殊符号
- 怎么将计算机的网络恢复连接,win7怎么还原网络设置 win7本地连接不上的解决方法...
- 给前端工程师看的后端科普
- 2021.10.07高一Python语法入门课堂检测题解