DCGM-Exporter 安装 显卡监控

  • 1.使用docker方式
  • 2.查看显卡参数
  • 3.Prometheus配置文件修改
  • 4.grafana仪表板导入

1.使用docker方式

  • 安装显卡驱动nvidia-smi可以查看
  • 安装Nvidia Docker
docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04
# docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04
Unable to find image 'nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04' locally
2.0.13-2.1.1-ubuntu18.04: Pulling from nvidia/dcgm-exporter
171857c49d0f: Pull complete
419640447d26: Pull complete
61e52f862619: Pull complete
2a93278deddf: Pull complete
c9f080049843: Pull complete
8189556b2329: Pull complete
293c994cc6c2: Pull complete
f79d1a4211c3: Pull complete
fe75137a11ed: Pull complete
35772a4b9159: Pull complete
fdd8c9ae911c: Pull complete
Digest: sha256:31ac69add9788b12f7635d1af23a51b8d740d897a7d4050568190ad8ff6a9a5d
Status: Downloaded newer image for nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04
198fdc1b5cff4661a6ff7cef80b6b033ff1380340614dc886e5a60c7bd7754f5
# docker ps
CONTAINER ID   IMAGE                                           COMMAND                  CREATED              STATUS              PORTS                    NAMES
198fdc1b5cff   nvidia/dcgm-exporter:2.0.13-2.1.1-ubuntu18.04   "/usr/local/dcgm/dcg…"   About a minute ago   Up About a minute   0.0.0.0:9400->9400/tcp   objective_morse

2.查看显卡参数

curl localhost:9400/metrics
# curl localhost:9400/metrics
# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
# HELP DCGM_FI_DEV_MEMORY_TEMP Memory temperature (in C).
# TYPE DCGM_FI_DEV_MEMORY_TEMP gauge
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).

3.Prometheus配置文件修改

vim prometheus.yml
  • 添加dcgm-exporter
scrape_configs:# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.- job_name: 'prometheus'# metrics_path defaults to '/metrics'# scheme defaults to 'http'.static_configs:- targets: ['localhost:9090']# node_exporter- job_name: 'node'static_configs:- targets: ['127.0.0.1:9100','192.168.10.3:9100']# dcgm-exporter- job_name: 'gpu'static_configs:- targets: ['192.168.10.3:9400']
systemctl restart  prometheus.service
  • IP:9090

4.grafana仪表板导入

  • 使用 12639


参考:

  • gpu-monitoring-tools

DCGM-Exporter 安装 显卡监控 Prometheus相关推荐

  1. 开源监控Prometheus二进制安装

    Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB).Prometheus使用Go语言开发,是Google BorgMon监控系统的开源版本. Promethe ...

  2. 开源监控Prometheus介绍,安装,配置,使用详解

    介绍 什么是Prometheus? Prometheus是一个开源监控系统,前身是SoundCloud的告警插件.从2012年开始,Prometheus逐渐被大量公司使用.该项目的社区也便跃起来,收到 ...

  3. 服务器运维监控指标,运维体系~指标监控~Prometheus监控告警与日志

    一 Prometheus 入门 1.1 入门介绍 运维体系~指标监控 先来一张图,说明一下Prometheus监控相关的软件和知识点. 1: 首先要安装:Prometheus, 负责收集各种监控指标, ...

  4. 系统监控——prometheus(普罗米修斯)的部署

    系统监控--prometheus的部署 一.prometheus简介 1.优点 2.组件 3.架构 二.环境包准备 三.安装运行 四.网页访问 五.安装图形化界面 一.prometheus简介 pro ...

  5. 服务器监控-prometheus使用(4):收集器搭建篇

    文章目录 0.系列目录 1.前言 2.Telegraf 2.1 安装 2.2配置 2.2.1 inputs.system.conf 2.2.2 inputs.activemq.conf 2.2.3 i ...

  6. 监控--Prometheus

    监控nginx示例 stub_status模块 用于实时监控nginx的网络连接,这个模块是nginx官方提供的一个模块. # 编译nginx,支持stub_status模块 [root@zzgrhe ...

  7. 云计算监控—Prometheus监控系统(文末赠书)

    陈金窗 刘政委 张其栋 郑少斌 读完需要 20 分钟 速读仅需 7 分钟 本文摘自于<Prometheus 监控技术与实战>一书,从云计算时代的业务特点出发,探讨了云计算监控的目标和挑战, ...

  8. RTX5000安装显卡驱动 CUDA9.0 CUDNN

    最近公司买了台RTX5000的服务器,裸机一台,需要安装显卡驱动,CUDA,CUDNN,tensorflow-gpu-1.8, 以前没有装过,导致安装过程中遇到好多坑,最初安装随便搜的个教程安装完后, ...

  9. 【第7期】云计算监控——Prometheus监控系统

    本文摘自于<Prometheus监控技术与实战>一书,从云计算时代的业务特点出发,探讨了云计算监控的目标和挑战,梳理了云资源监控的范围及监控系统实现的一般方式.接着从开源监控软件的演进出发 ...

  10. fedora18 fedora17安装显卡驱动和网卡驱动

    fedora18 fedora17安装显卡驱动和网卡驱动 最近一直有种想购物的冲动,压抑了好久,最后购买了一个镁光M4固态硬盘,使用了很长时间fedora系统,恰巧看到fedora 18 alpha版 ...

最新文章

  1. html 乱码_html小坑:网页变成乱码
  2. ajax catch,promise记得写上catch
  3. Rhel7/Centos7 修改运行级别
  4. 《C程序设计语言》-第2章-习题
  5. 程序员 论坛 linux,用了五年Linux,三分钟带你揭开Linux过程内幕
  6. 虚拟化平台cloudstack(7)——新版本的调试
  7. io_uring 新异步 IO 机制,性能提升超 150%,堪比 SPDK
  8. 软件安全测试培训大纲
  9. cacti监控linux和windows磁盘io,为CactiEZ(或者Cacti)增加监控磁盘IO功能
  10. java农历万年历课程设计_Java编写多功能万年历程序的实例分享
  11. 50多首经典的广播电台背景音乐推荐下载
  12. 靠腾讯光速上位,但同程艺龙可不能忘了“练内功”
  13. javaweb羽毛球教练场地预约管理系统ssm
  14. php示例代码之使用MySQLi接口
  15. FreeRTOS-消息队列详解
  16. fopen()、fwrite()、fread()函数使用说明与示例
  17. 放大电路中的反馈(二)负反馈对放大电路影响
  18. 2022 199管综真题及答案解析
  19. php文件教程,php文件操作
  20. vue根据后端菜单数据生成动态路由

热门文章

  1. 使用VMware虚拟机搭建Panabit透明网桥环境
  2. 两个服务器微信消息模板发不出去,小程序模板消息调用send大部分情况下发送不出去,但有时又可以发送,什么情况?...
  3. 分析Kettle性能测试过程中的STARTDATE时间问题
  4. DDWRT几种无线工作模式简介
  5. OpenCVSharp Mat.Set<T>修改像素颜色
  6. notion函数_最适合设计师的笔记软件 Notion
  7. VBA字符处理 特殊符号
  8. 怎么将计算机的网络恢复连接,win7怎么还原网络设置 win7本地连接不上的解决方法...
  9. 给前端工程师看的后端科普
  10. 2021.10.07高一Python语法入门课堂检测题解