文章来源 | 恒源云社区

原文地址 | 【小技巧-显卡篇】


1、如何看显卡占用的情况?

通过终端执行 nvidia-smi 命令可以查看显卡的情况,可以查看显卡功耗、显存占用等情况。

root@I15b96311d0280127d:~# nvidia-smi
Mon Jan 11 13:42:18 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.27.04    Driver Version: 460.27.04    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce RTX 3090    On   | 00000000:02:00.0 Off |                  N/A |
| 63%   55C    P2   298W / 370W |  23997MiB / 24268MiB |     62%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------

因为实例均为 Docker 容器,因容器 PID 隔离的限制使用 nvidia-smi 会看不到进程。

在终端中执行 py3smi 命令可以查看到是否有进程正在使用显卡。

root@I15b96311d0280127d:~# py3smi
Mon Jan 11 13:43:00 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI                        Driver Version: 460.27.04                 |
+---------------------------------+---------------------+---------------------+
| GPU Fan  Temp Perf Pwr:Usage/Cap|        Memory-Usage | GPU-Util Compute M. |
+=================================+=====================+=====================+
|   0 63%   55C    2  284W / 370W | 23997MiB / 24268MiB |      80%    Default |
+---------------------------------+---------------------+---------------------++-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
| GPU        Owner      PID      Uptime  Process Name                   Usage |
+=============================================================================+
|   0          ???    10494                                          23995MiB |
+-----------------------------------------------------------------------------+

2、训练时 GPU 利用率上不去?

在训练过程中查看显卡的使用率,发现核心利用率和显卡功耗低,没有完全利用显卡。

这种情况有可能是每一次训练的步骤中,除了使用 GPU 外,还有大部分时间消耗在了 CPU,造成了 GPU 利用率成周期变化。

解决利用率的问题需要改进代码,可以参考夕小瑶的 训练效率低?GPU利用率上不去? 的这篇文章。

3、CUDA、CUDNN 版本是多少?

使用 nvidia-smi 所查看到的 CUDA Version 为当前驱动支持的版本,不代表实例已安装的版本。

具体版本以创建实例时选择的官方镜像版本的为准。

# 查看 CUDA 版本
root@I15b96311d0280127d:~# nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Sun_Feb_14_21:12:58_PST_2021
Cuda compilation tools, release 11.2, V11.2.152
Build cuda_11.2.r11.2/compiler.29618528_0# 查看 CUDNN 版本
root@I15b96311d0280127d:~# dpkg -l | grep libcudnn | awk '{print $2}'
libcudnn8
libcudnn8-dev# 查看 CUDNN 位置
root@I15b96311d0280127d:~# dpkg -L libcudnn8 | grep so
/usr/lib/x86_64-linux-gnu/libcudnn.so.8.1.1
...

4、在 RTX 30 系列显卡上开始训练会卡住?

查看库所使用的 CUDA 版本是否低于 11.0。

RTX 3000 系列显卡最低要求 CUDA 11 及以上的版本,使用低于 11 的版本会造成进程卡住。

恒源云(Gpushare)_如何查看显卡占用的情况?技巧大放送2相关推荐

  1. 恒源云(GPUSHARE)_未闻Prompt名(论文学习笔记)

    文章来源 | 恒源云社区(专注人工智能/深度学习GPU免费加速平台,官方体验网址:https://gpushare.com) 原文作者 | Mathor 原文地址 | https://gpushare ...

  2. 恒源云(GPUSHARE)_长尾分布的多标签文本分类平衡方法(论文学习笔记)

    文章来源 | 恒源云社区(专注人工智能/深度学习云GPU服务器训练平台,官方体验网址:https://gpushare.com/center/) 原文地址 | https://bbs.gpushare ...

  3. 恒源云(GPUSHARE)_[SimCSE]:对比学习,只需要 Dropout?

    文章来源 | 恒源云社区(恒源云,专注 AI 行业的共享算力平台) 原文地址 | Dropout 原文作者 | Mathor 要说2021年上半年NLP最火的论文,想必非<SimCSE: Sim ...

  4. 恒源云(GPUSHARE)_语音识别与语义处理领域之 NAG 优化器

    文章来源 | 恒源云社区 原文地址 | NAG优化器 原文作者 | 角灰 社区人才济济,小编今天又发现一个宝藏版主'角灰'. 小编是个爱分享的人,看见好文章好作者怎能控制住不分享给大家呢?所以,接下来 ...

  5. 恒源云(GPUSHARE)_语音识别与语义处理领域之低资源机器翻译综述

    文章来源 | 恒源云社区 原文地址 | 低资源机器翻译综述 原文作者 | 角灰 摘要 神经机器翻译效果非常好,但需要大量的平行语料,因此有了低资源翻译的研究. 本文按照按数据的利用对低资源翻译分为3类 ...

  6. 恒源云(GpuShare)_无监督的QG方法

    文章来源 | 恒源云社区 原文地址 | 通过摘要信息问题生成改进无监督问答 原文作者 | Mathor 上海于昨日宣布要开始在全市范围内开展新一轮切块式.网格化核酸筛查![恒源云]云墩墩☁️ 提醒小伙 ...

  7. 恒源云(GPUSHARE)_人工智能行业 | AI+教育,虚实之间

    [引言]2020年以来,在线教育疯狂发展,不少机构把AI引入了课堂,这究竟是噱头,还是进化? 人工智能作为技术革命的新力量,如今已渗透进各行各业,颠覆和创新屡见不鲜,唯独教育领域,和人工智能的结合一直 ...

  8. 恒源云(Gpushare)_【存储优化】/hy-tmp可以扩/缩容啦

    继[会员体系].[活动专区]上线后,为了进一步优化数据存储体验,特升级了[Tmp(/hy-tmp)]的使用规则,其他免费存储方式包括[OSS存储].[共享存储 (/hy-nas )],其免费额度及收费 ...

  9. 恒源云(GPUSHARE)_可构建AI的「AI」诞生?

    文章来源 | 学术头条 原文地址 | 几分之一秒内,就能预测新网络的参数 号外号外,我找到一个宝藏公众号啦,里面都是超赞的干货文章

最新文章

  1. 空中悬停、翻滚转身、成功着陆,我用强化学习「回收」了SpaceX的火箭
  2. html主动发起重新布局,重启连不上网
  3. 5G NGC — UE 的二次鉴权(Secondary Authentication)方案
  4. python简历数据提取_如何使用pyPDF2从PDF格式的多页简历中提取文本数据?
  5. 2021-06-14
  6. Flask session
  7. linux git编译安装目录,Linux(centos) 环境下如何源码编译安装git
  8. x86 x64 arm64的区别
  9. 东南大学硕士毕业论文Latex 模版教程
  10. 20155218 《Java程序设计》实验二(Java面向对象程序设计)实验报告
  11. 牛腩新闻发布--本地超链接打不开
  12. nas linux手机照片备份,本身着手,组建简洁好用的NAS!(存储同步篇)
  13. 情侣纪念日网站html5源码教程
  14. ​互联网的厕所,兵家的必争之地
  15. SRTM、ASTER、ALOS、TanDEM-X等常用免费数字高程模型(DEM)基本信息汇总
  16. 在ubuntu16.04下面安装tplink无线网卡驱动
  17. item_search_coupon - 京东优惠券查询
  18. html视频播放器(video)
  19. 【ppt制作软件】Focusky教程 | 怎样实现表格的行列转换?
  20. 【网络通信协议】OSI七层模型

热门文章

  1. Python · print输出函数详解
  2. jsp食荤者餐厅在线订餐系统
  3. 2022中国电子签名领域十大趋势
  4. 计算机应用课程的专业建议,计算机应用技术专业课程衔接问题论文
  5. SOLIDWORKS如何添加自定义标准件库
  6. yshon对讲机如何调频率_【HAM基础】数字对讲机信号干扰类型概述
  7. leetcode(力扣)刷题笔记(c++、python)【上】
  8. 利用os.walk返回文件夹中所有图片的绝对路径
  9. 【技术综述】最全人脸数据集收录
  10. php flv 转成 mp4,电脑视频转格式,flv动画怎么转换成mp4格式,怎么转换比较方便...