Tesla M40 使用分享

这是在咸鱼上花800元购买的的M40 12G显卡进行深度学习的使用说明(时间节点2022.1)

1.安装Tesla显卡驱动

  • 注意这里使用的Tesla显卡是专门的计算卡,所以没有视频输出接口,网上查到的资料说可以有两种使用方法,一是使用核心输出;二是使用另一张quadro亮机卡的双卡输出模式。

  • 注意安装M40等大于4G显存显卡前,一定要去BIOS里打开大于4G选项,不然无法正确识别显卡。

  • 这里我使用的是带核显的 Intel i7 8700,插上显卡就能在GPU-Z识别到M40

    详细的配置信息如下:


我查到的最新的支持M40的驱动版本是:NVIDIA Tesla Graphics Driver 426.23 for Windows 10 64-bit

网址如下:https://drivers.softpedia.com/get/GRAPHICS-BOARD/NVIDIA/NVIDIA-Tesla-Graphics-Driver-426-23-for-Windows-10-64-bit.shtml

2.安装对应CUDA版本

进入Nvidia官网查询一下对应能支持的CUDA版本,这里根据筛选条件及驱动版本426.23我选的是CUDA 10.1版本,因为这个版本支持的后续软件更多torch可以到1.8.1,不然选10.0.130只能安装torch1.4。

cuda 下载网址:https://developer.nvidia.com/cuda-10.1-download-archive-base

3.安装加速库cuDNN对应版本

这里我对应CUDA 10.1 版本在官网选择的是 cuDNN v8.0.5 for CUDA 10.1

官网:https://developer.nvidia.com/rdp/cudnn-archive

参考的csdn方法下载后将3个文件夹内文件复制到CUDA的安装目录中即可。

其中include里的头文件cudnn.h定义了如下常数指定了其cuDNN版本是8.0.5

#define CUDNN_MAJOR 8
#define CUDNN_MINOR 0
#define CUDNN_PATCHLEVEL 5

4.验证CUDA,cuDNN安装完成

这里最简单的验证方法就是在命令行中输入nvcc -V,如果输出如下类似信息说明安装成功,可以看到输出的是release 10.1, V10.1.243 表示10.1版本安装正确。

C:\Users\Marine>nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2019 NVIDIA Corporation
Built on Sun_Jul_28_19:12:52_Pacific_Daylight_Time_2019
Cuda compilation tools, release 10.1, V10.1.243

还可以去CUDA的安装目录运行测试软件。

  • deviceQuery.exe
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite>deviceQuery.exe
deviceQuery.exe Starting...CUDA Device Query (Runtime API) version (CUDART static linking)Detected 1 CUDA Capable device(s)Device 0: "Tesla M40"CUDA Driver Version / Runtime Version          10.1 / 10.1CUDA Capability Major/Minor version number:    5.2Total amount of global memory:                 11456 MBytes (12012355584 bytes)(24) Multiprocessors, (128) CUDA Cores/MP:     3072 CUDA CoresGPU Max Clock rate:                            1112 MHz (1.11 GHz)Memory Clock rate:                             3004 MhzMemory Bus Width:                              384-bitL2 Cache Size:                                 3145728 bytesMaximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layersMaximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layersTotal amount of constant memory:               zu bytesTotal amount of shared memory per block:       zu bytesTotal number of registers available per block: 65536Warp size:                                     32Maximum number of threads per multiprocessor:  2048Maximum number of threads per block:           1024Max dimension size of a thread block (x,y,z): (1024, 1024, 64)Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)Maximum memory pitch:                          zu bytesTexture alignment:                             zu bytesConcurrent copy and kernel execution:          Yes with 2 copy engine(s)Run time limit on kernels:                     NoIntegrated GPU sharing Host Memory:            NoSupport host page-locked memory mapping:       YesAlignment requirement for Surfaces:            YesDevice has ECC support:                        EnabledCUDA Device Driver Mode (TCC or WDDM):         TCC (Tesla Compute Cluster Driver)Device supports Unified Addressing (UVA):      YesDevice supports Compute Preemption:            NoSupports Cooperative Kernel Launch:            NoSupports MultiDevice Co-op Kernel Launch:      NoDevice PCI Domain ID / Bus ID / location ID:   0 / 1 / 0Compute Mode:< Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 10.1, CUDA Runtime Version = 10.1, NumDevs = 1, Device0 = Tesla M40
Result = PASS
  • bandwidthTest.exe
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.1\extras\demo_suite>bandwidthTest.exe
[CUDA Bandwidth Test] - Starting...
Running on...Device 0: Tesla M40Quick ModeHost to Device Bandwidth, 1 Device(s)PINNED Memory TransfersTransfer Size (Bytes)        Bandwidth(MB/s)33554432                     11938.2Device to Host Bandwidth, 1 Device(s)PINNED Memory TransfersTransfer Size (Bytes)        Bandwidth(MB/s)33554432                     11964.2Device to Device Bandwidth, 1 Device(s)PINNED Memory TransfersTransfer Size (Bytes)        Bandwidth(MB/s)33554432                     210716.9Result = PASSNOTE: The CUDA Samples are not meant for performance measurements. Results may vary when GPU Boost is enabled.

5.Pytorch 安装

这里使用pip指令进行安装,遵循官网中的指令即可

pytorch.org/get-started/previous-versions/

这里在新建的conda环境 使用即可

# CUDA 10.1
pip install torch==1.8.1+cu101 torchvision==0.9.1+cu101 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

安装过程如下(会自动匹配你的python版本我这里是3.9版本所以后缀都是cp39):

(pyt) C:\Users\Marine>pip install torch==1.8.1+cu101 torchvision==0.9.1+cu101 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html
Looking in links: https://download.pytorch.org/whl/torch_stable.html
Collecting torch==1.8.1+cu101Downloading https://download.pytorch.org/whl/cu101/torch-1.8.1%2Bcu101-cp39-cp39-win_amd64.whl (1306.6 MB)---------------------------------------- 1.3/1.3 GB 1.9 MB/s eta 0:00:00
Collecting torchvision==0.9.1+cu101Downloading https://download.pytorch.org/whl/cu101/torchvision-0.9.1%2Bcu101-cp39-cp39-win_amd64.whl (1.6 MB)---------------------------------------- 1.6/1.6 MB 11.4 MB/s eta 0:00:00
Collecting torchaudio==0.8.1Downloading torchaudio-0.8.1-cp39-none-win_amd64.whl (109 kB)---------------------------------------- 109.3/109.3 KB 908.9 kB/s eta 0:00:00
Collecting numpyDownloading numpy-1.22.3-cp39-cp39-win_amd64.whl (14.7 MB)---------------------------------------- 14.7/14.7 MB 1.1 MB/s eta 0:00:00
Collecting typing-extensionsDownloading typing_extensions-4.1.1-py3-none-any.whl (26 kB)
Collecting pillow>=4.1.1Downloading Pillow-9.0.1-cp39-cp39-win_amd64.whl (3.2 MB)---------------------------------------- 3.2/3.2 MB 1.0 MB/s eta 0:00:00
Installing collected packages: typing-extensions, pillow, numpy, torch, torchvision, torchaudio
Successfully installed numpy-1.22.3 pillow-9.0.1 torch-1.8.1+cu101 torchaudio-0.8.1 torchvision-0.9.1+cu101 typing-extensions-4.1.1

Tesla M40 使用分享相关推荐

  1. NVIDIA TESLA M40

    特色与介绍 为数据中心配备全球最快的深度学习训练加速器 从图像识别与自然语言处理到神经机器翻译和图像分类,深度学习正在重新定义人类的能力所及.从初创公司到大型 Web 服务供应商,深度学习现已成为企业 ...

  2. RTX 3090 与 Tesla P40与 Tesla M40 深度学习训练速度比较

    最近多了两张卡,一张P40,一张M40,都是24G显存版本,均为主动散热改装版,测试下训练速度. 训练StyleGan类对抗生成模型,占用显存15G.核心100%满载. 没有使用混合精度加速技巧. 平 ...

  3. TESLA M40折腾笔记

    TESLA M40折腾笔记 偶然间在闲鱼上看到卖tesla m40显卡的,显存24g,大得很啊,我原来有一个1060 6G,跑代码不行,遂纠结几天下单了,450块钱,顺丰到付,舍友一直说你别被骗了. ...

  4. Tesla M40 下Ubuntu anaconda pycharm pytorch安装

    Tesla M40 训练机组装参考:http://t.csdn.cn/7Fx13,写的很详细 显卡:Tesla M40 24GB (2张) 显卡驱动版本(推荐):470.57.02 cuda版本:11 ...

  5. Nvidia Tesla M40 装机保姆教程

    我知道这个卡真的很老了...也知道这个卡很菜...然鹅没办法也得要维护实验室老旧设备呜呜呜,写给实验室的学弟学妹们流芳百世. 尽量不要重启!不要重启!不要重启!) 一. 系统安装: 只支持Ubuntu ...

  6. 【杂烩】Tesla M40 训练机组装与散热改造

    原文链接:链接 本文简要介绍了我在购置 Tesla M40 计算卡并组装一台训练机中所遇到的问题与解决方法.在研究与实际操作期间,以下文章给予了我很大的帮助! 关于 Tesla M40 电源连接器与 ...

  7. 【杂烩】Tesla M40 24G 在Win11上的双显卡显示实现、改风冷

    转载地址:链接 本文旨在总结最近的折腾经历.目的有二,一是梳理思路,做一个记录,二是为准备折腾的小伙伴提供一个参考. Tesla M40 24G实际上是计算卡,不是显卡,但是在后文中为了表述方便,仍以 ...

  8. 普通台式机上Tesla M40显卡paddleGPU深度学习柯南的变身器上机体验

    Tesla M40显卡上机体验 废话 正文 改电源线 放入显卡准备散热工具 尝试开机 开装驱动 cuda行列 paddlepaddlegpu版安装 上大佬的柯南变声器代码 本地运行 实测效果 提醒 购 ...

  9. Tesla M40 训练机组装与散热改造

    对了,我最近开通了微信公众号,计划是两边会同步更新,并逐步的会将博客上的文章同步至公众号中.感兴趣的朋友可以搜索"里先森sements"来关注,欢迎来玩~! 本文简要介绍了我在购置 ...

最新文章

  1. [深入React] 2.综述
  2. C++11 开启多线程
  3. 使用Ansible中的playbook
  4. Android -------GestureDetector类的用法
  5. oracle完全删除实例
  6. Boost: 对uncaught_exceptions函数的测试
  7. php-fpm with php-5.3.2 + APC
  8. MFC多线程处理界面假死之红外图像数据获取和excel写入
  9. 最小路径覆盖,最小点覆盖,最大独立点集(转)
  10. python嵌入java_python怎样嵌入java
  11. MyBatis基础:MyBatis数据基本操作(2)
  12. Oracle触发器6-管理触发器
  13. Mybatis Plus条件查询
  14. 想成为嵌入式程序员应知道的0x10个基本问题——转
  15. CentOS7离线安装Nginx(详细安装过程)
  16. 三级网络技术无纸化模拟软件 (未来)教育
  17. Quartus II的基本使用及仿真
  18. 2021年物联网设备CVE天梯榜
  19. linux下RTNETLINK answers: File exists的解决方案 慎重
  20. View是什么,什么是View?

热门文章

  1. 蚁群算法解决tsp问题python_蚁群算法在解决TSP问题中的应用
  2. 「文献」杂合基因组的策略思路
  3. 怎么写商业计划书?商业计划书详细模板
  4. c语言实现乘法口诀表的打印函数
  5. Linux网络设备驱动结构概述
  6. FullCalendar-vue demo例子
  7. 2017,我的面试复盘
  8. 论文阅读------Stochastic Gradient Descent with Differentially Private updates
  9. Shell发送邮件+附件
  10. 微信直播应该如何引流呢