升级 GPU 服务器 cuda 驱动版本指南
一,下载对应版本驱动
1,选择对应的驱动版本
下载驱动地址:https://www.nvidia.in/Download/index.aspx?lang=en
本文内容以 A30(NCCL)、A100(NV-Link)、A100(NV-Switch) 为例:
2,获取选择驱动的下载链接
1) 确认如下版本信息是否正确
若正确则点击下载
2) 复制下载链接
3,服务器中下载驱动
1)下载驱动
终端执行: wget 【复制的链接】
eg:
wget https://cn.download.nvidia.com/tesla/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run
2)赋文件执行权限
chmod +x 【驱动文件】
eg:
chmod +x NVIDIA-Linux-x86_64-515.65.01.run
二,停掉所有和显存占用有关系的应用、容器
1、停掉容器
# nvidia-smi --query-compute-apps=gpu_uuid,pid,used_memory --format=csv | grep '[0-9]' | sed 's/[[:space:]]//g' | sed 's/MiB//g'
# docker inspect -f '{{ .Name }}' $(ps -e -o pid,comm,cgroup | grep -v "/docker/" | grep <PID> | awk '{print $3}' | awk -F "[/.-]" '{print $5}') | sed 's/\///g'
docker ps | awk '{print $1}' | grep -v CONTAINER | xargs docker stop
2、查看 nvidia 占用应用
sudo lsof -n -w /dev/nvidia*
查看 PID 后,可使用 kill 命令结束该进程
3、确认是否有 nvidia 应用占用
ps -aux | grep nvidia
4、查看是否存在 k8s 应用占用
# 使用下面命令查看
systemctl status kubelet# 若存在则执行下面命令
systemctl stop kubelet
三,执行驱动升级
./NVIDIA-Linux-x86_64-515.65.01.run
注:
- 所有选项选择 YES
- 可另起一个终端查看nvidia update 升级日志 :
tail -f /var/log/nvidia-installer.log
四, 启动多卡持久化模型
nvidia-smi -pm 1
五,升级 fabric (Nccl 并不需要此步骤;NV-Link、NV-Switch执行)
1、 查看当前 fabric 名称
rpm -qa | grep fabric
2、卸载 fabric
1) 根据查询到的 fabric 名称执行卸载命令
eg:
yum remove nvidia-fabricmanager-465-465.19.01-1.x86_64
2) 查看是否卸载成功
执行以下命令,若无返回值则表示成功
rpm -qa | grep fabric
3、 修改 gpg 检查参数
cd /etc/yum.repos.d/ && vim cuda-rhel7.repo
修改 gpgcheck 如下:
# gpgcheck=1
gpgcheck=0
4、 yum 升级
yum update -y
5、 安装新版本的 fabric
yum install -y cuda-drivers-fabricmanager nvidia-fabric-manager
6、查看是否成功安装
rpm -qa | grep fabric
7、启动 fabric
nv-fabricmanager
8、查看是否成功启动
ps -ef | grep fabric
六,重启并验证
1、重启
reboot
2、验证
1) 查看 GPU 显卡状态是否正常
nvidia-smi
2) 使用单机多卡跑模型,查看是否可以正常训练
升级 GPU 服务器 cuda 驱动版本指南相关推荐
- win10 查看GPU型号,驱动版本,CUDA版本
1. 打开控制面板 2. 在控制面板中左键双击打开"NVIDIA 控制面板". 在NVIDIA控制面板中点击菜单栏中的小房子图标,进入主界面,可以看到GPU版本与驱动版本.如下图所 ...
- 【深度学习】关于谷歌云GPU服务器创建与使用指南
上一篇介绍了如何使用ssh. [深度学习]谷歌云GPU服务器创建与使用指南(二)_星辰大漠-CSDN博客 本篇主要介绍:在服务器中安装显卡驱动及配置深度学习框架. 服务器与本地主机的区别(待补充) 在 ...
- 【深度学习】谷歌云GPU服务器创建与使用指南(二)
接上一篇:[深度学习]谷歌云GPU服务器创建与使用指南(一) 这篇介绍ssh连接及一款客户端xshell 本篇将分为以下几点讲述: 1.ssh客户端 2.ssh公钥配置 3.使用xshell连接ssh ...
- 阿里云GPU服务器NVIDIA驱动安装与更新
一.下载驱动程序 驱动程序可在NVIDIA官网下载,选择相应显卡型号和操作系统的驱动下载[直达链接]. 二.运行安装脚本 bash NVIDIA-Linux-x86_64-418.126.02.run ...
- java 平滑升级_服务器spring boot版本,平滑升级
1.在pom文件中加入: org.springframework.boot spring-boot-starter-web org.springframework.boot spring-boot-s ...
- 创立于使用指南的谷歌云GPU服务器
上一篇介绍了如何使用ssh. [深度学习]谷歌云GPU服务器创建与使用指南(二)_星辰大漠-CSDN博客 本篇主要介绍:在服务器中安装显卡驱动及配置深度学习框架. 服务器与本地主机的区别(待补充) 在 ...
- 查看GPU和GPU驱动版本+GPU驱动版本更新
本文介绍了如何查看GPU版本和GPU驱动版本,以及当GPU版本需要更新时,如何确定合适的新驱动版本. 驱动版本不适合GPU版本时,可能会有无法安装等一系列问题,入坑需谨慎. 本文目录 1 根据GPU版 ...
- 获取指定进程所占用内存、指定GPU显存信息、所有GPU型号和驱动
######################################################### # 获取指定进程所占用内存 ############################ ...
- Ubuntu 如何根据NVIDIA显卡型号确定对应的显卡驱动版本并安装
Ubuntu 如何根据NVIDIA显卡型号确定对应的显卡驱动版本并安装 一.查询推荐安装的驱动版本 二.安装 1. 通过终端安装,只安装 nvidia 驱动 2. 通过 software & ...
最新文章
- python画柱状图代码-python绘制双柱形图代码实例
- centos6 安装 mantisbt-1.2.8 —— (5)Mantisbt-1.2.8在contos上的安装
- 一文解读:如何从 0 到 1 打造小程序爆款裂变
- 用paddleocr识别汉字_汉字设计中的度量标准(三)
- java编程double相乘_浅谈Java double 相乘的结果偏差小问题
- 【软件工程导论题型大总结】名词解释总结
- c语言循环嵌套说课,C语言FOR循环说课稿.doc
- Zabbix-1.8.14 安装
- 阶段5 3.微服务项目【学成在线】_day02 CMS前端开发_21-CMS前端页面查询开发-Api调用...
- 高通8926和高通410的参数对比
- Android开发中,如何从系统固件里提取可用的APK
- 山西太原警方侦破涉案100余起跨区域系列盗窃案
- app端-留存分析-周留存率报表开发
- Anaconda安装中failed to create menus
- 阿里App支付服务端接口开发(含后台异步回调,退款)
- 计组作业【题目记录】
- 三年Java开发,java程序员电脑推荐
- cmd 更改计算机名
- 9-2 time类的加工
- 根据文件流下载表格数据Excel形式