一,下载对应版本驱动

1,选择对应的驱动版本

下载驱动地址:https://www.nvidia.in/Download/index.aspx?lang=en

本文内容以 A30(NCCL)、A100(NV-Link)、A100(NV-Switch) 为例:

2,获取选择驱动的下载链接
1) 确认如下版本信息是否正确


若正确则点击下载

2) 复制下载链接

3,服务器中下载驱动
1)下载驱动

终端执行: wget 【复制的链接】

eg:

wget https://cn.download.nvidia.com/tesla/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run
2)赋文件执行权限

chmod +x 【驱动文件】

eg:

chmod +x NVIDIA-Linux-x86_64-515.65.01.run

二,停掉所有和显存占用有关系的应用、容器

1、停掉容器
# nvidia-smi --query-compute-apps=gpu_uuid,pid,used_memory --format=csv | grep '[0-9]' | sed 's/[[:space:]]//g' | sed 's/MiB//g'
# docker inspect -f '{{ .Name }}' $(ps -e -o pid,comm,cgroup | grep -v "/docker/" | grep <PID> | awk '{print $3}' | awk -F "[/.-]" '{print $5}') | sed 's/\///g'
docker ps | awk '{print $1}' | grep -v CONTAINER | xargs docker stop
2、查看 nvidia 占用应用
sudo lsof -n -w /dev/nvidia*

查看 PID 后,可使用 kill 命令结束该进程

3、确认是否有 nvidia 应用占用
ps -aux | grep nvidia
4、查看是否存在 k8s 应用占用
# 使用下面命令查看
systemctl status kubelet# 若存在则执行下面命令
systemctl stop kubelet

三,执行驱动升级

./NVIDIA-Linux-x86_64-515.65.01.run

注:

  • 所有选项选择 YES
  • 可另起一个终端查看nvidia update 升级日志 : tail -f /var/log/nvidia-installer.log

四, 启动多卡持久化模型

nvidia-smi -pm 1

五,升级 fabric (Nccl 并不需要此步骤;NV-Link、NV-Switch执行)

1、 查看当前 fabric 名称
rpm -qa | grep fabric
2、卸载 fabric
1) 根据查询到的 fabric 名称执行卸载命令

eg:

yum remove nvidia-fabricmanager-465-465.19.01-1.x86_64
2) 查看是否卸载成功

执行以下命令,若无返回值则表示成功

 rpm -qa | grep fabric
3、 修改 gpg 检查参数
cd /etc/yum.repos.d/ && vim cuda-rhel7.repo

修改 gpgcheck 如下:

# gpgcheck=1
gpgcheck=0
4、 yum 升级
yum update -y
5、 安装新版本的 fabric
yum install -y cuda-drivers-fabricmanager nvidia-fabric-manager
6、查看是否成功安装
rpm -qa | grep fabric
7、启动 fabric
nv-fabricmanager
8、查看是否成功启动
ps -ef | grep fabric

六,重启并验证

1、重启
reboot
2、验证
1) 查看 GPU 显卡状态是否正常
nvidia-smi
2) 使用单机多卡跑模型,查看是否可以正常训练

升级 GPU 服务器 cuda 驱动版本指南相关推荐

  1. win10 查看GPU型号,驱动版本,CUDA版本

    1. 打开控制面板 2. 在控制面板中左键双击打开"NVIDIA 控制面板". 在NVIDIA控制面板中点击菜单栏中的小房子图标,进入主界面,可以看到GPU版本与驱动版本.如下图所 ...

  2. 【深度学习】关于谷歌云GPU服务器创建与使用指南

    上一篇介绍了如何使用ssh. [深度学习]谷歌云GPU服务器创建与使用指南(二)_星辰大漠-CSDN博客 本篇主要介绍:在服务器中安装显卡驱动及配置深度学习框架. 服务器与本地主机的区别(待补充) 在 ...

  3. 【深度学习】谷歌云GPU服务器创建与使用指南(二)

    接上一篇:[深度学习]谷歌云GPU服务器创建与使用指南(一) 这篇介绍ssh连接及一款客户端xshell 本篇将分为以下几点讲述: 1.ssh客户端 2.ssh公钥配置 3.使用xshell连接ssh ...

  4. 阿里云GPU服务器NVIDIA驱动安装与更新

    一.下载驱动程序 驱动程序可在NVIDIA官网下载,选择相应显卡型号和操作系统的驱动下载[直达链接]. 二.运行安装脚本 bash NVIDIA-Linux-x86_64-418.126.02.run ...

  5. java 平滑升级_服务器spring boot版本,平滑升级

    1.在pom文件中加入: org.springframework.boot spring-boot-starter-web org.springframework.boot spring-boot-s ...

  6. 创立于使用指南的谷歌云GPU服务器

    上一篇介绍了如何使用ssh. [深度学习]谷歌云GPU服务器创建与使用指南(二)_星辰大漠-CSDN博客 本篇主要介绍:在服务器中安装显卡驱动及配置深度学习框架. 服务器与本地主机的区别(待补充) 在 ...

  7. 查看GPU和GPU驱动版本+GPU驱动版本更新

    本文介绍了如何查看GPU版本和GPU驱动版本,以及当GPU版本需要更新时,如何确定合适的新驱动版本. 驱动版本不适合GPU版本时,可能会有无法安装等一系列问题,入坑需谨慎. 本文目录 1 根据GPU版 ...

  8. 获取指定进程所占用内存、指定GPU显存信息、所有GPU型号和驱动

    ######################################################### # 获取指定进程所占用内存 ############################ ...

  9. Ubuntu 如何根据NVIDIA显卡型号确定对应的显卡驱动版本并安装

    Ubuntu 如何根据NVIDIA显卡型号确定对应的显卡驱动版本并安装 一.查询推荐安装的驱动版本 二.安装 1. 通过终端安装,只安装 nvidia 驱动 2. 通过 software & ...

最新文章

  1. python画柱状图代码-python绘制双柱形图代码实例
  2. centos6 安装 mantisbt-1.2.8 —— (5)Mantisbt-1.2.8在contos上的安装
  3. 一文解读:如何从 0 到 1 打造小程序爆款裂变
  4. 用paddleocr识别汉字_汉字设计中的度量标准(三)
  5. java编程double相乘_浅谈Java double 相乘的结果偏差小问题
  6. 【软件工程导论题型大总结】名词解释总结
  7. c语言循环嵌套说课,C语言FOR循环说课稿.doc
  8. Zabbix-1.8.14 安装
  9. 阶段5 3.微服务项目【学成在线】_day02 CMS前端开发_21-CMS前端页面查询开发-Api调用...
  10. 高通8926和高通410的参数对比
  11. Android开发中,如何从系统固件里提取可用的APK
  12. 山西太原警方侦破涉案100余起跨区域系列盗窃案
  13. app端-留存分析-周留存率报表开发
  14. Anaconda安装中failed to create menus
  15. 阿里App支付服务端接口开发(含后台异步回调,退款)
  16. 计组作业【题目记录】
  17. 三年Java开发,java程序员电脑推荐
  18. cmd 更改计算机名
  19. 9-2 time类的加工
  20. 根据文件流下载表格数据Excel形式

热门文章

  1. 模拟接听电话的方法,兼容华为android5.0以上设备
  2. SDUT java 单词和字符鉴别器
  3. LTE学习-RACH(2)
  4. 网卡IP地址信息一键查看工具V1.0-免费版
  5. 继 QQ 被曝扫描浏览器历史记录之后,微信也被曝出会扫描所有 Chromium cookies
  6. 八、串,数组和广义表
  7. 软件测试接口测试用例设计
  8. 等级保护测评对哪些行业是硬性要求?相关标准规范主要有哪些?│党政机关篇
  9. 以太网转串口ttl 原理图 PCB
  10. 十大网址导航站排行榜