问题描述


#查看nvdia GPU 显卡状态
watch -n 10 nvidia-smi

发现显卡Tesla k40c的温度已经达到74°,转速仅仅只有49%。
查看Tesla产品资料,Tesla K40 工作站加速卡规格 ,可知

所以需要调整风扇速度来降温。

然而官方驱动面板里也没有了风扇调速的选项

nvidia-settings


方法一


sudo su -
cd /etc/X11
cp -p xorg.conf xorg.conf.`date +%Y%m%d`
sudo gedit xorg.conf

找到”Section Device” 这块
添加: Option “Coolbits” “4”

Section "Device"Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
BoardName "GeForce GT8800"
Option "Coolbits" "4"
EndSection

保存之后,重启机器。调节选项出现,如下图:

这时你会看到在Thermal Settings里面有一个 Enable GPU Fan Settings,可手动调节显卡温度。


方法二


有时会出现以下问题

cannot stat /etc/x11/xorg.conf no such file or directory

这时需要

sudo nvidia-xconfig
sudo nvidia-xconfig --cool-bits=4

Using X configuration file: “/etc/X11/xorg.conf”.
Backed up file ‘/etc/X11/xorg.conf’ as ‘/etc/X11/xorg.conf.backup’
New X configuration file written to ‘/etc/X11/xorg.conf’

如若没有变化,则需要

sudo  gedit /etc/X11/xorg.conf

添加  Option “Coolbits” “4”  如下

Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
BoardName "GeForce GTX 570"
Option "NoLogo" "True"
Option "Coolbits" "4"
EndSection

然后重启

nvidia-settings #可查看调节选项

或者

nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"

这里GPUTargetFanSpeed=100就是风扇的速度, 100就是风扇运行在100%的速度, 也可以改成其它速度. 注意在新的NVIDIA驱动, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示让用户可以手动调节GPU风扇速度.

如果你想回到GPU自动控制风扇速度, 运行下面

nvidia-settings -a "[gpu:0]/GPUFanControlState=0"

备注:

cannot stat /etc/x11/xorg.conf no such file or directory

切记输入

startx 

来重新安装xorg,这样会带来更大的麻烦。重启后再输入密码,然后又进入一个登陆界面,输入密码,然后又回到原来的登陆界面。。。这样一直下去,死循环了

解决方法

Alt+Ctrl+F1 #进入控制台界面
cd ~ #进入你的用户目录
ls -ah #查看所有的文件
rm -rf .Xauth*  #删除.Xauthority文件
Alt+Ctrl+F7 #返回到登陆界面
#输入密码即可登入

startx命令是用来启动X windows服务器的,运行后在用户目录下生成一个.Xauthority文件,正是该文件导致系统进入死循环,删除即可。


方法三


sudo apt-get install nvclock
#change GPU fan speed, write this:nvclock -f -F 70 

这样风扇速度就会维持 fan speed will run at 70%

若无法安装 nvclock,则需要更新源包

sudo gedit /etc/apt/sources.list

添加源包

deb http://us.archive.ubuntu.com/ubuntu trusty main universe

更新源包

sudo apt-get update
sudo apt-get nvclock

设置多显卡降温


nvidia-xconfig --enable-all-gpus

其余步骤同单显卡一致。


备注:

Tesla的显卡K40开始k系列M系列p 系列都是被动散热对硬件要求高。所以无法使用上述方法对风扇调速。

Tesla C卡主要用在“台式机”上的,为了顾虑到一般台式机可能未考虑“散热”问题,所以C卡上自带风扇,让散热效果好一些。而M卡是专门为“机架式电脑”设计的,绝大部分机架式电脑是一堆放在机架上的,所以内部有更多的风扇与导流设计,这样M卡就可以省略风扇,把体积做到更小,提高单位体积的计算密度。
同样的,M卡为集群而设计,因此本身还提供更多的“监控元件”能与“集群管理”软件结合,管理人员可透过管理软件监控每一片M型GPU卡的温度与状态,温度过高也可透过管理软件发出警告。C卡则缺乏这样的功能。

每台GPU系统最佳的GPU数量为2片(多卡架构的最小数量),最多别超过4片。市面上有8片甚至到16片的方案,不仅“散热”问题、电源供应问题会令人提心吊胆,此外,收到PCI-E总线限制,超过4片以上的方案,都得不到“完整PCI-E带宽”,所以GPU数量看来好像很多,但都得不到相对的性能提升。因此建议 2~4 片 GPU 的系统,是性价比、稳定性较优的配置。


参考文献


How can I change the nvidia GPU fan speed?

Ubuntu 12.04 Nvidia 显卡的风扇调速

Linux Ubuntu下运行startx的后果

ubuntu 执行 startx 后的一些问题

How To Install nvclock On Ubuntu 14.04 LTS

深度学习训练时GPU温度过高?几个命令,为你的GPU迅速降温

从零开始组装深度学习平台(GPU散热)

NVIDIA/Tips and tricks

NVIDIA (简体中文)

Adjust Nvidia GPU fan speed (Multiple GPUs, one monitor)

Guide for fan speed control for Nvidia cards in Linux

Tesla C卡跟M卡区别是什么?

ubuntu16.04 Nvidia 显卡的风扇调速及startx的后果相关推荐

  1. Ubuntu16.04 NVIDIA显卡驱动卸载与安装

    Ubuntu16.04 NVIDIA显卡驱动卸载与安装 1.NVIDIA显卡驱动下载 2.NVIDIA显卡驱动卸载 3.NVIDIA显卡驱动安装 3.1.在线安装 3.2.离线安装 1.NVIDIA显 ...

  2. RE0:从零开始的服务器生活(一):双硬盘双系统+无线网卡驱动+最简单的Ubuntu16.04 Nvidia显卡驱动设置

    目录 (一)双硬盘双系统+无线网卡驱动+Nvidia显卡驱动 前期的硬件准备 安装系统 准备Ubuntu驱动 网卡驱动 显卡驱动 必备软件安装 后记: (一)双硬盘双系统+无线网卡驱动+Nvidia显 ...

  3. Ubuntu16.04 NVIDIA 显卡找不到

    mmm...学校的每次停电,即使提前关闭了服务器,再开机还是提示NVIDIA未安装...连续三次了,写下解决办法提醒自己怎么做. 方法一 这应该是最快捷的方式:找到"软件和更新", ...

  4. Ubuntu16.04 nvidia 显卡驱动过程及遇到的问题

    如果反复安装始终有问题,则需要在开机时进入bois 关闭secure boot,具体方法,请百度. 建议尝试方法1(.run)和方法2(ppa源)安装,当一种方法安装不成功时就换另外一种方法安装. 1 ...

  5. (已解决)ubuntu16.04 Nvidia驱动安装成功却无法检测到外接显示器

    ubuntu16.04 Nvidia驱动安装成功却无法检测到外接显示器 双系统win10 + ubuntu16.04,Intel集显+Nvidia独显 问题描述: 电脑重新组装过后,windows下连 ...

  6. Ubuntu16.04 GT730 显卡驱动安装

    Ubuntu16.04 GT730 显卡驱动安装 折腾了好多次,几乎一天时间才搞好真的是,真的是心累,现在简要说明一下步骤 1.禁用Nouveau 安装好依赖包后需要禁用 nouveau,只有在禁用掉 ...

  7. 安装ubuntu16.04+Nvidia驱动+Cuda8.0+Cudnn5.1+Matlab R2017b+Pycharm+WPS

    硬件环境:NVIDIA GTX 760+i5 本文只是为了方便以后自己再安装时比较方便,做的一个记录.所以基本所有步骤都来自各参考文章的步骤. 安装ubuntu16.04 安装Nvidia驱动 安装C ...

  8. ubuntu16.04 配置显卡驱动+cuda8.0+cudnn+pytorch

    ubuntu1604 配置显卡驱动cuda80cudnnpytorch 在线安装显卡驱动 离线安装cuda 安装cudnn 配置环境变量 离线安装cond 配置pytorch 测试pytorch 感悟 ...

  9. ubuntu16.04系统显卡驱动查询与安装

    ubuntu16.04系统显卡驱动查询与安装 1. 查询并下载显卡驱动 1.1 关于nouveau驱动 1.2 下载显卡驱动 2. 安装显卡驱动 2.1 禁用nouveau驱动 2.2 卸载原有的显卡 ...

最新文章

  1. HTML在计算机中指什么,计算机正在执行的指令存放在什么中
  2. Leetcode 98. 验证二叉搜索树 (每日一题 20210810)
  3. jdk switch 枚举_JDK 12开关表达式遇到意外的枚举值
  4. html滚动条自动下拉,[JS] jquery实现div随滚动条下拉浮动功能
  5. 最想学 Go、Python,全栈开发者紧缺!分析了 11 万条程序员数据后有了这些发现...
  6. 用gpu跑_免费用GPU跑深度学习模型——如何获得极链AI云A100显卡
  7. java day34【ECMAScript 、BOM 、DOM 、事件】
  8. 好的架构不是设计出来的,而是演进出来的
  9. 苹果iOS苹果公司的手机用户都有权索赔
  10. php获取客户端IP地址的几种方法
  11. maya python 弹出窗口_Open Project Folder (python in maya)
  12. aspx 微型_如何使用微型可编程机器人向孩子介绍编码
  13. 微软混合现实设备HoloLens 2惊艳发布,售价2.4万人民币
  14. 聚观早报|饿了么星选停止运营;百度2022财报全年营收1236.75亿元
  15. 那些打印对称图形的题
  16. 06_2_Pytorch的基础数据类型、CPU tensor类型和GPU tensor类型、判断数据类型、CPU或GPU张量之间的转换、数据类型转换、1-4维向量、Tensor张量、Variable等
  17. Centos系统各种日志存详解
  18. 【字体】写代码编程字体展示推荐
  19. ZZ教你卸载 Office 正版增值计划通知 (KB949810)-CHS
  20. 无源定位入门(一)TDOA(3)CRLB

热门文章

  1. idea安装lua插件_KONG网关 — 插件开发
  2. 计算机系统结构教程卷子,计算机系统结构试卷试题.docx
  3. python编写安全工具_Python3学习系列(四):编写属于自己的邮件伪造工具
  4. k5b型计算机联锁知识,DS6-K5B计算机联锁系统日常维护注意事项
  5. [蓝桥杯][2018年第九届真题]全球变暖(DFS)
  6. wdcp 去掉index.php,Nginx环境下Oneindex去除网址内的“?”
  7. 实现远程调用_远程过程调用(RPC)是怎么实现的?
  8. 均衡教派服务器维护,LOL十大最坑大区盘点 LOL最坑服务器 均衡教派坐实榜首
  9. PAT_B_1039_Java(20分)
  10. PAT_B_1086_Java(15分)