[Solved | 已解决] Ubuntu GTX1080Ti 经常崩溃
以前的几篇博客,各种搜索,解决问题,最终到了这篇算是解决了。因此,标题部分也是明确表明这个比前几篇应该受到关注。
说下情况,前面也有一些介绍。我有三台工作站,第一台用了一段时间,然后才来的第二台和第三台。其中,第一台单显卡,后两台都是双显卡。第一台dpkg包和apt方式安装cuda,到了后两台却不行了,遇到了依赖问题,用aptitude解决的,这些有博客记录。
后来新工作站1和2用的少,因为很多环境都在第一台,虽然配置弱一些。再后来才用起来1和2,只不过1没太出问题,2出了问题且几经修复。两台工作站都是128G DDR4 ECC,志强Gold 6154 18核心36线程CPU,双1080TI显卡,配置很好,这也是导致我被该问题折腾许久的因素之一。
因为配置很好,我从没怀疑过硬件会出问题。所以我总是用新工作站2对比1,因为他俩配置一模一样,安装的系统,cuda,驱动,各种配置。但是2还是各种崩,好好用着就坏了,包括nvidia的persistent报错,有时候就是cuda报错,有时还有显存堆栈信息。比如这最近的报错就包括“NVRM: os_schedule: Attempted to yield the CPU while in atomic or interrupt context”,都是内核层次的,难找解决办法。
尝尽了各种办法,终于还是找到了原因,或许这就是得来全不费工夫吧,但是这应该也是在踏破铁鞋无觅处的基础上啊。最终想是不是卡问题啊,BIOS中将slot 2的pcie通道禁用,保留了slot 5的,没有问题,系统跑了三四个小时pytorch程序,运行稳定。换了下,保留2槽的显卡,运行3分钟,图像界面卡死,各种报错。重复尝试三次,一样的表现。
最终确定是硬件问题,相同的机器,一张卡正常,换一个就有问题,两张卡一起都不禁用也是一样的问题。至此,学习了各种报错可能的原因,各种命令也尝试了,得到的结果却是硬件问题,我还一直觉得“Nvidia's driver is full of bug, has to reinstall linux”那个是主要原因呢,是有些讽刺。
不过找到问题就好受多了,原来被这些折磨得觉得Linux下各种乱七八糟的配置总容易出诡异的问题,都不喜欢Linux了。现在总算找到问题根源了,结帖了。另外前面的许多尝试可能就没太多参考意义了,比如run文件安装cuda不装驱动,apt方式安装非ppa驱动等操作。
OK,放一个正常工作的效果,虽然只有一个卡了:
@hp-server2:~$ lspci | grep -i vga
2d:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1)
@hp-server2:~$ nvidia-smi
Wed Sep 26 15:44:07 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.48 Driver Version: 390.48 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 108... Off | 00000000:2D:00.0 On | N/A |
| 0% 37C P8 11W / 250W | 295MiB / 11170MiB | 0% Default |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 1666 G /usr/lib/xorg/Xorg 40MiB |
| 0 1707 G /usr/bin/gnome-shell 49MiB |
| 0 1988 G /usr/lib/xorg/Xorg 142MiB |
| 0 2140 G /usr/bin/gnome-shell 56MiB |
| 0 2154 G /opt/teamviewer/tv_bin/TeamViewer 2MiB |
+-----------------------------------------------------------------------------+
[Solved | 已解决] Ubuntu GTX1080Ti 经常崩溃相关推荐
- 已解决ubuntu虚拟机安装java/jdk
已解决ubuntu虚拟机安装java/jdk 文章目录 报错代码 报错翻译 报错原因 解决方法 帮忙解决 报错代码 粉丝群里面的一个小伙伴想在ubuntu虚拟机中用yum安装java,但是发生了报错( ...
- 已解决ubuntu虚拟机正确安装yum
已解决(ubuntu虚拟机安装yum报错)E: Unable to fetch some archives, maybe run apt-get update or try with --fix-mi ...
- linux 终端不打印机,已解决: Ubuntu 16.04无法连接到Laser Jet Pro MFP M128fn网络打印机 - 惠普支持社区 - 836218...
在Ubuntu 16.04上已经解决了连接Laser Jet Pro MFP M128fn网络打印机的问题. 经过测试,可以实现打印. 解决方案如下: 1.在终端运行hp-check -r命令,进行打 ...
- (已解决) Ubuntu 16.04 下安装和使用 TP-Link 的USB无线网卡
在 Ubuntu 16.04 下使用 TP-Link USB无线网卡的通用方法 第一步: 查看 TP-link 网卡具体型号 未插无线网卡时, 终端里输入 lsusb 插上USB无线网卡, 终端里再次 ...
- linux下root无权限问题,解决Ubuntu中sudoers崩溃而无root权限的问题
1.重新启动Ubuntu系统,启动的时候按住Esc键,可以看到引导选项: 2.可以看到引导选项列表中,有一项的末尾括号里是这样的(recovery mode),也就是恢复模式,选择这项,回车继续: 3 ...
- 解决win7+ubuntu双系统崩溃问题
解决win7+ubuntu双系统崩溃问题 配置hi3516a开发环境,由于强行中断编译程序导致ubuntu崩溃,ubuntu能输入用户密码,但无法进入桌面: ubuntu下重装桌面,无效果: 在双系统 ...
- 解决ubuntu下eclipse 经常崩溃的问题
2019独角兽企业重金招聘Python工程师标准>>> ubuntu对SWT程序支持的不怎么好,基于SWT的eclipse在ubuntu下经常崩溃和失去响应,要解决这个问题需要 1. ...
- linux 无线网卡连接网络连接不上去,【已解决】Ubuntu 10.04 无线网卡 无法连接
----------------------------------搬家声明-------------------------------------- ----------------------- ...
- UBUNTU ROS 编译后无法rosrun package文件(已解决)
UBUNTU ROS 编译后无法rosrun package文件(已解决) 很多原因是tab不到那个package,所以要在bashrc文件中输入文件路径 解决方法 ,打开终端 输入: gedit . ...
最新文章
- Myeclise下tomcat启动报错,启动超时
- python 区域和检索_304. 二维区域和检索(Python)
- 员工提出离职,称害怕猝死,HR却说:先猝死了再说!
- Keepalived运行命令
- win32 输出文字时清除之前的_努力学习没效果?3个步骤,强化沟通输出,实现飞跃式成长...
- error: ora-01034:oracle not available ora-27101:shared memory realm does not exist
- python简单数据类型变量_python-2-变量和简单数据类型
- 【优化算法】改进型的LMS算法【含Matlab源码 630期】
- 网易云音乐android变臃肿,网易云音乐版权少,为什么用户还能突破8亿??
- 苹果ipad怎么刷机_苹果手机:iOS12刷机iOS12正式版刷机教程
- Illustrator CS6高清原创视频教程全集
- error: Microsoft Visual C++ 14.0 is required. Get it with “Build Tools for Visual Studio“: https://
- 威联通 ※ 群晖 虚拟机性能对比 我可能要碰瓷 eSir
- Axure统计图表设计(Excel设计统计图表、HighChart设计统计图表)
- php免费人机验证,Antiboter是一个界面漂亮且方便使用的PHP后台的图片人机验证
- opencv位运算,cv2.bitwise_and,cv2.bitwise_or,cv2.bitwise_not,cv2.bitwise_xor
- [技巧]新版gitbook导出pdf电子书
- 如何设置IDEA代码风格为Google风格,使用Google风格format
- cocos2d-x-3.3-023-仿微信飞机大战-总体分析和建模
- blur和GaussianBlur