以前的几篇博客,各种搜索,解决问题,最终到了这篇算是解决了。因此,标题部分也是明确表明这个比前几篇应该受到关注。

说下情况,前面也有一些介绍。我有三台工作站,第一台用了一段时间,然后才来的第二台和第三台。其中,第一台单显卡,后两台都是双显卡。第一台dpkg包和apt方式安装cuda,到了后两台却不行了,遇到了依赖问题,用aptitude解决的,这些有博客记录。

后来新工作站1和2用的少,因为很多环境都在第一台,虽然配置弱一些。再后来才用起来1和2,只不过1没太出问题,2出了问题且几经修复。两台工作站都是128G DDR4 ECC,志强Gold 6154 18核心36线程CPU,双1080TI显卡,配置很好,这也是导致我被该问题折腾许久的因素之一。

因为配置很好,我从没怀疑过硬件会出问题。所以我总是用新工作站2对比1,因为他俩配置一模一样,安装的系统,cuda,驱动,各种配置。但是2还是各种崩,好好用着就坏了,包括nvidia的persistent报错,有时候就是cuda报错,有时还有显存堆栈信息。比如这最近的报错就包括“NVRM: os_schedule: Attempted to yield the CPU while in atomic or interrupt context”,都是内核层次的,难找解决办法。

尝尽了各种办法,终于还是找到了原因,或许这就是得来全不费工夫吧,但是这应该也是在踏破铁鞋无觅处的基础上啊。最终想是不是卡问题啊,BIOS中将slot 2的pcie通道禁用,保留了slot 5的,没有问题,系统跑了三四个小时pytorch程序,运行稳定。换了下,保留2槽的显卡,运行3分钟,图像界面卡死,各种报错。重复尝试三次,一样的表现。

最终确定是硬件问题,相同的机器,一张卡正常,换一个就有问题,两张卡一起都不禁用也是一样的问题。至此,学习了各种报错可能的原因,各种命令也尝试了,得到的结果却是硬件问题,我还一直觉得“Nvidia's driver is full of bug, has to reinstall linux”那个是主要原因呢,是有些讽刺。

不过找到问题就好受多了,原来被这些折磨得觉得Linux下各种乱七八糟的配置总容易出诡异的问题,都不喜欢Linux了。现在总算找到问题根源了,结帖了。另外前面的许多尝试可能就没太多参考意义了,比如run文件安装cuda不装驱动,apt方式安装非ppa驱动等操作。

OK,放一个正常工作的效果,虽然只有一个卡了:

@hp-server2:~$ lspci | grep -i vga
2d:00.0 VGA compatible controller: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] (rev a1)
@hp-server2:~$ nvidia-smi
Wed Sep 26 15:44:07 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.48                 Driver Version: 390.48                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:2D:00.0  On |                  N/A |
|  0%   37C    P8    11W / 250W |    295MiB / 11170MiB |      0%      Default |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1666      G   /usr/lib/xorg/Xorg                            40MiB |
|    0      1707      G   /usr/bin/gnome-shell                          49MiB |
|    0      1988      G   /usr/lib/xorg/Xorg                           142MiB |
|    0      2140      G   /usr/bin/gnome-shell                          56MiB |
|    0      2154      G   /opt/teamviewer/tv_bin/TeamViewer              2MiB |
+-----------------------------------------------------------------------------+

[Solved | 已解决] Ubuntu GTX1080Ti 经常崩溃相关推荐

  1. 已解决ubuntu虚拟机安装java/jdk

    已解决ubuntu虚拟机安装java/jdk 文章目录 报错代码 报错翻译 报错原因 解决方法 帮忙解决 报错代码 粉丝群里面的一个小伙伴想在ubuntu虚拟机中用yum安装java,但是发生了报错( ...

  2. 已解决ubuntu虚拟机正确安装yum

    已解决(ubuntu虚拟机安装yum报错)E: Unable to fetch some archives, maybe run apt-get update or try with --fix-mi ...

  3. linux 终端不打印机,已解决: Ubuntu 16.04无法连接到Laser Jet Pro MFP M128fn网络打印机 - 惠普支持社区 - 836218...

    在Ubuntu 16.04上已经解决了连接Laser Jet Pro MFP M128fn网络打印机的问题. 经过测试,可以实现打印. 解决方案如下: 1.在终端运行hp-check -r命令,进行打 ...

  4. (已解决) Ubuntu 16.04 下安装和使用 TP-Link 的USB无线网卡

    在 Ubuntu 16.04 下使用 TP-Link USB无线网卡的通用方法 第一步: 查看 TP-link 网卡具体型号 未插无线网卡时, 终端里输入 lsusb 插上USB无线网卡, 终端里再次 ...

  5. linux下root无权限问题,解决Ubuntu中sudoers崩溃而无root权限的问题

    1.重新启动Ubuntu系统,启动的时候按住Esc键,可以看到引导选项: 2.可以看到引导选项列表中,有一项的末尾括号里是这样的(recovery mode),也就是恢复模式,选择这项,回车继续: 3 ...

  6. 解决win7+ubuntu双系统崩溃问题

    解决win7+ubuntu双系统崩溃问题 配置hi3516a开发环境,由于强行中断编译程序导致ubuntu崩溃,ubuntu能输入用户密码,但无法进入桌面: ubuntu下重装桌面,无效果: 在双系统 ...

  7. 解决ubuntu下eclipse 经常崩溃的问题

    2019独角兽企业重金招聘Python工程师标准>>> ubuntu对SWT程序支持的不怎么好,基于SWT的eclipse在ubuntu下经常崩溃和失去响应,要解决这个问题需要 1. ...

  8. linux 无线网卡连接网络连接不上去,【已解决】Ubuntu 10.04 无线网卡 无法连接

    ----------------------------------搬家声明-------------------------------------- ----------------------- ...

  9. UBUNTU ROS 编译后无法rosrun package文件(已解决)

    UBUNTU ROS 编译后无法rosrun package文件(已解决) 很多原因是tab不到那个package,所以要在bashrc文件中输入文件路径 解决方法 ,打开终端 输入: gedit . ...

最新文章

  1. Myeclise下tomcat启动报错,启动超时
  2. python 区域和检索_304. 二维区域和检索(Python)
  3. 员工提出离职,称害怕猝死,HR却说:先猝死了再说!
  4. Keepalived运行命令
  5. win32 输出文字时清除之前的_努力学习没效果?3个步骤,强化沟通输出,实现飞跃式成长...
  6. error: ora-01034:oracle not available ora-27101:shared memory realm does not exist
  7. python简单数据类型变量_python-2-变量和简单数据类型
  8. 【优化算法】改进型的LMS算法【含Matlab源码 630期】
  9. 网易云音乐android变臃肿,网易云音乐版权少,为什么用户还能突破8亿??
  10. 苹果ipad怎么刷机_苹果手机:iOS12刷机iOS12正式版刷机教程
  11. Illustrator CS6高清原创视频教程全集
  12. error: Microsoft Visual C++ 14.0 is required. Get it with “Build Tools for Visual Studio“: https://
  13. 威联通 ※ 群晖 虚拟机性能对比 我可能要碰瓷 eSir
  14. Axure统计图表设计(Excel设计统计图表、HighChart设计统计图表)
  15. php免费人机验证,Antiboter是一个界面漂亮且方便使用的PHP后台的图片人机验证
  16. opencv位运算,cv2.bitwise_and,cv2.bitwise_or,cv2.bitwise_not,cv2.bitwise_xor
  17. [技巧]新版gitbook导出pdf电子书
  18. 如何设置IDEA代码风格为Google风格,使用Google风格format
  19. cocos2d-x-3.3-023-仿微信飞机大战-总体分析和建模
  20. blur和GaussianBlur

热门文章

  1. windows server 2012r2 加入域操作
  2. 嵌入式的发展前景如何?
  3. 计算机的真正发明者,楚泽真正的“计算机之父”
  4. DAY5-URDF优化 简单小练习 工具
  5. k8s dashboard安装
  6. vfp:汉字翻译成拼音
  7. uni-app制作海报并转发
  8. 洛谷P1556 幸福的路
  9. 网页版双色球号码生成工具
  10. IDC服务商开启行业自律新篇章