追加:【已解决,有一张显卡硬件不稳定】

参考我的最终记录:

https://blog.csdn.net/u012911347/article/details/82854018

我已经写了几篇Cuda崩溃的博客,都是在这台惠普Z6工作站上。以前也用cuda,安装用deb,然后apt,到这台机器同样的命令和安装方式,出现了依赖问题,也就是cuda-9-0 (>= 9.0.176)导致apt不能安装。针对该问题,我使用了aptitude安装好了cuda和配套驱动,图像界面也是正常工作了。

在一段时间后,使用matlab r2018a的figure绘图,图形界面系统崩溃了,再也起不来。经过一番搜索,添加了nvidia驱动ppa,使用apt方式安装cuda和配套驱动,又正常工作了。关键好景不长,图形界面又在matlab的绘图命令下崩溃了,导致cuda也无法使用,主要是一直报错“nvidia-persistenced: Received signal 15”,“nvidia-persistenced: Socket closed”,然后无限循环该启动关闭过程。这些问题在我前面的博客中有详细记录,自己尝试的方案也都没有彻底解决问题,有时也怀疑该工作站是否有软硬件兼容等问题,或者低层指令集的bug。

由于崩溃问题越来越严重,使用apt或者aptitude重新安装cuda以及配套驱动也无法使cuda和桌面系统正常工作起来了,不得不做别的尝试。在此,如果对我的博客记录的问题有兴趣,或者有解决方案,不妨留言交流,在此表示感谢。

因此也就有了这篇博客,在不想重装系统,不想用cuda9.2的情况下,尝试用run方式安装下cuda9.0,看能否解决我的问题。cuda9.2要是用起来,tensorflow都要编译,还有许多别的牵扯。重装系统也是下下策,以后有新的操作我会发博客,希望能找到这个问题的原因。

以上内容是历史,下面开始正式的安装。首先把原来的cuda9清除,remove cuda,autoremove和purge nvidia*等就不说了,记得把apt的source list有关的cuda本地和ppa的更新列表也先清除,如rm /etc/apt/sources.list.d/graphics-drivers-ubuntu-ppa-bionic.list等。如果原来都没搞过,自然也就不用清除。如果有cuda的补丁也删除,如sudo apt remove cuda-repo-ubuntu1704-9-0-local-cublas-performance-update。

以上清除步骤完成后,主要是run文件安装cuda的步骤了。我下载的run文件包括补丁如下:

下面的安装步骤是参考的官方文档,地址为:

https://developer.download.nvidia.com/compute/cuda/9.0/Prod/docs/sidebar/CUDA_Installation_Guide_Linux.pdf

实际上,没有完全达到文档要求,比如gcc版本我用的6.4比要求的6.3高一点,内核我用的4.15也比4.9高一点。其实这些应该没影响,因为以前就这么做的。如果非要完全按照文档,那就没法搞了,因为直到今天(2018-09-15),9.2的cuda上都没列出18.04版本Ubuntu对应的包。如下是证明:

不多说了,毕竟是出问题尝试解决,只能走一步算一步了。

如下,先禁用nouveau驱动:

sudo vim /etc/modprobe.d/blacklist-nouveau.conf

内容:

blacklist nouveau
options nouveau modeset=0

接着更新内核:

sudo update-initramfs -u

接着重启系统,执行下面的命令:

sudo bash cuda_9.0.176_384.81_linux.run

按照过程中各种接受,然而出了问题:

The driver installation is unable to locate the kernel source. Please make sure that the kernel source packages are installed and set up correctly.

搜索一堆,说内核不匹配,要降级,感觉风险大,没有做。而是在没有nvidia驱动ppa的情况下,直接:

sudo apt install nvidia-384

安装后重启,nvidia-smi仍然不能正常工作,所以单独安装cuda工具箱,但是不用run里面的驱动,也就是:

You are attempting to install on an unsupported configuration. Do you wish to continue?
(y)es/(n)o [ default is no ]: yInstall NVIDIA Accelerated Graphics Driver for Linux-x86_64 384.81?
(y)es/(n)o/(q)uit: nInstall the CUDA 9.0 Toolkit?
(y)es/(n)o/(q)uit: yEnter Toolkit Location[ default is /usr/local/cuda-9.0 ]: y

这样安装完成后重启,一切正常了,图形界面也ok了:

dww@hp-server2:~$ nvidia-smi
Sat Sep 15 10:52:21 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.48                 Driver Version: 390.48                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:21:00.0  On |                  N/A |
|  0%   52C    P0    60W / 250W |    191MiB / 11144MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:2D:00.0 Off |                  N/A |
|  0%   36C    P8    11W / 250W |      2MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1817      G   /usr/lib/xorg/Xorg                           105MiB |
|    0      1860      G   /usr/bin/gnome-shell                          83MiB |
+-----------------------------------------------------------------------------+

下面进行总结:

在这台惠普Z6工作站上,为了cuda和图形界面的事情折腾了非常久。为什么别的平台没问题,我是有些怀疑这个工作站是不是软硬件和指令集什么的导致出一些匪夷所思的问题。会涉及什么呢?CPU一个,Intel(R) Xeon(R) Gold 6154 CPU @ 3.00GHz,18核心36线程。1080Ti两个,内存DDR4 ECC 128G,主板信息如下:

Handle 0x0005, DMI type 0, 26 bytes
BIOS InformationVendor: HPVersion: P60 v01.61Release Date: 06/18/2018Address: 0xF0000Runtime Size: 64 kBROM Size: 32 MBCharacteristics:PCI is supportedPNP is supportedBIOS is upgradeableBIOS shadowing is allowedBoot from CD is supportedSelectable boot is supportedEDD is supportedPrint screen service is supported (int 5h)8042 keyboard services are supported (int 9h)Serial services are supported (int 14h)Printer services are supported (int 17h)ACPI is supportedUSB legacy is supportedBIOS boot specification is supportedFunction key-initiated network boot is supportedTargeted content distribution is supportedUEFI is supportedBIOS Revision: 1.61Handle 0x0006, DMI type 1, 27 bytes
System InformationManufacturer: HPProduct Name: HP Z6 G4 WorkstationVersion: Not SpecifiedSerial Number: UUID: Wake-up Type: Power SwitchSKU Number: Family: 103C_53335X HP Workstation

deb安装的cuda9.0居然在普通用户权限下运行matlab的figure时候崩溃了,通过aptitude和apt两种方式重新安装后正常工作了一小会就又崩溃了,而且是再用这种重装的方式已经无法解决问题了,才有的这里的run方式处理。

这里先去除了ppa,直接用ubuntu自己的包,apt安装的nvidia-384,然后才安装run文件里提供的cuda9.0,但是没有选择其中的驱动。这样也就是用了ubuntu官方apt驱动和run文件cuda才解决了以上问题。至此驱动版本是390.48,虽然外边安装的是nvidia-384。

实话说,现在我还是没底,这个解决方案能撑多久,会不会又崩溃。只是当前暂时都没问题,tensorflow也可以跑,暂时放松下紧绷的心弦吧。

Ubuntu 18.04 run方式安装Cuda9.0 惠普Z6工作站相关推荐

  1. ubuntu 18.04 RTX2080(ti) --- tensorflow-gpu + cuda9.0 + cudnn-9.0 (ubuntu 16.04, TITAN XP)

    0.下载display driver.cuda和cudnn RTX2080 Display Driver cuda cudnn 版本对应关系 1. 禁止系统默认的显卡驱动 打开系统黑名单 sudo g ...

  2. linux上pyenv卸载,在Ubuntu 18.04系统下安装pyenv的方法

    本文介绍在Ubuntu 18.04操作系统下安装pyenv的方法,使用它可以进行Python多版本管理,目的是防止不同的Python版本因为不兼容而出现错误.安装pyenv其实非常的简单,只需要在系统 ...

  3. 如何在Ubuntu 18.04 LTS上安装VMware Workstation

    背景: 阅读新闻 [日期:2018-11-10] 来源:Linux公社 作者:醉落红尘 [字体:大 中 小] VMware Workstation是由VMware公司开发的虚拟化软件,成立于1998年 ...

  4. 数据库linux安装prm,在Ubuntu 18.04服务器上安装Monica PRM的步骤

    本文介绍在Ubuntu 18.04 LTS服务器上安装Monica PRM(Monica Personal Relationship Manager)的方法,要安装Monical需要的条件是:PHP ...

  5. linux ubuntu安装 mono,在Ubuntu 18.04系统中安装Mono及基本使用Mono的方法

    本文介绍在Ubuntu 18.04操作系统中安装Mono及基本使用Mono的方法.Mono是一个基于ECMA/ISO标准开发和运行跨平台应用程序的平台,它是Microsoft .NET框架的免费开源实 ...

  6. icinga2 php模块,在Ubuntu 18.04系统上安装Icinga2监视工具的方法

    本文介绍在Ubuntu 18.04系统上安装Icinga2监视工具的方法,使用Icinga 2可以监控:服务器资源.网络服务.网络设备. 简介 Icinga 2是一个开源,可扩展和可扩展的监视工具,可 ...

  7. Windows10+Ubuntu 18.04.2+ROS 安装笔记(SSD单硬盘)上

    Windows10+Ubuntu 18.04.2+ROS 安装笔记(SSD单硬盘)上 一.前言 二.化繁为简 三.补充说明 小结 一.前言 最近需要学习ROS和python,于是便需要装Linux系统 ...

  8. 在Ubuntu 18.04系统上安装和配置DBeaver的步骤

    本文介绍在Ubuntu 18.04系统上安装DBeaver/DBeaver CE的步骤,同时适用在Ubuntu 16.04/Debian 9平台上. 简介 DBeaver CE是一个免费的开源多平台数 ...

  9. ubuntu安装python3.8_在Ubuntu 18.04系统上安装Python 3.8的两种方法

    本文介绍在Ubuntu 18.04/16.04系统上安装Python 3.8的两种不同方法,第一个选择是从Deadsnakes PPA安装deb软件包,第二个选择是从源代码构建,当前Python 3. ...

最新文章

  1. android如何使用xml资源文件,Android-使用xml文件资源定义菜单
  2. 【Cocosd2d实例教程八】Cocos2d实现碰撞检测(含实例)
  3. Spring Boot 如何自定义Starter,你知道吗?
  4. (二):集成日志框架:springboot使用logback日志框架
  5. 六. 异常处理9.finally块
  6. 如何使用 ADO.NET 和 Visual C# .NET 调用带参数的存储过程
  7. ConEmu状态栏的设置介绍
  8. 微信小程序开发系列六:微信框架API的调用
  9. PHP正则匹配效率,PHP 正则表达式效率 贪婪、非贪婪与回溯分析(推荐)
  10. BZOJ 4278: [ONTAK2015]Tasowanie 后缀数组 + 贪心 + 细节
  11. java爬虫入门--用jsoup爬取汽车之家的新闻
  12. Steam软件联网问题解决方案
  13. 【原创】SWOT分析思维的一些基本思考与见解
  14. 上海宝付高谈保险扣费如何追回
  15. 在浏览器中打开“只能用微信内置浏览器”打开的页面
  16. python 爬取豆瓣的美剧
  17. Mac电脑Tomcat下载及安装(详细)
  18. LINUX 指令学习
  19. 标准化思想及组装式架构在后端BFF中的实践
  20. aplayer得使用,记一次aplayer/Aplayer开发心得

热门文章

  1. 基于函数回调方法对qsort()进行修改,使用冒泡排序实现对不同类型数据的排序
  2. 星速平台:煤炭板块震荡上扬 昊华能源涨停
  3. java long 随机 正数_java中如何产生随机正负数
  4. 球体动画Android,使用CSS创建一个炫酷的球体动画效果
  5. iOS Mac小白必备的基本操作
  6. [计算机网络]-TCP-概述
  7. IT行业最热门的5大岗位,薪酬都有多高?
  8. 7628刷breed_自制各类路由原厂直刷Breed的文件,无需修改mac无需重刷无线
  9. double类型的输出方式
  10. 计算机定期备份用什么程序,怎么让电脑定期自动备份文件或文件夹(让你的电脑每天定时自动为你备份重要的文件)...