基于Ubuntu18.04下深度学习服务器搭建

目录:

  1. 基于Ubuntu18.04下深度学习服务器搭建

    1. 主要模块组成
    2. Anaconda安装
    3. CUDA安装
    4. pytorch安装
    5. CuDNN安装
  2. 其他常用指令
    1. 查看系统发行信息
    2. 查看系统位数
    3. 为用户分配sudo权限
    4. 安装Apache服务器并启用防火墙控制
    5. 新建用户
    6. 查看、安装、卸载、更新GPU显卡驱动
    7. 安装jdk1.8

一、基于Ubuntu18.04下深度学习服务器搭建

1、主要模块组成

  • GPU显卡驱动安装:高效执行复杂的数学和几何计算
  • Anaconda安装:一个开源的Python发行版本,conda可用于快速安装不同版本的软件包及其依赖包,Anaconda包含conda、Python、Numpy、Pandas等包
  • CUDA安装:通用并行计算架构,执行device端的Kernel程序,解决大量并行化的问题,有效利用GPU芯片上的大量执行单元
  • cuDNN安装:用于深度神经网络的GPU加速库
  • pytorch安装:基于自动求导系统构建神经网络,为张量计算(如Numpy)提供强大的GPU加速

2、Anaconda安装

(1)安装过程:

  • 使用清华镜像下载安装包:sudo wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh
  • 执行脚本文件:sh Anaconda3-5.3.1-Linux-x86_64.sh​​​​​​,按照提示输入回车或yes后,软件会自动进行安装
  • 安装完毕后查看Anaconda和conda版本信息:anaconda -V和conda -V,查看到Anaconda的版本为1.7.2,conda的版本为4.5.11
  • 使用指令:conda info也能查看到详细信息:

(2)安装过程遇到的问题以及解决办法:

a)报错信息:conda报错from conda.cli import main ModuleNotFoundError: No module named 'conda'

解决办法:

  • 在安装完成后立即更新conda:conda update conda

3、CUDA安装

  • 为了兼容大部分TensorFlow中的模块,服务器上安装CUDA9.0版本,但尝试过11.1版本的CUDA安装,下面分别记录两个版本的Cuda的安装过程:

(1)11.1版本CUDA安装:

  • 执行指令:wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
  • 将文件移动到etc目录:sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
  • 接下来执行指令:wget https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda-repo-ubuntu1804-11-1-local_11.1.0-455.23.05-1_amd64.deb,但不建议wget下载,而采用迅雷通过白金会员复制链接进行下载,下载完成后,将其通过Xftp等软件传输到服务器上
  • 添加公钥:sudo apt-key add /var/cuda-repo-ubuntu1804-11-1-local/7fa2af80.pub
  • 安装deb软件包:sudo dpkg -i cuda-repo-ubuntu1804-11-1-local_11.1.0-455.23.05-1_amd64.deb
  • 更新软件包索引列表:sudo apt-get update
  • 安装aptitude:sudo apt-get install aptitude
  • 通过aptitude安装cuda:sudo aptitude install cuda
  • 安装完成后修改环境变量,sudo vim /etc/profile,为PATH变量新增 /usr/local/cuda-11.1/bin
  • 使环境变量立即生效:source /etc/profile
  • 安装nvcc编译器:apt-get install nvcc
  • 通过nvcc -V查看Cuda版本,查看到Cuda版本为11.1
  • 安装结束

(2)9.0版本CUDA安装:

  • 用迅雷下载https://developer.nvidia.com/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_384.81_linux-run后,将其通过xftp传输到服务器
  • 赋予执行权限:chmod +x cuda_9.0.176_384.81_linux-run
  • 安装Cuda:sudo ./cuda_9.0.176_384.81_linux-run --override
  • 修改环境变量:
    • 在 PATH中加入usr/local/cuda-9.0/bin
    • 在LD_LIBRARY_PATH加入/usr/local/cuda-9.0/lib64
  • 使环境变量立即生效:source /etc/profile
  • 通过nvcc -V查看Cuda版本,查看到Cuda版本为9.0:
  • 或者通过查看version.txt文件查看Cuda版本:cat /usr/local/cuda-9.0/version.txt
  • 进入Sample目录,任意找到一个示例:cd /usr/local/cuda-9.0/samples/0_Simple/vectorAdd
  • 编译:sudo make
  • 执行:sudo ./vectorAdd
  • 安装完成

(3)安装过程遇到的问题以及解决办法:

a)Ubuntu中如何卸载掉原来版本的Cuda?

解决办法:

  • 执行指令:sudo apt-get autoremove --purge cuda
  • 然后修改环境变量中的PATH变量,删除cuda bin目录。
  • 使环境变量立即生效:source /etc/profile

b)报错信息:The driver installation is unable to locate the kernel source. Please make sure that the kernel source packages are installed and set up correctly.If you know that the kernel source packages are installed and set up correctly, you may pass the location of the kernel source with the '--kernel-source-path' flag.

解决办法:

  • 执行指令:sudo apt install dkms

c)报错信息:An incomplete installation of libglvnd was found. Do you want to install a full copy of libglvnd? This will overwrite any existing libglvnd libraries. (Answer: Abort installation.)

解决办法:

  • 执行指令:sudo apt purge nvidia*

d)报错信息:dlopen("libOpenGL.so.0") failed: libOpenGL.so.0: cannot open shared object file: No such file or directoryAn incomplete installation of libglvnd was found. Do you want to install a full copy of libglvnd? This will overwrite any existing libglvnd libraries. (Answer: Abort installation.)

解决办法:

  • 在安装过程中,提示:Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 384.81?(y)es/(n)o/(q)uit: 的时候,输入:no

e)报错信息:To uninstall the CUDA Toolkit, run the uninstall script in /usr/local/cuda-9.0/bin PATH includes /usr/local/cuda-9.0/bin-   LD_LIBRARY_PATH includes /usr/local/cuda-9.0/lib64, or, add /usr/local/cuda-9.0/lib64 to /etc/ld.so.conf and run ldconfig as root

解决办法:

  • 执行指令:sudo vim /etc/profile
  • 修改环境变量:
    • 在 PATH中加入usr/local/cuda-9.0/bin
    • 在LD_LIBRARY_PATH加入/usr/local/cuda-9.0/lib64
  • 使环境变量立即生效:source /etc/profile

f)报错信息:在对sample目录下的文件进行编译时报错:/usr/local/cuda-9.0/bin/..//include/crt/host_config.h:119:2: error: #error -- unsupported GNU version! gcc versions later than 6 are not supported!

解决办法:

  • 查看GCC版本:gcc -v,发现版本为7.5.0

  • 安装gcc和g++6版本:sudo apt-get install gcc-6,sudo apt-get install g++-6
  • 创建软链接:sudo ln -s /usr/bin/gcc-6 /usr/local/cuda-9.0/bin/gcc和sudo ln -s /usr/bin/g++-6 /usr/local/cuda-9.0/bin/g++
    • ​​​​

4、pytorch安装

(1)安装过程:

  • 查看CUDA9.0版本下对应的pytorch版本:https://pytorch.org/get-started/previous-versions/

  • 安装pytorch1.1.0:conda install pytorch==1.1.0 torchvision==0.3.0 cudatoolkit=9.0 -c pytorch
  • 通过一个测试用例测试pytorch是否可用:
    • import torch
    • x = torch.rand(4, 3) #构建一个随机初始化的4 * 3的矩阵x
    • print(x) #打印矩阵x的信息
    • y = torch.rand(4, 3) #构建一个随机初始化的4 * 3的矩阵y
    • print(x) #打印矩阵y的信息
    • if torch.cuda.is_available(): #当cuda可用时
    • x = x.cuda()
    • y = y.cuda()
    • print(x + y)
  • 安装成功

(2)安装过程遇到的问题以及解决办法:

a)报错信息:在使用pip进行安装时:pip install torch===1.1.0 torchvision===0.3.0 -f https://download.pytorch.org/whl/torch_stable.html,发现报错:Could not find a version that satisfies the requirement torch==1.1.0

解决办法:

  • 在谷歌和百度搜索解决方案,尝试了多次,无果,无奈选择conda进行安装conda install pytorch==1.1.0 torchvision==0.3.0 cudatoolkit=9.0 -c pytorch

5、CuDNN安装

(1)安装过程:

  • 进入cuDNN的下载页面:https://developer.nvidia.com/rdp/cudnn-download,注册并填写完问卷后,找到适合自己的CUDA版本的cuDNN(本测试服务器中适合的版本为7.6.5),通过迅雷进行下载:https://developer.nvidia.com/compute/machine-learning/cudnn/secure/7.6.5.32/Production/9.0_20191031/cudnn-9.0-linux-x64-v7.6.5.32.tgz
  • 选择cuDNN Library for Linux:
  • 下载完毕后通过Xftp等软件将其传到服务器中
  • 解压缩:tar -xzvf cudnn-9.0-linux-x64-v7.6.5.32.tgz,完成后会在目录中生成cuda文件夹
  • 复制相关文件:
    • sudo cp /home/Dengqy/cuda/include/cudnn.h /usr/local/cuda-9.0/include/
    • sudo cp /home/Dengqy/cuda/lib64/libcudnn* /usr/local/cuda-9.0/lib64/
    • sudo chmod a+r /usr/local/cuda-9.0/include/cudnn.h /usr/local/cuda-9.0/lib64/libcudnn*
  • 安装完成

二、其他常用指令

1、查看系统发行信息:

lsb_release -a,查看到系统为ubuntu18.04版本

2、查看系统位数:

uname -a,查看到系统为x86_64,即64位

3、为用户分配sudo权限:

  • 非必需步骤:

    • apt-get install sudo

      • groupadd sudo
      • vim /etc/sudoers
      • %sudo ALL=(ALL:ALL) ALL
      • cat /etc/group
    • 必需步骤:gpasswd -a Dengqy sudo 或usermod -a -G sudo Dengqy

4、安装Apache服务器并启用防火墙控制:

  • 安装Apache服务器:sudo apt install apache2
  • 查看版本:apache2 –version
  • 查看ufw应用配置文件列表:sudo ufw app list
  • 打开防火墙80端口:sudo ufw allow 'Apache'
  • 打开SSH22端口:sudo ufw allow 'OpenSSH'
  • 开启防火墙:sudo ufw enable
  • 查看防火墙状况:sudo ufw status
  • 查看Apache2服务器运行情况:sudo systemctl status apache2

5、新建用户:

  • useradd Dengqy –m
  • passwd Dengqy:设置密码
  • usermod -s /bin/bash 账号名称
  • chmod 750 Dengqy
  • chown [-R] 账号名称:用户组名称 文件或目录

6、查看、安装、卸载、更新GPU显卡驱动:

  • 查看驱动:sudo dpkg --list | grep nvidia-*
  • 卸载驱动:
    • sudo apt-get remove nvidia-*
    • sudo apt-get autoremove
  • sudo add-apt-repository ppa:graphics-drivers/ppa
  • sudo apt update
  • 将驱动更新为450驱动:sudo apt install nvidia-driver-450
  • nvidia系统管理界面查看GPU显卡情况:nvidia-smi

7、安装jdk1.8:

  • 下载jdk包到本地,然后通过Xftp等软件传输到服务器
  • 解压缩到指令目录java8:sudo tar -xvzf jdk-8u92-linux-x64.gz -C /usr/local/java8/
  • 解压缩安装完成后修改环境变量,sudo vim /etc/profile:
    • export JAVA_HOME=/usr/local/java8/jdk1.8.0_92
    • export PATH=${JAVA_HOME}/bin:${PATH}
  • 使环境变量立即生效:source /etc/profile
  • 查看jdk版本信息:java -version

基于Ubuntu18.04下深度学习服务器搭建相关推荐

  1. 保姆级教程——Ubuntu16.04 Server下深度学习环境搭建:安装CUDA8.0,cuDNN6.0,Bazel0.5.4,源码编译安装TensorFlow1.4.0(GPU版)...

    写在前面 本文叙述了在Ubuntu16.04 Server下安装CUDA8.0,cuDNN6.0以及源码编译安装TensorFlow1.4.0(GPU版)的亲身经历,包括遇到的问题及解决办法,也有一些 ...

  2. NVIDIA英伟达:深度学习服务器搭建指南 | 交流会笔记

    主讲人:Ken(何琨)| NVIDIA开发者社区经理 张康 屈鑫 编辑整理 量子位 出品 | 公众号 QbitAI 7月21日,量子位联合NVIDIA英伟达举行了线下交流会,跟现场近百位开发者同学共同 ...

  3. [零基础,全开源]基于web的远程深度学习服务搭建

    所有代码和工具均已开源.关注"DL工程实践",后台回复"web",自动获取. 1.背景介绍 目前有很多的深度学习推理方案,不过大多是离线部署的.这方面可以利用的 ...

  4. linux系统下深度学习环境搭建和使用

    作为一个AI工程师,对Linux的一些技能的掌握也能从一定层面反应工程师的资深水平. 要求1:基于SSH的远程访问(本篇文章) 能用一台笔记本电脑,远程登陆一台linux服务器 能随时使用笔记本电脑启 ...

  5. 基于Ubuntu18.04下的OpenCV3.4.11的安装及摄像头使用教程

    目录 一.安装OpenCV3.4.11 1.1 安装包下载并解压 1.2 安装opencv 1.3 环境配置 二.Linux的图片编程 三.OpenCV关于摄像头的使用 3.1 虚拟机获取摄像头权限 ...

  6. win10下双硬盘做深度linux,win10+ubuntu18双硬盘双系统安装记录+深度学习环境搭建...

    工作需要,在已经预装了Windows10的工作站,需要再安装ubuntu.因为工作站本身有两块硬盘,所以准备空出一个装ubuntu,这样两个系统互不干扰,不使用对方的硬盘空间.工作站装里有两块Nvid ...

  7. 报名 | NVIDIA线下交流会:手把手教你搭建TensorFlow Caffe深度学习服务器

    7月21日(周六)下午14:30,量子位与NVIDIA英伟达开发者社区联合举办线下交流会,拥有丰富一线开发经验的NVIDIA开发者社区经理Ken He,将手把手教你搭建TensorFlow & ...

  8. 从零开始搭建深度学习服务器: 基础环境配置(Ubuntu + GTX 1080 TI + CUDA + cuDNN)

    从零开始搭建深度学习服务器: 基础环境配置(Ubuntu + GTX 1080 TI + CUDA + cuDNN) 首先先声明一下 这篇是转载来自  : 从零开始搭建深度学习服务器: 基础环境配置( ...

  9. ubuntu 18.04 配置深度学习环境

    本文内容主要参考自博客:Ubuntu20.04下深度学习环境配置 由于个别步骤稍有不同,因此进行记录,步骤如下: 1.将下载源换为国内源 ubuntu镜像-ubuntu下载地址-ubuntu安装教程- ...

最新文章

  1. 算法在哈啰顺风车中的实践应用
  2. 页面滚动事件和利用JS实现回到顶部效果
  3. OpenSilver: 通过WebAssembly 复活Silverlight
  4. EditPlus软件自动补全文档htmlbar.acp设置 及 模板文件格式
  5. C#异常Retry通用类
  6. html源码蔡,html基础代码详解
  7. 如何在Windows平台下可以方便获取到android的源码?
  8. 甘肃省谷歌卫星地图下载
  9. lisp scheme 果壳_学习LISP(一): Scheme编辑器 Edwin
  10. 计算机关闭账号用户控制好吗,Win10系统彻底关闭用户帐户控制的方法
  11. 短视频技术指南:国内最牛5家短视频解决方案提供商评测
  12. c++builder:Project Project1.exe raised exception class EAccessViolation with message 'Access violati
  13. Androidstudio 连接夜神模拟器
  14. winpe修复计算机无法启动,巧用PE修复系统启动故障
  15. python数据挖掘(2.分类 OneR算法)
  16. 空气质量模型学习笔记 ① -----(模型基本介绍)
  17. 学生网页课程设计期末作业 HTML+CSS+JavaScript甜品蛋糕网页设计(5页)
  18. 西门子博途v16系统要求_【技成周报30期】西门子系列常见问题答疑汇总
  19. 使用Windows自带的截图工具截取整个网页
  20. 汽车I-O连接器-市场现状及未来发展趋势

热门文章

  1. HTTP的Referrer Policy
  2. 台式计算机不用待机还是关机好,电脑长时间待机的坏处 不关机对电脑的损害大吗...
  3. 2022年,树莓派搭建web服务器,加各种bug的解决
  4. vscode插件之:TSLINT
  5. faceui助跑赢时代——产品经理大会.上海站
  6. Eclipse 报错A child container failed during start?
  7. 税务加强计算机相关知识培训,贺州市地税局推行分类分级培训提升干部素质
  8. 迁移系统后黑屏 只有鼠标可以动【解决方法】
  9. C#RichTextBox[自动选词]与[生僻字显示]问题
  10. 关于在安装虚拟机的时候的一个小问题,pe系统没有分区工具