如何使用docker配置深度学习开发环境

文章目录

1.底层驱动的安装
- 1.1 操作系统的安装
- 1.2 显卡驱动的安装
- 1.3 cuda的安装
2.使用docker配置深度学习开发环境
- 2.1 docker的安装
- 2.2 nvidia_docker的安装
- 2.3 安装过程中的问题
- - 2.3.1 docker和nvidia_docker的版本不匹配的问题。
  - 2.3.2 解决每次运行docker命令的时候要加sudo.
  - 2.3.3 解决每次docker pull镜像速度慢的问题。
  - 2.2.4 解决docker无法运行容器的问题。
3.nvidia_docker的使用
- 3.1 docker 的常用的命令
- 3.2 docker使用过程中的注意事项
4.dockerfile的使用
- 4.1 dockerfile的例子
- 4.2基于dockerfile创建镜像

深度环境的搭建对于深度学习是非常重要的。其中深度学习开发环境中因为用到非常多的第三方库，往往搭建起来非常费劲，如果有一个工具能够往我们只需要搭建一次，以后换了开发环境后，直接copy过去就能用该多好！docker就是用于解决这个问题的好方法。下面将介绍一下如何使用docker配置深度学习开发环境。

1.底层驱动的安装

1.1 操作系统的安装

参考文章：Linux操作系统的安装

1.2 显卡驱动的安装

参考文章：英伟达显卡驱动的安装

1.3 cuda的安装

参考文章：cuda的安装

2.使用docker配置深度学习开发环境

2.1 docker的安装

注意docker和nvidia_docker的版文好要对应
参考文章：docker的安装

运行sudo docker run hello-world 测试docker是否安装和启动成功

如果之前或者系统自带的有docker,一定要卸载掉之前的docker，然后运行上面的命令安装docker

2.2 nvidia_docker的安装

注意docker和nvidia_docker的版文好要对应
参考文章：nvidia_docker的安装

运行docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi命令测试nvidia_docker是否安装成功。

上面的测试命令需要你下载nvidia/cuda镜像，这个镜像比较大，下载非常耗时，所以一般查看是否拥有nvidia_docker命令即可，如果有这个命令说明安装成功

2.3 安装过程中的问题

2.3.1 docker和nvidia_docker的版本不匹配的问题。

问题提示：

docker-ce (= 5:18.09.0~3-0~ubuntu-xenial) but 18.06.0~ce~3-0~ubuntu is to be installed

解决方法：
- 卸载掉原先安装的docker（一定要注意卸载干净，一般的卸载方法是无法卸载干净的，请自行百度），然后运行上面给的命令，就可以不出现上面的错误了。
- 一般如果系统没有自带docker或者后面没有安装docker，直接运行上面给出的命令是不会出问题的。

2.3.2 解决每次运行docker命令的时候要加sudo.

参考文章

其实就是常见一个docker用户组，然后将用户都加入进去即可。

2.3.3 解决每次docker pull镜像速度慢的问题。

参考文章

我觉得这是比较好的方法，网上还有直接添加镜像网站的方法，效果不是很好，此处建议使用上面的方法。

2.2.4 解决docker无法运行容器的问题。

错误提示：

Error response from daemon: Unknown runtime specified nvidia.

参考文章
注意事项：
- 一定要保证nvidia_docker安装成功
- 查看/usr/bin/nvidia-container-runtime执行文件是否存在
- 按照上面的要求修改文件：/etc/systemd/system/docker.service.d/override.conf
- 查看该/etc/docker/daemon.json是否出错，记住一定只能有一个一级的大括号，不能出现并集的两个。

## /etc/docker/daemon.json
{                                                                    "registry-mirrors": ["http://f136**2.m.daocloud.io"],       "runtimes": {                                                "nvidia": {                                          "path": "/usr/bin/nvidia-container-runtime", "runtimeArgs": []                            }                                            }
}
## /etc/systemd/system/docker.service.d/override.conf
[Service]
ExecStart= ExecStart=/usr/bin/dockerd --host=fd:// --add-runtime=nvidia=/usr/bin/nvidia-container-runtime

3.nvidia_docker的使用

3.1 docker 的常用的命令

启动容器命令示例：

通过运行命令“nvidia_docker run --rm --it --name=“myTorch” --volume=”/home/deep_wfy/project:/home/deep_wfy/workspace:rw" pytorch:latest /bin/bash"，

"–rm"表示在退出（使用快捷键Ctrl+d）退出时，同时删除该镜像文件的缓存，如果不加该选项，则该镜像的缓存会存在电脑中，通过运行命令“docker start myTorch”可以重新进入到该镜像的环境中，可以使用命令“docker rm myTorch”将缓存删除，此时使用命令“docker ps -a”查看发现没有。
“–it”表示该镜像运行在终端环境中，不加则无法进入到该镜像中。
“–name”表示给该镜像命名为"myTorch"，同一个镜像，可以在不同运行时起不同的名字，用于区分不同的环境。
“–volume”表示有镜像创建的虚拟环境和物理环境中文件的共享映射，此处表示将物理环境中的“/home/deep_wfy/project”路径下的文件和虚拟环境中的“/home/deep_wfy/workspace”文件相对应，而且具有读写的权限，即在虚拟环境中修改文件在物理环境中也会改变，这样即使把镜像创建的虚拟环境删除，文件依然保存。
“pytorch:latest”是你要运行的镜像的名称
“/bin/bash”表示执行镜像环境中的bin文件夹下的bash可执行文件（这个可以通过查看该镜像的dockerFile看出）
进行入到镜像的虚拟环境中便可以完成相应的操作,可以直接使用该镜像中环境了。与使用真实的环境并无差异。

只记录docker命令在大部分情境下的使用，如果想了解每一个选项的细节，请参考官方文档

Docker环境信息 — docker [info|version]
容器生命周期管理 — docker [create|exec|run|start|stop|restart|kill|rm|pause|unpause]
容器操作运维 — docker [ps|inspect|top|attach|wait|export|port|rename|stat]
容器rootfs命令 — docker [commit|cp|diff]
镜像仓库 — docker [login|pull|push|search]
本地镜像管理 — docker [build|images|rmi|tag|save|import|load]
容器资源管理 — docker [volume|network]
系统日志信息 — docker [events|history|logs]

退出某个镜像的操作是：CTRL + D

其实docker中的很多命令与Linux是非常相似的，所以用起来非常简单

docker help [command]可以查看具体命令的一些详细信息

3.2 docker使用过程中的注意事项

镜像查找网站,一般网站中会给出镜像拉取和容器创建的命令
如果要开启GUI，声音等权限，需要去查相关的命令
如果要使用tensorboard，则需要指明容器与服务器的端口映射。

4.dockerfile的使用

4.1 dockerfile的例子

Ubuntu 16.04

FROM scratch
ADD ubuntu-xenial-core-cloudimg-amd64-root.tar.gz /
# delete all the apt list files since they're big and get stale quickly
RUN rm -rf /var/lib/apt/lists/*
# this forces "apt-get update" in dependent images, which is also good
# (see also https://bugs.launchpad.net/cloud-images/+bug/1699913)# a few minor docker-specific tweaks
# see https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap
RUN set -xe \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L40-L48&& echo '#!/bin/sh' > /usr/sbin/policy-rc.d \&& echo 'exit 101' >> /usr/sbin/policy-rc.d \&& chmod +x /usr/sbin/policy-rc.d \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L54-L56&& dpkg-divert --local --rename --add /sbin/initctl \&& cp -a /usr/sbin/policy-rc.d /sbin/initctl \&& sed -i 's/^exit.*/exit 0/' /sbin/initctl \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L71-L78&& echo 'force-unsafe-io' > /etc/dpkg/dpkg.cfg.d/docker-apt-speedup \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L85-L105&& echo 'DPkg::Post-Invoke { "rm -f /var/cache/apt/archives/*.deb /var/cache/apt/archives/partial/*.deb /var/cache/apt/*.bin || true"; };' > /etc/apt/apt.conf.d/docker-clean \&& echo 'APT::Update::Post-Invoke { "rm -f /var/cache/apt/archives/*.deb /var/cache/apt/archives/partial/*.deb /var/cache/apt/*.bin || true"; };' >> /etc/apt/apt.conf.d/docker-clean \&& echo 'Dir::Cache::pkgcache ""; Dir::Cache::srcpkgcache "";' >> /etc/apt/apt.conf.d/docker-clean \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L109-L115&& echo 'Acquire::Languages "none";' > /etc/apt/apt.conf.d/docker-no-languages \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L118-L130&& echo 'Acquire::GzipIndexes "true"; Acquire::CompressionTypes::Order:: "gz";' > /etc/apt/apt.conf.d/docker-gzip-indexes \\
# https://github.com/docker/docker/blob/9a9fc01af8fb5d98b8eec0740716226fadb3735c/contrib/mkimage/debootstrap#L134-L151&& echo 'Apt::AutoRemove::SuggestsImportant "false";' > /etc/apt/apt.conf.d/docker-autoremove-suggests# make systemd-detect-virt return "docker"
# See: https://github.com/systemd/systemd/blob/aa0c34279ee40bce2f9681b496922dedbadfca19/src/basic/virt.c#L434
RUN mkdir -p /run/systemd && echo 'docker' > /run/systemd/container# overwrite this with 'CMD []' in a dependent Dockerfile
CMD ["/bin/bash"]

ubuntu 18.04 + cuda10 + tensorflow1.13

# Copyright 2018 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ============================================================================
#
# THIS IS A GENERATED DOCKERFILE.
#
# This file was assembled from multiple pieces, whose use is documented
# throughout. Please refer to the TensorFlow dockerfiles documentation
# for more information.ARG UBUNTU_VERSION=18.04ARG ARCH=
ARG CUDA=10.0
FROM nvidia/cuda${ARCH:+-$ARCH}:${CUDA}-base-ubuntu${UBUNTU_VERSION} as base
# ARCH and CUDA are specified again because the FROM directive resets ARGs
# (but their default value is retained if set previously)
ARG ARCH
ARG CUDA
ARG CUDNN=7.4.1.5-1# Needed for string substitution
SHELL ["/bin/bash", "-c"]
# Pick up some TF dependencies
RUN apt-get update && apt-get install -y --no-install-recommends \build-essential \cuda-command-line-tools-${CUDA/./-} \cuda-cublas-${CUDA/./-} \cuda-cufft-${CUDA/./-} \cuda-curand-${CUDA/./-} \cuda-cusolver-${CUDA/./-} \cuda-cusparse-${CUDA/./-} \curl \libcudnn7=${CUDNN}+cuda${CUDA} \libfreetype6-dev \libhdf5-serial-dev \libzmq3-dev \pkg-config \software-properties-common \unzipRUN [ ${ARCH} = ppc64le ] || (apt-get update && \apt-get install nvinfer-runtime-trt-repo-ubuntu1804-5.0.2-ga-cuda${CUDA} \&& apt-get update \&& apt-get install -y --no-install-recommends libnvinfer5=5.0.2-1+cuda${CUDA} \&& apt-get clean \&& rm -rf /var/lib/apt/lists/*)# For CUDA profiling, TensorFlow requires CUPTI.
ENV LD_LIBRARY_PATH /usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATHARG USE_PYTHON_3_NOT_2
ARG _PY_SUFFIX=${USE_PYTHON_3_NOT_2:+3}
ARG PYTHON=python${_PY_SUFFIX}
ARG PIP=pip${_PY_SUFFIX}# See http://bugs.python.org/issue19846
ENV LANG C.UTF-8RUN apt-get update && apt-get install -y \${PYTHON} \${PYTHON}-pipRUN ${PIP} --no-cache-dir install --upgrade \pip \setuptools# Some TF tools expect a "python" binary
RUN ln -s $(which ${PYTHON}) /usr/local/bin/python # Options:
#   tensorflow
#   tensorflow-gpu
#   tf-nightly
#   tf-nightly-gpu
# Set --build-arg TF_PACKAGE_VERSION=1.11.0rc0 to install a specific version.
# Installs the latest version by default.
ARG TF_PACKAGE=tensorflow
ARG TF_PACKAGE_VERSION=
RUN ${PIP} install ${TF_PACKAGE}${TF_PACKAGE_VERSION:+==${TF_PACKAGE_VERSION}}COPY bashrc /etc/bash.bashrc
RUN chmod a+rwx /etc/bash.bashrc

4.2基于dockerfile创建镜像

参考文章

如何使用docker配置深度学习开发环境相关推荐

【物体检测快速入门系列 | 03】Windows部署Docker GPU深度学习开发环境
这是机器未来的第3篇文章原文首发链接:https://blog.csdn.net/RobotFutures/article/details/124815912 1. 概述在<物体检测快速入门 ...
WIN11 + CUDA11.7配置深度学习开发环境（一）
#视频截取的模型训练开发的视频截取器,公司给发的电脑,在这里记录一下环境配置的过程,由于已经安装了cuda等环境(我也不想重新下载啦),就利用11.7做这个练习.以后遇到问题在解决. 首先给出参考经 ...
agx 安装ros opencv_Linux下配置深度学习开发环境（及ros）
平台选择上,直接用linux系统最好,其次选择双系统,最后考虑虚拟机,vm有时候会莫名其妙挂掉, VirtualBox显存太小. 机器人操作系统,ROS的安装直接参照官网,报错忽略,最后就能用.很多教 ...
深度学习开发环境调查结果公布，你的配置是这样吗？（附新环境配置） By 李泽南2017年6月26日 15:57 本周一（6 月 19 日）机器之心发表文章《我的深度学习开发环境详解：Te
深度学习开发环境调查结果公布,你的配置是这样吗?(附新环境配置) 机器之心 2017-06-25 12:27 阅读:108 摘要:参与:李泽南.李亚洲本周一(6月19日)机器之心发表文章<我的深 ...
Ubuntu18.04+CUDA10.2 深度学习开发环境配置指南
深度学习 Author:louwill Machine Learning Lab 搞深度学习环境永远是第一步.笔者之前也写过配置的两篇文章,但时间久远,目前来看版本已经过旧了.之前两篇参考: 深度学习 ...
tesla p100 linux,Ubuntu16.04深度学习开发环境配置（TeslaP100+cuda9.0+tensorflow）
Ubuntu16.04深度学习开发环境配置(TeslaP100+cuda9.0+tensorflow) 1. 显卡驱动安装选择对应显卡型号的驱动下载 https://www.nvidia.com/D ...
基于AI的计算机视觉识别在Java项目中的使用（三） —— 搭建基于Docker的深度学习训练环境
深度学习在哪里? 我们已然生活在数字时代,一天24小时我们被数字包围.我们生活中的方方面面都在使用数字来表达.传递.存储.我们无时无刻不在接收数字信息,而又无时无刻不在生产数字信息. 在数字世界中,可 ...
【Linux Mint 深度学习开发环境搭建】开发软件安装
系列文章目录第一章 Linux mint 深度学习开发环境搭建之Nvidia显卡相关软件安装第二章 Linux mint 深度学习开发环境搭建之开发软件安装第三章 Linux mint 深度学习 ...
nvidia docker容器不支持中文的解决办法_用docker搭建深度学习实验环境
tensorflow和pytorch官方都维护了不同版本的docker镜像.借助docker我们可以方便的搭建起深度学习实验环境. 但是想要在同一个容器内同时拥有tensorflow.pytorch. ...

如何使用docker配置深度学习开发环境

文章目录

1.底层驱动的安装

1.1 操作系统的安装

1.2 显卡驱动的安装

1.3 cuda的安装

2.使用docker配置深度学习开发环境

2.1 docker的安装

2.2 nvidia_docker的安装

2.3 安装过程中的问题

2.3.1 docker和nvidia_docker的版本不匹配的问题。

2.3.2 解决每次运行docker命令的时候要加sudo.

2.3.3 解决每次docker pull镜像速度慢的问题。

2.2.4 解决docker无法运行容器的问题。

3.nvidia_docker的使用

3.1 docker 的常用的命令

3.2 docker使用过程中的注意事项

4.dockerfile的使用

4.1 dockerfile的例子

4.2基于dockerfile创建镜像

如何使用docker配置深度学习开发环境相关推荐

最新文章

热门文章