tensowflow 训练远程提交_深度解析AutoML工具—

NNI (Neural Network Intelligence) 是自动机器学习（AutoML）的工具包。它通过多种调优的算法来搜索最好的神经网络结构和（或）超参，并支持单机、本地多机、云等不同的运行环境。

安装指南

兼容性

Linux Ubuntu 16.04 或更高版本
MacOS 10.14.1
Windows 10.1809

安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple nni

推荐使用清华源

工作流程&快速上手

为了理解NNI的工作流程，我们不妨来训练一个Mnist手写体识别，网络结构确定之后，NNI可以来帮你找到最优的超参。一个朴素的想法是：在有限的时间内，NNI测试一定量的超参，返回给你最优的参数组合。

为了更好地理解NNI的工作流程，首先需要认识几个概念：

Trial：Trial 是一次尝试，它会使用某组配置（例如，一组超参值，或者特定的神经网络架构）来进行训练，并返回该配置下的得分。本质上就是加入了NNI_API的用户的原始代码。
Experiment：实验是一次找到模型的最佳超参组合，或最好的神经网络架构的任务。它由Trial和自动机器学习算法所组成。
Searchspace：搜索空间是模型调优的范围。例如，超参的取值范围。
Configuration：配置是来自搜索空间的一个参数实例，每个超参都会有一个特定的值。
Tuner：Tuner是一个自动机器学习算法，会为下一个Trial生成新的配置。新的 Trial 会使用这组配置来运行。
Assessor：Assessor分析Trial的中间结果（例如，测试数据集上定期的精度），来确定 Trial 是否应该被提前终止。
Training Platform：训练平台是Trial的执行环境。根据Experiment的配置，可以是本机，远程服务器组，或其它大规模训练平台（例如，OpenPAI，Bitahub）。

那么你的实验（Experiment）便是在一定的搜索空间（Searchspace）内寻找最优的一组超参数（Configuration），使得该组参数对应的Mnist（Trail）有最大的准确率，在有限的时间和资源限制下，Tuner和Assessor帮助你更快更好的找到这组参数。

为了更更好地理解NNI的工作流程，我们一起来完成一个在本地（Training Platform）训练的，针对Mnist手写体识别（Trail）的，最佳超参搜索的实验（Experiment）。

下载Mnist TensorFlow example（选择tf是因为他自带mnist数据集无需下载）。
打开mnist.py，Ctrl+F，搜索nni，得到四个结果，分别在12、198、207、231行，换句话说，一个原本的训练Mnist手写体识别代码，加上4行代码，就可以由nni来完成超参优化的工作！原始代码见mnist_before.py。

1     """A deep MNIST classifier using convolutional layers."""
......
12    import nni # import不解释 （1/4）
......
198   nni.report_intermediate_result(test_acc)    # 记录网络训练过程中的准确率 （3/4）
......
207   nni.report_final_result(test_acc)    # 返回该超参数组合下网络最终准确率 （4/4）
......
231   tuner_params = nni.get_next_parameter()    # 生成下一组超参数组合 （2/4）
......
234   params.update(tuner_params)    # 更新params字典
235   main(params)    # 将超参数组合传入主函数训练

nni嵌入原始代码生成trail的逻辑如上所示：获取超参数组合，测试该组合的效果并记录，产生下一组超参数，直到达到时间或尝试次数上限。

需要注意的是，nni对于需要搜索的超参数是根据变量名称匹配的，因此网络中超参变量名要和搜索空间中定义的一致！本例使用NNI API的方式进行嵌入，亦可使用Annotation的方式嵌入，详情参考Annotation。

3. 打开search_space.json，指定需要进行搜索的变量，以及变量的搜索空间。可以看到dropout_rate是在[0.5, 0.9]的均匀分布中取值，conv_size是在[2,3,5,7]四个值中选取。关于更多的采样策略和参数设置可以参考SearchSpace。

4. 打开对应系统的配置文件——Win:config_windows.yml；Linux,macOS:config.yml，以Win为例，我在重要配置后添加了注释，其余配置使用默认即可。

authorName: default
experimentName: example_mnist
trialConcurrency: 1                     # 并行trail数量
maxExecDuration: 1h                     # 实验执行的时间上限
maxTrialNum: 10                         # Trial任务的最大数量
#choice: local, remote, pai
trainingServicePlatform: local          # 训练平台，一般为local
searchSpacePath: search_space.json      # 搜索空间，一般为search_space.json
#choice: true, false
useAnnotation: false    # 本例中我们使用的NNI API的方法进行集成，此处选择false # 如果设置了 useAnnotation=True，searchSpacePath 字段必须被删除
tuner:#choice: TPE, Random, Anneal, Evolution, BatchTuner, MetisTuner, GPTuner#SMAC (SMAC should be installed through nnictl)builtinTunerName: TPE                         # 优化算法classArgs:#choice: maximize, minimizeoptimize_mode: maximize
trial:command: python mnist.py             codeDir: .gpuNum: 0                   # GPU可见性设置

那么以上配置便意味着我们给nni一个小时的时间、十次尝试机会，在同时只能运行一个trail以及使用TPE优化算法的情况下来寻找最优的超参组合。

除实例教程的基本配置文件外，还有一些配置推荐使用：

logDir: 默认为<user home directory>/nni/experiment    # 指定log输出路径
logLevel: 支持trace, debug, info, warning, error, fatal，默认为info # 指定log信息输出登记

详情请参考配置。

5. 打开Windows命令行，进入安装了nni的环境，然后启动MNIST Experiment。

nnictl create --config config_windows.yml

nnictl是一个命令行工具，用来控制NNI Experiment，如启动、停止、继续Experiment，启动、停止 NNIBoard 等等。更多用法请参考nnictl。

6. 启动Experiment 后，可以在命令行界面找到WebUI的地址，在浏览器打开地址就可以看到实验的详细信息，详细教程可参考WebUI。

7. 实验完成后，WebUI一直可以访问，直到我们在命令行停止实验nnictl stop。

至此，NNI的基本使用情况已介绍完毕。

系统架构

NNIManager是系统的核心管理模块，负责调用TrainingService来管理Trial，并负责不同模块之间的通信。
Dispatcher是消息处理中心。
TrainingService是平台管理、任务调度相关的模块，它和 NNIManager 通信，并且根据平台的特点有不同的实现。NNI 支持本机，远程平台(SSH方法调用多台GPU协同实验)，OpenPAI 平台，Kubeflow 平台以及 FrameworkController 平台。
DB是DateBase管理训练数据.

AutoML我懂，NNI我也懂，代码我都写好了，就差一块GPU了？

没有GPU是问题吗？能用钱解决的问题都不是问题！问题是没钱？

BitaHub了解一下。

BitaHub（http://www.bitahub.com）面向AI开发者提供快速构建、训练模型的能力，让开发者专注于业务和科研。新用户注册即免费赠送20算力！

点击https://forum.bitahub.com/views/page-registe.html?inviteid=_b1f099806011453ebaaec2e2b2bb8cec完成注册！

注册后请先阅读一下BitaHub的帮助手册。

Bitahub&NNI

以上文提到的mnist实验为例，下面我们展示如何在Bitahub上优雅的使用NNI。

实验中相关文件如Dockerfile、trail代码请在（https://github.com/SonghuaW/bita_nni）下载。

新建镜像：NNI提供了官方Docker镜像，为了适配Bitahub平台，我对NNI镜像做了一些修改，并上传至dockerhub：wushhub/nni_bitahub，在Bitahub平台上，选择我的镜像（https://www.bitahub.com/personalmirror）-新建镜像（编程语言算法框架可任意选择，但需要与后文创建的项目一致）-上传Dockerfile-提交生成。等待镜像生成成功。
创建项目：此时项目的编程语言算法框架应选择与新建镜像时的选择一致。代码选择Github上的mnist文件夹。
运行任务：Bitahub上的任务分两种，debug类型和非debug类型。debug类型提供jupyterlab给用户调试。非debug类型无法调试，直接提交任务，输出结果。由于Docker端口映射的限制，只有在debug模式下，用户才可以使用WebUI。下面详细介绍两种任务类型下如何使用NNI。

debug模式：

点击新建任务

2. 配置参数，镜像选择我们刚刚制作好的镜像；GPU类型选择dubug；启动命令可以在/mnist/nni.txt中复制。

debug模式下启动命令为：停止ssh服务；创建/output/nni文件夹作为文件输出目录；启动Experiment并将WebUI端口指定为22；cat占位等待，否则任务将直接结束。

service ssh stop; mkdir -p /output/nni && nnictl create --config /code/mnist/config.yml --port 22 && cat

3. 查看WebUI，当任务状态变成运行中时，点击查看。

在查看页面下拉至底部

打开202.38.95.226:13304即可访问WebUI。

4. 在任务查看界面选择Output，即可查看输出文件。

5. 任务结束后，点击停止即可，此后WebUI无法访问，但输出文件一直可以查看。

非debug模式：点击新建任务，配置参数，镜像选择我们刚刚制作好的镜像；GPU类型选择dubug；启动命令可以在/mnist/nni.txt中复制。

mkdir -p /output/nni && nnictl create --config /code/mnist/config.yml --port 22 && python3 /code/mnist/watch.py && nnictl stop

非debug模式下我们加入了一个监视器watch.py，实时监控experiment的信息，当在nni的log文件中找到‘Experiment done’的字符串时，return并执行nnictl stop。注意，在此模式下我们无法访问WebUI，但仍可读取输出文件。任务在执行nnictl stop后会自行结束，无需手动停止。

Open for comments and suggestions!

wsh0913@mail.ustc.edu.cn

鹏城实验室人工智能中心

Reference

https://github.com/microsoft/nni