简介

Jupyter notebook是强大的数据分析工具,它能够帮助快速开发并且实现机器学习代码的共享,是数据科学团队用来做数据实验和组内合作的利器,也是机器学习初学者入门这一个领域的好起点。

而TensorFLow是深度学习和机器学习最流行的开源框架,它最初是由Google研究团队开发的并致力于解决深度神经网络的机器学习研究,从2015年开源到现在得到了广泛的应用。特别是Tensorboard这一利器,对于数据科学家有效的工作也是非常有效的利器。

而利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。在阿里云的Kubernetes集群上,您可以通过简单的按钮提交创建一套完整的TensorFlow实验环境,包括Jupyter Notebook开发模型,利用Tensorboard调整模型。

准备Kubernetes环境

阿里云容器服务Kubernetes 1.9.3目前已经上线,但是购买按量付费的GPU计算型服务器需要申请ECS工单开通。具体创建过程,可以参考创建Kubernetes集群。

体验通过应用目录部署TensorFlow实验室

通过Helm部署MPI的应用,本文以openmpi为例,向您展示如何快速在容器服务上运行MPI应用。实际上如果需要换成其他MPI实现只需要替换镜像即可。

2.1 可以通过应用目录,点击ack-tensorflow-dev

2.2 点击参数, 就可以通过修改参数配置点击部署

这里的密码是tensorflow, 您也可以改成您自己设定的密码

也可以登录到Kubernetes master运行以下命令

$ helm install --name tensorflow incubator/ack-tensorflow

2.3 运行结束后可以登录到控制台,查看tensorflow应用启动的状态

登录使用TensorFlow实验环境

  1. 首先通过ssh登录Kubernetes集群,查看tensorflow应用列表
$ helm list
NAME          REVISION    UPDATED                     STATUS      CHART                       NAMESPACE
tensorflow    1           Thu Apr 12 07:54:59 2018    DEPLOYED    ack-tensorflow-dev-0.1.0    default

2. 利用helm status检查应用配置

$ helm status tensorflow
LAST DEPLOYED: Thu Apr 12 07:54:59 2018
NAMESPACE: default
STATUS: DEPLOYEDRESOURCES:
==> v1/Service
NAME                           TYPE          CLUSTER-IP   EXTERNAL-IP     PORT(S)                      AGE
tensorflow-ack-tensorflow-dev  LoadBalancer  172.19.2.39  10.0.0.1  6006:32483/TCP,80:32431/TCP  13m==> v1beta2/Deployment
NAME                           DESIRED  CURRENT  UP-TO-DATE  AVAILABLE  AGE
tensorflow-ack-tensorflow-dev  1        1        1           1          13mNOTES:
1. Get the application URL by running these commands:NOTE: It may take a few minutes for the LoadBalancer IP to be available.You can watch the status of by running 'kubectl get svc -w tensorflow-ack-tensorflow-dev'export SERVICE_IP=$(kubectl get svc --namespace default tensorflow-ack-tensorflow-dev -o jsonpath='{.status.loadBalancer.ingress[0].ip}')echo http://$SERVICE_IP:

这里可以看到外部SLB的ip是10.0.0.1, Jupyter Notebook的端口为80, Tensorboard为6006。

3. 通过Jupyter访问端点登录,本示例中Jupyter的访问地址是http://10.0.0.1, 输入前面设定的密码点击登录, 在本示例中我们设定的是tensorflow

4. 点击Terminal按钮

5. 在Terminal内执行nvidia-smi, 可以看到GPU的配置

6. 通过git命令下载tensorflow样例代码,

$ git clone https://code.aliyun.com/kubernetes/Tensorflow-Examples.git

7. 回到主页您就能看到Tensorflow-Examples已经下载到了您的工作目录

8. 进入到 http://10.0.0.1/notebooks/Tensorflow-Examples/notebooks/4_Utils/tensorboard_basic.ipynb, 运行程序

注意:如果您需要用Tensorboard观测训练效果请将日志记录到/output/training_logs下。

9. 以下为训练结果输出

10. 这时您可以登录Tensorboard查看训练效果, 本示例中Tensorboard的地址为http://10.0.0.1:6006 。 这里您可以看到模型的定义和训练的收敛趋势。

总结

我们可以利用阿里云Kubernetes容器服务,轻松的搭建在云端搭建TensorFlow的环境,运行深度学习的实验室,并且利用TensorBoard追踪训练效果。欢迎大家使用阿里云上的GPU容器服务,在使用GPU高效计算的能力同时,比较简单和快速的开始模型开发工作。

在阿里云Kubernetes容器服务上打造TensorFlow实验室相关推荐

  1. 阿里云Kubernetes容器服务上体验Knative

    概述 Knative Serving是一种可缩放至零.请求驱动的计算运行环境,构建在 Kubernetes 和 Istio 之上,支持为 serverless 应用.函数提供部署与服务.Knative ...

  2. 阿里云边缘容器服务、申通 IoT 云边端架构入选 2021 云边协同发展阶段性领先成果

    2021 年 6 月 4 日,由中国信息通信研究院(以下简称"中国信通院")主办的 " 2021 云边协同大会 " 在北京举行.本次会议以 " 开启分 ...

  3. 阿里云K8S容器服务的使用

    使用阿里云k8s构建服务 一. 上传镜像 二. k8s运行 三. 服务配置导入 四. 服务路由 五. 节点亲和性和污点管理 一. 上传镜像 在阿里云控制台找到"容器镜像服务",开启 ...

  4. 15分钟在阿里云Kubernetes服务上快速建立Jenkins X Platform并运用GitOps管理应用发布...

    本文主要介绍如何在阿里云容器服务Kubernetes上快速安装部署Jenkins X Platform并结合demo实践演示GitOps的操作流程. 注意: 本文中使用的jx工具.cloud-envi ...

  5. 在阿里云Kubernetes上运行SpringCloud示例PiggyMetrics

    阿里云Kubernetes服务运行SpringCloud osswangxining大侠在 阿里云Kubernetes SpringCloud 实践进行时 系列文章中系统地介绍了如何在阿里云Kuber ...

  6. 在阿里云HPC和容器服务上,像梵高一样作画

    本系列将利用Docker技术在阿里云HPC和容器服务上,帮助您上手TensorFlow的机器学习方案 第一篇:打造TensorFlow的实验环境 第二篇:轻松搭建TensorFlow Serving集 ...

  7. 应用10秒部署、成本降低50% 阿里云serverless容器改写云计算极限

    在将应用部署时间从以天计缩短到以小时计后,云计算正进入秒计时代:阿里云推出的最新计算形态Serverless容器服务改写了云计算极限,单实例启动时间为创世界纪录的10秒,1分钟可弹出1000实例,这使 ...

  8. 【云原生】阿里云Kubernetes(ACK)简介

    目录 一.产品形态 1.集群使用限制 1)限制概述 2)ACK集群配额限制 3)依赖底层云产品配额限制 2.ACK的优势 一.产品形态 更多介绍请点击:什么是容器服务Kubernetes版_容器服务K ...

  9. 使用Kubernetes容器服务在云上搭建AI推理环境

    场景描述 本方案适用于使用GPU进行AI在线推理的场景.在推理之前,模型已经训练完成.例如,刷脸支付中,我们在刷脸的时候,就是推理的一个过程.再比如图像分类,目标检测,语音识别,语义分析等返回结果的过 ...

最新文章

  1. 编写更少量的代码:使用apache commons工具类库
  2. 使用Vue.js进行数据绑定以及父子组件传值
  3. Linux shell条件判断if中的-a到-z的意思
  4. Mysql高性能优化规范建议,太厉害了!
  5. centos上安装supervisor来管理dotnetcore等应用程序
  6. 【设计】H5移动端页面设计心得分享(附案例解析)
  7. 【CTR预估】CTR模型如何加入稠密连续型和序列型特征?
  8. 在 Red HatAS4下添加网卡驱动!!
  9. matlab padarray函数详解
  10. 微信小程序开发实战基础二、wxml模板,动态更新内联样式
  11. java 注解 对象_Java基础-学习使用Annotation注解对象
  12. c++ 无法读取内存_为什么内存频率只有2133比实际低?开XMP提高内存频率方法
  13. 安卓内录声音软件scr_录屏内录大师软件下载
  14. OA软件办公用品分类设置,实现办公用品分类透明化
  15. cocos入门2:骨骼动画
  16. tomcat consider increasing the maximum size of the cache
  17. waf 防火墙限制_waf防火墙
  18. idea 使用markdown总结
  19. 开发日记之linux杀进程与挂进程去后台运行
  20. nodejs+vue音乐网站与分享平台

热门文章

  1. FFmpeg中libswresample库简介及测试代码
  2. 深度学习中的Dropout简介及实现
  3. 主成分分析(PCA) C++ 实现
  4. 【驱动】ubuntu安装内核头文件
  5. python可变序列和不可变序列_一文看懂可变序列和不可变序列
  6. python tkinter 滚动条_如何在tkinter窗口中添加滚动条?
  7. Java多线程复习:3(在操作系统中查看和杀死进程线程)
  8. legend位置 pyecharts_可视化入门 | pyecharts全局配置项详解
  9. python利用自动识别写模块_Python 利用pytesser模块识别图像文字
  10. Java中的Map集合遍历总结(详尽版)