简介:深度学习是当下最热门的人工智能技术,然而对于算法工程师来说,要搭建一套学习和工作的开发环境却较为困难。阿里云机器学习平台PAI推出了一款云端机器学习开发IDE:PAI-DSW,并免费开放给个人开发者。本文将分享阿里云在机器学习工程上的发展、沉淀和创新,并通过案例《大数据算命系列之用机器学习评估你的相亲战斗力》,手把手教同学们从入门到快速进阶。

一 序

人工智能(AI)是一个自从计算机被发明开始就存在的一个技术领域。从1956年Marvin Minsky、John McCarthy等人在达特茅斯学院的会议中第一次提出人工智能这个概念开始,AI这个领域的概念、技术和研究经历了非常长足的发展。

其中,机器学习是人工智能领域当中最核心也是最广泛应用的一个子领域,旨在通过一系列数学的方法,如统计、概率论、线性代数等方法,设计和分析让计算机可以自动学习的算法。这些算法通过从大量数据中获取规律,来对未知的的数据进行预测和决策。

机器学习的算法被广泛地用到计算机视觉、语音、自然语言处理、数据挖掘、搜索、广告、游戏、机器人、金融等各种行业。

随着深度学习的兴起,产业界对于机器学习产生了非常强烈的兴趣,也使得机器学习领域开始迅速地走向工程化和系统化。

除了机器学习算法本身的不断创新之外,数据和算力的增加也是不可忽视的:大量的数据,特别是移动互联网的兴起,使机器学习算法得以打破传统数据量的限制;由于GPGPU等高性能处理器开始提供大量的算力,又使得我们能够在可控的时间内(以天为单位甚至更短)进行exaflop级别的算法训练。

在这些的综合作用下,工业界开始浮现出大量的机器学习系统创新。以2011年Google Brain,即谷歌大脑为代表,机器学习开始迅速从实验室转向业界。

毫无疑问,深度学习(DeepLearning)是当下最热门的人工智能技术,在智能推荐、图像识别、机器翻译、计算广告、自动驾驶等领域都有突破性的进展和应用。而深度学习的成功很大部分得益于新的计算框架和异构计算硬件,譬如Tensorflow和NVIDIA GPU。

然而,对于算法工程师来说,要搭建这样一套学习和工作的环境不是一件容易的事情:需要一个特定版本的操作系统(最好是Linux),一张或多张GPU卡,安装GPU驱动,安装深度学习计算框架和其依赖的软件包等。在调试深度学习算法的过程中,如果说尝试不同的驱动版本和切换各种版本的软件库还勉强可以接受,那么切换硬件环境,特别是更换GPU卡就伤筋动骨了。

那么,有没有能够一劳永逸解决这些苦恼的方式?阿里云机器学习平台PAI出品的一款云端深度学习开发环境:DSW(Data Science Workshop)试图告诉你,这是个肯定的答案。

二 云端IDE:阿里巴巴机器学习与PAI-DSW

经过20年的快速发展,阿里巴巴已经组建了一个庞大的商业生态圈,并在支付、云计算、本地生活服务等行业保持互联网巨头地位。其中电商年交易额达到5.7万亿元、占据中国网购市场超6成份额,阿里云支撑了2019年双11 期间峰值 54.4 万笔/秒、单日数据处理量达到 970PB 的世界级的流量洪峰,成为业界第一个实现此壮举的云计算公司。

阿里云机器学习平台正是伴随着这样庞大而复杂的阿里经济体业务需求成长起来的。下面我们将带着大家掀开阿里云机器学习技术大图的一角,看看阿里云机器学习,特别是机器学习工程上的发展、沉淀和创新。

阿里机器学习技术大图

我们从用户和技术的两个角度来梳理机器学习的技术体系大图。从用户的角度来说,根据使用机器学习的深度不同,在云栖大会上,我们展示了飞天AI平台的技术分层关系:

从技术的角度说,机器学习从算法到底层的硬件,都涉及到不同的技术方向。下面是我们对于核心技术能力上的一个总体描述:

每个技术方向上都形成各自的布局和沉淀,接下来我们会重点讲述作为机器学习重要组成部分的工程能力体系建设。

机器学习工程能力体系

阿里云在机器学习工程体系建设上,也经历了各领域业务需求驱动和技术驱动分阶段螺旋式递进上升的过程。由最初的通过传统机器学习算法进行数据价值的粗加工,到今天以深度学习为主、支撑各类“行业大脑”解决方案的人工智能工程体系。

阿里云的机器学习工程能力体系建设始终围绕着更高效的融合人工智能三要素(算法、数据、算力)进行展开,即追求不断提升整个工程体系中的计算效率、数据效率以及工程效率,从而能够更好的支撑阿里经济体各方面业务快速发展的需求,并通过阿里云对外进行技术输出,推动人工智能领域的技术变革,产生更大的社会效益,实现普惠人工智能。

经过多年的发展创新,阿里云在AI托管平台技术层进行了系统性的建设,极大提升了算法研发、共享、部署、输出的效率,在此基础上沉淀出多个具有用户粘性和场景差异化的开发平台,这里我们选取阿里云机器学习PAI(Platform of Artificial Intelligence)作为代表来着重来介绍。

PAI是一款覆盖机器学习全流程的一站式机器学习平台产品,集数据预处理、特征工程、自动调参、模型训练、在线预测为一体,为用户提供低门槛、高性能的云端机器学习服务。

PAI相关技术脱胎于阿里集团内数十个BU的上千个业务体系,沉淀了大量的覆盖各个领域的优质分布式算法、框架、平台等,同时也在不断完善和扩充机器学习生态。

阿里云机器学习PAI-DSW

作为在AI战线上辛勤耕耘的算法工作者,你是否也常常遇到下面的情形:

  • 算法需要运行在GPU上,可是长时间申请不到GPU机器,只能干着急。
  • 终于GPU机器申请到了,安装GPU驱动和各种依赖,感觉是在浪费时间。
  • 好不容易环境弄好了,当某天更新算法代码后变得很慢, 排查半天才发现是GPU驱动需要升级补丁,很是无奈。
  • 生产环境机器网络隔离,在线上要debug代码,只能使用GDB在命令行进行,开发效率大大降低。
  • 在本地采用PyCharm这样的IDE开发好代码,而数据在生产环境,不允许下载,只能把代码拷贝到线上机器运行,发现问题时,又得回到本地修改调试后再来一遍,非常不便。
  • PAI Studio采用图形化拖拽式,像搭积木一样分分钟就构建一个完整的工作流,很炫酷。但想要定制发布自己的组件时,却不知从何下手。

在长期与算法工程师同学沟通合作的过程中,我们发现了算法工程师面临的这些问题。提升机器学习工程效率,降低人工智能使用门槛,急需一个简单、轻量、好用的工具平台,从而让算法工程师更加专注于模型设计本身。PAI DSW就是PAI团队为解决算法工程师的以上痛点,新推出的一款云端机器学习开发IDE。

PAI-DSW集成了Jupyterlab、WebIDE等多种开源项目,在阿里巴巴集团内上百个BU和上千名工程师的打磨之下性能和功能上都进行了一定的调优。数据上打通了ODPS等多个数据源,方便用户在构建模型的时候免去重新构建数据管道的工作。

同时,在深度学习上,PAI-DSW内置了Tensorboard,可以通过简单的拖拽的方式来帮助深度学习的开发者更好的完成深度学习场景下神经网络的建模。下图展示了DSW在机器学习平台PAI产品架构中的位置:

简单来说,PAI-DSW可以实现多实例、多环境,GPU/CPU资源、JupyterLab、WebIDE以及全屏使用Terminal无干扰工作。目前PAI-DSW已经向所有阿里云的用户免费开放了探索者版,只需要登陆阿里云然后打开 https://dsw-dev.data.aliyun.com/#/ 即可开始云上数据科学之旅。接下来将详细介绍如何使用PAI-DSW这一简单好用的工具。

三 新手上路:PAI-DSW实验室创建攻略

Step 1 : 创建并打开你的DSW实验室

前往 https://dsw-dev.data.aliyun.com/#/ 即可创建并进入你的实验室。之前需要确保已经登陆了阿里云账号和天池账号。进入之后等待几秒后我们会看到如下页面:

左侧是DSW实验室的文件区,双击文件夹即可进入。中间是工作区,右侧是计算资源区域,点击右边计算资源区的箭头,即可弹出资源详情,如下图所示:

这里我们也可以点击切换按钮选择我们需要的资源进行切换。

在文件资源管理区的顶部还有4个按钮,从左到右分别对应的是:打开DSW Launcher启动器,新建文件夹,上传文件以及刷新当前文件夹。

在文件夹左侧还有一栏Tab,每个图标从上到下分别代表了:文件资源管理器,案例代码,正在运行的Notebook,命令面板,在工作区打开的Tab,以及天池的数据搜索引擎。

然后我们回到DSW Launcher启动器,也就是工作区默认打开的界面,然后点击Notebook区域中的Python3,如下图所示:

Step 2 : 创建一个Notebook

点击了Python3图标后,DSW会自动创建一个ipynb notebook文件。如下图所示:

Step 3 :写下你的第一行代码并运行

用鼠标点击第一个框框(我们下面以Cell称呼),我们就可以开始从只读模式进入编辑模式开始写代码了。

这里我们可以先输入一个简单的:

print("欢迎来到DSW												

你相亲成功的几率有多高?机器学习硬核预测相关推荐

  1. 程序员的数学全三册密码_阿波罗50年前成功登月,少不了这位硬核女程序员

    大约在50年前的这个时候,1969年7月21日,载着巴兹·奥尔德林和尼尔·阿姆斯特朗的阿波罗11号登月舱正在月球轨道上与CSM和迈克尔·柯林斯会合. 大家都知道这件事,但你知道吗,阿波罗能成功登月的背 ...

  2. 框架封装_重大突破,欧菲光成功研发半导体封装用高端引线框架

    12月19日消息 今天,欧菲光宣布,成功研发半导体封装用高端引线框架.什么是引线框架?平时,我们经常能听到某某手机搭载 XX 芯片,而引线框架就是芯片最重要的一种封装载体,它也是芯片信息与外界的联系渠 ...

  3. 劳动仲裁成功的几率大吗?

    最近看帖子有好多玩家问劳动仲裁成功的几率大吗,与用人单位产生了纠纷到底要不要去仲裁呢,希望这篇文章对大家有所帮助. 首先在这里给大家谈下劳动仲裁需要了解的一些必备知识. 1.劳动仲裁的受案范围 (一) ...

  4. 【JAVA】键盘录入两个整数,您和您的约会对象在餐厅里面正在约会。两数表示你和你约会对象衣服的时髦度。如果你的时髦程度大于你对象的时髦度,相亲成功,否则失败

    package operator; import java.util.Scanner;/* * 您和您的约会对象在餐厅里面正在约会. * 键盘录入两个整数,表示你和你约会对象衣服的时髻度. * (手动 ...

  5. python是否高送转预测股票_详解:如何深度挖掘高送转板块(附:2018年高送转个股预测)...

    原标题:详解:如何深度挖掘高送转板块(附:2018年高送转个股预测) 不知不觉又到了11月份,又到了高送转板块表现的时候.今天上午小编主要为大家详解高送转板块:什么是高送转.炒作的几个阶段.如何选择有 ...

  6. 硬核化解ISV四大痛点,华为云智联生活行业加速器助力伙伴实现商业成功

    摘要:场景化展现合作伙伴.客户的案例,以期针对性的解决行业痛点,帮助伙伴共筑全场景智联生活. 本文分享自华为云社区<硬核化解ISV四大痛点,华为云智联生活行业加速器助力伙伴实现商业成功>, ...

  7. 智源大会参会指南:4天 100+场顶尖报告,硬核高密度,如何才能不留遗憾?

    与5位图灵奖得主和100多位专家 共同探讨人工智能的下一个十年 长按图片或点击阅读原文,内行盛会,首次免费注册 北京智源大会倒计时:1天 第二届北京智源大会明天开幕! 欢迎大家参与,共同见证 AI 未 ...

  8. 量子力学与机器学习相结合,预测高温下的化学反应

    来源:ScienceAI 编辑:凯霞 在高温下从氧化物中提取金属不仅对于钢铁等金属的生产至关重要,而且对回收利用也必不可少.但当前的提取过程是碳密集型的,会排放大量温室气体. 研究人员一直在探索开发「 ...

  9. DCC2022:高阶帧内预测

    本文来自DCC2022论文<High-order Intra Prediction for Future Video Coding> 帧内预测 帧内预测是去除空域冗余的重要工具,它从上方或 ...

最新文章

  1. 如何配note,打补丁
  2. java 配置文件加载_Java加载配置文件类
  3. mysql二阶段提交有什么问题_MySQL的事务两阶段提交的技术有什么意义?
  4. oracle11g备份出错,Oracle 11g备份导入12c错误
  5. 什么是A记录,子域名,CNAME别名,MX记录,TXT记录,SRV 记录,泛域名(泛解析),域名转向,域名绑定...
  6. Java8中的foreach跳出循环break/return
  7. java中的小知识点
  8. linux无法启动hbase密码,linux – 无法在请求的2181端口启动ZK,而导出HBASE_MANAGES_ZK = false...
  9. 分享一下“rmvb转avi“的操作技巧,3步搞定
  10. 研发主管接私活被辞退,法院判决公司赔偿20.7万元
  11. python存根文件_Python – 嘲笑还是存根?
  12. PS-fourday-套索工具组(抠图强化)
  13. 自动化测试之Appium
  14. 小白一键重装有linux,linux小白说说用linux的感受
  15. java万年历的设计总结_java万年历设计报告
  16. 中科燕园GIS外包--移动GIS
  17. [最大生成树Kruskal/倍增LCA] 火车运输 洛谷P1967
  18. 数据分析师只适合男生吗,女生可不可以胜任?
  19. RestSharp with polly 封装
  20. 树莓派 魔镜 magicmirror2

热门文章

  1. Vector源码分析
  2. 再见xx网盘!4 行命令搭建属于你的私人网盘!
  3. 一张截图,告诉你字节跳动的 Java 开发能力到底有多强...
  4. python会议室系统预定_python项目篇-酒店(会议室,电影)预定
  5. spark on yarn 完全分布式_Apache Spark探秘:三种分布式部署方式比较
  6. php 我已阅读并同意 判断,phb.php
  7. php常用的数组函数及功能,PHP 常用数组函数 (1)
  8. python扫雷的代码及原理_基于Python实现的扫雷游戏实例代码
  9. Centos7 install firefox-china
  10. 删除排序数组中的重复数字 II