作者:黄天元,复旦大学博士在读,目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验,推广并加深R语言在业界的应用。

邮箱:huang.tian-yuan@qq.com

前言

前不久参加了《微软云社区Global AI Bootcamp 2018—上海站》的活动,尽管没有拿到什么纪念品(同场的参与者都太bt了...答题超级积极的),但是关于其中一些云产品的设计理念,感觉非常有意思,因此在这里与大家分享。

我自身而言是学习过机器学习的,玩儿过的package包括caret和mlr,也试过很多别的包。不过因为科研工作的特殊需要,暂时搁下了。尽管如此,我对机器学习的基本流程和套路还是比较熟悉的。学过一些东西之后,难免会有先入为主的观念。也就是先用的东西认为是好的,而排斥对于自己而言是新的东西。尽管如此,我还是认为Azure ML Studio的设计理念有可取之处,也许会成为今后数据科学云平台的发展方向。


云的概念

不知道大家是否知道云的概念,简单介绍一下:我们买计算机跑数据是在自己本地的电脑跑。如果使用云计算,就可以把自己的数据上传到企业(比如阿里、亚马逊、谷歌、微软、腾讯等)提供的服务器,然后使用企业平台所提供的计算框架来处理数据,进行各种分析。这样一来,我们只要把数据传到云上,在任何地方都可以通过写代码来做数据挖掘,不用带着电脑机箱到处跑。看一下使用的价格,感觉配置没有很高,但是价格都不菲,如果不是大企业可能不会选择这种服务。不过相信未来随着科技的发展,这些存储和计算的服务成本可能会越来越低,甚至有可能成为所有用户的标配。

机器学习

让我眼前一亮的,是讲机器学习的部分。演示者给了一个案例,用经典的MNIST数据集来做数字图像识别的深度学习。这个案例我以前用R语言keras包也做过,非常简单。不过演讲者基本使用拖拽模块的方式来构建机器学习框架,而每个模块既可以用视窗界面来设置参数,也可以双击模块用代码来实现。

我们看到的最顶上的MINST Train 60k dense数据模块,如果打开代码块,其实是一段数据导入的代码。这段代码会显示在Jupyter笔记本中,既可以显示为Python代码,也可以显示为R代码。我复制过来给大家看:

R

library("AzureML") ws <- workspace() dat <- download.datasets(ws, "MNIST Train 60k 28x28 dense")

Py

from azureml import Workspacews = Workspace() ds = ws.datasets['MNIST Test 10k 28x28 dense'] frame = ds.to_dataframe()

我们还可以在这段代码块下面,输入其他代码来查看这个数据的结构,这里不赘述。感兴趣读者可以去演讲人的Github进行学习(https://github.com/HaoHoo/HOL-AI),然后自己做一次。

这里值得注意的是,在这个框架下可以加入R代码模块或者Python代码模块,我们可以看看工作台。

左侧有Python Language Modules和R Language Modules,也就是我们在这个框架下做出的数据,能够自如地流入R或者Python的代码中,然后再以数据框的形式输出。操作以模块的格式在框架中进行设定,数据以流的形式一直往下走。我当时问了一个问题,是不是只要在框架中,用任何语言都可以生成操作模块,从而对数据进行操作。当时演讲人介绍了,目前Azure的机器学习平台只支持R和Python两种语言。我认为这就已经非常不错了,如果今后能够支持C或者其他更多的编程语言,在这种自由灵活的框架下,将能够完成更加丰富的机器学习操作组合。

总结

在数据科学家首选语言的问题上,R与Python以前一直存在争议。尽管后来大家都在寻找共存的模式,但是因为重叠的功能太多,因此也没有得到特别好的解决。但是看到了这个框架,我认为以后大家选择语言可以更加自由随性,尊重数据科学家多元化的语言选择。如果未来数据科学的框架能够跨越语言的障碍,那么将会大大促进数据科学家之间的合作交流,企业也不会单纯因为编程语言的选择而失去重要的人才。期待今后会有更多跨语言平台被开发出来,从而让数据科学得到更加长足的进步。

公众号后台回复关键字即可学习

回复 爬虫             爬虫三大案例实战  
回复 Python        1小时破冰入门

回复 数据挖掘      R语言入门及数据挖掘
回复 人工智能      三个月入门人工智能
回复 数据分析师   数据分析师成长之路 
回复 机器学习      机器学习的商业应用
回复 数据科学      数据科学实战
回复 常用算法      常用数据挖掘算法

爱我请给我好看!

R与Python或协同助力机器学习:听Azure ML Studio讲座有感相关推荐

  1. 如何使用Azure ML Studio开启机器学习

    文章讲的是如何使用Azure ML Studio开启机器学习,"机器学习是让计算机在不被明确编程的情况下运作的科学." --安德鲁·吴(Coursera) 机器学习正在迅速成为数据 ...

  2. azure机器学习_使用Azure ML Studio的Azure机器学习简介

    azure机器学习 介绍 (Introduction) Let us see how Azure ML studio can be used to create machine learning mo ...

  3. 对python生态系统的认识_SAS,R与Python的区别详细对比

    本文概述 在本主题中, 我们将比较这三种语言的各个方面, 以使你对这些语言的市场价值和功能有清晰的认识, 以便你可以选择可以向前发展的语言. 众所周知, 要学习数据分析, 可以使用三种重要的语言, 分 ...

  4. Python超过R,成为数据科学和机器学习的首选语言!

    | 全文1765共字,建议阅读时长3分钟 | 近期,数据挖掘资讯网站KDnuggets开展了一项调查,问题是"2016年和2017年,在数据分析.数据科学和机器学习工作中,你使用 ...

  5. matlab和python的语言_四大机器学习编程语言对比:R、Python、MATLAB、Octave

    本文作者是一位机器学习工程师,他比较了四种机器学习编程语言(工具):R.Python.MATLAB 和 OCTAVE.作者列出了这些语言(工具)的优缺点,希望对想开始学习它们的人有用. 图源:Pixa ...

  6. 怎样开启成功的“数据分析师”职业生涯(R、Python、机器学习、通信和数据可视化、数据直觉)

    目录 数据分析师是做什么的? 如何成为一名数据分析师:成为一名成功的数据分析师所需的技能 如何成为数据分析师:数据分析师职业的编程技能 ? R语言编程 Python 统计 数学 机器学习 在监督学习 ...

  7. 先马后看!详解线性回归、朴素贝叶斯、随机森林在R和Python中的实现应用!(附代码)...

    来源| analyticsvidhya 编译| 火火酱,责编| Carol 出品 | AI科技大本营(ID:rgznai100) 谷歌的自动驾驶汽车和机器人得到了媒体的广泛关注,但是公司真正的未来是在 ...

  8. 部分算法与对应代码整理(R、Python)

    目录 1. 图像.人脸.OCR.语音相关算法整理 2. 机器学习与深度学习相关的R与Python库 (1)R General-Purpose Machine Learning Data Manipul ...

  9. R or Python,到底学哪个?这篇文章来告诉你......

    R和Python是目前最流行的两款高级编程语言,被大量运用于数据科学领域.两者都是开源的,也都有非常活跃的社区来支撑.那么问题来了:对于初学者,到底应该学哪个? 我的建议:看情况(it depends ...

  10. r和python数据分析_R和python大数据

    数据科学界华山论剑:R与Python巅峰对决 如果你是数据分析领域的新兵,那么你一定很难抉择--在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如"我想学习 ...

最新文章

  1. 配置伪静态(URL重写)
  2. printf(%d, -10u); 这个输出什么呀, 0或1?
  3. sae mysql django_Python+Django+SAE系列教程12-----配置MySQL数据库
  4. 2015年国际智慧教育展览会盛大开幕
  5. 读《李商隐诗集》有感
  6. xml python gb2312_使用Python处理XML格式数据的方法介绍
  7. STM32中常用的C语言知识点,开始复习!
  8. 三、比特币白皮书:一种点对点的电子现金系统
  9. asr语音转写_搜狗智能录音笔C1正式上市 语音转文字准确率达95%
  10. mysql select符合查询_MySQL SELECT 联合查询
  11. Android Studio NDK报错:mips64el-linux-android-strip 找不到
  12. Asp.net实用技巧
  13. 【数据库系统工程师复习笔记】0.考试大纲及教程目录
  14. VC网络编程(Socket)项目化视频教程
  15. noi 1.5第38题 计算多项式的导数
  16. pureftpd 配置 mysql_Pure-ftp配置文件详解
  17. C语言 给定一个字符串,统计‘a’的个数
  18. 苹果xrid不支持服务器,iPhone XR登录不了Apple ID怎么办?iTunes无法登录Apple ID怎么解决? ... ......
  19. 初识pandas及基本的增删改查
  20. mac删除core文件并关闭core文件以节约磁盘

热门文章

  1. 推荐一款 IDEA 生成代码神器,写代码再也不用加班了!
  2. 为什么我们公司强制弃坑Fastjson了?主推...
  3. 高并发之 API 接口,分布式,防刷限流,如何做?
  4. 10 年前被删的初恋,凌晨 1 点突然加我…屌丝的眼泪
  5. 阿里首席架构师分享的Java工程师职业规划
  6. 从纯技术到技术管理,那些跌宕起伏的转型经历
  7. 一分钟了解微服务的好处和陷阱
  8. 运维必读:避免故障、拒绝背锅的 10 大原则!
  9. Zabbix 数据清理
  10. Windows中安装 Redis 解压版