当我进行以数据科学家进行自我介绍时,经常会被问道:“数据科学和机器学习有什么区别?”或者“这是不是意味着你在研究人工智能?”所以我将通过本文进行回答。

这些领域确实有很多重叠的地方,但它们并不是一个领域:即使很难用语言表达,这些领域的大多数专家也都能直观的理解特定的工作是如何被分类为数据科学、机器学习或人工智能的。

所以在这篇文章中,我提出了关于这三个领域差异的简化定义:

·数据科学产生洞察力。
·机器学习做出预测。
·人工智能生成行为。

显然,这不是一个充分条件:不是所有符合该定义的东西都是该领域的一部分。(算命先生做出预言,但我们不会说他们在做机器学习!)这也不是一个确定某人角色或者职位头衔的好方法(我是数据科学家吗?)。

但是我认为这个定义对区分这三种工作是非常有效方法,并且可以避免你谈论它的时候听起来很傻。

数据科学生成洞察力

数据科学与其他两个领域非常不同,因为它的目标同时也是人类的一个目标:获得洞察力和理解能力。Jeff Leek对数据科学能够达到的洞察类型有一个很好的定义,包括描述性(“平均客户端更新的几率为70%”)探索性(不同的销售人员有不同的更新率)和因果关系。

同样,并不是所有产生洞察力的都有资格成为数据科学,数据科学的经典定义是它涉及了统计学,软件工程和领域专业知识的组合。但是我们可以利用这个定义来区分它和ML、AI。它们最主要的区别在于,在数据科学循环过程中总需要人参与:由人理解洞察结果,了解大体轮廓,或者从结论中获益。所以像“下棋算法使用数据科学来选择下一步”或者“谷歌地图使用数据科学来推荐驾驶方向”这些说法都是毫无意义的。

因此,数据科学的定义强调:

·统计推断
·数据可视化
·实验设计
·领域知识
·通讯

数据科学家可以使用一些非常简单的工具:他们可以获得百分比,并根据SQL查询结果绘制线形图。也可以使用非常复杂的方法:他们能够与分散的数据仓库合作,分析数以万亿计的记录,从而开发最前沿的统计技术,建立交互式可视化。但是不管他们使用什么,目的都是为了更好地理解他们的数据。

机器学习做出预测

我认为机器学习属于预测领域:“给出具有特定特征的实例X,推测Y”。这些预测可能是关于未来的(预测这个病人是否会进入败血症),也可能是关于预测对计算机来说不那么明显的特性(预测这个图像是否会有鸟)。几乎所有的Kaggle竞赛都可以被认为是机器学习相关的问题:他们提供一些训练数据,然后看看竞赛者能否对新的例子做出准确的预测。

数据科学和机器学习有很多的重叠之处。例如,都可以用逻辑回归来获取对有关关系的见解(越富裕的人越有可能购买我们的产品,所以我们应该改变我们的营销策略)并且可以做出预测(该用户有53%的几率购买我们的产品,所以我们应该多向他们推销)。

像随机森林(random forests)这样的模型,其可解释性稍差,所以更适合“机器学习”的描述,而深度学习等方法则是难以解释的。如果你的目标是获取真知灼见,而不是做出预测,那么这可能会妨碍你。因此,我们可以想象一个数据科学和机器学习的“光谱”,有更多的可解释模型倾向于数据科学方面,而更多的是机器学习方面的“黑匣子”模型。

大多数的从业者能够非常自在的在两个领域之间来回切换。我在工作中就同时使用了机器学习和数据学习:我可以在Stack Overflow流量数据上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。这是发现模型缺陷的一个重要方法,也是解决算法偏差的重要方法。这是数据科学家常常负责开发产品的机器学习组件的原因之一。

人工智能生成行为

人工智能是迄今为止这三种标识中最古老也是最广为人知的,因此定义它最具有挑战性。这个术语已经被炒作泛滥,这要归功于研究人员,记者以及寻求金钱或者关注的创业公司。

·当你筹备资金时,这是人工智能
·当你招聘时,就是ML
·当你正在执行时,这就是线性回归
·当你调试时,就是printf()

让我沮丧的是这引起了强烈的反弹,因为这意味着一些应该被称为人工智能的工作却没有得到相应的描述。一些研究人员甚至还抱怨人工智能的影响:“人工智能是我们目前还做不到的”。那么我们可以用AI来描述什么工作呢?

“人工智能”定义中的一个共同点是自主代理人执行或推荐操作,一些我认为应该描述为AI的系统包括:

·游戏规则(深蓝,AlphaGo)
·机器人与控制理论(运动规划,行走两足机器人)
·优化(谷歌地图选择路线)
·自然语言处理(bots2)
·强化学习

同样,我们可以看到它与其他领域有很多重叠之处。而深度学习横跨了ML和AI两个领域,这非常有趣。典型的用例是对数据进行训练,然后生成预测,但在AlphaGo这样的博弈算法中却取得了巨大的成功。(这与早期的游戏系统不同,比如深蓝,它更专注于探索和优化未来的解决方案空间)。

但也有区别。如果我分析一些销售数据并发现某个特定行业的客户比其他行业的客户更新的更多,那么输出的是一些数字和图形,而不是指定操作。

请不要将那些训练算法的人描述为“利用了人工智能的力量”。

- Dave Gershgorn (@davegershgorn) 2017年9月18日。

人工智能和机器学习之间的区别更加微妙,历史上的ML经常被认为是人工智能的一个分支(特别是计算机视觉,其实它是一个典型的人工智能问题)。但我认为,ML领域很大程度上是由人工智能“中断”的,部分原因是上面描述的反弹:大多数从事预测问题的人不喜欢把自己描述为人工智能研究员。(它能通过统计数据帮助许多ML实现重大突破,而这些数据在人工智能的其他领域却没有那么大的影响力)。这意味着如果你可以用“Y预测X”来描述一个问题,那么我建议你避免使用AI这个词。

案例研究:如何一起使用这三者?

假设我们正在制造一辆自动驾驶汽车,并且正在研究如何在停车标记处自动停车的具体问题。那么我们将需要使用这三个领域的技能。

机器学习:汽车必须能够通过摄像头识别停车标志。我们构建了数据集,其中包含数以百万计的街边对象的照片,并训练一种算法来预测哪些有停止标志。

人工智能:一旦我们的汽车能够识别停车标志了,就需要决定什么时候执行刹车动作。太早太晚都非常危险,而且我们需要它能应对不同的路况(例如,它要能意识到在湿滑路面上刹车不会快速减速),这是一个控制理论的问题。

数据科学:在街头测试中,我们发现车辆性能不够好,因为总会略过一些停车标志。通过对街头测试数据的分析,我们得出了结论:在日出之前和日落之后,更容易错过停车标志。这让我们意识到,我们大部分的训练数据只包含白天的影像,所以我们构造了一个包括了夜间图像的更好的数据集,然后重新回到机器学习步骤进行研究测试。

我们常说的“机器人”指的是解释自然语言,然后以实物回应的系统。这可以从文本挖掘中区分出来,其目标是提取见解(数据科学)或文本分类,其目标是对文档进行分类(机器学习)。

解读:数据科学、机器学习和AI的区别相关推荐

  1. 2018 年度 GtiHub 开源项目 TOP 25:数据科学 机器学习

    2018 年度 GtiHub 开源项目 TOP 25:数据科学 & 机器学习 雷锋网 AI 科技评论按:本文作者 Pranav Dar 是 Analytics Vidhya 的编辑,对数据科学 ...

  2. 关于机器学习和AI的区别最经典的解释

    关于机器学习和AI的区别最经典的解释 互联网和移动互联网兴起后,各种经典段子满天飞.很多段字反映出段子手很有才.这不,关于机器学习与人工智能(AI)的区别,最近有一个段字红爆业界: 翻译成中文就是,机 ...

  3. 大数据丶机器学习丶人工智能的区别与联系

    大数据和机器学习或人工智能的区别和联系? 大数据做的是基础的数据存储和数据统计计算,而从大量的数据中发现或挖掘出有价值的信息或数据,需要借助机器学习算法结合大量的数据构建机器学习模型,利用模型对现实事 ...

  4. 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客

    分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客 留在数据科学技能的巅峰!下面是对大数据,数据科学,数据挖掘,机器学习和人工智能约100最活跃,最有趣的博客的列表. Devendra De ...

  5. 独家 | 数据科学机器学习面试题,来挑战吧~

    作者:Kartik Singh 翻译:王雨桐 校对:霍诗琴 本文约50000字,建议阅读10分钟. 本文盘点了数据科学和机器学习面试中的常见问题. 技术的不断进步使得数据和信息的产生速度今非昔比,并且 ...

  6. 博士申请 | 悉尼科技大学招收数据科学/机器学习方向全奖博士生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 悉尼科技大学 悉尼科技大学数据科学实验室招收多名全额奖学金资助的博士生.实 ...

  7. huggingface实操_2018 年度 GtiHub 开源项目 TOP 25:数据科学 机器学习

    前沿 关于托管代码.与团队成员合作以及充当展示个人写代码技能的「在线简历」,最好的平台是哪个?问及任何一位数据科学家,他们都会让你去 GitHub.近年来,GitHub 作为一个真正具有变革性的平台, ...

  8. 【数据科学】您将需要的最全面的数据科学/机器学习面试指南

    介绍 您是否有志成为数据科学家,但却在努力破解采访?嗯 - 你并不孤单!在数据科学领域中断可能很困难.如果您来自非数据科学背景(很可能是您),那么这一点也是如此. 您从其他有抱负的数据科学家那里听到的 ...

  9. 数据科学机器学习必备六类数学利器,太用心!

    介绍 数学是现代科学的基石,几乎所有现代科学都与数学密不可分,尤其是数据科学与机器学习. 要想成为资深数据分析师,必须具备一定的数学知识,熟练应用数学技巧,才能更好地使用程序自带的算法.比如说,理解了 ...

最新文章

  1. csu 1804 有向无环图
  2. 非关系型数据库(NoSQL)
  3. 大数据基础设施建设需要得到重视 | 记清华大数据“应用·创新”讲座
  4. Go 语言编程 — Cobra 指令行工具
  5. [C# 开发技巧系列] 使用C#操作幻灯片
  6. 超想做一个网络游戏!有兴趣的人进来讨论讨论!
  7. 天籁数学——数列篇(1)
  8. Permute Digits
  9. html 缩略图点击预览,[每天进步一点点~] uni-app 点击图片实现预览图片列表
  10. ios上传音频文件到服务器,IOS开发:iPod的音乐库中的音频如何上传到服务器中...
  11. Linux redis配置服务,Linux 安装 redis 并配置成 service 系统服务
  12. 【算法】迪杰斯特拉算法 最短路径算法
  13. 参考平面及其高度_施工现场平面布置关键点分析
  14. VC++6.0 内存泄露(Memory Leaks)征兆1
  15. 自定义按键_NS推送10.0.0版本更新 新增按键自定义和数据转移功能
  16. 计算机领域男的多大年龄退休,2022年后男性几岁退休 2022退休时间表
  17. qt实现抽屉效果,类似qq的好友功能
  18. 中文文本纠错工具推荐:pycorrector
  19. VMware虚拟机部署k8s集群
  20. NMF扩展名是什么文件

热门文章

  1. 《强化学习周刊》第11期:强化学习应用之模拟到真实
  2. 人工智能阴影检测与去除,实现一种基于反射的阴影检测与去除方法
  3. 利用XGboost简单粗暴zillow竞赛25%
  4. MimbleWimble 系列之Pedersen 承诺
  5. 区块链论文9 FlyClient-加密货币的超轻客户端
  6. 拯救你的久坐不起!用树莓派改造站立式办公桌:在随机时间升降,还有阻力检测功能...
  7. 人民日报:大数据时代如何保证数据安全?
  8. 报名 | 2019年社会计算机国际会议
  9. 福利 | 学习超级用户运营,都来U-Time六城巡回沙龙”!
  10. 清华姚班陈丹琦获斯隆奖!与去年得主马腾宇是同班同学,博士毕业论文是近十年最热之一...