你准备好要成为一名数据科学家,积极的参加Kaggle比赛和Coursera的讲座。虽然这一切都准备好了,但是一名数据科学家的实际工作与你所期望的却是大相径庭的。

本文研究了作为数据科学家新手的5个常见错误。这是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的帮助下一起完成的,他在指导和领导学术界与行业领域的年轻数据科学家方面拥有20多年的经验。本文旨在帮助你更好地为今后的实际工作做准备。

1Kaggle成才论

你通过参加Kaggle比赛,练习了数据科学领域的各项技能。如果你能把决策树和神经网络结合起来那就再好不过了。说实话,作为一个数据科学家,你不需要做那么多的模型融合。请记住,通常情况下,你将花80%的时间进行数据预处理,剩下的20%的时间用于构建模型。

作为Kaggle的一份子对你在很多方面都有帮助。所用到的数据一般都是彻底处理过的,因此你可以花更多的时间来调整模型。但在实际工作中,则很少会出现这种情况。一旦出现这种情况,你必须用不同的格式和命名规则来收集组装不同来源的数据。

做数据预处理这项艰苦的工作以及练习相关的技能,你将会花费80%的时间。抓取图像或从API中收集图像,收集Genius上的歌词,准备解决特定问题所需的数据,然后将其提供给笔记本电脑并执行机器学习生命周期的过程。精通数据预处理无疑会使你成为一名数据科学家,并对你的公司产生立竿见影的影响。

2、神经网络(Neural Networks)无所不能

在计算机视觉或自然语言处理的领域,深度学习模型优于其它机器学习模型,但它们也有很明显的不足。

神经网络需要依赖大量的数据。如果样本很少,那么使用决策树或逻辑回归模型的效果会更好。神经网络也是一个黑匣子,众所周知,它们很难被解释和说明。如果产品负责人或主管经理对模型的输出产生了质疑,那么你必须能够对模型进行解释。这对于传统模型来说要容易得多。

正如詹姆斯·勒(James Le)在一个伟大的邮件中所阐述的那样,有许多优秀的统计学习模型,自己可以学习一下,了解一些它们的优缺点,并根据用例的约束来进行模型的实际应用。除非你正在计算机视觉或自然语言识别的专业领域工作,否则最成功的模型很可能就是传统的机器学习算法。你很快就会发现,最简单的模型,如逻辑回归,通常是最好的模型。

3、机器学习是产品

在过去的十年里,机器学习既受到了极大的吹捧,也受到了很大的冲击。大多数的初创公司都宣称机器学习可以解决现实中遇到的任何问题。

机器学习永远都不应该是产品。它是一个强大的工具,用于生产满足用户需求的产品。机器学习可以用于让用户收到精准的商品推荐,也可以帮助用户准确地识别图像中的对象,还可以帮助企业向用户展示有价值的广告。

作为一名数据科学家,你需要以客户作为目标来制定项目计划。只有这样,才能充分地评估机器学习是否对你有帮助。

4、混淆因果和相关

有90%的数据大约是在过去的几年中形成的。随着大数据的出现,数据对机器学习从业者来说已经变得越来越重要。由于有非常多的数据需要评估,学习模型也更容易发现随机的相关性。

上图显示的是美国小姐的年龄和被蒸汽、热气和发热物体导致的命案总人数。考虑到这些数据,一个学习算法会学习美国小姐的年龄影响特定对象命案数量的模式。然而,这两个数据点实际上是不相关的,并且这两个变量对其它的变量没有任何的预测能力。

当发现数据中的关系模式时,就要应用你的领域知识。这可能是一种相关性还是因果关系呢?回答这些问题是要从数据中得出分析结果的关键点。

5、优化错误的指标

机器学习模型通常遵循敏捷的生命周期。首先,定义思想和关键指标。之后,要原型化一个结果。下一步,不断进行迭代改进,直到得到让你满意的关键指标。

构建一个机器学习模型时,请记住一定要进行手动错误分析。虽然这个过程很繁琐并且比较费时费力,但是它可以帮助你在接下来的迭代中有效地改进模型。参考下面的文章,可以从Andrew Ng的Deep Learning Specialization一文中获得更多关于改进模型的技巧。

注意以下几个关键点:

•实践数据处理

•研究不同模型的优缺点

•尽可能简化模型

•根据因果关系和相关性检查你的结论

•优化最有希望的指标

原文链接
本文为云栖社区原创内容,未经允许不得转载。

菜鸟数据科学家五大误区相关推荐

  1. 菜鸟学习数据科学家 5 大误区

    全世界只有3.14 % 的人关注了 数据与算法之美 你准备好要成为一名数据科学家,积极的参加Kaggle比赛和Coursera的讲座.虽然这一切都准备好了,但是一名数据科学家的实际工作与你所期望的却是 ...

  2. 独家 | 麦肯锡教我的数据科学家的五大黄金法则

    作者:Tessa Xie 翻译:苗雨校对:欧阳锦本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 图来源于Dan Dimmock在Unsplash上的拍摄 近些年来,数据科 ...

  3. 独家 | ​数据科学家必知的五大深度学习框架!(附插图)

    作者:Pulkit Sharma 翻译:陈之炎 校对:丁楠雅 本文约3900字,建议阅读10+分钟. 本文为大家分析并比较五种非常有用的深度学习框架的优点及应用. 概述 从出道起,我就一直是一名程序员 ...

  4. 干货 :麦肯锡教我的数据科学家的五大黄金法则

    作者:Tessa Xie      翻译:苗雨    校对:欧阳锦 本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 图来源于Dan Dimmock在Unsplash上的拍 ...

  5. 从菜鸟成为数据科学家的养成方案

    首先,各个公司对数据科学家的定义各不相同,当前还没有统一的定义.但在一般情况下,一个数据科学家结合了软件工程师与统计学家的技能,并且在他或者她希望工作的领域投入了大量行业知识. 大约90%的数据科学家 ...

  6. 从python菜鸟到kaggle_Kaggle首次定义数据科学家:30岁,年薪5万刀,爱Python,最恨脏数据-阿里云开发者社区...

    今日凌晨,全球最大的数据科学社群Kaggle发布了第一份数据科学/机器学习业界现状调查报告.这份调查问卷的受访者囊括了来自50多个国家的16,000+位从业者,根据他们的问卷结果,Kaggle给出了一 ...

  7. 论一枚数据科学家的自我修养

    作者 | 林荟 责编 | 何永灿 在回答这个问题之前,希望你先想想另外一个问题:为什么要成为数据科学家?当然,如果你是为了10万美元的年薪也无可厚非,但是我衷心希望你能将这个职业和自己的价值感挂钩.因 ...

  8. 如何成为一名数据科学家

    作者简介: 林荟,美国杜邦公司商业数据科学家,美国爱荷华州立大学博士.<套路!机器学习:北美数据科学家的私房课>作者.2017年1月至今主持美国统计协会市场营销在线数据科学讲座.个人网站: ...

  9. 麦肯锡:优秀数据科学家的5个特征!

    作者:Tessa Xie 本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 近些年来,数据科学家这一岗位已经变得越来越炙手可热,也吸引了大批年轻人涌入渴望在激烈的竞争中抢占 ...

最新文章

  1. 八骏登场 学子圆梦 一卷在手 良师益友(2)
  2. TObject简要说明-对象的创建流程
  3. JAVA实现可视化的xpath_Java学习之XPath
  4. 在WPF中弹出右键菜单时判断鼠标是否选中该项
  5. centos7修改ip地址命令_CentOS7 安装 httpd 服务
  6. day15(mysql 的多表查询,事务)
  7. Go并发编程里的数据竞争以及解决之道
  8. 关于《编程之美》稿酬捐赠的补充说明
  9. 学习python-day1
  10. 河北省人民检察院利用深信服桌面云办公,实现智慧检务
  11. Java开发环境安裝教程
  12. python判断题题库大数据技术_智慧树_大数据分析的python基础_判断题答案
  13. 【华人学者风采】丛京生 加州大学洛杉矶分校
  14. Slider网站欣赏
  15. aptana手动配置python环境_关于使用Aptana+Pydev构建Python开发环境(Django)
  16. ipa文件如何下载安装OR如何设置IPA文件下载链接
  17. Android转接电话到iPhone,Android迁移数据到iPhone
  18. Java计算10000天出生纪念日
  19. 面对全面收紧外链的微信,H5的春风还能吹多久?
  20. 美团笔试题 淘汰分数

热门文章

  1. centos7安装yum_centos7下yum方式安装jenkins
  2. 【LeetCode笔记 - 每日一题】423. 从英文中重建数字(Java、字符串、偏思路)
  3. 梦幻西游服务器每周几维护,梦幻西游5月6日维护公告:唯美版地图不再更新
  4. directshow 旋转_宜昌中心加工机+A:B型号,高速旋转接头加工
  5. iphone同步助手_iPhone 与安卓手机之间如何进行资料迁移
  6. java递归实现多级菜单栏_vue+ java 实现多级菜单递归效果
  7. spark on yarn 完全分布式_「大数据」(七十一)Spark之架构介绍
  8. c语言 单词变复数_【热点】浅谈 :怎样学好C语言?
  9. 金华职业技术学院计算机应用技术分数线,金华职业技术学院录取分数线2021是多少分(附历年录取分数线)...
  10. mybatis传递多个参数_MyBatis 映射器