全世界只有3.14 % 的人关注了

数据与算法之美


你准备好要成为一名数据科学家,积极的参加Kaggle比赛和Coursera的讲座。虽然这一切都准备好了,但是一名数据科学家的实际工作与你所期望的却是大相径庭的。

本文研究了作为数据科学家新手的5个常见错误。这是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的帮助下一起完成的,他在指导和领导学术界与行业领域的年轻数据科学家方面拥有20多年的经验。本文旨在帮助你更好地为今后的实际工作做准备。

1、Kaggle成才论

Source: kaggle.com on June 30 18.

你通过参加Kaggle比赛,练习了数据科学领域的各项技能。如果你能把决策树和神经网络结合起来那就再好不过了。说实话,作为一个数据科学家,你不需要做那么多的模型融合。请记住,通常情况下,你将花80%的时间进行数据预处理,剩下的20%的时间用于构建模型。

作为Kaggle的一份子对你在很多方面都有帮助。所用到的数据一般都是彻底处理过的,因此你可以花更多的时间来调整模型。但在实际工作中,则很少会出现这种情况。一旦出现这种情况,你必须用不同的格式和命名规则来收集组装不同来源的数据。

做数据预处理这项艰苦的工作以及练习相关的技能,你将会花费80%的时间。抓取图像或从API中收集图像,收集Genius上的歌词,准备解决特定问题所需的数据,然后将其提供给笔记本电脑并执行机器学习生命周期的过程。精通数据预处理无疑会使你成为一名数据科学家,并对你的公司产生立竿见影的影响。

2、神经网络(Neural Networks)无所不能

在计算机视觉或自然语言处理的领域,深度学习模型优于其它机器学习模型,但它们也有很明显的不足。

神经网络需要依赖大量的数据。如果样本很少,那么使用决策树或逻辑回归模型的效果会更好。神经网络也是一个黑匣子,众所周知,它们很难被解释和说明。如果产品负责人或主管经理对模型的输出产生了质疑,那么你必须能够对模型进行解释。这对于传统模型来说要容易得多。

正如詹姆斯·勒(James Le)在一个伟大的邮件中所阐述的那样,有许多优秀的统计学习模型,自己可以学习一下,了解一些它们的优缺点,并根据用例的约束来进行模型的实际应用。除非你正在计算机视觉或自然语言识别的专业领域工作,否则最成功的模型很可能就是传统的机器学习算法。你很快就会发现,最简单的模型,如逻辑回归,通常是最好的模型。

来源:算法来自scikit-learn.org.

3、机器学习是产品

在过去的十年里,机器学习既受到了极大的吹捧,也受到了很大的冲击。大多数的初创公司都宣称机器学习可以解决现实中遇到的任何问题。

来源:过去5年谷歌机器学习的趋势

机器学习永远都不应该是产品。它是一个强大的工具,用于生产满足用户需求的产品。机器学习可以用于让用户收到精准的商品推荐,也可以帮助用户准确地识别图像中的对象,还可以帮助企业向用户展示有价值的广告。

作为一名数据科学家,你需要以客户作为目标来制定项目计划。只有这样,才能充分地评估机器学习是否对你有帮助。

4、混淆因果和相关

有90%的数据大约是在过去的几年中形成的。随着大数据的出现,数据对机器学习从业者来说已经变得越来越重要。由于有非常多的数据需要评估,学习模型也更容易发现随机的相关性。

来源: http://www.tylervigen.com/spurious-correlations

上图显示的是美国小姐的年龄和被蒸汽、热气和发热物体导致的命案总人数。考虑到这些数据,一个学习算法会学习美国小姐的年龄影响特定对象命案数量的模式。然而,这两个数据点实际上是不相关的,并且这两个变量对其它的变量没有任何的预测能力。

当发现数据中的关系模式时,就要应用你的领域知识。这可能是一种相关性还是因果关系呢?回答这些问题是要从数据中得出分析结果的关键点。

5、优化错误的指标

机器学习模型通常遵循敏捷的生命周期。首先,定义思想和关键指标。之后,要原型化一个结果。下一步,不断进行迭代改进,直到得到让你满意的关键指标。

构建一个机器学习模型时,请记住一定要进行手动错误分析。虽然这个过程很繁琐并且比较费时费力,但是它可以帮助你在接下来的迭代中有效地改进模型。参考下面的文章,可以从Andrew Ng的Deep Learning Specialization一文中获得更多关于改进模型的技巧。

注意以下几个关键点:

  • 实践数据处理

  • 研究不同模型的优缺点

  • 尽可能简化模型

  • 根据因果关系和相关性检查你的结论

  • 优化最有希望的指标

原文标题:《Top 5 Mistakes of Greenhorn Data Scientists》

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。

我们联合「机械工业出版社、图灵新知、人民邮电出版社、华东师范大学出版社、科学出版社」给大家精心挑选了 100 本 优秀数学读物免费 送给大家。包含:

假如你想参与,在后台回复「锦鲤」即可,xxxx(各自公众号名称)“史上最惨锦鲤”正在等你。

活动时间:1月30号至2月11号

结果公布时间:2月11号


精品课程推荐:

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选 

----点击头像关注----

超级数学建模

数据与算法之美

少年数学家

数锐学堂

惊喜酱(个人号)

玩酷屋COOL

菜鸟学习数据科学家 5 大误区相关推荐

  1. SparkSQL和Hadoop(面向数据科学家和大数据分析师)

    了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题 你会学到什么 作为本课程的一部分,学生将获得在Spark Had ...

  2. 数据科学家和大数据技术人员工具包

    数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科 ...

  3. 风口上的政府大数据 需要消除“大误区”

    据中国政府网消息,国务院今日公开发布<国务院关于印发促进大数据发展行动纲要的通知>.<纲要>提出,未来几年将逐步实现国家政府数据统一开放平台,到2020年,我国将形成一批具有国 ...

  4. 数据分析师、数据科学家、大数据专家三个职位的区别

    数据分析师.数据科学家.大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载. 随着数据科学和大数据作为主流职业选择的出现,不少人对相关职位名称 ...

  5. 从菜鸟成为数据科学家的养成方案

    首先,各个公司对数据科学家的定义各不相同,当前还没有统一的定义.但在一般情况下,一个数据科学家结合了软件工程师与统计学家的技能,并且在他或者她希望工作的领域投入了大量行业知识. 大约90%的数据科学家 ...

  6. 学习sql注入:猜测数据库_面向数据科学家SQL:学习简单方法

    学习sql注入:猜测数据库 We don't pick a hammer and look for nails - that would be an unusual way of solving pr ...

  7. 「数据科学」数据科学家为什么该学习PostgreSQL

    SQL是成为数据科学家的必要条件吗?答案是肯定的.数据科学已经发展了,虽然许多数据科学家仍然使用CSV文件(值以逗号分隔的文本文件),但它们不是最好的选择.Python Panda库允许从CSV文件加 ...

  8. 数据科学家:21世纪最脏的工作

    全文共2311字,预计学习时长7分钟 来源:cfzyjsxy 在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会. <哈佛商业评论>曾 ...

  9. 数据科学 vs. 大数据 vs. 数据分析:定义,内涵,应用,所需技能

    什么是数据科学? 什么是大数据? 什么是数据分析? 数据科学的应用 大数据的应用 数据分析的应用 成为数据科学家所需的技能 成为大数据专家所需的技能 成为数据分析师所需的技能 薪资趋势 结论 数据无处 ...

最新文章

  1. GitHub:GitHub简介、使用方法、经验总结(图文教程)之详细攻略(持续更新!)
  2. 知识图谱学习小组学习大纲
  3. 近20万奖金:天池异常检测大赛来了!
  4. Qt Creator导入3D资产Importing 3D Assets
  5. 【Linux网络编程】浅谈 C/S 和 B/S 架构
  6. PAT (Basic Level) - 1025 反转链表(模拟)
  7. java基础知识——面向对象基本概念
  8. zookeeper 安装和使用
  9. ROS 服务和参数:ROS Services and Parameters
  10. 国庆档电影《我和我的祖国》3天票房破10亿
  11. realme刷机鸿蒙教程,realme手机全机型解锁bootloader教程,支持一键刷机root权限
  12. PMP课程笔记:第12章 项目采购管理
  13. 深圳市集体户户口簿首页pdf版获取指南
  14. vue日历加法定假假日
  15. Pycharm下载及安装保姆级教学(Mac)
  16. ArcGIS面转中心线
  17. 常见荧光染料修饰多种基团及其激发和 发射波长数据一览数据
  18. 关于Spring中在applicationContext.xml中AOP(aop:aspectj-autoproxy)的配置问题记录:
  19. The requirements of using provenance in e-Science experiments(论文阅读)
  20. 【Qt炫酷动画】demo02-仿苹果对话框淡入淡出的动画

热门文章

  1. 如何创建一个自定义的`ErrorHandlerMiddleware`方法
  2. SiteServer CMS 新版本 V6.11(2019年7月1日发布)
  3. Abp v0.18.0 新版本: MVC Module 启动模板
  4. Oracle杀死Java EE:名正言顺转到.NET Core
  5. 带你学习AOP框架之Aspect.Core[1]
  6. 浅谈c#垃圾回收机制(GC)
  7. 通俗易懂,C#如何安全、高效地玩转任何种类的内存之Span
  8. RabbitMQ一个简单可靠的方案(.Net Core实现)
  9. .NET Core调用WCF的最佳实践
  10. ABP从入门到精通(2):aspnet-zero-core 使用MySql数据库