学习笔记,仅供参考,有错必纠
摘自:《机器学习实战》作者Peter Harrington:如何成为一位数据科学家
访谈对象:Peter Harrington


  • 机器学习似乎比其他计算机科学学科都要难,特别是对于数学不太好的程序员而言。你对这些程序员有什么样的建议呢?

我建议应该先自学基本的概率、统计,以及线性代数。你不需要学一个学期那么长的课,这些基础知识就会让你有很大收获。有很多在线资源,比如Kahn academy视频。(我在56.com和Kahn academy找了一下有很多英文的,也有一些中文的。)也有一些比较容易起步的书,我比较熟悉有美国英文版的“teach yourself”(自学)系列, “statistics for dummies”(傻瓜统计), “probability refresher”(概率补习),“statistics demystified”(统计解惑)等等。

我其实认为这里面其实很有商机。Kahn academy视频很不错,因为它们都很短,但遗憾的是这些视频都是英文的。我看见的中文线性代数视频都很长。如果你能做出像Kahn academy那样的中文视频,我觉得是会非常受欢迎的。

  • 如何进阶学习机器学习?对于初学者是否有一个类似于路线图的东西?你有什么推荐书单吗?

我会读Witten 和 Frank所著的《数据挖掘:实用机器学习工具与技术》,这里面涉及的数学很少,但是又对普通算法做了很好的介绍。我觉得紧接着就该读Tan, Steinbach, 以及Kumar的《数据挖掘导论》。

当然,这些书都很厚,如果你想马上就搞明白一些东西,估计就不想读这些大部头了。如果要把某个算法弄明白,我会在网上找很多教程。比如Adboost算法,我认为多读一些不同的教程比只读一个,深入钻研要好很多。

最后我觉得应该多动手玩玩实例。问问你自己:如果我改变这个数据,结果会是怎么样的呢?

  • 对于有些人来说“算法”才是机器学习真正有趣的地方,但是机器学习里面总有一些苦活累活不那么有意思,比如数据预处理。你是怎么完成这些“不那么有趣”的工作的?

当然,肯定有无聊的工作,所以你一定要把这部分工作自动化,这样你就不需要重复做这些无聊的工作了。这样做也会让你变成一个更好的软件开发者。

  • 数据科学家被评为世界上最火的工作之一,你认同吗?您本人作为一个数据科学家,有什么可以和我们分享的经验吗?要成为一个数据科学家需要有什么条件?

我认为数据科学家现在确实很好找工作。什么是数据科学家呢?我认为数据科学家是介于统计学家和软件工程师中间的一种工作。公司、个人、NPO,甚至运动队都需要根据数据来做决策。他们需要可以分析数据的人。这需要我之前提过的两种条件。人们不需要单纯的统计学家,这些人可能对于争论自己到底用不用贝叶斯定理更感兴趣,人们需要的是真正能做实事的人。

所以我也建议大家多动手做一些东西。这是什么意思呢?创造一些项目,收集数据,预处理数据,然后做一些数据分析,展示数据,最后向公众展示这些数据。如果你做了很多这样的事情,那么你就有一个可以用来向你未来老板或者其他人展示的档案夹。几乎我书里的每个例子都可以用来做成一个网站或者智能电话app,这些都是你可以示人的资本。

  • 很多大(数据)公司,比如Google, Facebook 和 Baidu都投入很多精力在深度学习上。你认为深度学习会在未来取代“人工特性+机器学习”的方法吗?

不,我不认为深度学习会取代人工特性+机器学习。有很多领域,深度学习确实很擅长,比如识别图片。但是仍然有很多领域现存算法的表现更胜一筹。

如何成为一位数据科学家(图灵访谈)相关推荐

  1. 一位数据科学家的私房工具清单

    作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的. 近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享 ...

  2. cassandra可视化工具_一位数据科学家的私房工具清单

    作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的. 近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享 ...

  3. Netflix一位数据科学家剪出了上百部爱情片,想教AI认识“亲吻” | 国际接吻日

    大数据文摘出品 编译:高延.橡树_Hiangsug.宁静 7月6日,这可能是一年中最适合亲吻的日子--国际接吻日(International Kissing Day). 这个节日最早起源于英国.199 ...

  4. 码农·如何成为一位数据科学家(第17期)pdf

    下载地址:网盘下载 数据科学家每天的工作流程是什么?数据科学的学习路径是什么?在本期<码农>中,你将听到来自数据科学家们的回答.除此之外,我们还将和你一起探索一些实用的数据加工技术.奇异值 ...

  5. 如何成为一位数据科学家

    故事背景  这是kaggle的Titanic入门例子教程,我前面也写过一篇,这次工作是进一步清晰和完善整个步骤.大多数初学者都迷失在数据科学分析这个领域,因为他们陷入了黑盒子方法,使用他们不了解的库和 ...

  6. 世界最牛的25位顶尖大数据科学家

    从三个类别对这25位大师进行简介,虽然这个分类可能并不那么恰当,但是可以加深读者对他(她)们的了解. 科研学术界大师(Research Oriented Data Scientists) 这些科学家全 ...

  7. 当今世界最牛的25位顶尖大数据科学家

    在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists ...

  8. 3400位造型师,80位大数据科学家,这家美国女装公司这么做个性化定制

    Stitch Fix有一支由80位数据科学家以及3400名造型师组成的团队,从合作的200多个服饰品牌中进行挑选和匹配,为顾客设计"私人穿搭".在Stitch Fix上,100%的 ...

  9. 从本科生到数据科学家,为啥这个职业门槛高?

    参与文末话题讨论,每日赠送异步图书 --异步小编 William Chen是Quora的一位数据科学家,在那里他协助Quora发展壮大,为这个世界分享知识.在拿到哈佛大学的统计和应用数学双学位之后,他 ...

最新文章

  1. Python入门100题 | 第053题
  2. 最最最最终极办法!解决Idea乱码问题
  3. Ubuntu 14.10 -- 异次元软件世界
  4. 判断sem信号量为零_将信号量递减为零的进程崩溃时,如何恢复信号量?
  5. mysql devel 编译_mysql编译安装
  6. 4.3.2模拟匹配的一种改价算法(KMP及KMP优化算法)
  7. java指定sql生成xml,用Java实现可保存状态的数据库生成XML树(8)-JSP教程,Java与XML...
  8. C#中的深度学习:Keras.NET中的硬币识别,第二部分
  9. SAP License:国网面试手记
  10. Bootstrap导航栏实例讲解
  11. Go Revel - Cache(缓存)
  12. java uploadify 下载_java uploadify 实现文件上传
  13. 计算机多媒体课件制作,多媒体课件制作软件
  14. android系统解锁,android 调用系统解锁方法
  15. 煤炭及煤化工加工会产生什么危废_煤化工固体废物的清洁处置
  16. ctc系统通信前置服务器,CTC系统包括哪些接口服务器?
  17. C++(17):any
  18. php octet stream,为什么上传图片时,type 显示application/octet-stream 呢? 原
  19. 安防摄像头无法接入国标GB28181视频平台EasyGBS问题排查与解决方案
  20. 解决opencv imwrite()影像全黑

热门文章

  1. python操作redis的set
  2. sublime的Fatal pylint error: UnicodeDecodeError: 'ascii' codec can't decode byte 问题解决方案
  3. OpenGL:纹理Textures
  4. 机器学习 数据增加_【机器学习】数据降维概述
  5. 文档加载完后执行相关事件
  6. Sublime Text 3 插件安装
  7. 肖鹏:微博数据库那些事儿(图灵访谈)
  8. 360美女运营孙哲:生活就应像花朵一样绽放
  9. Eclipse文件夹导入Jar
  10. ADO.NET中SqlCommand对数据库操作