导语:数据科学有着极其陡峭的学习曲线,学习者往往有面对“钢锯岭”之感。

如今数据科学、大数据、人工智能、区块链、数字经济等热词横行。放眼宏观,《2018政府工作报告》中5次提到了“智能”、3次提到了“大数据”。“做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用”,来自国家战略层面的重视不言而喻。着眼微观,从人才发展角度,随着全国各省高考分数线的公布,考生和家长也没法休息,立刻投入到选专业的大战中。的确,人生重在选择,有时选择比努力还重要。莘莘学子十年寒窗,都希望能够在这一关键时刻选好人生之路。

大数据时代的到来,产生百万级人才缺口,企业愿意砸钱抢人才。据业内知情人士透露,全球化、一站式移动出行平台滴滴出行于2017年9月成立数据科学部,部分高级职位,例如数据分析专家、数据科学家等岗位收入逾五万元人民币,已成为人才将知识与能力转化为财富的又一佳话。大数据与人工智能发展的竞争,归根结底是人才竞争。

我们来梳理一下关键问题:

第一、“数据科学”是什么,怎么用?

第二、“数据科学”需要什么样的技能?

第三、成为“数据科学家”应该接受什么样的教育?

1

数据科学是什么,怎么用?

数据可以是数值、文字、图像、声音等。现在,各个专业领域都会产生各类独具特色的数据,所以有人说任何一个专业都会和数据科学打交道。严格来讲,数据科学的定义是模糊的,但是发展前景非常广阔。作为交叉学科,涉及范围广,横跨多个领域,包含大量应用技术,与应用数学、统计学、运筹学等多个学科相关,又与最新的技术领域,机器学习、深度学习、人工智能、物联网等“亲密接触”。所以大家对数据科学产生了不同的理解,但最关键是「数据科学」这个瓶子到底装什么「酒水」。数据科学在不同在应用领域中的理论、方法和基础自然也都是数据科学的一部分,装着不同应用领域的「酒水」。我们在对北京大学王汉生教授的采访中,他谈到,以践行数据价值为核心研究目标的学科,都是数据科学。

的确,现在有很多专业都涉及到数据科学的知识和应用,例如生物、医学、环保、金融、社会学等等。以医学为例,一张肺部多发毛玻璃结节的CT 扫描图像是个人信息,一百张可以用统计学的方法研究,一百万张可以使用运用机器学习的算法来分析。现在的应用不是手动编码带有特定指令设定的软件程序来完成读懂胸片的任务,而是使用大量的数据和算法来「训练」机器,赋予它学习如何执行任务的能力。将大数据驱动的人工智能应用于肺癌早期诊断中,让计算机自动、快速、准确的从病人的肺部 CT 扫描序列中发现疑似结节位置,则可以降低肺癌早期筛查的成本,提高检测速度和检测的准确率。这是数据科学和人工智能应用的典型例子,也是数据科学家与人工智能专家结合医学知识解决重大疾病问题的例子。

对于将要学习不同专业的同学来说,培养数据的思维也很重要,站在更高的角度,也就是数据科学的角度,去看待不同的专业领域和专业知识。培养运用数据科学的思维解决问题的能力。未来各行各业都会涌现出专有领域的数据科学家。

现在企业中不少工作岗位都叫数据科学家,然而即使是在同一家企业,同一个数据科学家团队工作,每个小组做得方向和工作内容也都不一样。所以可以说:

我们不一样,因为数据科学有其应用的独特方法与技术;

我们也一样,对数据科学思维和算法的运用,都是为了提高效率,解决问题,让数据产生价值。

2

“数据科学”需要什么样的技能?

简而言之,数据科学对数学、统计学、计算机、运筹优化等基础理论的要求较高。没有扎实的基础理论训练,将来很难胜任数据科学的工作,学生必须在本科学习时期获得了扎实的基础功底后,长期方有实力发力。我们采访了部分知名数据科学企业的人力资源人士,他们认为:对于本科学历的同学,用人部门或者团队需要花费大量人力、物力、精力来培养,如果学生基础好,素质高,团队也有时间和机会培养,那本科学历的同学还是有一定的机会的。言下之意,偏爱高学历。

由于数据科学领域技术和应用的发展非常快,数据科学家需要在工作中不断学习,如果没有强大的学习能力,将会遇到巨大挑战和困难。同时,这也对高校培养符合市场需求的人才提出了新要求。是不是计算机专业的同学会更有优势?答案是那也未必,除了计算机相关知识,还需要有统计学、应用数学、运筹学的基础功底。

数据科学有着极其陡峭的学习曲线,对学习者和技术人才往往有面对“钢锯岭”之感。不过马斯洛(Maslow)曾说过,要成就有大气魄的事,要像不要害怕犯错误一样投身进去,尽力而为。能从犯下错误时,以及纠正错误的过程中学到足够多的东西。

本文以下的内容由两部分组成,一方面来自知名教授曾经的经典访谈、一方面来自亲爱的数据团队的专访,尽力呈现“成为数据科学家应该接受什么样的教育?”这一问题的真实答案。

迈克尔·乔丹:

计算机科学和计算思维的重要性

2015年有一项计算机科学领域的排名,迈克尔·乔丹教授影响力名列第一,同时乔丹教授门下人工智能英雄辈出,如原百度首席科学家吴恩达、斯坦福大学计算机系助理教授、斯坦福人工智能实验室成员Percy Liang等。回顾教授在中国的一篇演讲,我们来看一下大师是如何理解计算机科学和计算思维的重要性。

"

计算思维来自于计算机科学,是一种思想,是关于思考特定问题的抽象化、模块化、扩展化和稳健化等方法,绝不仅仅是如何编程。计算机专业的学生在这些方面都会接受很好的训练,但被大家忽视的,也是特别重要的推理思维。推理思维不是新思想,它是有几百年发展历史,它是统计学中最核心的东西。推理思维强调的是——拿到数据。我们要思考数据是从哪里来的,背后的真实世界是怎样的,数据如何从真实世界中采集来的,会不会有采样偏差,等等。遗憾的是,计算科学和统计学长久以来独立发展,直到如今的大数据时代,两个学科的交叉才使得这两门学科遇到了真正的机遇,同时也带来了挑战。

"


哈佛大学统计学刘军教授:

扎实受训的数学功底+解决实际问题的能力

刘军教授于1985年毕业于北京大学数学系,后赴美国留学,并于1991年获统计学博士学位。2000年起任哈佛大学统计学系教授,并兼任生物统计学系教授。我们找到了他曾经的一段英文采访,第一次翻译成中文。

问:近年来,越来越多的中国学生对统计数据感兴趣,您对他们有什么特别的建议吗?

"

刘军教授:我在斯坦福大学见过很多非常有才华的学生。学生从中国顶尖大学获得了本科教育会在数学方面很强,但是往往在批判思维、写作、驱动力和创造力方面都比较薄弱。大多数中国学生一生都在被动的接受知识,按照老师的要求做。有优秀的老师领路很好,但是会导致独立思考的能力、创造力、个性发展的不够。这样会导致他们在从学生到研究者的转身过程中面临巨大的挑战。

一般来说,人们倾向于认为:数学好的人在批判性思维方面必须与生俱来的强壮。然而,我发现这个假设与现实相去甚远:许多学生的数学能力好,但是解决现实问题的能力很弱,究其原因,是训练不足。

相反,我发现那些擅长编程或工程的学生在关键问题和解决问题方面往往非常强大,如果这方面能力弱了,他们将在调试程序方面碰钉子。但是,这些工程专业的学生缺乏抽象和概括的经验。因此,我真心希望中国未来的统计学的学生能够拥有扎实受训的数学功底和解决实际问题的能力,比如编程和批判性思维。

"

百度商业智能实验室主任熊辉:

我挑人,就十个字

高考毕业需要选专业的同学很多都有这样的疑问:选择专业到底是应该从兴趣出发还是从就业出发?百度商业智能实验室主任熊辉博士这样告诉我们,对学科的兴趣是成为一个行业顶级人才首要要素。熊辉主任也是美国罗格斯-新泽西州立大学终身正教授、博士生导师。他常年带领科学家团队活跃在数据科学前沿,具有一流的实战经验。同时他在育人方面也是一位“高产”的学者,在美国已经培养出七位教授。他在回答如何成为一名优秀的数据科学和人工智能的专家方面很有发言权。

熊辉教授在O'Reilly人工智能大会2018北京站,接受了我们的采访,分享了他选拔人才的十个字的心诀:

"

第一:兴趣。在人生和工作最困难和最黑暗的时候,往往是兴趣和热情支撑着信念,驱动自己突破极限。

第二:态度。人生发展一定会有撞墙的时候,所以乐观和阳光以及能够做好小事的态度非常重要。难的不是在顺境中前进,而在逆境中不迷失自我。既能行的了顺水舟,也能开得了逆水船,所以做人做事的态度很重要。

第三:基础。我的选人顺序,第三才是基础,数据科学这行是有护城河的,对数学有着很高的要求,数学基础要好。但是满足我对数学基础要求的学生就非常多了。我不会要求说你必须是前三名。不是说你必须是名校的。只要你数学基础好,我觉得就有培养的前途,主要是数学基础。

第四:习惯。优秀的数据科学家一定要有良好的习惯。做人做事的习惯、生活的习惯。有一个好的习惯,才不容易犯错,可以保证走得更长远。活得长的人,成功的机会多。健康的身体需要好的生活习惯。

第五:认真。若想成才,必须认真。做一件事情,就要认认真真地把这一件事情做好,认真是把握机会的钥匙。能做到这十个字的基本上都会成才。

"

北大王汉生教授:

计算机+分析方法+经济管理基础+行业实践

王汉生教授是北京大学光华管理学院商务统计与经济计量系主任,也是北大光华商业分析(Business Analytics,)硕士项目的负责人。王教授在采访中告诉我们,

"

该硕士项目在要求中明确提出“既欢迎有商科类专业背景的,擅长数理分析的同学申请,也特别欢迎有计算机或工程类专业背景、编程能力很强的同学申请”。他在采访中提到,对商业分析项目的定位要素是:【计算机】+【分析方法】+【经济管理基础】+【行业实践】。

"

这也反映了数据科学家确实需要两大类的知识和和技能,一方面是基础理论,很多理工科的同学通过刻苦的学习都可以具备,另一方面是来自应用领域的知识,也有人称为业务知识。需要结合不同行业的业务实践。

3

专业数量激增,选择普通院校新成立的数据科学专业是否有风险?

“数据科学与大数据技术”本科新专业,批次情况如下:

教育部通知,含学校名单:http://www.moe.gov.cn/srcsite/A08/moe_1034/s4930/201803/t20180321_330874.html

显而易见,数量激增。近年来,各行各业对数据科学家对求贤若渴,在人才颇为紧张的前提下,这么多学校获批专业,到哪里去找老师成了难题。而且从院校情况来看,全国开设大数据本科专业的高校中,985和211仅仅占13%。好学校好专业竞争激烈也反映在数据科学专业。

业内不愿透露姓名的专家持有更有激烈的观点认为,“第二批获批“数据科学与大数据技术”的35所高校中,大半高校不适合以培养数据科学研究型人才为核心目标。因为缺乏相应的积累和能力”。那么第三批的情况就更不乐观了。不过,第三批获批高校数量众多,本来就很难用标准来衡量。

不难看出,普通高校一窝蜂的申请数据科学与大数据技术专业是追赶潮流的行为。正如前文所说,计算机技术、应用数学与统计学的基础功底非常重要,如果学校在这几个专业方向上并无优势,赶潮流的成立新专业,在人才培养、教师水平提升方面都面临严峻考验。

4

建议

学生在选择专业时,往往选择有一定发展年限,在教学传统已有积累、学习氛围已养成、教学特色已具备的专业是比较稳妥的。数据科学与大数据技术在当下火爆,而且还在不断发展,几年后对人才的要求是否会有变化,也增加了选择“数据科学与大数据技术专业”不确定的风险。但是,可以肯定的是数据科学在中国的发展会越来越落地,越来越有用武之地,只是人才培养的经验,才刚刚起步。

尤为惹人注意的现象是,很多人期望转行数据科学心切,让市场上鱼龙混杂的培训赚到了钱,很少有机构能够公开真实的培训课程完成率,夸大宣传,硬说自己口碑好。师资也往往来自于知名企业的技术人员。企业确实拥有数据可以应用,并创造价值的场景。但是正如日本教育学家佐藤学所说的“世界上没有比教师更难的工作了”,教学是一个要求非常高的工作,会不一定等于能教。可以这样说,培训从根本上解决不了一个学习曲线极为陡峭的学科对人才的需求,往往是花钱解决焦虑问题。攀登数据科学的奥林匹斯山,除了登山素有的高难度,缺少好的登山向导也是根本性困难之一。

总之,攻城先下护城河,数据科学人才发展绝不能错过打基础的黄金时间,专业选择实需谨慎。(完)

推荐阅读

高考季选专业丨想做数据科学家?先听听多位教授经验谈相关推荐

  1. 不懂数学,照样做数据科学家

    不懂数学,照样做数据科学家 AI和机器学习的火热让数据科学家成为近几年热门职业之一.但对于试图从事这一职业的新人来说,数学可能最大的拦路虎之一.不过本文作者认为,当数据科学家并不一定需要坚实的数学基础 ...

  2. 这个网站做数据科学家的FB 但除了社交还做实事

    7月13日讯,如果说早期到中期的社交网络注重广度,目标是建设一个能覆盖所有人的网站,那么现在则是为特定人群或行业开发一整套平台的细分市场阶段了.明眼人可能说,这难道不是互联网早期的网络聊天室和留言板吗 ...

  3. 不学好数学也想当数据科学家?不存在的

    大数据文摘作品 编译:文明 修竹 高宁 天培 数据科学家需不需要有扎实的数学基础呢? 随着越来越多优秀开源项目的涌现,各类数据科学工具都实现了"半自动化",数据分析的背后数学原理似 ...

  4. 如果想做数据标注,你可能会遇到哪些坑?

    在龙猫数据从事数据标注一年半,从去年10月份开始,到现在,已经将近一年多了. 但是这一年多的经历,让自己真实感慨万千,来这里给大家说说如果做数据标注,同时很多的数据标注公司,我们可能会遇到哪些坑,让后 ...

  5. 想成为数据科学家,你必须具备哪些技能?

    随着市场对数据科学家的需求增加,该学科为学生和现有专业人士提供了一条诱人的职业道路.这包括那些不是数据科学家但痴迷于数据和数据科学的人,他们经常询问从事数据科学职业需要哪些数据科学技能和大数据技能. ...

  6. 壹佰大咖说丨想做互联网金融平台产品经理,你懂风控、通道吗?

    本文整理自壹佰讲堂第73期,由百度钱包高级PM降峰倾情分享. 内容大纲: 第一部分:互联网金融公司业务体系内的4类产品能力 第二部分:互联网金融的3大业务 第三部分:想从事互联网金融行业?收好这些实用 ...

  7. 计算机专业本科生想做科研,一定要进实验室吗?

    计算机专业的同学在学习理论基础知识的同时,应该注重培养自身动手实践能力以及创新思维.在本科阶段若能加入团队实验室参与科研工作,对今后保研.考研以及找工作都有很大的帮助.岛主今天就来谈一谈计算机专业本科 ...

  8. 想做数据可视化设计,那你必须要知道这几件事

    "混乱和混乱不是数据的属性-它们是设计的缺点."-爱德华·塔夫特 数据可视化故名思议:以某种示意图的形式来表现经过分析处理后的数据信息. 换句话说,这是一种视觉上传达一定数据内容信 ...

  9. sql 12天内的数据_想要在12周内成为数据科学家吗?

    sql 12天内的数据 重点 (Top highlight) I see many ads that claim to make you a data scientist in 12 weeks. T ...

最新文章

  1. 【原】iOS学习之事件处理的原理
  2. 接受返回值 server sql_SQL,何必在忆之一(基础篇)
  3. 邪恶改装2:用单片机实现一次简单的wifi密码欺骗
  4. win10系统打开更新服务器失败怎么回事,Win10系统一直无法安装更新怎么办 Win10更新一直安装失败的3种解决方法...
  5. linux shell mkdosfs 命令用于建立 dos 文件系统
  6. 【设计模式】软件设计七大原则 ( 开闭原则 )
  7. Linux内存初始化(C语言部分)
  8. Bentley MicroStation V8i安装教程
  9. 有n 个长为m+1 的字符串,求前后m个字符匹配所能形成的最长字符串链:利用弗洛伊德算法求最长路径...
  10. 如果微信被运维删库、跑路,会造成什么恐怖的后果?
  11. bind函数返回值-1_javascript函数柯里化
  12. 面向对象思想,简单实例
  13. CentOS+Asterisk+Freepbx
  14. hbase shell 入门
  15. VMware中卸载Ubuntu
  16. Openg~lopengl中文手册4.5
  17. 2022年最新河南建筑安全员模拟题库及答案
  18. python中集合类型的四种操作符_Python集合类型和操作,及
  19. 第10节 文件共享服务器—创建/访问共享文件及禁用共享服务
  20. L298N驱动直流电机转动

热门文章

  1. 学习笔记(抽样技术)
  2. ARMA模型时间序列分析全流程(附python代码)
  3. 在eclipse中显示空格
  4. Python 实现语音转文本
  5. 笔记本电池修复常见方法大全
  6. Adobe Flash Builder 4.5的安装
  7. 7-1 最大公约数和最小公倍数分数 15作者 张彤彧单位 浙江大学
  8. 内外网同时访问 路由(route) 转发
  9. 知识图谱第5享:公安五要素简介
  10. CAD软件绘图如何提高效率 (上)