独家 | 送你12个关于数据科学学习的关键提示(附链接)
来源:Artinspiring/Dreamstime.com
翻译:国相洁
校对:丁楠雅
本文约3000字,建议阅读6分钟。
本文为你介绍了作为数据科学家需要掌握沟通能力和其它软技能方面知识。
小结: 数据科学家需要强大的数学和编码能力,但沟通能力和其它软技能也是走向成功不可缺少的基本功。
根据Glassdoor在美国区的统计,“数据科学家”排名为2019年最诱人的工作。平均基础工资为$108k,工作满意度为4.3–5★,加上被预测有大量空缺,这个结果一点都不令人吃惊。
问题是,一个人该如何修炼才能走上正轨并获得胜任这份工作的资格?
为了找到答案,我们总结了大量文章里的建议,很多可以归纳为编码与数学上的硬技能(hard skills)。但强大的计算能力并不是全部。一名优秀的数据科学家仍需要和相关业务人员进行有效沟通,这里便需要一些软技能(soft skills)。
铸造你的教育地基:3个要点
Drace Zhan作为 NYC Data Science Academy 的数据科学家,强调了教育基础的必要性,包括编码基础和数学能力:
NYC Data Science Academy:
https://nycdatascience.com/
R/Python + SQL。如果你没有编码能力,那你就需要大量的网络等其它领域的力量来补充这个缺陷。我见到过一些数据科学家,有的数学能力比较薄弱,或者对相关领域欠缺经验,但他们总有很强的编码能力。Python是很理想,R正在变得有点落后,最好两样武器都带上。SQL对于数据分析师来说同样极其重要。
R/Python + SQL:
https://www.techopedia.com/definition/3533/python
强大的数学能力。对一些常用的理论有着较好的理解:generalized linear models(广义线性模型),decision tree(决策树),K-means(聚类分析)和statistical tests(假设检验)。这好过手握大量模型甚至专业模型如递归神经网络(RNN),却仅仅是浅尝辄止。
decision tree:
https://www.techopedia.com/definition/28634/decision-tree
K-means:
https://www.techopedia.com/definition/32057/k-means-clustering
这些都是需要培养的核心技能,尽管一些专家还加入了其它东西。例如,一份 KDnuggests 清单包含了编码成分,Zhan在此基础上还加入了一些其他有用的东西,包括Hadoop平台,Apache Spark,数据可视化,非结构化数据,机器学习和AI。
Apache Spark
https://www.techopedia.com/definition/30113/apache-spark
但如果我们从一份Kaggle调研中寻求线索,关于“那些在实际生活中被使用的最普遍的工具”,我们会有不同的发现。下面这张图是名列前15的硬技能。
Python,R和SQL排在前三,第四名是 Jupyter notebooks,接下来是 TensorFlow,Amazon Web Services,Unix shell,Tableau,C/C++,NoSQL,MATLAB/Octave和Java,都排在Hadoop和Spark前面。颇让人意外的是,Microsoft’s Excel Data Mining也被列进来了。
TensorFlow:
https://www.techopedia.com/definition/32862/tensorflow
Amazon Web Services:
https://www.techopedia.com/definition/26426/amazon-web-services-aws
Unix:
https://www.techopedia.com/definition/4637/unix
C++:
https://www.techopedia.com/definition/26184/c-programming-language
NoSQL:
https://www.techopedia.com/definition/27689/nosql-database
Java:
https://www.techopedia.com/definition/3927/java
图片出自 Kaggle
https://www.kaggle.com/surveys/2017
在KDnuggests清单中也包括了关于正规教育的建议。大多数据科学家都拥有高学历,46%是博士,88%的人拥有至少硕士学位。他们的本科学位通常是相关领域。大约1/3是数学和统计学,这也是最受欢迎的职业轨迹。接下来最受欢迎的是计算机科学学位,占有19%,工程学16%。当然专门针对数据科学的技术工具通常不会设在大学课程中,但是可以通过专门的训练营或在线课程习得。
课程之外:2个要点
Hank Yun是威尔康奈尔医学院肺科的一名助理研究员,同时也是NYC数据科学学院的学生。他建议有抱负的数据科学家围绕他们将要从事的工作进行计划,并找到一位导师。
Hank Yun
https://medium.com/@jhaseon
他说:“不要犯我曾经犯过的错误。那时我对自己说,我知道数据科学,因为我参加了课程并获得了证书。”这确实是个不错的开始,但当你开始学的时候,脑海中要有一个计划。然后在该领域中找到一名导师,并立刻开始一个令你充满激情的项目。
当你还是个新手,你不知道你不知道什么。所以如果有个人指导你前行,告诉你,什么是对于现在的你最重要的,什么不是,这将很有帮助。别把时间扔在学习那些最后根本无法施展的东西!
知道从你的工具包里取出哪样工具:保持领先的要点
由于数据科学工具的排名不尽相同,有人可能会困惑,到底该把精力集中在哪些上面。Celeste Fralick是McAfee软件安全公司的首席数据科学家。他在CIO article上强调了这个问题:“一名数据科学家需要处在调查曲线的前端,但别忘了去明白,什么技术该什么时候用。” 这句话意思是,别被新鲜与性感的外表蛊惑,而实际问题需要更多工作。意识到对于生态系统的计算成本,可解释性,延迟,带宽,和其它系统边界条件,还有客户的到期时间,它本身就能帮助数据科学家知道,使用什么技术最合适。
CIO article:
https://www.cio.com/article/3263790/data-science/the-essential-skills-and-traits-of-an-expert-data-scientist.html
基本软技能:另外6个要点
Fralick提到了数据科学工作需要的非技术性技能。这也是为什么KDnuggests清单包括了这4项:求知欲,团队合作,沟通技巧和商业头脑。Zhan给列出的清单中也包含了一些关键的软技能,如 “有效沟通能力”,“领域经验” 与上面的 “商业头脑” 类似。总之,都是指将数据科学实际应用到商业中。
Olivia Parr-Rud提供了她自己的想法,又加入了另外2项软技能:创新,勇于坚持。她说:“我认为数据科学是科学也是艺术。它需要利用大脑两侧的力量。很多人谈及数据科学,说它主要使用左脑。但我发现,想要成功,数据科学家就得充分调用他们的全脑。”
她解释道,在该领域前行,不仅需要技术能力,还要有创造性和领导性远见。
大多数左脑/线性任务可以被自动化或外包。为了提供身为一名数据科学家的竞争优势,我们必须能识别大量信息中的模式(patterns)和综合性(synthesize),也就要用到左右脑。我们必须是有创造力的思考者。很多优秀的结论都是来自于左右脑的协同工作。
她还强调为什么清晰地表达远见是基本的:
“作为数据科学家,我们的目标是帮助客户增长利润。大多数主管不理解我们是做什么的,我们是如何去做的。所以我们需要像领导者一样去思考,以股东们可以理解和信任的方式,表达我们的发现与建议。”
总结
这个提示单里包含大量地技术工具,技能,和能力,还有可量化的品质,像创造力,领导力。数据科学不仅仅是个数字游戏。数据科学家也不是在虚空中建模,而是要能提出实用的,能解决商业中实际问题的灼见。那些可以在该领域中获得成功的人,不仅仅精通技术,还能理解工作中团队各成员的需求。
编辑:王菁
校对:林亦霖
译者简介
国相洁,马德里自治大学本科,经济与金融专业。从数据分析师起步,梦想成为一名优秀的数据科学家。希望在成长的路上,结交志趣相投的朋友,不负青春。
翻译组招募信息
工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!
你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。
其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THU ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织
独家 | 送你12个关于数据科学学习的关键提示(附链接)相关推荐
- 独家 | 2020年22个广泛使用的数据科学与机器学习工具(附链接)
作者:RAM DEWANI 翻译:欧阳锦 校对:陈汉青 本文长度为4600字,建议阅读11分钟 本文为大家从两个方面--大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具.结合了 ...
- 独家 | 送你5本机器学习必备的免费电子书!(附链接)
作者:Richard Gall 翻译:车前子 校对:丁楠雅 本文约2000字,建议阅读10分钟. 本文介绍了帮助入门机器学习的5本免费机器学习电子书. 今天,机器学习已成为软件工程所有领域中最重要的发 ...
- (数据科学学习手札61)xpath进阶用法
一.简介 xpath作为对网页.对xml文件进行定位的工具,速度快,语法简洁明了,在网络爬虫解析内容的过程中起到很大的作用,除了xpath的基础用法之外(可参考我之前写的(数据科学学习手札50)基于P ...
- 《中国人工智能学会通讯》——12.58 大数据不确定性学习的研究
12.58 大数据不确定性学习的研究 一个建立在常规数据集上的学习模型和算法一般是不能拓展到大数据的,原因有多个.基于不确定性的学习模型自然也是如此.不确定性的处理对大数据学习更为重要,有些与不确定性 ...
- 数据科学学习心得_学习数据科学
数据科学学习心得 苹果 | GOOGLE | 现货 | 其他 (APPLE | GOOGLE | SPOTIFY | OTHERS) Editor's note: The Towards Data S ...
- 数据科学学习心得_学习数据科学时如何保持动力
数据科学学习心得 When trying to learn anything all by yourself, it is easy to lose motivation and get thrown ...
- Python数据科学学习进阶
Python菜鸟到Python Kaggler 如果你梦想成为一名数据科学家,或者已然是数据科学家的你想扩展自己的工具库,那么,你找对地方啦.本文旨在为做数据分析的Python人提供一条全方位的学习之 ...
- (数据科学学习手札32)Python中re模块的详细介绍
一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...
- 5个增加数据科学学习的技巧
通过关注这5件事来提高你的学习曲线,而不是参加更多的在线课程. 本文来自Julia Nikulski 许多指南都会给一些建议,说明如何开始数据科学:要上哪些在线课程,为你的投资组合实施哪些项目,以及要 ...
最新文章
- 【美国斯坦福大学人工智能研究院:人工智能当以人为本】
- ATTCK矩阵 linux系统安全实践
- 41.简单说一下noexecpt关键字
- uestc 1073 秋实大哥与线段树 Label:线段树
- tcp/udp高并发和高吐吞性能测试工具
- LSGO软件技术团队对外技术交流
- 2-路插入排序c语言算法,浅谈2路插入排序算法及其简单实现
- Java实验8 T5.使用键盘控制界面上图片的移动
- python一般的基础代码-Python中的变量,一切代码的基础,你掌握了吗
- 传统反病毒产品丧钟响起
- python运行不出结果_python程序没有报错但是运行没有任何结果怎么办?
- bugku 杂项 部分
- 重聚焦显微镜原理和理解
- 【寒江雪】UV+Depth信息计算世界坐标
- 教你从零开始成为优秀交互设计师(一):交互设计师修炼指南
- 手机处理器排行榜2019_2019十大手机读书软件排行榜
- numpy——arry矩阵交换行或者交换列
- python 通达信板块_通达信如何自定义选股,使用python在通达信里面选股
- 铅笔盒的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- Django之通用类视图DetailView
热门文章
- excel操作----主要用于数据库入库
- 如何php防止XSS攻击
- 电信应在短时间内放弃CDMA网络
- Python零散知识点记录
- C#获取当前日期时间(转)
- nginx配置文件说明
- Dreamweaver xerces panic error 错误提示。
- python客户价值分析_Python数据分析与应用航空公司客户价值分析.ppt
- 高中计算机二级考试是考什么时候,浅谈有效实施高中计算机教学的方法_计算机二级考试时间...
- 公有变量java_Java反射机制(只可以访问公有的方法或者变量)