作者:Sangeet Aggarwal

翻译:陈之炎

校对:冯羽

本文长度为2900字,建议阅读6分钟

本文将带大家讨论如何从零开始数据科学之旅。

标签:数据科学,机器学习

数据科学,据说是本世纪最吸引人的工作,已经成为我们许多人梦寐以求的工作。但对某些人来说,数据科学看起来像一个充满挑战的迷宫,让人无从下手。如果你也是其中之一,那就继续阅读。

在本文中,我将讨论如何从零开始数据科学之旅。我将详细解释以下步骤。

  • 学习Python编程的基本知识

  • 学习基本统计学和数学

  • 学习使用Python进行数据分析

  • 学习机器学习

  • 项目实战

学习Python编程的基本知识

如果有IT背景的话,你可能已经熟悉Python编程,此时,你可以跳过此步骤。但是如果从未接触过编码的话,应该从学习Python开始。在所有编程语言中,Python语言最容易学习,它被广泛用在开发中,也被用在数据分析中。

首先,可以搜索免费的在线教程,这些教程将有助于理解Python的基础知识。我列出了下述一些链接,这些教程可以帮助你在短时间内自学Python。可以尝试一下,自己作出选择。

  • learnpython.org(https://www.learnpython.org/)

  • 谷歌的Python类

  • Estudy免费Python课程(视频教程)

  • 代码学院(使用在线编辑器编程)

上述列表并非详尽无遗,你可以在网络上找到更多其它的资源,这些资源助力学习Python的基础知识,此外,你还可以在YouTube上找到许多为初学者提供的Python教程。

一旦掌握了编程语法和其他基础知识之后,你就可以开启Python的中级和高级学习之旅。要做到在数据科学领域游刃有余,我建议你至少学完中级,这样可以熟悉Python中的数据结构和文件系统。

下一步。

学习统计学和数学

数据科学是分析数据并得出有用的和可操作的见解的技能。为此,必须具备基本的统计学和数学知识。虽然不要求你成为一个伟大的统计学家,但需要对数据分布和算法原理这些基础知识有所了解。 话虽如此,来看看需要学习哪些内容。

首先,复习一遍高中的统计课程,对基本概念有所了解。为此,我推荐可汗学院的“高中统计”系列课程(根据自己的实际情况做出选择)。

刷完高中统计课之后,可以开始阅读以下任何一本书:

  • 统计学习简介(R语言)(强烈推荐)

  • 统计思维(Python语言)

以上链接将直接访问到这些书籍的各自pdf版本,你也可以根据需要方便地购买到纸质的书。读完这些书之后,你将熟悉数据分析的基本原理,对进一步深入学习有帮助。

注意:虽然我建议你从学习Python语言来开启数据科学之旅,但在学习过程中,你会遇到其他几个工具,如R,它们也用于统计计算和数据分析。我的一般建议是,无论你遇到哪一个工具,都要有一个开放的心态。如果你正在使用两种不同的语言执行任务,其底层工作和逻辑通常是相同的,这只是一个不同的语法和框架问题。

第一次体验数据分析。

学习Python进行数据分析

这便是它的有趣之处,在掌握了了Python编程的基本知识和统计之后,是时候一试身手了。

如果想在不付钱的情况下学习,你只需在Udacity上开设一个帐户,注册免费课程-数据分析入门。这门课程将介绍数据分析所需用到的Python库,如Pandas和Numpy。你可以按部就班地学习,在几周内轻松完成课程。

在Udacity上还有许多其他课程可以探索,此外,Udacity还提供Nanodegree程序,但通常需要付费。如果你愿意为学习付费,还有许多好的平台,如Coursera、Dataquest、Datacamp等。

在此步骤结束时,应该掌握Python的一些重要库和数据结构,如序列、数组和数据框。

还应该能够执行诸如数据处理、得出结论、矢量化操作、分组数据和组合来自多个文件的数据等任务。

虽然已经为下一步做好了准备,但在继续前进之前还有一件事需要学习:桥接数据分析与机器学习之间的终极关键-数据可视化

数据可视化是数据分析的重要组成部分,它有助于得出结论并对数据模式可视化。为此,学习如何可视化数据势在必行,学习数据可视化最简单的方法是通读Kaggle的数据可视化课程。在此之后,你将熟悉一个重要的Python库-Seaborn。

注:Kaggle是一个受世界各地数据科学家欢迎的网站。它定期举办竞赛,以挑战数据储备的技能,并为数据爱好者提供免费的交互式课程。

太棒了!你已经学了一半以上的数据科学了。继续下一步,即机器学习。

学习机器学习

机器学习,顾名思义,是机器(计算机)自我学习的过程。通过对计算机算法的研究,自动提升经验。根据数据和业务问题的类型,使用预定义的算法建立模型,这些模型在给定的数据上进行自我训练,然后被用在新数据上以得出结论。

掌握机器学习最简单的方法就是按照给定的顺序学习以下Kaggle的课程:

  • 机器学习概述

  • 中阶机器学习

  • 特征工程(优化模型)

条条道路通罗马,虽然有许多其他的方法来学习机器学习,我提出的是最简单的方法,完全免费。如果没有资金的约束,还可以在Coursera、Udacity和其他相关平台上找到各种课程。

当这一步结束时,您将了解监督机器学习和无监督机器学习之间的区别,同时,掌握各种重要的算法,如回归,分类,决策树,随机森林等。

太棒了!从此,可以冲破迷宫加入到数据科学俱乐部,之后,需要做的便是一步一步成为更好。

项目实战

读到这里,你便拥有了成为一名成功的数据科学家所需的一切。在掌握了所有的知识之后,应通过尽可能多的练习来增强它。要做到这一点,可以寻找一些项目,去解决一些商业问题。

坚持实践的最好方法之一是参加Kaggle比赛。Kaggle为你提供需要解决的问题和所需的数据。如果是一场比赛,你可以提交自己的结果,并根据获得的分数得到排名。

也可以在个人项目上建立自己的组合,通过尝试以下资源来探索数据集:

  • Kaggle数据集

  • UCI机器学习仓库

  • 亚马逊数据集

  • 谷歌数据库搜索引擎

为了练习,建议在本地计算机中下载并安装Anaconda, 这是开发数据科学项目的一个很好的工具包。在Anaconda众多工具中, Jupyter Notebook是构建Python项目的一种很好的方法,并帮你管理你的项目组合。

遵循本博客中的指导方针,将助力实现学习数据科学的目标,当然,在这一领域还有大量知识要学习,甚至更多的东西有待探索。继续学习吧。

原文标题:

Data Science from scratch How to step into Data Science as a complete beginner

原文链接:

https://towardsdatascience.com/data-science-from-scratch-4343d63c1c66


如您想与我们保持交流探讨、持续获得数据科学领域相关动态,包括大数据技术类、行业前沿应用、讲座论坛活动信息、各种活动福利等内容,敬请扫码加入数据派THU粉丝交流群,红数点恭候各位。

编辑:王菁

校对:林亦霖

译者简介

陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 数据科学入门指南:新手如何步入数据科学领域?相关推荐

  1. 数据分析从头学_数据新闻学入门指南:让我们从头开始构建故事

    数据分析从头学 by Mina Demian 由Mina Demian 数据新闻学入门指南:让我们从头开始构建故事 (A Beginner's Guide to Data Journalism: Le ...

  2. the crew 服务器维护,飙酷车神 the crew入门指南 新手必看

    就如同我们所知道的那样,EA 极品飞车的跳票,让<飙酷车神the crew>成为了今年竞速游戏的重头戏,而飙酷车神本身又融合了无缝式衔接的沙盒玩法,与我们所熟知的一般赛车游戏略有不同.接下 ...

  3. oracle把数据分开,Oracle初学者入门指南-系统与用户数据分离

    Oracle初学者入门指南-系统与用户数据分离 今天一个朋友的数据库出现问题,请我帮忙查看,其实问题本身很简单: Fri Jun 19 10:30:00 2006 ORA-1653: unable t ...

  4. vue移动端用什么数据可视化插件_前端必看的数据可视化入门指南

    作者:董晓庆 蚂蚁金服体验技术部 这是一篇给大家提供数据可视化开发的入门指南,介绍了可视化要解决的问题和可以直接使用的工具,我将从下面几个方面给大家介绍,同时以阿里/蚂蚁的可视化团队和资源举例说明: ...

  5. 数据出境安全评估指南_国家标准《数据出境安全评估指南》专家研讨会在京召开...

    为了贯彻落实<网络安全法>的有关要求,推进数据治理体系建设,积极推动国家标准<数据出境安全评估指南>(以下简称"<指南>")的研究制定,中国信息 ...

  6. 保存点云数据_PCL入门系列三——PCL进行数据读写

    本节课我们将了解到以下内容: 基本的PCL中的数据类型: 使用PCL进行简单编程:写文件与读文件. 一.PCL库基本数据类型 上一节课,我们使用PCL库在本地写入了一个名为test_pcd.pcd的文 ...

  7. python做大数据分析入门_独家|Python数据分析入门指南 - 大数据123 | 大数据导航网...

    有一个朋友最近问到这个问题,我觉得把它公开出来对其他人也会有帮助.这是给完全不了解Python而想找到从零到一的最简单的路径的人的建议: 1. 在这里(https://www.continuum.io ...

  8. python数据科学实践指南_《Python数据科学实践指南》——导读-阿里云开发者社区...

    前 言 为什么要写这本书 我接触大数据技术的时间算是比较早的,四五年前当大数据这个词火遍互联网的时候,我就已经在实验室里学习编程及算法的知识.那个时候我一心想要做学术,每天阅读大量的英文文献,主要兴趣 ...

  9. xilinx赛灵思官网数据加速卡入门指南

    ug1301-getting-started-guide-alveo-accelerator-cards.pdf • 查看器 • AMD 自适应计算文档门户 (xilinx.com) Alveo Al ...

最新文章

  1. 起源,机制与趋势,如何理解和定义城市大脑
  2. 【CentOS】安装lnmp环境
  3. java清除cookie
  4. php for windows二进制包,PHP5ForWindowsVC9-x865.4.3安装版
  5. 【转】Python开发指南:最佳实践精选
  6. php语录网站,杨泽业:给你的wordpress博客添加经典语录功能,适合所有php网站
  7. 5.Lock接口及其实现ReentrantLock
  8. 软件测试(一)-黑盒测试 随机测试技巧
  9. Kafka到Hdfs的数据Pipeline整理
  10. nodemcu引脚_一、ESP32开发板NodeMCU-32S简介
  11. delphi 中assert
  12. python动态创建对象属性_Python学习笔记——动态添加属性与方法
  13. 微软surface屏幕测试软件,Soomal作品 - Microsoft 微软 Surface Book 笔记本电脑屏幕测评报告和色彩校正 [Soomal]...
  14. 三菱数控CNC系统G代码M代码大全
  15. 【转载】深入浅出讲解FOC算法与SVPWM技术——自制FOC驱动器
  16. windows 2003 系统中安装 火狐浏览器
  17. 元气森林海外负责人柳甄离职:是柳传志侄女 柳青堂姐妹
  18. 视频编辑转换 ViscomSoft SDK ActiveX 19.0
  19. 主播名字和热度的字符串该怎么写啊,他们两个量前面的字符一样
  20. 如何将平时的生活收支记录打印出来

热门文章

  1. 三次握手、四次挥手理解
  2. Hadoop集群中增加与ElasticSearch连接的操作
  3. 瓷博会开幕,《锦绣中华》引围观
  4. 使用Mahout搭建推荐系统之入门篇3-Mahout源码初探
  5. 导入导出 SAPSCRIPT 的程序
  6. arcpy 批量投影_怎样用arcgis中的python进行批量投影
  7. 计算机应用基础实验报告册,计算机应用基础实验报告(flash)
  8. dqn在训练过程中loss越来越大_用DQN算法玩FlappyBird
  9. 【Apollo源码分析】系列的第三部分【prediction】_slamcode的博客 -CSDN博客
  10. 单实例的写法最保险的写法应采用静态方式的预生成 ,不要用双重检查的懒汉模式等,JDK1.6之后加了volatile也要谨慎,需要考证是否解决这个问题