学习攻略 | Python数据挖掘学习路线图
假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述。如果你已经有一些相关的背景知识,或者你不需要路径中的所有内容,你可以随意调整你自己的学习路径,并且让大家知道你是如何调整的。
步骤0:热身
开始学习旅程之前,先回答第一个问题:为什么使用Python?或者,Python如何发挥作用?
观看DataRobot创始人Jeremy在PyCon Ukraine 2014上的30分钟演讲,来了解Python是多么的有用。
步骤1:设置你的机器环境
现在你已经决心要好好学习了,也是时候设置你的机器环境了。最简单的方法就是从Continuum.io上下载分发包Anaconda。Anaconda将你以后可能会用到的大部分的东西进行了打包。采用这个方法的主要缺点是,即使可能已经有了可用的底层库的更新,你仍然需要等待Continuum去更新Anaconda包。当然如果你是一个初学者,这应该没什么问题。
如果你在安装过程中遇到任何问题,你可以在这里找到不同操作系统下更详细的安装说明。
步骤2:学习Python语言的基础知识
你应该先去了解Python语言的基础知识、库和数据结构。Codecademy上的Python课程是你最好的选择之一。完成这个课程后,你就能轻松的利用Python写一些小脚本,同时也能理解Python中的类和对象。
具体学习内容:列表Lists,元组Tuples,字典Dictionaries,列表推导式,字典推导式。
任务:解决HackerRank上的一些Python教程题,这些题能让你更好的用Python脚本的方式去思考问题。
替代资源:如果你不喜欢交互编码这种学习方式,你也可以学习PPV课训练营课程 python入门。这课程系列不但包含前边提到的Python知识,还包含了一些后边将要讨论的东西。
步骤3:学习Python语言中的正则表达式
你会经常用到正则表达式来进行数据清理,尤其是当你处理文本数据的时候。学习正则表达式的最好方法是参加谷歌的Python课程,它会让你能更容易的使用正则表达式。
任务:做关于小孩名字的正则表达式练习。
如果你还需要更多的练习,你可以参与这个文本清理的教程。数据预处理中涉及到的各个处理步骤对你来说都会是不小的挑战。
步骤4:学习Python中的科学库—NumPy, SciPy, Matplotlib以及Pandas
从这步开始,学习旅程将要变得有趣了。下边是对各个库的简介,你可以进行一些常用的操作:
•根据NumPy教程进行完整的练习,特别要练习数组arrays。这将会为下边的学习旅程打好基础。
•接下来学习Scipy教程。看完Scipy介绍和基础知识后,你可以根据自己的需要学习剩余的内容。
•这里并不需要学习Matplotlib教程。对于我们这里的需求来说,Matplotlib的内容过于广泛。取而代之的是你可以学习这个笔记中前68行的内容。
•最后学习Pandas。Pandas为Python提供DataFrame功能(类似于R)。这也是你应该花更多的时间练习的地方。Pandas会成为所有中等规模数据分析的最有效的工具。作为开始,你可以先看一个关于Pandas的10分钟简短介绍,然后学习一个更详细的Pandas教程。
您还可以学习两篇博客Exploratory Data Analysis with Pandas和Data munging with Pandas中的内容。
额外资源:
•如果你需要一本关于Pandas和Numpy的书,建议Wes McKinney写的“Python for Data Analysis”。
•在Pandas的文档中,也有很多Pandas教程,你可以在这里查看。
任务:尝试解决哈佛CS109课程的这个任务。
步骤5:有用的数据可视化
参加CS109的这个课程。你可以跳过前边的2分钟,但之后的内容都是干货。你可以根据这个任务来完成课程的学习。
步骤6:学习Scikit-learn库和机器学习的内容
现在,我们要开始学习整个过程的实质部分了。Scikit-learn是机器学习领域最有用的Python库。这里是该库的简要概述。完成哈佛CS109课程的课程10到课程18,这些课程包含了机器学习的概述,同时介绍了像回归、决策树、整体模型等监督算法以及聚类等非监督算法。你可以根据各个课程的任务来完成相应的课程。
额外资源:
•如果说有那么一本书是你必读的,推荐Programming Collective Intelligence。这本书虽然有点老,但依然是该领域最好的书之一。
•此外,你还可以参加来自Yaser Abu-Mostafa的机器学习课程,这是最好的机器学习课程之一。如果你需要更易懂的机器学习技术的解释,你可以选择来自Andrew Ng的机器学习课程,并且利用Python做相关的课程练习。
•Scikit-learn的教程
任务:尝试Kaggle上的这个挑战
步骤7:练习,练习,再练习
恭喜你,你已经完成了整个学习旅程。
你现在已经学会了你需要的所有技能。现在就是如何练习的问题了,还有比通过在Kaggle上和数据科学家们进行竞赛来练习更好的方式吗?深入一个当前Kaggle上正在进行的比赛,尝试使用你已经学过的所有知识来完成这个比赛。
步骤8:深度学习
现在你已经学习了大部分的机器学习技术,是时候关注一下深度学习了。很可能你已经知道什么是深度学习,但是如果你仍然需要一个简短的介绍,可以看这里。
我自己也是深度学习的新手,所以请有选择性的采纳下边的一些建议。deeplearning.net上有深度学习方面最全面的资源,在这里你会发现所有你想要的东西—讲座、数据集、挑战、教程等。你也可以尝试参加Geoff Hinton的课程,来了解神经网络的基本知识。
附言:如果你需要大数据方面的库,可以试试Pydoop和PyMongo。大数据学习路线不是本文的范畴,是因为它自身就是一个完整的主题。
原文链接:http://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/
转载请注明:人人都是数据咖 » 学习攻略 | Python数据挖掘学习路线图
学习攻略 | Python数据挖掘学习路线图相关推荐
- 中国式家长怎么学计算机,中国式家长前期怎么学习 中国式家长前期学习攻略...
中国式家长是一款全新模拟养成手游,讲述的是中国传统式的教育,每个父母都希望自己子女能够成才,非常有趣的一款游戏哦,欢迎各位玩家前来下载体验哦!! 类型:休闲益智 大小:44.10 M 语言:简体中文 ...
- 学python数据挖掘自学路线图_学习攻略 | 数据挖掘工程师学习路线图
原标题:学习攻略 | 数据挖掘工程师学习路线图 最近秋招也已经慢慢接近尾声了,从去年 8 月底开始,先后参加了 datacastle ,阿里天池,牛客网各自举办的数据挖掘比赛(都是 top10 ),今 ...
- 数学菜鸟的AI学习攻略 | 数学符号轻松入门
你是否跟我一样,自幼恨透数学. 现在,我终于发现了我对数学绝缘的最主要原因:我的老师从来不去回答最重要的问题:我为什么要学数学?学数学有什么用? 他们只是在黑板上写下一大堆方程,并让我记下来. 现在, ...
- 数学菜鸟的AI学习攻略——数学符号轻松入门
[ 导读 ] 自学AI的过程中,我们非常需要理解这些数学符号.它可以让你用一种非常简洁的方式来表达一个复杂的想法. 你是否跟我一样,自幼恨透数学. 现在,我终于发现了我对数学绝缘的最主要原因:我的老师 ...
- 物联网课程学习目标_学习攻略|软件工程统计方法amp;amp;物联网
软件工程统计方法 && 物联网 任课老师:余松森,葛红 课程特点及困难 本课程的主要内容涉及统计机器学习方法, 以及如何采用Python进行应用实现. 同学们在学习中主要遇到以下问题: ...
- 后端学习攻略,助你打怪升级
大家好,我是辣条,好久不见,甚是想念,今天给大家带来一份后端的学习攻略,希望能帮助到你. 目录 一. 数据结构与算法 为什么数据结构很重要? 数据结构与算法相关数据推荐 视频推荐 二.计算机网络 为什 ...
- GoLang 学习攻略
2019独角兽企业重金招聘Python工程师标准>>> GoLang 学习攻略 Daemon_Shell 关注 2018.06.02 11:04 字数 1180 阅读 1432评论 ...
- 学习攻略|清华大学对外免费开放2000门课程
作者:Tom Hardy Date:2020-02-09 来源:学习攻略|清华大学对外免费开放2000门课程
- 2009.11网络工程师考试案例试题学习攻略(1)
2009.11网络工程师考试案例试题学习攻略(1) 源于在网络工程实践过程中对该领域的喜爱,2005年本人有幸顺利地通过了网络工程师的资格考试,后又顺利地通过了系统分析师的资格考试.之后开始了软考培训 ...
- 网络规划设计师学习攻略(2)
网络规划设计师学习攻略(2) 五.厚积薄发,突破考试难点之论文篇.<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com: ...
最新文章
- Go 学习笔记(28)— nil(nil 不能比较、不是关键字或保留字、nil 没有默认类型、不同类型的 nil 指针是一样的、不同类型的 nil 是不能比较的、相同类型的 nil 可能也无法比较)
- ROS之自定义msg
- Nature子刊:利用转细菌基因植物修复土壤有毒污染物!
- C#中关键字ref与out的区别(转)
- NestedScrollView平滑滑动嵌套 Fling
- 2015 编程之美 八卦的小冰
- 求两条轨迹间的hausdorff距离_圆锥曲线三种定义间的关系
- Oralce删除多个表
- jquery(ajax)+ashx简单开发框架(原创)
- flume的配置和开启
- 山石网科发布重磅容器安全产品“山石云铠”,云安全版图再下一城
- 让IE浏览器支持GreaseMonkey,解除YOBO的禁止下载mp3
- UVALive - 5713 最小生成树
- CCNA考试题库中英文翻译版及答案13
- MySQL学习笔记10(流程控制、函数)
- Linux 返回根目录
- Apache Rewrite 详解 RewriteBase
- 广东计算机非全日制 学校2020,2020非全日制研究生“太坑”,为何这么说?
- Golang Tools
- MPOS in Retail (Dynamics 365 for Operation)
热门文章
- java调用webService方法
- 用python 打开qq自动输入账号密码登陆 (python3 案例1)
- SqlCommand详解以及SqlParameter的两种用法和DataTable基础
- 推荐系统系列 - 引导 - 5类系统推荐算法,非常好使,非常全
- 游戏美术-魔兽世界查看器的正确使用方法
- actviti 工作流核心技术和实战-学习笔记(一)什么是工作流
- eclipse tomcat lomboz的安装配置说明
- android表格布局占满整行,Android布局之表格布局TableLayout详解
- cs服务器网页管理端,sXe服务器端怎么管理
- matlab 中norm函数的用法