作者简介: Matthew Mayo 翻译:王鹏宇

开始。这是最容易令人丧失斗志的两个字。迈出第一步通常最艰难。当可以选择的方向太多时,就更让人两腿发软了。

从哪里开始?

本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python 机器学习知识,直至成为博学的机器学习实践者。这篇概述的主要目的是带领读者接触众多免费的学习资源。这些资源有很多,但哪些是最好的?哪些相互补充?怎样的学习顺序才最好?

我假定本文的读者不是以下任何领域的专家:

机器学习

Python

任何Python的机器学习、科学计算、数据分析库

如果你有前两个领域其一或全部的基础知识,可能会很有帮助,但这些也不是必需的。在下面几个步骤中的前几项多花点时间就可以弥补。

第一步:基本 Python 技能

如果要使用 Python 进行机器学习,拥有对 Python 有基础的理解非常关键。幸运的是,Python 是当前普遍使用的流行语言,并纳入了科学计算和机器学习的内容,所以找到入门教程并不困难。在选择起点时,很大程度上要取决于你之前的 Python 经验和编程经验。

首先要安装 Python 。由于我们要使用机器学习和科学计算的 packages ,这里建议安装 Anaconda 。Anaconda 是一个可在 Linux , OSX , Windows 上运行的 Python 实现工具,拥有所需的机器学习 packages ,包括 numpy,scikit-learn,matplotlib。它还包含iPython Notebook ,一个带有许多教程的交互式环境。这里推荐使用 Python 2.7 ,不是因为特殊原因,只是因为它是目前安装版本中的主流。

如果你之前没有编程知识,建议你阅读这本免费电子书,然后再接触其他学习材料:

如果你之前有编程知识,但不是Python的,又或者你的Python水平很基础,推荐下列一种或几种教程:

对于想要速成课程的人,这里有:

当然,如果你是个经验丰富的Python程序员,可以跳过这一步。尽管如此,还是建议你把通俗易懂的 Python documentation 放在手边。

第二步:机器学习基础技能

KDnuggets 的 Zachary Lipton 指出,人们对于“数据科学家”的认知千差万别。这实际上是对机器学习领域的反映。数据科学家在不同程度上使用计算学习算法。要建立和使用支持向量机模型,熟知 核函数方法是否是必需的? 答案当然不是。就像现实生活中的许多事情一样,所需要的理论深入程度与具体的实际应用有关。获取对机器学习算法的深入理解不是本文的讨论范围, 而且这通常需要在学术领域投入大量时间,或者至少要通过密集的自学才能达到。

好消息是,你不必拥有博士级别的机器学习理论能力才能进行实践,就如同不是所有程序员都必须接受计算机理论教育才能写好代码。

吴恩达在 Coursera 的课程饱受赞誉。但我的建议是去看看一名以前的学生做的笔记。略过那些针对 Octave(一个与 Python 无关的,类 Matlab 语言)的内容。需要注意,这些不是“官方”的笔记,虽然看起来的确抓住了吴恩达课程材料的相关内容。如果你有时间,可以自己去 Coursera 完成这个课程 : Andrew Ng’s Machine Learning course 。

除了吴恩达的课程以外,还有很多其他视频教程。我是Tom Mitchell的粉丝,下面是他(与Maria-Florina Balcan共同完成的)最新的课程视频,对学习者非常友好:

你不需要现在看完全部的笔记和视频。比较好的策略是向前推进,去做下面的练习,需要的时候再查阅笔记和视频。比如,你要做一个回归模型,就可以去查阅吴恩达课程有关回归的笔记以及/或者Mitchell的视频。

第三步:科学计算 Python packages 一览

好了。现在我们有了 Python 编程经验,并对机器学习有所了解。Python 有很多为机器学习提供便利的开源库。通常它们被称为Python科学库( scientific Python libraries ),用以执行基本的数据科学任务(这里有一点程度主观色彩):

numpy – 主要用于N维数组

pandas – Python数据分析库,包含dataframe等结构

matplotlib – 2D绘图库,产出质量足以进行印刷的图

scikit-learn – 数据分析、数据挖掘任务使用的机器学习算法

学习以上这些内容可以使用:

Scipy Lecture Notes 作者 Gaël Varoquaux, Emmanuelle Gouillart, Olav Vahtras

下面这个pandas教程也不错,贴近主题:

在后面的教程中你会看到其他一些packages,比如包括Seaborn,一个基于matplotlib的可视化库。前面提到的packages (再次承认具有一定主观色彩)是许多Python机器学习任务的核心工具。不过,理解它们也可以让你在之后的教程中更好理解其他相关packages。

好了,现在到了有意思的部分…..

第四步:开始用Python进行机器学习

Python。搞定。

机器学习基础。搞定。

Numpy。搞定。

Pandas。搞定。

Matplotlib。搞定。

是时候用Python的标准机器学习库,scikit-learn,实现机器学习算法了。

scikit-learn 算法选择图

下面许多教程和练习都基于交互式环境iPython (Jupyter) Notebook。这些iPython Notebooks有些可以在网上观看,有些可以下载到本地电脑。

也请注意下面的资源来自网络。所有资源属于作者。如果出于某种原因,你发现有作者没有被提及,请告知我,我会尽快改正。在此特别要向 Jake VanderPlas , Randal Olson , Donne Martin , Kevin Markham , Colin Raffel 致敬,感谢他们提供的优秀免费资源。

下面是scikit-learn的入门教程。在进行下一个步骤之前,推荐做完下列全部教程。

对于scikit-learn的整体介绍,它是Python最常用的通用机器学习库,包含knn最近邻算法:

更深入更宽泛的介绍,包含一个新手项目,从头到尾使用一个著名的数据集:

Example Machine Learning Notebook 作者Randal Olson

专注于scikit-learn中评估不同模型的策略,涉及训练集/测试集拆分:

Model Evaluation 作者 Kevin Markham

第五步:Python机器学习主题

在scikit-learn打下基础以后,我们可以探索更多有用的常见算法。让我们从最知名的机器学习算法之一,k-means聚类开始。对于无监督学习问题,k-means通常简单有效:

接下来是分类,让我们看看史上最流行的分类方法之一,决策树:

分类之后,是连续数字变量的预测:

Linear Regression 作者 Jake VanderPlas

通过逻辑斯蒂回归,我们可以用回归解决分类问题:

第六步:Python高级机器学习

接触过scikit-learn,现在让我们把注意力转向更高级的内容。首先是支持向量机,一个无需线性的分类器,它依赖复杂的数据转换,把数据投向高维空间。

接下来是随机森林,一种集成分类器。下面的教程通过 Kaggle Titanic Competition 讲解。

降维是一种减少问题涉及的变量数目的方法。PCA主成分分析是一种无监督学习降维的特殊形式:

Dimensionality Reduction 作者 Jake VanderPlas

在开始下一步之前,可以暂停一下,回想我们在短短的时间已经走了多远。

通过使用Python和它的机器学习库,我们涵盖了一些最常用最知名的机器学习算法(knn最近邻,k-means聚类,支持向量机),了解了一种强有力的集成方法(随机森林),涉及了一些其他机器学习支持方案(降维,模型验证技巧)。在一些基础机器学习的技巧的帮助下,我们开始有了一个渐渐丰富的工具箱。

在结束以前,让我们给工具箱增加一个需求很大的工具:

第七步 :Python深度学习

学习,深深地 。

到处都在深度学习!深度学习基于过去几十年的神经网络研究,但最近几年的发展大大增加了深度神经网络的能力和对于它的兴趣。如果你不熟悉深度学习, KDnuggets 有 许多文章 ,详细介绍最近的进展、成果,以及对这项技术的赞誉。

本文的最后一部分并不想成为某种深度学习示范教程。我们会关注基于两个Python深度学习库的简单应用。对于想了解更多的读者,我推荐下面这本免费在线书:

Theano

Theano是我们关注的第一个Python深度学习库。根据作者所说:

作为一个Python库,Theano让你可以有效定义、优化、评估包含多维数组的数学表达式。

下面的Theano深度学习教程很长,但非常不错,描述详细,有大量评论:

Caffe

我们关注的另一个库是Caffe。根据它的作者所说:

Caffe是一个深度学习框架。开发过程中时刻考虑着表达式、速度、模型。 它是由Berkeley Vision and Learning Center (BVLC) 和社区贡献者共同开发的。

这个教程是本文的压轴。尽管上面列举了一些有趣的案例,没有那个比得上下面这个:用Caffe实现 Google 的 #DeepDream 。希望你喜欢!理解这个教程以后,尽情玩乐,让你的处理器开始自己做梦吧。

我不敢保证Python机器学习是速成的或简单的。但只要投入时间,遵循这七个步骤,你无疑会对于这个领域拥有足够的熟练度和理解,会使用流行的Python库实现许多机器学习算法,甚至当今深度学习领域的前沿内容。

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 七步精通Python机器学习

只精通python_七步精通Python机器学习--转载相关推荐

  1. 七步精通Python机器学习

    开始.这是最容易令人丧失斗志的两个字.迈出第一步通常最艰难.当可以选择的方向太多时,就更让人两腿发软了. 从哪里开始? 本文旨在通过七个步骤,使用全部免费的线上资料,帮助新人获取最基本的 Python ...

  2. 12面魔方公式图解法_一位建筑工程师:多年渴望就是学会魔方还原,只按这七步就可以!...

    本人性别男,年龄47岁,一位建筑工程师,性格开朗,喜欢学习,2013年在网上搜索记忆关键词,从此开始了学习超级记忆和思维导图之路!也因此,接触了魔方! 初学魔方,我就制定了魔方学习计划,计划7天完成魔 ...

  3. 机器学习 python_送书 | 深入浅出Python机器学习

    大家好,我是村长,  为了感谢您一直以来的关注与支持,给大家送了点福利! 以后每周三都会送免费送技术书!您有哪方面技术书籍的需求,也可以微信告诉我~~本周送的书籍如下,后台回复 送书 参与 书籍简介 ...

  4. 只需十四步:从零开始掌握 Python 机器学习(附资源)

    分享一篇来自机器之心的文章.关于机器学习的起步,讲的还是很清楚的.原文链接在:只需十四步:从零开始掌握Python机器学习(附资源) Python 可以说是现在最流行的机器学习语言,而且你也能在网上找 ...

  5. learnpythonthehardway下载_只需十四步:从零开始掌握Python机器学习(附资源)

    Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源.你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习, ...

  6. 从零开始掌握Python机器学习:七步教程 基础篇

    前言 「开始」往往是最难的,尤其是当选择太多的时候,一个人往往很难下定决定做出选择.本教程的目的是帮助几乎没有 Python 机器学习背景的新手成长为知识渊博的实践者,而且这个过程中仅需要使用免费的材 ...

  7. 【干货】社群经济---从构建社群到运营只需七步

    2019独角兽企业重金招聘Python工程师标准>>> 社群在近两年被创业者.互联网运营者们高密度的提及,但除了已经成功实现商业变现的罗辑思维.新世相.分答等,至今还没有一个对社群构 ...

  8. 从零开始掌握Python机器学习(附资源)

    从零开始掌握Python机器学习(附资源) 机器之心 2017-03-14 14:29 选自kdnuggets 作者:Matthew Mayo Python 可以说是现在最流行的机器学习语言,而且你也 ...

  9. 从零开始掌握Python机器学习(附不可错过的资源)

    人工智能AI与大数据技术实战  公众号: weic2c 基础篇 第一步:基本 Python 技能 如果我们打算利用 Python 来执行机器学习,那么对 Python 有一些基本的了解就是至关重要的. ...

最新文章

  1. 天哪!我的十一假期被AI操控了
  2. 谷歌如何利用人工智能重塑美国医疗行业?
  3. 《大话设计模式》第29章-OOTV杯超级模式大赛—模式总结(一)
  4. java解压zip异常_zip 文件解压缩问题解决 java.util.zip.ZipException:error in opening zip file | 学步园...
  5. 【Zigbee】进阶篇(2) Zigbee协议栈中OSAL的执行流程
  6. App在appStore上搜索不到的解决方案
  7. html中如何改变鼠标样式,HTML中常用鼠标样式
  8. 权力的游戏中文字幕词云图
  9. 用C语言求解一元二次方程组
  10. 宝藏动植物元素矢量图素材,速来收藏
  11. python编写规范
  12. 《Imaging Systems For Medical Diagnostics》——12. X-ray components and systems (3) X射线组件和系统(3)
  13. 桌面计算机里没有桌面显示不出来怎么办,电脑桌面图标不显示怎么设置|恢复电脑桌面图标的方法...
  14. UML--顺序图绘制
  15. 倍福--ip地址修改
  16. JavaScript pink老师学习内容详解
  17. Python中低维数组填充高维数组
  18. 计算机手绘图软件,openCanvas
  19. JSP Taglib指令具有什么功能呢?
  20. 双时格林函数演练总结

热门文章

  1. Gstreamer之audio转码(二十三)
  2. Ubuntu报错:E: The repository http://ppa.launchpad.net/fcitx-team does not have a Release file.
  3. Ubuntu18.04安装npm失败解决
  4. Mac IDA单步调试本地程序
  5. 添加native和java系统服务
  6. TCP/IP协议详解、TCP三次握手
  7. python 防破解_Python 程序员如何防止数据被修改?
  8. SpringBoot 笔记
  9. CentOS7安装MySQL 8.0安装
  10. Android设备间通信(wifi连接)