点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

在开篇之前,想和大家聊一下机器学习和数据挖掘的关系。

如上图所示数据挖掘只是机器学习中涉猎的领域之一,机器学习还有模式识别、计算机视觉、语音识别、统计学习以及自然语言处理等。

机器学习即 ML,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习作为人工智能研究较为年轻的分支,机器学习也分监督学习和非监督学习,同时随着人工智能越来越被人们重视和越热,深度学习也是机器学习的一个新的领域。

机器学习,从知识清单开始

我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。

只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。

所以我列了一个机器学习入门的知识清单,分别是机器学习的一般流程、十大算法、算法学习的三重境界,以此来开启我们的学习之旅。

一、机器学习的基本流程

引用大佬的解释:

A computer program is said to learn fromexperience E with respect to some task T and some performance measure P,if itsperformance on T,as measured by P,improves with experience E.   —Tom Mitchell

简单来说,机器学习就是针对现实问题,使用我们输入的数据对算法进行训练,算法在训练之后就会生成一个模型,这个模型就是对当前问题通过数据捕捉规律的描述。然后我们将模型进一步导入数据,或者引入新的数据集进行评估,根据结果的好坏反过来调整算法,形成反馈和优化闭环。整个过程机器在不断的学习、训练和优化迭代,这个也是机器学习强大的地方。

二、机器学习的十大算法

为了进行机器学习和数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM(the IEEE International Conference on Data Mining)评选出了十大经典的算法。

按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。

分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART

聚类算法:K-Means,EM

关联分析:Apriori

连接分析:PageRank

1. C4.5

C4.5 算法是得票最高的算法,可以说是十大算法之首。C4.5 是决策树的算法,它创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。它可以说是决策树分类中,具有里程碑式意义的算法。

2. 朴素贝叶斯(NaiveBayes)

朴素贝叶斯模型是基于概率论的原理,它的思想是这样的:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。

3. SVM

SVM 的中文叫支持向量机,英文是 SupportVector Machine,简称 SVM。SVM 在训练中建立了一个超平面的分类模型。

4. KNN

KNN 也叫 K 最近邻算法,英文是 K-Nearest Neighbor。所谓 K 近邻,就是每个样本都可以用它最接近的 K 个邻居来代表。如果一个样本,它的 K 个最接近的邻居都属于分类 A,那么这个样本也属于分类 A。

5. AdaBoost

Adaboost 在训练中建立了一个联合的分类模型。boost 在英文中代表提升的意思,所以 Adaboost 是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器,所以 Adaboost 也是一个常用的分类算法。

6. CART

CART 代表分类和回归树,英文是 Classificationand Regression Trees。像英文一样,它构建了两棵树:一颗是分类树,另一个是回归树。和C4.5 一样,它是一个决策树学习方法。

7. Apriori

Apriori 是一种挖掘关联规则(association rules)的算法,它通过挖掘频繁项集(frequentitem sets)来揭示物品之间的关联关系,被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。

8. K-Means

K-Means 算法是一个聚类算法。你可以这么理解,最终我想把物体划分成 K 类。假设每个类别里面,都有个“中心点”,即意见领袖,它是这个类别的核心。现在我有一个新点要归类,这时候就只要计算这个新点与K 个中心点的距离,距离哪个中心点近,就变成了哪个类别。

9. EM

EM 算法也叫最大期望算法,是求参数的最大似然估计的一种方法。原理是这样的:假设我们想要评估参数 A 和参数 B,在开始状态下二者都是未知的,并且知道了 A 的信息就可以得到 B 的信息,反过来知道了 B 也就得到了 A。可以考虑首先赋予A 某个初值,以此得到 B 的估值,然后从 B 的估值出发,重新估计 A 的取值,这个过程一直持续到收敛为止。

EM 算法经常用于聚类和机器学习领域中。

10. PageRank

PageRank 起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强。同样 PageRank 被 Google 创造性地应用到了网页权重的计算中:当一个页面链出的页面越多,说明这个页面的“参考文献”越多,当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理,我们可以得到网站的权重划分。

算法可以说是机器学习的灵魂,也是最精华的部分。这 10 个经典算法在整个机器学习领域中的得票最高的,后面的一些其他算法也基本上都是在这个基础上进行改进和创新。今天你先对十大算法有一个初步的了解,你只需要做到心中有数就可以了。

三、机器学习的三大境界

1. 掌握算法入口出口

第一重境界,将算法本身是做黑箱,在不知道算法具体原理的情况下能够掌握算法的基本应用情景(有监督、无监督),以及算法的基本使用情景,能够调包实现算法。

2. 理解原理,灵活调优

第二重境界则是能够深入了解、掌握算法原理,并在此基础上明白算法实践过程中的关键技术、核心参数,最好能够利用编程语言手动实现算法,能够解读算法执行结果,并在理解原理的基础上对通过调参对算法进行优化。

3. 融会贯通,设计算法

最后一重境界,实际上也是算法(研发)工程师的主要工作任务,即能够结合业务场景、自身数学基础来进行有针对性的算法研发,此部分工作不仅需要扎实的算法基本原理知识,也需要扎实的编程能力。

总结

今天我列了下学习机器学习你要掌握的知识清单,只有你对机器学习的流程、算法、原理有更深的理解,你才能在实际工作中更好地运用,祝你在机器学习的路上越走越远。

好消息!

小白学视觉知识星球

开始面向外开放啦

学习机器学习的最佳路径是什么相关推荐

  1. 数据分析基础篇16讲之02学习数据挖掘的最佳路径是什么?

    02 学习数据挖掘的最佳路径是什么? 数据挖掘的基本流程分为哪六个步骤? 1. 商业理解:我们要知道数据挖掘不是我们的目的,我们的目的是更好地理解业务,帮助业务,所以首先应从商业角度去理解项目需求,从 ...

  2. 机器学习与分布式机器学习_我如何学习机器学习

    机器学习与分布式机器学习 My experience on How I got started and gradually learned the basics. 我在开始和逐步学习基础方面的经验. ...

  3. 最优控制和轨迹规划学习笔记 包含多个实际案例 主要思路是使用优化算法来找到车辆的最佳路径

    最优控制和轨迹规划学习笔记 包含多个实际案例 倒立摆上翻控制 满足车辆运动学约束的路径规划 离散点参考线优化 lattice横向距离规划 这段代码包含了三个程序,我们将分别对它们进行详细的分析. 最速 ...

  4. 机器学习的最佳入门学习资源

    撸了今年阿里.头条和美团的面试,我有一个重要发现.......>>> 本文由 伯乐在线 - programmer_lin 翻译.未经许可,禁止转载! 英文出处:Jason Brown ...

  5. 机器学习与分布式机器学习_我将如何再次开始学习机器学习(3年以上)

    机器学习与分布式机器学习 重点 (Top highlight) I'm underground, back where it all started. Sitting at the hidden ca ...

  6. 深度学习论文阅读进阶路径图

    ↑ 点击上方[计算机视觉联盟]关注我们 介绍: 列表选自github用户floodsung发起的Deep Learning Papers Reading Roadmap项目,主要目标是收集深度学习论文 ...

  7. python学习机器学习_学习Python的9个理由

    python学习机器学习 Python是所有开发人员的重要编程语言 应该知道. 许多程序员使用这种语言来制作网站, 产生学习算法,并执行不同的必要任务. 的 学习Python的最佳方法始于确定要构建的 ...

  8. 系统学习机器学习之增强学习(二)--马尔可夫决策过程

    参考: http://blog.csdn.net/zz_1215/article/details/44138823 http://www.cnblogs.com/jerrylead/archive/2 ...

  9. 学习机器学习,究竟是理论重要,还是公式推导重要?

    随着近几年机器学习的火爆,其从业门槛也越来越高,以至于出现面试者需要现场手推对数几率回归和手写反向传播代码的情况.不论是对机器学习本身的研究,还是岗位的需求,都需要我们对算法有很深的了解,对公式本质有 ...

最新文章

  1. deepstream-开放式实时服务器
  2. [WP]使用ApacheCordova开发HTML5-WindowsPhone应用程序
  3. 关于STM32的变量定义
  4. Java常量池解析与字符串intern简介
  5. 二分类神经网络的特征光谱---2-3至2-9
  6. 小程序 数据缓存
  7. C++Template 模版的本质
  8. React 18 带给我们的惊喜
  9. java 线程池数量_java线程池及创建多少线程合适
  10. 24.两两交换链表中的节点
  11. 【渝粤教育】国家开放大学2018年春季 7392-21FMatlab语言及其应用 参考试题
  12. 第九批A级物流企业名单[2009年12越24日]
  13. element-ui 引用阿里云矢量图不显示图标,显示的为小方框
  14. 登录双token方案
  15. stm32f103 延时20ns,在STM32上生成C中的纳秒延迟
  16. Sliding Window Maximum
  17. 抓取特定路径下文件 可批量压缩成压缩包 并分享到微信
  18. SQL SERVER 如何调试存储过程
  19. DBCO-C6-COOH|1425485-72-8|是DBCO酸的类似物,具有扩展的6-碳原子间隔臂
  20. [i:]和[i]发音

热门文章

  1. Node的老大难问题:require和import
  2. js实现京东购物放大镜和选项卡效果
  3. 南安普顿大学计算机专业如何,南安普顿大学计算机专业,南安最值得读的专业之一!...
  4. 使用kubespary安装k8s集群
  5. linux点唱机安装教程,咪哒Minik移动ktv点唱机安装教程(文字版)
  6. 你知道哪些或者你们线上使用什么GC策略? 它有什么优势,适用于什么场景?
  7. Ubuntu 安装 netbeans 及遇到 not all requested modules can be enabled 问题、配置C/C++环境问题
  8. 【计导非课系列】 第五节 二进制 进制计算 编码
  9. 渗透测试 --- 方法论
  10. 如何通过重写hashCode()方法将偏向锁性能提高4倍?