来源:机器学习实验室

机器学习

Author:louwill

Machine Learning Lab

本文总共涉及了26种机器学习模型与算法,几乎涵盖了全部主流的机器学习算法。包括:

  • 线性回归、逻辑回归、Lasso回归、Ridge回归、线性判别分析

  • K近邻、决策树、感知机、神经网络、支持向量机

  • AdaBoost、GBDT、XGBoost、LightGBM、CatBoost、随机森林

  • 聚类算法与kmeans、主成分分析、奇异值分解

  • 最大信息熵、朴素贝叶斯、贝叶斯网络、EM算法

  • 隐马尔可夫模型、条件随机场、马尔可夫链蒙特卡洛方法。

其中决策树、神经网络、支持向量机和聚类算法都各自代表了一个大类算法,比如说决策树具体包括ID3、C4.5和CART,神经网络包括DNN、CNN或者是RNN等其他网络模型,这里仅对大类算法做区分。

下面我们分别从单模型和集成学习模型、监督学习和无监督学习模型和判别式模型和生成式模型、概率模型和非概率模型等多个维度来讨论本书所涉及到的26个算法。

图1 机器学习模型知识体系

单模型与集成模型

从模型的个数和性质角度来看,我们可以将机器学习模型划分为单模型(single model)和集成模型(ensemble model)。

所谓单模型,是指机器学习模型仅包括一个模型,以某种模型独立进行训练和验证使用的。本书监督学习模型中大多数模型都可以算作单模型,包括线性回归、逻辑回归、Lasso回归、Ridge回归、线性判别分析、近邻、决策树、感知机、神经网络、支持向量机和朴素贝叶斯等。

与单模型相对立的,就是集成模型集成模型就是将多个单模型进行组合构成一个强模型,这个强模型能取所有单模型之所长,达到一个相对的最佳性能。

集成模型中的单模型既可以是同种类别的,也可以是不同类别的,总体呈现一种“多而不同”的特征。常用的集成模型包括Boosting和Bagging两大类,主要包括AdaBoost、GBDT、XGBoost、LightGBM、CatBoost和随机森林等模型。单模型和集成模型分类如图2所示。

图2 单模型与集成模型

监督模型与无监督模型

监督模型(supervised model)和无监督模型(unsupervised model)代表了机器学习模型的最典型划分方式,几乎所有的模型都可以归类到这两类模型当中。

监督模型是指模型在训练过程中根据数据输入和输出进行学习,监督学习模型包括分类(classification)、回归(regression)和标注(tagging)等模型。

无监督模型是指从无标注的数据中学习得到模型,主要包括聚类(clustering)、降维(dimensionality reduction)和一些概率估计模型

图2中所有的单模型和集成模型都是监督模型,以及图1中的一部分概率模型也属于监督模型,包括隐马尔可夫模型和条件随机场,它们属于监督模型中的标注模型。

无监督模型主要包括kmeans聚类、谱聚类和层次聚类等一些聚类模型,以及主成分分析和奇异值分解等降维模型。

另外,马尔可夫链蒙特卡洛方法也可以作为一种概率无监督模型。监督模型和无监督模型的划分如图3所示。

图3 监督模型与无监督模型

生成式模型和判别式模型

监督模型在机器学习模型中占主要部分,针对监督模型,我们又可以根据其模型学习方式将其分为生成式模型(generative model)和判别式模型(discriminative model)。

生成式模型的学习特点在于学习数据的联合概率分布,然后基于联合分布求条件概率分布作为预测模型。如下式所示。

常用的生成式模型包括朴素贝叶斯、隐马尔可夫模型以及隐含狄利克雷分布模型等。

判别式模型的学习特点在于基于数据直接学习决策函数或者条件概率分布作为预测模型,判别式模型关心的是对于给定的输入,应该预测出什么样的。

常用的判别式模型有很多,像线性回归、逻辑回归、Lasso回归、Ridge回归、线性判别分析、近邻、决策树、感知机、神经网络、支持向量机、最大信息熵模型、全部集成模型以及条件随机场等,都属于判别式模型。

生成式与判别式模型划分如图4所示。

图4 生成式模型与判别式模型

概率模型与非概率模型

机器学习模型还有一种根据模型函数是否为概率模型的方式,将机器学习模型分为概率模型(probabilistic model)和非概率模型(non-probabilistic model)。通过对输入和输出之间的联合概率分布和条件概率分布进行建模的机器学习模型,都可以称之为概率模型。而通过对决策函数建模的机器学习模型,即为非概率模型。

常用的概率模型包括朴素贝叶斯、隐马尔可夫模型、贝叶斯网络和马尔可夫链蒙特卡洛等,而线性回归、近邻、支持向量机、神经网络以及集成模型都可以算是非概率模型。

需要注意的是,概率模型与非概率模型的划分并不绝对,有时候有些机器学习模型既可以表示为概率模型,也可以表示为非概率模型。比如说决策树、逻辑回归、最大熵模型和条件随机场等模型,就兼具概率模型和非概率模型两种解释。概率模型和非概率模型的划分如图5所示。

图5 概率模型与非概率模型

-------- End --------
精选内容图解Pandas-图文01-数据结构介绍图解Pandas-图文02-创建数据对象图解Pandas-图文03-读取和存储Excel文件图解Pandas-图文04-常见的数据访问图解Pandas-图文05-常见的数据运算图解Pandas-图文06-常见的数学计算图解Pandas-图文07-常见的数据统计图解Pandas-图文08-常见的数据筛选

干货| 机器学习模型与算法最全分类汇总!相关推荐

  1. 收藏 | 机器学习模型与算法最全分类汇总!

    题图 | AltumCode 机器学习模型与算法包括线性回归.对数几率回归.LASSO回归.Ridge回归.LDA.k近邻.决策树.感知机.神经网络.支持向量机.AdaBoost.GBDT.XGBoo ...

  2. 机器学习十大算法之-CART分类决策树、回归树和模型树

    转载(http://blog.163.com/zhoulili1987619@126/blog/static/35308201201542731455261/) Classification And ...

  3. 干货 | 机器学习模型在携程海外酒店推荐场景中的应用

    "关于作者:Louisa,携程算法工程师,热爱前沿算法和技术在个性化推荐和广告建模等业务的性能优化和落地. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 导读 互联网企业的核心需求是& ...

  4. 关于机器学习模型的可解释性算法!

     模型可解释性汇总 简 介 目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果.这是非常致命的,因为如果我 ...

  5. 5 大常用机器学习模型类型总结

    本文介绍了 5 大常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型.我们希望本文可以做到以下三点: 1.应用性. 涉及到应用问 ...

  6. [机器学习][1]--PLA算法

    [机器学习][1]--PLA算法     PLA全称为,Perception Learning Algorithm,中文叫感知学习算法.今天我会简单介绍一下这个算法,并用mathematica来实现一 ...

  7. 用Python搭建机器学习模型预测房租价格

    毫无疑问,机器学习是当前大数据分析中最热门的话题.这也是一些最令人兴奋的技术领域的基本概念,例如自动驾驶汽车和预测分析.百度上的机器学习搜索在2019年4月创历史新高,自此以来兴趣一直没有下降. 但是 ...

  8. 干货:机器学习模型训练全流程!

    [提醒:公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看,或者把本号置顶] 正文开始 周末在家无聊闲逛github,发现一个很有趣的开源项目,作者用手绘图的方式讲解了机器学习模型构建的全流 ...

  9. python训练模型、如何得到模型训练总时长_【绝对干货】机器学习模型训练全流程!...

    周末在家无聊闲逛github,发现一个很有趣的开源项目,作者用手绘图的方式讲解了机器学习模型构建的全流程,逻辑清晰.生动形象.同时,作者也对几张图进行了详细的讲解,学习之后,收获很多,于是将其翻译下来 ...

  10. 全网最全:机器学习算法模型自动超参数优化方法汇总

    什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter).还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper ...

最新文章

  1. linux下定时器实现
  2. Ubuntu系统Apache2部署SSL证书
  3. How is CRM status filtering logic done
  4. Rails 3:提高Ajax应用速度
  5. 设树采用孩子兄弟表示法存放.用类c语言设计算法计算树的高度.,(数据结构课程设计分类题目.doc...
  6. l298n电机哪一端为正_L298N使用说明介绍
  7. 如何将Web of Science中的题录及文章导入NoteExpress?
  8. [Windows] ISCSI发起程序实例不存在
  9. 世界上最权威的68句创业名言
  10. Kettle-时间维度的生成
  11. 可视化绘图技巧100篇分析篇(一)-数据降维NMDS分析(补充篇)
  12. PHP实现文件上传功能实例代码
  13. ora**cle数据库过期问题
  14. android打开app白色页面,完美解决Android App启动页有白屏闪过的问题
  15. win7虚拟机使用nat模式配置静态IP上网
  16. wltp和nedc续航差多少_WLTP续航和NEDC续航差多少
  17. steam同乐无法连接远程计算机,Steam远程同乐功能怎么使用_Steam远程同乐功能使用方法_3DM单机...
  18. PyQt学习随笔:QWidget的QFont的kerning、Antialiasing属性用途
  19. 高中计算机学考试卷,北京市西城区 2018 年普通高中学业水平考试 信息技术试卷及答案 (PDF版)...
  20. Prometheus节点失联后CPU使用率不准确

热门文章

  1. R|广义线性模型知识点归纳
  2. 简述网卡的作用和工作原理_网卡驱动是什么,它的作用及工作原理介绍
  3. 虚拟化部署ESXI6.7+intel x710-da4万兆网卡
  4. AndRoid studio创建APP图标
  5. 渗透测试工程师可以写进简历的技能介绍部分
  6. 人声歌姬语音合成器+72个歌手音源拓展 – YAMAHA Vocaloid 5 ESV 5.0.3 + LIBRARIES MacOS
  7. 【BUUCTF】[SWPU2019]神奇的二维码
  8. 一个便捷的在线取色器工具
  9. web技术分享| WebRTC控制摄像机平移、倾斜和缩放
  10. iText - OCR 截图识字 - 新版小幅更新