集成学习(Ensemble Learning)通过构建并结合多个学习器来完成学习任务。

上图为集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。

个体学习器通常由一个现有的学习算法从训练数据产生。如C4.5决策树算法、BP神经网络等。

集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树,“神经网络集成”中全是神经网络,这样的集成是“同质”的。

同质集成中的个体学习也称为“基学习器”,相应的学习算法称为“基学习算法”。

集成中也可以包含不同类型的个体学习器,例如同时包含决策树和神经网络,这样的集成是“异质”的。

异质集成中的个体学习器由不同的学习算法生成,这时就不再有基学习算法;相应的,个体学习器一般不称为基学习器,常称为“组件学习器”或直接称为个体学习器。

集成学习通过将多个学习器进行组合,常可获得比单一学习器显著优越的泛化性能。

那如何获得比单一学习器更好的性能呢?

比如上述这个例子:集成学习通过投票法(voting)产生,即“少数服从多数”。 (hi是分类器)

图(a),每个分类器只有66.6%的精度,但集成学习达到了100%;

图(b),三个分类器没有差别。集成后性能没有提高;

图(c),每个分类器的精度只有33.3%,集成学习的结果变得更糟。

得出:要获得好的集成,个体学习器应“好而不同”。即个体学习器有一定的“准确性”,即学习器不能太坏,并且要有“多样性”,即学习器间要具有差异。

考虑二分类问题和真实函数f,假定基分类器的错误率为,即每个基分类器有:

假定集成通过简单投票法结合T个分类器,若有超过半数的基分类器正确,则集成分类就正确:

假设基分类器的错误率相互独立,则由Hoeffding不等式可知,集成的错误率为:

之后接着进行推导,设X为T个基分类器正确分类的次数,xi为单个分类器分类正确的次数。

,所以 

(因为假设上注明:超半数分类正确,不超半数即为分类错误)

由Hoeffding不等式可知:

则将上式变化为:

令m=T, ,则

上式可以得出,随着集成中个体分类数目T的增大,集成的错误率将指数级下降,最终趋于零。

然而需要注意:上面有一个关键假设:基学习器的误差相互独立。在现实任务中,个体学习分类器是为解决同一个问题训练出来的,它们显然不可能相互独立。而且一般的,准确率很高以后,要增加多样性就要牺牲准确性。

事实上,如何产生并结合“好而不同”的个体学习器,恰是集成学习研究的核心。

根据个体学习器的生成方式,目前的集成学习方法大致分为两类:

一:个体学习器间存在强依赖关系,必须串行生成的序列化方法(代表:Boosting)

二:个体学习器间不存在强依赖关系,可同时生成的并行化方法(代表:Bagging和随机森林)

机器学习算法——集成学习1(个体与集成)相关推荐

  1. 【直播】李祖贤:集成学习答疑直播之八-- 集成知识点回顾与补充

    集成学习答疑直播之八-- 集成知识点回顾与补充 集成学习是首个横跨3个周期的长期组队学习,在第25期组队学习中进行到"第三期-模型融合与数据实战"阶段.组队学习期间,课程设计者每周 ...

  2. 机器学习没有捷径,根据机器学习算法地图学习是最有效的一种方式!

    <机器学习与应用>由清华大学出版社出版,是机器学习和深度学习领域又一高质量的入门与提高教材.该书系统.深入地讲述了机器学习与深度学习的主要方法与理论,并紧密结合工程实践与应用. https ...

  3. GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)

    目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...

  4. h2o机器学习算法框架学习总结

    H2O 官网:http://www.h2o.ai/ H2o开源的机器学习框架,支持glm,rf,gbm,深度学习等算法,借助hadoop spark计算平台,实现large scale 机器学习 H2 ...

  5. 机器学习算法——强化学习

    2016 年 3 月,谷歌公司 DeepMind 团队的 AlphaGo 以 4 比 1 战胜第 18 届世界围棋冠军李世石,这是一场具有历史意义的比赛. 图 1 围棋落子位置种类 让电脑学会下围棋是 ...

  6. 机器学习 | 基础通俗讲解集成学习算法!

    来源:Datawhale 本文约6000字,建议阅读10+分钟 本文以图文的形式对模型算法中的集成学习,以及对集中学习在深度学习中的应用进行了详细解读. 标签:机器学习 数据及背景 阿里天池-零基础入 ...

  7. 【机器学习基础】通俗讲解集成学习算法!

    作者:黄星源,Datawhale优秀学习者 本文以图文的形式对模型算法中的集成学习,以及对集中学习在深度学习中的应用进行了详细解读. 数据及背景 https://tianchi.aliyun.com/ ...

  8. 【机器学习 深度学习】通俗讲解集成学习算法

    目录:集成学习 一.机器学习中的集成学习 1.1 定义 1.2 分类器(Classifier) 1.2.1 决策树分类器 1.2.2 朴素贝叶斯分类器 1.2.3 AdaBoost算法 1.2.4 支 ...

  9. 通俗讲解集成学习算法!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:黄星源,Datawhale优秀学习者 本文以图文的形式对模型算法中 ...

  10. 周志华教授专著《集成学习:基础与算法》上市,破解AI实践难题

    [ 摘要 ]<集成学习:基础与算法>上市一周,斩获京东IT新书销量榜第一名桂冠,并拿下京东IT图书销量总榜第二名的惊人成绩. 文中有数据派独家福利哦 本书共读活动已正式开启,文末加入读者交 ...

最新文章

  1. 24点游戏c语言链表做法,C语言实现24点程序(示例代码)
  2. 小程序云开发,订阅消息定时批量发送实现代码
  3. leetcode-34-在排序数组中查找元素的第一个和最后一个位置
  4. 大型企业网络系统传输负载测试及分析
  5. HTML5--本地存储Web Storage
  6. linux pm2功能说明,PM2介绍及简易使用手册
  7. 笔画输入法6.8豪华版 破解版
  8. cs61b实验记录(一)Lab2、Lab3
  9. 共享文件计算机和设备拒绝访问,共享文件夹无法访问、设置文件夹访问权限、共享文件夹拒绝访问的解决方法...
  10. MATLAB实现对比度计算
  11. 讲解VR全景拍摄相机光圈、感光度和快门的作用
  12. 基于at89c51单片机的led数字倒计时器设计c语言,基于AT89C51单片机的LED数字倒计时器设计.docx...
  13. P1540 机器翻译洛谷题解
  14. Android 集成环信客服云
  15. 后现代婚礼机器人显神通_看机器人“各显神通”
  16. SQL 中INSERT INTO 的使用方法
  17. Android中错误Annotation processors must be explicitly declared now. The following dependencies on the
  18. 【Redis】Info Stats - 监控使用情况
  19. 我的酷派大神1S 9976t的刷机过程
  20. 12月英语计算机统考时间,网络教育2019年12月统考时间与统考科目

热门文章

  1. vue项目将px转为rem实践
  2. 成人的世界,时间也是一种昂贵的成本
  3. 北航计算机学院教授马帅,北航离散数学大一课件(马帅)指南.pdf
  4. 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术
  5. 二值形态学之击中击不中变换
  6. Guitar Pro8.1吉他谱神器下载及简谱功能
  7. 多模态模型 CLIP4Clip 带你实现文本与视频互搜
  8. SpringCloud微服务,euraka、feign、hystrix组件学习
  9. 2014.03.31_一年很快过去了
  10. 程序员必看:一款巨好用的免费简历“神器”(据说有了它,再也不发愁找工作啦!)