机器学习算法——集成学习1(个体与集成)
集成学习(Ensemble Learning)通过构建并结合多个学习器来完成学习任务。
上图为集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。
个体学习器通常由一个现有的学习算法从训练数据产生。如C4.5决策树算法、BP神经网络等。
集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树,“神经网络集成”中全是神经网络,这样的集成是“同质”的。
同质集成中的个体学习也称为“基学习器”,相应的学习算法称为“基学习算法”。
集成中也可以包含不同类型的个体学习器,例如同时包含决策树和神经网络,这样的集成是“异质”的。
异质集成中的个体学习器由不同的学习算法生成,这时就不再有基学习算法;相应的,个体学习器一般不称为基学习器,常称为“组件学习器”或直接称为个体学习器。
集成学习通过将多个学习器进行组合,常可获得比单一学习器显著优越的泛化性能。
那如何获得比单一学习器更好的性能呢?
比如上述这个例子:集成学习通过投票法(voting)产生,即“少数服从多数”。 (hi是分类器)
图(a),每个分类器只有66.6%的精度,但集成学习达到了100%;
图(b),三个分类器没有差别。集成后性能没有提高;
图(c),每个分类器的精度只有33.3%,集成学习的结果变得更糟。
得出:要获得好的集成,个体学习器应“好而不同”。即个体学习器有一定的“准确性”,即学习器不能太坏,并且要有“多样性”,即学习器间要具有差异。
考虑二分类问题和真实函数f,假定基分类器的错误率为
,即每个基分类器
有:
假定集成通过简单投票法结合T个分类器,若有超过半数的基分类器正确,则集成分类就正确:
假设基分类器的错误率相互独立,则由Hoeffding不等式可知,集成的错误率为:
之后接着进行推导,设X为T个基分类器正确分类的次数,xi为单个分类器分类正确的次数。
则,所以
(因为假设上注明:超半数分类正确,不超半数即为分类错误)
由Hoeffding不等式可知:
则将上式变化为:
令m=T, ,则
上式可以得出,随着集成中个体分类数目T的增大,集成的错误率将指数级下降,最终趋于零。
然而需要注意:上面有一个关键假设:基学习器的误差相互独立。在现实任务中,个体学习分类器是为解决同一个问题训练出来的,它们显然不可能相互独立。而且一般的,准确率很高以后,要增加多样性就要牺牲准确性。
事实上,如何产生并结合“好而不同”的个体学习器,恰是集成学习研究的核心。
根据个体学习器的生成方式,目前的集成学习方法大致分为两类:
一:个体学习器间存在强依赖关系,必须串行生成的序列化方法(代表:Boosting)
二:个体学习器间不存在强依赖关系,可同时生成的并行化方法(代表:Bagging和随机森林)
机器学习算法——集成学习1(个体与集成)相关推荐
- 【直播】李祖贤:集成学习答疑直播之八-- 集成知识点回顾与补充
集成学习答疑直播之八-- 集成知识点回顾与补充 集成学习是首个横跨3个周期的长期组队学习,在第25期组队学习中进行到"第三期-模型融合与数据实战"阶段.组队学习期间,课程设计者每周 ...
- 机器学习没有捷径,根据机器学习算法地图学习是最有效的一种方式!
<机器学习与应用>由清华大学出版社出版,是机器学习和深度学习领域又一高质量的入门与提高教材.该书系统.深入地讲述了机器学习与深度学习的主要方法与理论,并紧密结合工程实践与应用. https ...
- GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)
目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...
- h2o机器学习算法框架学习总结
H2O 官网:http://www.h2o.ai/ H2o开源的机器学习框架,支持glm,rf,gbm,深度学习等算法,借助hadoop spark计算平台,实现large scale 机器学习 H2 ...
- 机器学习算法——强化学习
2016 年 3 月,谷歌公司 DeepMind 团队的 AlphaGo 以 4 比 1 战胜第 18 届世界围棋冠军李世石,这是一场具有历史意义的比赛. 图 1 围棋落子位置种类 让电脑学会下围棋是 ...
- 机器学习 | 基础通俗讲解集成学习算法!
来源:Datawhale 本文约6000字,建议阅读10+分钟 本文以图文的形式对模型算法中的集成学习,以及对集中学习在深度学习中的应用进行了详细解读. 标签:机器学习 数据及背景 阿里天池-零基础入 ...
- 【机器学习基础】通俗讲解集成学习算法!
作者:黄星源,Datawhale优秀学习者 本文以图文的形式对模型算法中的集成学习,以及对集中学习在深度学习中的应用进行了详细解读. 数据及背景 https://tianchi.aliyun.com/ ...
- 【机器学习 深度学习】通俗讲解集成学习算法
目录:集成学习 一.机器学习中的集成学习 1.1 定义 1.2 分类器(Classifier) 1.2.1 决策树分类器 1.2.2 朴素贝叶斯分类器 1.2.3 AdaBoost算法 1.2.4 支 ...
- 通俗讲解集成学习算法!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:黄星源,Datawhale优秀学习者 本文以图文的形式对模型算法中 ...
- 周志华教授专著《集成学习:基础与算法》上市,破解AI实践难题
[ 摘要 ]<集成学习:基础与算法>上市一周,斩获京东IT新书销量榜第一名桂冠,并拿下京东IT图书销量总榜第二名的惊人成绩. 文中有数据派独家福利哦 本书共读活动已正式开启,文末加入读者交 ...
最新文章
- 24点游戏c语言链表做法,C语言实现24点程序(示例代码)
- 小程序云开发,订阅消息定时批量发送实现代码
- leetcode-34-在排序数组中查找元素的第一个和最后一个位置
- 大型企业网络系统传输负载测试及分析
- HTML5--本地存储Web Storage
- linux pm2功能说明,PM2介绍及简易使用手册
- 笔画输入法6.8豪华版 破解版
- cs61b实验记录(一)Lab2、Lab3
- 共享文件计算机和设备拒绝访问,共享文件夹无法访问、设置文件夹访问权限、共享文件夹拒绝访问的解决方法...
- MATLAB实现对比度计算
- 讲解VR全景拍摄相机光圈、感光度和快门的作用
- 基于at89c51单片机的led数字倒计时器设计c语言,基于AT89C51单片机的LED数字倒计时器设计.docx...
- P1540 机器翻译洛谷题解
- Android 集成环信客服云
- 后现代婚礼机器人显神通_看机器人“各显神通”
- SQL 中INSERT INTO 的使用方法
- Android中错误Annotation processors must be explicitly declared now. The following dependencies on the
- 【Redis】Info Stats - 监控使用情况
- 我的酷派大神1S 9976t的刷机过程
- 12月英语计算机统考时间,网络教育2019年12月统考时间与统考科目
热门文章
- vue项目将px转为rem实践
- 成人的世界,时间也是一种昂贵的成本
- 北航计算机学院教授马帅,北航离散数学大一课件(马帅)指南.pdf
- 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术
- 二值形态学之击中击不中变换
- Guitar Pro8.1吉他谱神器下载及简谱功能
- 多模态模型 CLIP4Clip 带你实现文本与视频互搜
- SpringCloud微服务,euraka、feign、hystrix组件学习
- 2014.03.31_一年很快过去了
- 程序员必看:一款巨好用的免费简历“神器”(据说有了它,再也不发愁找工作啦!)