Blending and Bagging

目录(?)[+]

第七讲:Blending and Bagging

1、Motivation of Aggregation(融合的动机)

恰当的融合可以得到更好的表现

2、Uniform Blending(平均融合)

分类

回归
理论分析:
    所有误差g的平均  >=  平均的误差G
    但是最好的误差g是否比平均的误差G不知道。

演算法的平均表现 = 个别与共识的差距(variance) + 共识的表现(bias)
平均的过程:消除个别与共识的差距,从而得到更稳定的表现

3、Linear Blending(线性融合)

线性融合  = 线性模型 + g当作转换 +条件(a>=0)

条件(a>=0)这一项可以去除,当a<=0时表示这一项起反效果。
Linear Blending在Selection时候:
应该通过 Eval而不是Ein;
相应的在Dval上验证的模型应该是g-而不是g。(若是选择g,因为这些model在Ddata上训练,Ddata=Dtrain+Dval,所以相当于见过Dval,可能会过拟合)

linear Blending 和 any Blending OR Stacking(non-linear):
通过在Dtrain上训练一批模型g-,然后在Dval上验证找出最好的alpha,但是最后返回的模型是alpha和g。

例举了台大在2011 KDDCup通过Blending拿到冠军的故事,说明Blending确实很有效如果不惜计算量的话。

4、Bagging(Bootstrap Aggregation)

blending:在得到g后融合。
learning:一边学到g一边融合起来
g是如何得到的呢?
模型的不同、参数的不同、算法随机性的不同、数据随机性的不同

很多g的共识比单一g好,但是手上没有大量的数据产生不同的g。
boostrapping的思想:从手上有限的数据模拟出不同的数据。

boostrapping:从N个数据中有放回随机采样N(或少于N)次,每次采样1个样本。意味着同一个数据可能被采样多次。
boostrap aggregation(BAGging):建立在base算法上的meta算法。

例子:由25条Bagging Pocket产生的线融合得到的一个效果还可以的分类线。
如果base算法对数据随机性敏感的话,Bagging 会得到不错的效果。

练习:boostrap过程有NN情形产生,里面有N!种会是原来数据的排列组合

Blending and Bagging相关推荐

  1. 台湾国立大学(林轩田)《机器学习技法》(第7讲)blending and bagging

    课程地址:https://class.coursera.org/ntumlone-001/class 课件讲义:http://download.csdn.net/download/malele4th/ ...

  2. B.数据挖掘机器学习[五]---汽车交易价格预测详细版本{模型融合(Stacking、Blending、Bagging和Boosting)}

    [机器学习入门与实践]入门必看系列,含数据挖掘项目实战:数据融合.特征优化.特征降维.探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:[机器学习入门与实践]合集入门必看系列,含数据挖掘项目实 ...

  3. 独家 | 从基础到实现:集成学习综合教程(附Python代码)

    作者:AISHWARYA SINGH 翻译:和中华 校对:丁楠雅 本文约8000字,建议阅读10+分钟. 本文从基础集成技术讲起,随后介绍了高级的集成技术,最后特别介绍了一些流行的基于Bagging和 ...

  4. Decision Tree

    #①Aggregation Model 回顾上一篇文章讲到的聚合模型,三个臭皮匠顶一个诸葛亮.于是出现了blending,bagging,boost,stacking.blending有uniform ...

  5. 干货 | 126 篇 AI 原创文章精选(ML、DL、资源、教程)

    点击上方"AI有道",选择"置顶"公众号 重磅干货,第一时间送达 一年多来,公众号[AI有道]已经发布了 140+ 的原创文章了.内容涉及林轩田机器学习课程笔记 ...

  6. 独家干货 | 林轩田机器学习课程精炼笔记!

    点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 台湾大学林轩田老师曾在coursera上开设了两门机器学习经典课程:<机器学习基石> ...

  7. 干货 | 公众号历史文章精选(附资源)

    不知不觉,红色石头在公众号已经发布了 100+ 的原创文章了.内容涉及林轩田机器学习课程笔记.吴恩达 deeplearning.ai 课程笔记.机器学习.深度学习.笔试面试题.资源教程等等.值得一提的 ...

  8. 干货 | 林轩田机器学习「基石+技法」历史文章汇总

    AI有道 一个有情怀的公众号 台湾大学林轩田机器学习经典课程:「机器学习基石」和「机器学习技法」.课程由浅入深.内容全面,基本涵盖了机器学习领域的很多方面,还包括了机器学习一些经典算法,包括支持向量机 ...

  9. GBDT!深入浅出详解梯度提升决策树

    AI有道 一个有情怀的公众号 1 Adaptive Boosted Decision Tree Random Forest的算法流程我们之前已经详细介绍过,就是先通过bootstrapping&quo ...

最新文章

  1. 微信小程序尝鲜一个月现状分析
  2. 【NLP】大模型时代,我们真的不再需要分词了吗?
  3. 小孩都看得懂的YOLO!
  4. 微信企业号开发之正式版的本地调试
  5. P7045-[MCOI-03]金牌【构造,交互题】
  6. 黑客攻防技术宝典Web实战篇第2版—第8章 攻击访问控制
  7. Redmi Note 10配备NFC 3.0功能:首次支持封闭式门卡
  8. 手机有没有必要经常更新系统?
  9. 《推荐系统笔记(十三)》购物篮分析 —— 基于关联规则的topN推荐
  10. GPS、基站定位在百度地图上纠偏的解决方法
  11. 光头老熊做易赛是这样做教下家的
  12. matlab zmax 光学仿真,基于ZEMAX的光栅干涉仪仿真
  13. 死亡测试 - GoogleTest(五)
  14. Mac修改文件名的颜色
  15. 51单片机电子琴编码 — 《断桥残雪》《庐州月》
  16. 【复习必备】高中数学必修四公式汇总, 精华版赶快收藏
  17. OA办公系统选购,千万别犯这些错
  18. 利用 SGA 共享池,避开 parse 阶段
  19. 怎么调整计算机的音量,教你电脑声音如何调大
  20. Document is missing mandatory uniqueKey field: id

热门文章

  1. 用Nginx+Lua(OpenResty)开发高性能Web应用
  2. 从分布式到微服务,深挖Service Mesh
  3. css动画-animation各个属性详解(通俗易懂)
  4. java 输出_使用IntelliJ IDEA2020.2.2 x64新建java项目并且输出Hello World
  5. 2020年度国家绿色数据中心名单正式发布
  6. 浅谈机房内的汇流铜排
  7. 必须重视数据中心的规划设计
  8. 了解这些电源知识能提高机房供电可靠性
  9. ML:MLOps系列讲解之《MLOps原则—迭代增量过程/自动化/持续部署/版本控制/实验跟踪/测试/监控/“ML成绩”系统/可再现性/松散耦合架构(模块化)/基于ML的软件交付指标等》解读
  10. 成功解决If your current network has https://www.anaconda.com blocked, please filea support request with