By joey周琦

Bagging predictor可以产生多个版本的predictor, 并把这些predictor聚集(aggregate)为一个。这种策略对于不稳定的系统可以提高其精度。

有一个学习数据集LL,包含数据(yn,xn),n=1,…,N{(y_n,x_n),n=1,\dots,N},其中xx为输入向量,yy或者为一个类(分类问题)或者数值(回归问题)。我们可以从数据集LL中学到一个predictor φ(x,L)\varphi(x,L).

假设现在我们有一系列数据集合Lk{L_k}, 每个集合都有NN个训练数据,并且都来自与数据集LL相同的概率分布。那么明显我们可以得到一系列的predictor φ(x,Lk)\varphi(x,L_k). 如何利用Lk{L_k}来得到一个比”单一数据集LL得到的predictor”更好的predictor呢?

对于回归问题:

φA(x)=ELkφ(x,Lk)

\varphi_A(x) = E_{L_k}\varphi(x,L_k)
对于分类问题,通过投票选择出初测最多的那个。

但是一般情况下,我们只有一个数据集LL, 如何得到一些列的数据集LkL_k并且和LL服从相同分布呢?利用bootstrap 从LL进行有放回的采样(random sampling with replace ment)的到一些列数据集LB{L^B},再通过上面的方法聚集出一个预测器. 我们称这个过程为”bootstrap aggregating”,组合起来就称为”bagging”

  • bagging可以提高“不稳定的算法”精度

    • 这里的不稳定表示,数据集LL小幅度的改变,就可能大幅度改变predictorφ(x,L)\varphi(x,L).(详见Breiman[1994])
    • 不稳定的算法有 神经网络,分类树,回归树等
    • 稳定的算法有KNN
  • bagging可能会降低“稳定算法”的精度
  • bagging可以减少variance, 但是会小幅度提高bias

机器学习_论文笔记_2: bagging predictors ( BREIMAN[1996])相关推荐

  1. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

  2. 基于特征的对抗迁移学习论文_[论文笔记] 对抗样本不是bugs,而是特征

    [论文笔记] Adversarial Examples Are Not Bugs, They Are Features 说在前面 个人心得: 这是关于对抗样本可解释性的工作 理论部分看不懂,看懂了再来 ...

  3. enet分割_[论文笔记] 图像语义分割——ENet(ICLR 2017)

    [论文笔记] 图像语义分割--ENet(ICLR 2017) bluestyle • 2019 年 05 月 03 日 介绍 Motivation: 移动应用上的实时像素级语义分割是一个重要的问题,然 ...

  4. 学堂在线_大数据机器学习_小笔记

    学堂在线大数据机器学习小笔记 20220607 - https://www.xuetangx.com/learn/THU08091001026/THU08091001026/10333105/vide ...

  5. 怎样快速识别 英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...

    本文大约 4000 字,阅读大约需要 10 分钟 论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...

  6. cnn 回归 坐标 特征图_论文笔记 | CNN 是怎么学到图片绝对位置信息的

    来自 | 知乎作者丨Xinlong Wang来源丨https://zhuanlan.zhihu.com/p/99766566编辑 | 深度学习这件小事仅作学术交流,如有侵权,请联系删文 昨天读到一篇挺 ...

  7. fasterrcnn论文_论文笔记:Fast(er) RCNN

    在 RCNN 初步试水取得成功后,研究人员又迅速跟进,针对 RCNN 中的几点不足提出改进,接连推出了 fast-rcnn 和 faster-rcnn.关于这两篇论文,网上相关的文章实在是多如牛毛,因 ...

  8. [论文笔记]slope one predictors for online rating-based collaborative filtering

    作者:Daniel Lemire, Anna Maclachlan. 论文概要: slope-one是一种item-based的协同过滤算法,核心思想是线性回归f(x) = x+b.根据用户对item ...

  9. 拉普拉斯算子属于卷积方法吗_论文笔记 - 图卷积神经网络综述

    文献题目:图卷积神经网络综述 文献来源:计算机学报,2019 文献原文:https://kns.cnki.net/kcms/detail/11.1826.tp.20191104.1632.006.ht ...

最新文章

  1. 【数字信号处理】周期序列 ( 正弦序列特性 | 单个模拟周期采集 m 个数字样本 | Q 个模拟周期采集 P 个数字样本 | 非周期序列的情况 | 数字信号周期 )
  2. 《JavaScript入门经典(第6版)》——2.7 问答
  3. 7-5 密码锁 (10 分)
  4. kotlin dsl_Spring Webflux – Kotlin DSL –实现的演练
  5. openresty package.path require 报错
  6. java mysql 二级缓存_深入理解MyBatis中的一级缓存与二级缓存
  7. Linux/Unix服务端和客户端Socket编程入门实例(含源码下载)
  8. pycharm不认识numpy?_深度学习(CV方向)入坑不完全指南
  9. SCUT - 290 - PARCO的因数游戏 - 博弈论
  10. 总结了一份嵌入式硬件开发的具体流程
  11. 双向链表排序 c++
  12. 2022.11.11 英语背诵
  13. 考研可以跨计算机专业吗,食品安全的本科生考研,可以跨考计算机专业吗?
  14. 公司代码与采购组织的分配关系
  15. 算法探讨——再议经典算法问题:求最大子序列和、绝对值最大子序列和以及其区间...
  16. VS2010向工具箱中添加控件解决 Microsoft Communications Control,未能实例化 设计时授权
  17. Python实现视频转 gif 动图
  18. 黑马程序员-01.IOS和MAC OS X简介总结
  19. zend stutio安装
  20. ROC、Precision、Recall、TPR、FPR理解

热门文章

  1. 搜狗微博搜索悄悄上线 实时搜索还是人肉搜索
  2. RESTful API 简介(学习笔记)
  3. 给表空间增加新的数据文件
  4. 模拟实现简单的自动售货系统
  5. 梦里什么都有(状压DP)
  6. Oracle - 【连接1】广义笛卡儿积+一般连接+自连接
  7. 开源的13个Spring Boot 优秀学习项目
  8. Android 仿微信裁剪图片
  9. fps游戏通用内存自瞄算法的原理与C++实现
  10. java毕业生设计忆居民宿管理计算机源码+系统+mysql+调试部署+lw