bootstrap:抽出来、记录下来、放回去

bootstrapping:一个统计工具,对同一份数据集,进行不同的重采样(re-sample)以模拟不同的数据集出来,避免了 cross-validation 中数据量的减少。

在集成学习(ensemble learning)中,我们所要集成的对象是不同的分类器,分类器间的差异性(diversity)是集成学习成功的关键要素,差异性主要有以下来源:

  • (1)模型差异:g1∈H1g_1\in \mathcal H_1,g2∈H2g_2\in \mathcal H_2,⋯\cdots, gT∈HTg_T\in \mathcal H_T

  • (2)参数的差异:对 GD 而言 η=0.001,0.01,0.1,…,10\eta=0.001,\; 0.01, \;0.1,\ldots,10

  • (3)算法的随机性(randomness)

  • (4)数据随机性(randomness)

而 bootstrapping 就是一种用来产生数据随机性的统计工具。

bootstrap 的采样过程属于有放回采样(uniformly with replacement)

bootstrap sample D~t\tilde D_t:re-sample NN samples from DD uniformly with replacement.

也不一定要求,新的数据集要保持和原始数据集一样的规模 NN,可以是任意的 N′N'。

Bootstrap AGgregation 就被称为 BAGging 算法。

机器学习基础(十六)—— bootstrap相关推荐

  1. 机器学习基础(六)—— 交叉熵代价函数(cross-entropy error)

    交叉熵代价函数 1. 交叉熵理论 交叉熵与熵相对,如同协方差与方差. 熵考察的是单个的信息(分布)的期望: H(p)=−∑i=1np(xi)logp(xi) H(p)=-\sum_{i=1}^n p( ...

  2. 机器学习基础(六):贝叶斯分类(贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法)

    6.贝叶斯分类 6.1贝叶斯决策论Bayesian decision theory 概率框架下实施决策的基本方法. 对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和 ...

  3. 机器学习基础(六十二)—— 白化

    我们可以使用 PCA 降低数据维度.在一些算法中还需要一个与之相关的预处理步骤,这个预处理过程称为白化(一些文献中也叫 sphering). 举例来说,假设训练数据是图像,由于图像中相邻像素之间具有很 ...

  4. 机器学习基础(六十)—— 凸优化

    待优化(求解)的问题如果不是凸的,就意味着存在多个极值点. 如果目标函数并不是一个凸函数,便不能用梯度方法解决这个优化问题.

  5. 【机器学习基础】(六):通俗易懂无监督学习K-Means聚类算法及代码实践

    K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...

  6. 机器学习(十六)推荐系统

    文章目录 Log 一.问题形式(Problem formulation) 1. 实例:电影评分预测(Predicting movie ratings) 二.基于内容的推荐算法(Content-base ...

  7. Java必备基础十六——输入与输出流相关类详细介绍

    坚持的第16篇. 鸡汤一下:真正能让你走远的,都是自律.积极和勤奋 文章目录 序言 一.什么是流 二.流的种类划分 1.按数据流的方向分:输入流.输出流 1.1 定义 1.2 层次结构 2.按处理数据 ...

  8. 机器学习(十六)——隐式狄利克雷划分

    http://antkillerfarm.github.io/ 隐式狄利克雷划分 Latent Dirichlet Allocation,简称LDA.注意不要和Linear Discriminant ...

  9. 西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM、半监督k-means、协同训练算法)

    文章目录 0. 前言 1. 半监督SVM 2. 半监督k-means 2.1. 约束k-means 2.2. 约束种子k-means 3. 协同训练算法 如果这篇文章对你有一点小小的帮助,请给个关注, ...

  10. 吴恩达机器学习(十六)机器学习流水线、上限分析

    目录 0. 前言 1. 流水线 2. 上限分析(Ceiling analysis) 学习完吴恩达老师机器学习课程的照片OCR,简单的做个笔记.文中部分描述属于个人消化后的理解,仅供参考. 如果这篇文章 ...

最新文章

  1. SSL/TLS抓包出现提示Ignored Unknown Record
  2. Java调用C++webservice接口
  3. MAC下快速打开指定目录
  4. 神奇的[Caller*]属性
  5. 双向链表VS单向链表
  6. 1.极限——例子_4
  7. “中序表达式”转换为“前序表达式”、“后序表达式”
  8. iOS照片缩略图thumbnail模糊问题
  9. js带开关的时钟_避雷器带计数器HY5WZ-17/45-JS
  10. Linux系统管理第七周作业【Linux微职位】
  11. talemu---蒙特卡洛仿真软件产品介绍
  12. 求mn的最大公约数和最小公倍数c语言,c语言如何求最大公约数和最小公倍数
  13. “鲲鹏”展翅 宝德“自强”
  14. 前端实例1——blog页面(css样式)
  15. 虎言新媒体训练营 助力初级会计成功转型新媒体运营
  16. scrapy框架之shell
  17. 一起Talk Android吧(第一百八十六回:Android中的AsyncTask机制五)
  18. “SISTERS姐妹”双个展在南京W艺术空间举办
  19. 计算机网络——链路传输时延/速率和传播时延/速率的区分
  20. freeglut_光照设置_材质设置_笔记与心得

热门文章

  1. java 接口嵌套接口_Java接口嵌套
  2. python 括号 垃圾_Python 为什么抛弃累赘的花括号,使用缩进来划分代码块?
  3. Spark on YARN 两种模式yarn-cluster yarn-client 面试题
  4. java8 方法引用详解_Java8中如何通过方法引用获取属性名详解
  5. layui totalRow 多层嵌套json_自定义 Behavior,实现嵌套滑动、平滑切换周月视图的日历...
  6. 将数据集转换为Excel格式的一个实现
  7. java编译遇到的问题与解决_java web开发中遇到的问题及解决方案(个人学习日志,持续更新)...
  8. c++多线程——线程启动
  9. webgl与opengl技术资讯
  10. [Django]我的第一个网页,报错啦~(自己实现过程中遇到问题以及解决办法)