来源:DeepHub IMBA
本文约1000字,建议阅读5分钟本文旨在以一种为外行介绍的方式展示自举法的“为什么”。

我们的项目并不总是有充足的数据。通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试)。

幸运的是,我们有重采样的方法来充分利用我们所拥有的数据。自举法(Bootstrapping)是一种重采样技术,可以为我们解决这个问题。虽然我们可能对自举法背后的“为什么”和“如何”很熟悉,但这篇文章旨在以一种为外行介绍的方式展示自举法的“为什么”。

自举法的快速回顾

自举法的目标是基于从原始样本中获得的多个数据样本,为总体参数(例如总体均值 θ)创建一个估计值(例如样本均值 x̄)。

自举法 是通过重复采样(替换)样本数据集来创建许多模拟样本来完成的。每个模拟的样本被用来计算参数的估计,然后这些估计被组合起来形成一个抽样分布。

然后,自举抽样分布允许我们得出统计推论,如估计参数的标准误差。

为什么自举法是有效的?

你一定想知道,重复采样同一个样本数据集的行为怎么能让我们对总体统计数据做出推论呢?

理想情况下,我们希望从真实的总体中提取多个独立的真实样本以理解总体统计数据。然而我们已经确定,这可能并不总是可行的。因此我们必须使用样本数据集,这是我们拥有的关于总体的最好(也是唯一)信息。

自举法合理的假设是,大多数样本(如果是随机抽取的)将看起来与它们的总体非常相似。这意味着我们的样本数据可以被视为一个总体,我们现在假装它代表真实的总体(一定要记住这一点)。

有了这个假设群体,我们可以从中抽取多个(自举)随机样本。这就好像我们从真实总体中获得了多个样本。

注:实际上,原始样本只是真实总体中的一个样本。

由于允许进行置换抽样,所以自举的样本也可以看作是在不同方法和假设下产生的随机样本。

从这些自举样本中汇总的抽样信息最终将帮助我们获得(相对)准确的总体参数估计值,例如总体均值。

那么自举抽样的效果如何呢?上图比较了来自真实总体的 1,000 个模拟样本与 1,000 个引导样本的参数 (α) 估计值。

我们可以看到箱线图具有相似的散布,表明自举法可以有效地估计与参数估计相关的可变性。

总结

在本文中,我们探索了自举发理论的简单解释。希望这篇文章能让您更好地了解自举,以及为什么它在理论上和实践中都有效。

关键概念是假设原始样本代表总体。通过多次重采样这个样本,我们得到了总体参数的样本估计的一个相对准确的抽样分布。

当然,这有几个注意事项。例如,在从真实总体中抽样的正常情况下,我们永远不会抽取与整个总体相同大小的样本。但是,在自举中使用与原始数据集相同的样本大小是很常见的。

编辑:文婧

十分流行的自举法(Bootstrapping )为什么有效相关推荐

  1. 十分流行自举法(Bootstrapping )为什么有效

    我们的项目并不总是有充足的数据.通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试). 幸运的是,我们有重采样的方法来充分利用我们所拥有的数据.自举法(Bootst ...

  2. n步自举法:时序差分方法与蒙特卡洛方法的结合

    前言: 之前讨论了(1步)时序差分方法(CSDN链接)与蒙特卡洛方法(CSDN链接).刚刚学习完 Sutton 的<强化学习(第二版)>的第七章:n步自举法.它是时序差分方法与蒙特卡洛方法 ...

  3. 算法设计思想(1)— 穷举法

    本文系 王晓华 老师 GitChat [算法应该怎么玩]课程笔记. 1. 穷举法概念 穷举法又称穷举搜索法,是一种在问题域的解空间中对所有可能的解穷举搜索,并根据条件选择最优解的方法的总称. 数学上也 ...

  4. C#跳转语句 迭代法 穷举法

    一.跳转语句 break & continue break:跳出循环,终止此循环,不管下面还有多少次,全部跳过. string a=" ",for (int i=1;i&l ...

  5. C语言程序设计之编程求鸡和兔的只数,用穷举法解决

    CSDN论坛上网友的问题:有一群鸡和一群兔,两种动物只数相同.两种动物的脚的总数都是三位数,且这两个三位数的六个数字分别是0,1,2,3,4,5.编程求鸡和兔的只数是多少?它们的脚数各是多少? C语言 ...

  6. 【最优化方法】穷举法 vs. 爬山法 vs. 模拟退火算法 vs. 遗传算法 vs. 蚁群算法

    一. 穷举法 列举所有可能,然后一个个去,得到最优的结果.如图一,需要从A点一直走到G点,才能知道,F是最高的(最优解).这种算法得到的最优解肯定是最好的,但也是效率最低的.穷举法虽然能得到最好的最优 ...

  7. 算法设计之—直接 遍历/穷举法、贪心算法、动态规划、回溯法、EM方法

    算法是对完成特定问题的程序执行序列描述,表象为从问题初始状态到问题结束状态的所有路径之中寻找可行路径,若无先验经验,根据执行方式不同可以划分为无规则和有规则(启发式)方法. 无规则方法为穷举,改进方法 ...

  8. Console-算法[for]-穷举法:百钱买百鸡

    ylbtech-Arithmetic:Console-算法[for]-穷举法:百钱买百鸡 1.A,案例 -- ============================================= ...

  9. c语言穷举算法 枚举法,c语言枚举法 穷举法 ppt课件

    枚举法 穷举法 笨人之法 把所有可能的情况一一测试 筛选出符合条件的各种结果进行输出 分析 这是个不定方程 三元一次方程组问题 三个变量 两个方程 x y z 1005x 3y z 3 100设公鸡为 ...

最新文章

  1. 删除元素(LintCode)
  2. $#,$@,$0,$1,$2,$*,$$,$?,${}
  3. MetadataType的使用
  4. Django REST framework+Vue 打造生鲜电商项目(笔记八)
  5. oracle 11g 创建 job 20
  6. python爬虫实例100例-Python 练习实例1
  7. linux资源限制函数getrlimit,setrlimit(转载)【转】
  8. 用asp.net实现日历打卡_清单 | 2021年日历请查收
  9. SqlDataReader循环取值
  10. HashMap源码阅读
  11. Global Mapper居然也有手机版(附安装包下载)
  12. 华丽成长为IT高富帅、IT白富美(五)
  13. MT6573台开发分支下配置多个项目的规范说明_mi
  14. 手机问卷调查报告 html,关于手机的问卷调查调研报告.doc
  15. Istio 南北向流量管理
  16. 传奇服务器怎么修改升级武器成功,传奇论坛服务端教程原创升级武器不碎完整脚本...
  17. 求三角形外接圆 hdu4720
  18. 良好的代码习惯(一)
  19. windows同步linux用户,用winbind实现windowsPDC和linux系统的帐号同步
  20. 程序员如何写好技术简历 —— 实例、模板及工具

热门文章

  1. android 按钮换行_Android LinearLayout实现自动换行
  2. 【c语言】统计字符次数
  3. java socket同步通信,javasocket客户端与服务端同步通信实例
  4. zabbix trapper方式监控
  5. 通信基站电池,再也不怕丢了
  6. 《Python面向对象编程指南》——1.2 基类中的__init__()方法
  7. linux 查找清理大文件
  8. 文件编程之Linux下系统调用
  9. ICMP重定向(ICMP Redirect)
  10. #pragma once与 #ifndef的区别