Bootstrap(自助法) 学习笔记
Bootstrap(自助法) 学习笔记
参考资料:
1.Bootstrapping.
2.bootstrap自采样再理解.
3.统计学中的Bootstrap方法介绍及其应用.
4.统计量的标准误的估计(bootstrap方法).
5.总结:Bootstrap(自助法),Bagging,Boosting(提升)
1.析意
这里讨论的Bootstrap是一种再抽样的统计方法,不是Bootstrap工具包。英语Bootstrap从字面意思翻译是靴带,来自短语:“pull oneself up by one′s bootstrap”,18世纪德国文学家拉斯伯(Rudolf Erich Raspe)的小说《巴龙历险记(或译为终极天将)》(Adventures of Baron Munchausen) 记述道:“巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。”现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里“Bootstrap”法是指用原样本自身的数据再抽样得出新的样本及统计量,根据其意现在普遍将其译为“自助法”或“自举法”。Bootstrap方法最初由美国斯坦福大学统计学教授Efron在1977年提出。作为一种崭新的增广样本统计方法,Bootstrap方法为解决小规模子样试验评估问题提供了很好的思路。Bootstrap方法提出之后的10年间,统计学家对它在各个领域的扩展和应用做了大量研究,到了20世纪90年代,这些成果被陆续呈现出来,而且论述更加全面、系统。
2.基本原理
2.1初步理解
在统计的世界,我们面临的总是只有样本,Where there is sample, there is uncertainty,正因为不确定性的存在,才使统计能够生生不息。一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?
Bootstrap的奥义就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?Bootstrap的一般的抽样方式都是“有放回地全抽”,意思就是抽取的Bootstrap样本量与原样本相同,只是在抽样方式上采取有放回地抽,(其实样本量也要视情况而定,不一定非要与原样本量相等)这样的抽样可以进行B次,每次都可以求一个相应的统计量/估计量,最后看看这个统计量的稳定性如何(用方差表示)。Jackknife的抽样痕迹不明显,但主旨也是取样本的样本,在作估计推断时,每次先排除一个或者多个样本点,然后用剩下的样本点求一个相应的统计量,最后也可以看统计量的稳定性如何。
统计推断是从样本推断相应的总体, 有参数法和非参数法。早期的统计推断是以大样本为基础的。自从英国统计学家威廉·戈塞特(Willam Gosset)在1908年发现了t分布后,就开创了小样本的研究。费希尔(Fisher)在1920年提出了似然(likelihood)的概念,一直被认为是高效的统计推断思维方法。半个多世纪以来,这种思维一直占有主导地位,统计学家研究的主流就是如何将这种思维付诸实践,极大似然函数的求解是这一研究的关键问题。
(以上引用的是谢益辉博士关于Bootstrap 和 Jackknife基本思想的论述)
2.2核心思想
如果不知道总体分布(或叫理论分布),那么,对总体分布的最好猜测便是由样本数据提供的(经验)分布。
自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。
由原始数据经过重复有放回抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)或自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed statistic),那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键思想是假设自助统计量与观察统计量间的关系等同于观察统计量与真值间的关系成立,可表示为:
自助统计量::观察统计量<=>观察统计量::真值
其中,“::”表示二者间的关系,“<=>”表示等价于。也就是说,通过对自助统计量的研究,就可以了解有关观察统计量与真值的偏离情况。因此,可以得知,Bootstrap是基于统计假设的思想实现的,在实际运用中,假设的成立与否直接影响Bootstrap的效果。
Bootstrap是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:
(1) 采用再抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2) 根据抽出的样本计算给定的统计量T。
(3) 重复上述N次(一般大于1000),得到N个统计量T。
(4) 计算上述N个统计量T的样本方差,得到统计量的方差。
其中的再抽样是有返还的抽样(sampling with replacement)方式。
Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。
Jackknife: 和上面要介绍的Bootstrap功能类似,只是有一点细节不一样,即每次从样本中抽样时候只是去除几个样本(而不是抽样),就像小刀一样割去一部分。
3.Bootstrap的数学表达
其中等号上面一个小三角号表示定义。
4.Bootstrap的通俗表达
假设我有一个鱼塘,现在我想知道里面到底有多少条鱼。假设里面实际有1000条,但我并不知道这个数据。那我到底要怎么解决这个问题呢?(假设统计期间鱼的数量没有发生变化)
我可以先把鱼塘封闭,排除干扰因素。然后捞10条鱼上来并做好标记(假设标记不会损坏,也不会脱落),再把它们放回鱼塘。等待一个晚上甚至一天,保证鱼群充分混合,保证是随机抽样。然后开始捞鱼,每次捞100条,记录有标记的鱼的数量以及比例,再放回去,再等一晚,再捞十条、记录数据……重复整个过程n次,建立分布。
若,我第一次捞的鱼中有12条鱼被标记,第二次捞的有9条鱼被标记,第10次有两条……设置信区间为95%,统计后发现每次捕鱼平均在10条左右有标记,所以,我们可以大致推测出鱼塘有1000条左右。在小样本的时候,bootstrap效果才较好。如果是大样本,bootstrap的效果就不怎么好,比如你想统计海里有多少条鱼,很明显捞鱼标记的方法就不适用。
Bootstrap(自助法) 学习笔记相关推荐
- bootstrap框架学习笔记
bootstrap框架学习笔记 1.Bootstrap简介 2.基本使用 3.容器 4.设备划分 5.栅格系统 6.展示与隐藏 7.其他类前缀 8.组件直接参考开发文档 1.Bootstrap简介 B ...
- 快速构建网站或移动端页面:关于Bootstrap的学习笔记
最近在设计官网,并进行一些项目的原型设计和开发,寻找了很久,想找到一个更简单.快速的方式,基于一些已有的模板或框架进行快速建设,结果发现很多时间都是徒劳,走过的路分享给大家,以防再度踩坑: 网上搜索原 ...
- Bootstrap的学习笔记
1 前言 今天开始学习Bootstrap啦~ 2 布局--container 2.1 container的左右两侧会有空白--px-0 container的两侧可能会出现空白,(如果设置了背景色,就会 ...
- Vue Bootstrap 结合学习笔记(一)
本文是不才在学习Vue和Bootstrap过程中遇到问题解决的一些思路,主要描述了项目搭建,组件封装.获取.编辑.更新的一步步实现,一些解决方案也没找到正确的官方API,还请大拿们多多提点. 项目介绍 ...
- Bootstrap组件学习笔记(一)——大纲、Glyphicons字体图标和下拉菜单
目录: 1.组件学习大纲 2.Glyphicons字体图标 3.下拉菜单 1.组件学习大纲 2. Glyphicons字体图标 bootstrap含有接近250多个字体图标( 图标表格地 ...
- Bootstrap学习笔记系列1-------Bootstrap网格系统
目录 Bootstrap网格系统 学习笔记 简单网格 偏移列 嵌套列 列排序 Bootstrap网格系统 学习笔记 简单网格 先上代码再解释 <!DOCTYPE html> <htm ...
- miniui文件上传 linux,MINIUI grid学习笔记
grid 控件 a.事件的绑定和移除 grid.on("rowclick", fn); //绑定事件 (这个的话类似jquery的绑定事件) grid.un("rowcl ...
- Bootstrap学习笔记-布局
Bootstrap学习笔记-布局 默认是响应式布局,就是你在改变页面的时候也不会出现乱的现象. <html> <head> <meta charset="utf ...
- Bootstrap学习笔记02【全局CSS样式、组件和插件、案例_黑马旅游网_首页】
Java后端 学习路线 笔记汇总表[黑马程序员] Bootstrap学习笔记01[快速入门.栅格布局][day01] Bootstrap学习笔记02[全局CSS样式.组件和插件.案例_黑马旅游网][d ...
最新文章
- java.io与网络通信
- [私]-optee的同步方法
- 【赠书】迁移学习如何入门,看看这本简明手册即可
- javascript 调用c#变量实例
- 搭载骁龙865+量产一亿像素!小米MIX4今年无望了
- Check Point在Google Play上发现大批感染Judy恶意软件的应用
- Halcon之 Variation Model(转)
- 基于51单片机和GPS的经纬度时间速度航向系统设计定位电子罗盘原理图程序设计
- 在王者荣耀角度下分析面向对象程序设计B中23种设计模式之享元模式
- Android SVG矢量图/矢量动画、Vector和VectorDrawable矢量图及动画,减少App Size
- 统计模型评价准则 AIC
- python,计算并发现闰月的规律
- 实时可视化大数据项目01 -- 项目介绍
- springboot传图片到前端之有手就行
- msvcr120.dll丢失怎样修复?msvcr120.dll文件修复方法
- 在国企做程序员怎么样?
- oracle税则的优先级,Oracle EBS r12财务模块
- 安卓数据转移到iphone老是中断_关于iPhone手机之间数据转移的几种方式
- 360宽带测速器怎么用 360测试如何在线测网速
- pro e打开服务器文件,EPRO 文件扩展名: 它是什么以及如何打开它?
热门文章
- 广深港高铁全线首迎春运 日均运客24.3万人次
- Qt5对WinXP系统的支持和兼容情况,Qt发展史
- 《空气动力学》——第一章 空气动力学引述
- Ubuntu定时清理缓存
- 毕业设计倒计时Day 173:开题答辩记录
- 全国专业技术人员计算机应用能力考试用书模拟练习光盘,全国专业技术人员计算机应用能力考试专用教程:Internet应用(附光盘1张)...
- pii2 php商城,QNAP 219PII高清电影直播、PT下载网络设置方法
- Lua:深拷贝与浅拷贝,强引用与弱引用
- 后缀自动机 (WJMZBMR讲稿的整理和注释)
- html播放器添加广告,我用htmlvideo想在播放视频前加载一段几分钟的广告 怎么写啊...