等概率整群抽样与多阶段抽样
概念
等概率抽样
抽样方法的一大类,指总体中的每个个体被抽中的概率相等
整群抽样
把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查。
优点:由于只需要群的抽样框,简化了编制抽样框的工作量
缺点:估计精度较差,因为同一群内的单元比较相似,在样本量相同的情况下,抽样误差较大
多阶段抽样
类似整群抽样,首先抽取群,但不是调查群内的所有基本单元,而是进一步抽样,从群中选择若干个基本单元进行调查。例如,第一阶段抽取初级单元,第二阶段抽取二级单元,第三阶段抽取接受调查的基本单元就是三阶段抽样。但一般会尽可能减少抽取样本的阶段,每增加一个抽样阶段就会增添一份抽样误差,对总体的估计也会更加复杂。
优点:保证了样本相对集中,节约调查费用,不需要包含所有低阶段抽样单元的抽样框。在较大规模的抽样调查中经常使用。
往往现实生活中,更多的是使用多阶段抽样。
水塘抽样
https://www.cnblogs.com/krcys/p/9121487.html
在等概率多阶段抽样的实现过程中,对于大规模的数据集,为了节省时间和内存消耗,此时使用水塘抽样算法是一个不错的选择。
例题
有一个长度为N的链表,N的值非常大,我不清楚N的确切值。我怎样能写一个尽可能高效地算法来返回K个完全随机的数。
限制
- 高效且节省内存使用
- 尽量随机返回值
设定
S[N]记作样本集合、R[K]记作结果集合、N记作S的数组大小、J记作每次的随机数、K记作前K个随机数、i为迭代次数
步骤
- 取S集合中前K个数填入集合R
- 从S[K]开始遍历
生成随机数J,范围是[0,K+i-1],因为i从0开始
若J<K,则替换R中的值,即R[j]=S[i] - 遍历结束,生成结果数组R
伪代码如下:
# 1. 取S集合中前K个数填入集合R
for i = 0 to K-1R[i] <- S[i]
end# 2. 从S[K]开始遍历, 生成随机数J,范围是[0,K+i-1], 若J<K,则替换R中的值,即R[j]=S[i]
for i = K to N-1j = random(0,i)if j<KR[j] = S[i]end
end
复杂度分析
可以上面步骤看得出来,只利用了一个for循环,时间复杂度为O(N),而for内部仅仅利用了K个空间进行存储,因此空间复杂度为O(K),从而极大地节省时间和内存。
等概率?
在循环中第n行被抽取的概率为k/n,用Pn表示,而总数一共为N的话,任意第n行的被抽取的概率为:
因此,我们求出每个样本被抽取的概率是相同的,均为k/N.
等概率整群抽样与多阶段抽样相关推荐
- 《抽样技术》第4章 等概率整群抽样和多阶段抽样
在本章中,抽样单元不一定是基本单元. 一.基本了解 (一)整群抽样(cluster sampling) 1.整群抽样方法的定义 先将总体划分为若干群,然后以群为抽样单元,抽样时从总体中随机抽取一部分群 ...
- [统计学教程] 第六章 抽样推断
导读: 第六章 抽样推断 一.参数与统计量 参数是指描述总体分布状况的数: 统计量是指由样本构造出来的数. 例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数:在班级中抽出10名学生 ...
- 《抽样技术》第1章 绪论
一.全面调查与非全面调查 1.全面调查 为了获取总体现象比较全面系统的总量指标,对调查对象包含的全部单位无一遗漏的调查. 2.全面调查的缺点 ①只能反应事物的一般状况,不利于对事物做深入细致的研究: ...
- 数据分析的统计基础(上)
一.描述性统计分析 1.1 数据的计量尺度 名称 特征 数据类型 定类尺度 只能用来比较相等或不相等 定性数据 定序尺度 可比较是否相等以及大小 关系 定性数据 定距尺度 可比较是否相等.大小关系以及 ...
- 工商管理专业知识与实务(初级)【1】
1.现代企业发展所经历的阶段有(). A.原始社会的手工业作坊 B.原始社会的家庭作坊 C.手工生产时期 D.工厂生产时期 E.企业生产时期 2.有限责任公司,法人对公司债务承担责任的界限是(). A ...
- 全国市场调查大赛经验分享(三)
这一篇主要介绍在市场调查大赛中可以用到的抽样调查步骤.抽样方法(概率抽样.非概率抽样)还包括一些概念的理解.本文内容主要参考金勇进老师的<抽样技术>一书,感兴趣的同学们可以详细学习一下. ...
- 统计学原理 调查方法
概率抽样与非概率抽样 概率抽样 简单随机抽样 分层抽样 整群抽样 系统抽样 多阶段抽样 非概率抽样 方便抽样 判断抽样 自愿样本 滚雪球抽样 配额抽样 概率抽样(probability samplin ...
- 数据科学学习之数据和抽样分布
专栏/前文链接 本文为笔者<数据分析与数据科学>专栏中的第二篇, 专栏的链接在这里. 第一篇博文的链接在这里. 希望本文与此专栏能够对接触,学习和研究数据科学的各位有所帮助. 本文介绍的是 ...
- [统计学教程] 第二章 统计调查
导读: 第二章 统计调查 教学目标: 本章介绍获得统计数据的主要手段,教学目标在于使学生了解统计学中获得原始数据的基本原则和方法.抽样调查作为现代经济社会中获得数据的主要方法,是本章重点讲述的内容. ...
最新文章
- log4net日志插件的使用
- 栈应用(中缀表达式转后缀表达式并计算后缀表达式的值)
- 管理Jenkins作业配置
- 如何制定客户留存策略_企业如何制定数字化转型策略?
- redis 模糊查找keys
- 天生对数字不敏感的人,如何提升对数据的敏感度?
- 遍历hashmap 的四种方法
- LeetCode之SQL练习:第二高薪
- pcb设计单点接地示意图_EMC设计之接地、PCB布局布线、屏蔽设计
- wcdma系统随机接入过程的流程图_随机接入过程
- mysql查询登录端口_mysql查看、修改端口、指定端口登录
- 计算机中任务管理器的主要功能是什么,任务管理器的作用有哪些 可以解决9成电脑问题...
- C# PPT/PDF文件转图片,图片转PPT
- 程序员如何修炼自己的九阳神功
- linux c设置打印机属性,如何恢复打印机属性的“功能”部分
- 网易视频云余利华:以用户体验为核心,深耕PaaS云生态
- 密西根大学-安娜堡分校计算机科学与技术,密歇根大学安娜堡分校研究生计算机系统专业排名...
- 如何用python输出九九乘法表_如何用python输出99乘法表
- 手机、平板、电脑相互投屏解决方案
- 简历上如果出现过于高大上的项目,反而过犹不及:再论如何通过项目引出技术
热门文章
- VB让图片铺满整个FORM
- 全方位解读Web3域名:DID基石、NFT新增长点
- 服务器网站权限设置,在服务器上设置网站权限
- C++ 实现带监视哨的顺序查找
- 生成网络论文阅读:DDPM(一):Denoising Diffusion Probabilistic Models论文概述
- magisk安装与配置
- 超低功耗LoRa无线通信应用实践
- ARM Linux中断机制分析
- ​PC电脑流行的主要原因
- 补充小程序的一些观点,以及你可能还不知道的事(内附最全小程序名单、小程序商店)...