概念

  • 等概率抽样

    抽样方法的一大类,指总体中的每个个体被抽中的概率相等

  • 整群抽样

    把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查。

    优点:由于只需要群的抽样框,简化了编制抽样框的工作量

    缺点:估计精度较差,因为同一群内的单元比较相似,在样本量相同的情况下,抽样误差较大

  • 多阶段抽样

    类似整群抽样,首先抽取群,但不是调查群内的所有基本单元,而是进一步抽样,从群中选择若干个基本单元进行调查。例如,第一阶段抽取初级单元,第二阶段抽取二级单元,第三阶段抽取接受调查的基本单元就是三阶段抽样。但一般会尽可能减少抽取样本的阶段,每增加一个抽样阶段就会增添一份抽样误差,对总体的估计也会更加复杂。

    优点:保证了样本相对集中,节约调查费用,不需要包含所有低阶段抽样单元的抽样框。在较大规模的抽样调查中经常使用。

    往往现实生活中,更多的是使用多阶段抽样。

水塘抽样

https://www.cnblogs.com/krcys/p/9121487.html

在等概率多阶段抽样的实现过程中,对于大规模的数据集,为了节省时间和内存消耗,此时使用水塘抽样算法是一个不错的选择。

例题

有一个长度为N的链表,N的值非常大,我不清楚N的确切值。我怎样能写一个尽可能高效地算法来返回K个完全随机的数。

限制

  1. 高效且节省内存使用
  2. 尽量随机返回值

设定

S[N]记作样本集合、R[K]记作结果集合、N记作S的数组大小、J记作每次的随机数、K记作前K个随机数、i为迭代次数

步骤

  1. 取S集合中前K个数填入集合R
  2. 从S[K]开始遍历
    生成随机数J,范围是[0,K+i-1],因为i从0开始
    若J<K,则替换R中的值,即R[j]=S[i]
  3. 遍历结束,生成结果数组R

伪代码如下:

# 1. 取S集合中前K个数填入集合R
for i = 0 to K-1R[i] <- S[i]
end# 2. 从S[K]开始遍历, 生成随机数J,范围是[0,K+i-1], 若J<K,则替换R中的值,即R[j]=S[i]
for i = K to N-1j = random(0,i)if j<KR[j] = S[i]end
end

复杂度分析

可以上面步骤看得出来,只利用了一个for循环,时间复杂度为O(N),而for内部仅仅利用了K个空间进行存储,因此空间复杂度为O(K),从而极大地节省时间和内存。

等概率?

在循环中第n行被抽取的概率为k/n,用Pn表示,而总数一共为N的话,任意第n行的被抽取的概率为:

因此,我们求出每个样本被抽取的概率是相同的,均为k/N.

等概率整群抽样与多阶段抽样相关推荐

  1. 《抽样技术》第4章 等概率整群抽样和多阶段抽样

    在本章中,抽样单元不一定是基本单元. 一.基本了解 (一)整群抽样(cluster sampling) 1.整群抽样方法的定义 先将总体划分为若干群,然后以群为抽样单元,抽样时从总体中随机抽取一部分群 ...

  2. [统计学教程] 第六章 抽样推断

    导读: 第六章 抽样推断 一.参数与统计量 参数是指描述总体分布状况的数: 统计量是指由样本构造出来的数. 例如,一个班的学生的平均年龄为22岁,平均年龄即为班组总体的一个参数:在班级中抽出10名学生 ...

  3. 《抽样技术》第1章 绪论

    一.全面调查与非全面调查 1.全面调查 为了获取总体现象比较全面系统的总量指标,对调查对象包含的全部单位无一遗漏的调查. 2.全面调查的缺点 ①只能反应事物的一般状况,不利于对事物做深入细致的研究: ...

  4. 数据分析的统计基础(上)

    一.描述性统计分析 1.1 数据的计量尺度 名称 特征 数据类型 定类尺度 只能用来比较相等或不相等 定性数据 定序尺度 可比较是否相等以及大小 关系 定性数据 定距尺度 可比较是否相等.大小关系以及 ...

  5. 工商管理专业知识与实务(初级)【1】

    1.现代企业发展所经历的阶段有(). A.原始社会的手工业作坊 B.原始社会的家庭作坊 C.手工生产时期 D.工厂生产时期 E.企业生产时期 2.有限责任公司,法人对公司债务承担责任的界限是(). A ...

  6. 全国市场调查大赛经验分享(三)

    这一篇主要介绍在市场调查大赛中可以用到的抽样调查步骤.抽样方法(概率抽样.非概率抽样)还包括一些概念的理解.本文内容主要参考金勇进老师的<抽样技术>一书,感兴趣的同学们可以详细学习一下. ...

  7. 统计学原理 调查方法

    概率抽样与非概率抽样 概率抽样 简单随机抽样 分层抽样 整群抽样 系统抽样 多阶段抽样 非概率抽样 方便抽样 判断抽样 自愿样本 滚雪球抽样 配额抽样 概率抽样(probability samplin ...

  8. 数据科学学习之数据和抽样分布

    专栏/前文链接 本文为笔者<数据分析与数据科学>专栏中的第二篇, 专栏的链接在这里. 第一篇博文的链接在这里. 希望本文与此专栏能够对接触,学习和研究数据科学的各位有所帮助. 本文介绍的是 ...

  9. [统计学教程] 第二章 统计调查

    导读: 第二章 统计调查 教学目标: 本章介绍获得统计数据的主要手段,教学目标在于使学生了解统计学中获得原始数据的基本原则和方法.抽样调查作为现代经济社会中获得数据的主要方法,是本章重点讲述的内容. ...

最新文章

  1. log4net日志插件的使用
  2. 栈应用(中缀表达式转后缀表达式并计算后缀表达式的值)
  3. 管理Jenkins作业配置
  4. 如何制定客户留存策略_企业如何制定数字化转型策略?
  5. redis 模糊查找keys
  6. 天生对数字不敏感的人,如何提升对数据的敏感度?
  7. 遍历hashmap 的四种方法
  8. LeetCode之SQL练习:第二高薪
  9. pcb设计单点接地示意图_EMC设计之接地、PCB布局布线、屏蔽设计
  10. wcdma系统随机接入过程的流程图_随机接入过程
  11. mysql查询登录端口_mysql查看、修改端口、指定端口登录
  12. 计算机中任务管理器的主要功能是什么,任务管理器的作用有哪些 可以解决9成电脑问题...
  13. C# PPT/PDF文件转图片,图片转PPT
  14. 程序员如何修炼自己的九阳神功
  15. linux c设置打印机属性,如何恢复打印机属性的“功能”部分
  16. 网易视频云余利华:以用户体验为核心,深耕PaaS云生态
  17. 密西根大学-安娜堡分校计算机科学与技术,密歇根大学安娜堡分校研究生计算机系统专业排名...
  18. 如何用python输出九九乘法表_如何用python输出99乘法表
  19. 手机、平板、电脑相互投屏解决方案
  20. 简历上如果出现过于高大上的项目,反而过犹不及:再论如何通过项目引出技术

热门文章

  1. VB让图片铺满整个FORM
  2. 全方位解读Web3域名:DID基石、NFT新增长点
  3. 服务器网站权限设置,在服务器上设置网站权限
  4. C++ 实现带监视哨的顺序查找
  5. 生成网络论文阅读:DDPM(一):Denoising Diffusion Probabilistic Models论文概述
  6. magisk安装与配置
  7. 超低功耗LoRa无线通信应用实践
  8. ARM Linux中断机制分析
  9. ​PC电脑流行的主要原因
  10. 补充小程序的一些观点,以及你可能还不知道的事(内附最全小程序名单、小程序商店)...