在本章中,抽样单元不一定是基本单元。

一、基本了解

(一)整群抽样(cluster sampling)

1、整群抽样方法的定义

先将总体划分为若干群,然后以群为抽样单元,抽样时从总体中随机抽取一部分群,并对入选群的所有基本单元进行调查。

2、群的定义

由若干个有联系的基本单元所组成的集合称为群。因此,群内单元通常具有相似性。

3、抽取群的方式:

①各群的规模相等时,采用等概率抽样;

②各群的规模不等时,常采用不等概率抽样。

两阶段抽样:抽取群(初级抽样单元)后,如果群规模比较大,对群内单元进行再抽样(二级抽样单元)。

4、整群抽样的优点:

①抽样框编制得以简化。相对来说,构造群的抽样框往往更容易、简便。例如对广州市小学生的视力状况进行抽样调查,要获得广州市所有小学生的名单十分困难,但若以学校作为群,得到广州市所有小学的名单则要容易得多,可操作性强。

②实施调查比较便利、节省费用。例如在对广州市住户的抽样调查中,如果采用简单随机抽样,会使样本分布比较分散,给调查带来不便,并使调查费用增加。如果采用整群抽样,则调查单位的分布相对集中,调查人员能节省大量来往于调查单元间的时间和费用。另外,如果群是以行政单元划分的,调查时得到行政单元的配合,将更有助于调查的实施,得到较高质量的原始数据。由于整群抽样省时省力,每个单元的平均调查费用较少,故可以通过适当增大样本量的方法弥补抽样精度的损失。

③从方法上看,整群抽样是由一阶段抽样向多阶段抽样过渡的桥梁。

④适用于实际情况。例如对某些工业产品的质量检验,事实上不能逐个抽取样本单位来进行,只能在某一时间内,成批地抽取产品来检验

⑤对于某些特殊结构的总体,整群抽样的精度会较高。即各个群的结构与总体结构相近,每个群是总体的缩小版本。

5、整群抽样的不足:

抽样误差比较大。因为群内单元具有相似性。整群抽样的抽样误差常常大于简单随机抽样。

6、使用条件:

抽样中应使每个群均具有足够的代表性。如果划分的群相互之间颇多相似之处,那么少量群的抽取足以提供良好的精度。通常我们面临的总体会有自然的初级单元,我们也往往会根据这些自然单元来抽样,例如各所中学它们互相之间关于学生的体质很相似,但在一个学校里每个学生之间有一定的差异

(二)群的划分

1、分类

大体可分为两类。一类是根据行政或地域形成的自然区域;一类是调查人员人为确定的范围。

一般借助方差分析的原理。当总体划分为群时,总体方差可以分解为群间方差和群内方差两部分。总体方差恒定,群间方差和群内方差这两部分是此消彼长的关系。由于整群抽样对抽中群中的所有单元都进行调查,群内方差消除,影响整群抽样误差大小的主要因素是群间方差。为了提高整群抽样估计的精度,我们应该努力降低群间方差,即提高群内方差,划分群的时候使群内差异尽量大,以避免群内单元重复提供相似信息,这也对应了上面的使用条件。这个原则恰好与分层抽样划分层的原则相反。

2、群的规模

指的是组成群的单元的数量。与估计的精度和费用都有关。正常情况下,群的规模不宜过大。

(三)抽样方案的举例:

想要估计某高校大学生拥有某品牌的手机的数量,试设计出几种等概率抽样的方案。

方案有:①简单随机抽样。抽样框是包含该大学所有学生的学生名录。因为学生名录较难获得,故不可行。

整群抽样。抽样框是该大学的学生宿舍名录。抽样方法是根据学生宿舍名录随机抽取一部分宿舍,并调查被抽中宿舍中的每一个学生。

两阶段抽样。抽取群的时候,群的数目比整群抽样时的数目更多(大约是每个宿舍住的人数倍),再在每个被抽中宿舍内随机抽取1各学生。初级抽样单元是学生宿舍,二级抽样单元是学生。

按比例的分层随机抽样。将该高校的学生按照年级分层,抽样框是每年级的学生名录。每年级的学生总数是权重,每层按照简单随机抽样的方式抽取,每层所要抽取的样本量不一样。

二、等概率整群抽样

(一)群规模相等时的估计

1、特点

①整体中各群的规模相等;

②采用简单随机抽样来抽取群,此时对总体均值或总值的估计都比较简单。

2、例题

已知群的个数、被抽的群的个数、每个群里包含的单元数、每个群的均值,估计某总体的总体均值,并给出95%的置信区间。

解:需要计算抽样比、总体均值的无偏估计、群间变异性以及总体方差的无偏估计,再开根号得到标准差,于是总体均值的置信度为95%的置信区间为

4、整群抽样效率和简单随机抽样效率的比较

完成同一个任务:从总体中抽取一个样本容量为的样本。

记简单随机抽样的方差为,整群抽样的方差为,由此得到整群抽样(群规模相等)的设计效应为,其中是群内相关系数,以下开展分情况讨论:

。群内方差为0,群内各单元值都相同。此时;

。群内方差与总体方差相等,分群近乎随机,群内结构与总体结构相近。此时,简单随机抽样与整群抽样效率相当

。群内方差大于总体方差,群间方差为0,各群均值都相等。此时整群抽样更优

因此,分群能够提高整群抽样估计的效率,但是对于自然形成的群,群内单元很难调整。

(二)整体中各群的规模不相等

这种情况更加常见。我们有两种估计方法:

1、等概率抽样,无偏估计

优点在于无偏性,比较适用于各群的群总值之间差异不大的情况。

2、等概率抽样,比率估计

一般会引入辅助变量(比如群规模或其他更优良的辅助变量),估计效果更好。不足在于是有偏估计,因此适用于样本群数(被抽的群的数目)较大的情况。

3、例题

在整体群规模不等的情况下,采用等概率抽样随机抽取群进行调查,请利用无偏估计量和比率估计量两种方法分别估计总体的总值,并计算两种估计量的标准差。

已知群的总数、所有单元的总数、被抽群的个数、每个群包含的单元数、每个群的总值、每个群的均值

无偏估计情况下,应计算

总体总值、样本均值、总体总值的方差以及标准差。

以群规模为辅助变量的比率估计情况下,应计算

总体总值、总体均值、总体总值的方差以及标准差。

(三)等概率两阶段抽样

1、多阶段抽样

因为群内单元相似性较大,有时我们可以从被抽中的群中再次抽样,选取子样本。

优点

①保留了整群抽样样本比较集中、便于调查、节省费用等优点;

②避免了对小单元过多调查造成的浪费,抽样效率更高,相比整群抽样,能够提高估计精度。;

③抽样框的编制也更加简单,每阶段只需编制该阶段的抽样框,不必一开始就去编制包含所有小单元的抽样框;

④抽样方式更加灵活和多样化;

⑤在我国的统计制度下,可以为各级机构提供相应的信息,满足多级政府管理的需要。

举例:调查居民对某品牌产品的喜好,采用三阶段整群抽样:街道→居委会→居民户→对样本居民户中的所有居民都展开调查。

再举一例:我国1984年颁发的农产量抽样调查方案实行的是五阶段抽样方式,即为:省抽县,县抽乡,乡抽村,村抽地块,地块中抽实测样本,即定义全国的省为初级单位,县为二阶单位,乡镇为三级单位,自然村为四级单位,地块为五级单位。

2、二阶抽样与分层抽样和整群抽样的联系与区别?

①如果第一阶段抽样采用全面调查,二阶抽样就成了分层抽样;

②如果第二阶段抽样采用全面调查,二阶抽样就成了整群抽样。

3、初级单元规模相等的两阶段抽样

两阶段都是简单随机抽样,也保证独立性。

①估计量的公式

总体均值的无偏估计为,总体均值的方差估计式:

②对方差估计式的分析

第一项是主要的,第二项要小得多,这是因为第二项的分母是第一项的m倍,而且它还要乘以小于1的。这意味着在实施多阶抽样时要想提高估计精度,就要在第一阶段采取高效率的抽样方式,使第一项的误差降低,有利于整体误差的降低。

③举例

已知群的总数、各群内包含的单元数、抽取的一级单元数、抽取的二级单元数、一级抽样比、二级抽样比。需要计算各样本初级单元的均值和方差并放在表格里。

利用公式:并这些都代入上面的总体均值的方差估计式中。

如果还要求总体总值的估计、标准差以及置信区间,则还要用到如下公式:

、以及标准差

《抽样技术》第4章 等概率整群抽样和多阶段抽样相关推荐

  1. 等概率整群抽样与多阶段抽样

    概念 等概率抽样 抽样方法的一大类,指总体中的每个个体被抽中的概率相等 整群抽样 把总体划分为群,抽样时只需要群的抽样框,对群内所有单位进行抽样调查. 优点:由于只需要群的抽样框,简化了编制抽样框的工 ...

  2. 《抽样技术》第1章 绪论

    一.全面调查与非全面调查 1.全面调查 为了获取总体现象比较全面系统的总量指标,对调查对象包含的全部单位无一遗漏的调查. 2.全面调查的缺点 ①只能反应事物的一般状况,不利于对事物做深入细致的研究: ...

  3. 《抽样技术》第5章 不等概抽样

    一.基本了解 (一)从等概率抽样说起 1.等概率抽样的特点 总体中每个单元地位都相等,在抽样时对每个单元更是采取不偏不倚的态度.每个总体单元都以相同概率入样. 2.不等概抽样优于等概抽样的举例 等概率 ...

  4. 【抽样技术系列03】分层随机抽样ST

    目录导引 Chap 3 分层随机抽样ST 3.1 概念,符号 3.1.1 分层抽样的定义 3.1.2 分层抽样的作用 3.1.3 分层抽样的原则 3.1.4 符号说明 3.2 简单估计量 3.2.1 ...

  5. 市场调查与分析[市场调查员][抽样技术方案][抽样方法][F检验]

    正大杯比赛最新参考题(预测含必考) - 知乎 目录 A市场调查员 B抽样技术方案 一.调查目的.范围.对象及内容 二.抽样方案设计的原则与特点 三.样本区.县的选取 3.1全国区.县的调查总体 3.2 ...

  6. 【抽样技术】CH2 简单随机抽样

    目录 前言 一.定义 二.概述 1.总体 2.单元 3.抽样比 4.样本抽取原则 5.在抽样理论中的地位与作用 三.参数估计 1.参数表示 2.对总体特征的估计思路 3.对总体均值的估计 (1)引理 ...

  7. 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别

    知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别 知识图谱的概念,与传统语义网络的区别 狭义概念 作为语义网络的内涵 与传统语义网络的区别 优点 缺点 与 ...

  8. 抽样技术--不等概率抽样

    文章目录 不等概抽样 放回不等概抽样 (只抽取一个样本单元的不等概抽样) 估计量 有放回不等概整群抽样 两阶段有放回不等概抽样 多阶段有放回不等概抽样 不放回不等概抽样 两阶段不放回不等概抽样 不等概 ...

  9. 《计算机网络技术》第二章课后习题答案(全)

    <计算机网络技术>第二章课后习题答案(全) 1.消息和信息的各自概念是什么?两者之间有何关系? 答: 消息:人类能感知的描述. 信息:消息中所包含的有意义的内容. 关系:消息是信息的载体. ...

最新文章

  1. Spring @Autowired和@Resource
  2. OpenCV基本步骤(初步学习)
  3. Oracle 原理: 视图,对视图进行增删改操作
  4. linux挂载固硬盘装,linux下安装新硬盘并挂载mount
  5. 序列化和反序列化的概念与延伸【详细解释 + 样例演示】
  6. 关于职场晋升,这是我的7点具体建议
  7. 协议栈Protocol stack入门
  8. 汇总Eclipse快捷键
  9. 无线传感器网络(一)基于无锚节点的WSN系统设计
  10. 【计算机考研408强化-操作系统】1. 操作系统的基本概念
  11. SPSS比较两组数据有无显著性差异 独立样本T检验
  12. R语言错误的提示(中英文翻译)
  13. 最短路默写1最短路默写2
  14. 前端学习之路---CSS
  15. Dockercompose创建redis主从复制
  16. 阿里出品,Excel 操作利器:easy-excel
  17. 安卓手机安装charles证书后,抓包依然提示unkown问题(An unknown issue occurred processing the certificate )
  18. C++14尝鲜:decltype 和 decltype(auto)
  19. BZOJ3521: [Poi2014]Salad Bar
  20. 工程伦理(笔记)第二章

热门文章

  1. 数据分析让网络推广事半功倍
  2. 计算机辅助设计在环境工程中的应用,试论计算机辅助设计在环境工程中的应用原稿(全文完整版)...
  3. python大数据毕业设计题目100例
  4. 题目 1018: 有规律的数列求和
  5. 参考文献正确格式 如何直接得到
  6. Docker容器启动参数大全与详细说明
  7. 区块链开发者观点: 来自 EOS 三国的 Jimmy Gong
  8. 电大 学位英语 计算机 资料,电大学位英语资料整理完整
  9. Handler消息机制-Native层
  10. 4G基带模块使用总结