一、基本了解

(一)从等概率抽样说起

1、等概率抽样的特点

总体中每个单元地位都相等,在抽样时对每个单元更是采取不偏不倚的态度。每个总体单元都以相同概率入样。

2、不等概抽样优于等概抽样的举例

等概率抽样方法容易设计和解释,但并非总是可行的,有时候,不等概率更有效率,尤其是抽样单元规模差异很大时。

比如,①对船舶运输量进行调查,作为抽样单元的船舶,有的是从事远洋运输的万吨巨轮,更多的是从事内河河网运输的百吨或几十吨小船。总体单元差异大,这时,不等概率抽样能提高精度;

②又比如,调查某城市所有住院病人对某项医疗服务的偏好程度,如果采取两阶段等概率抽样。第一阶段以医院为群,等概率抽取部分医院,第二阶段抽取病床,为了保证等概率抽样,在被抽中的医院中按照病床比例简单随机地抽取相应样本数目,使每个医院被抽取的样本单元能代表相同数量的总体单元(自加权样本)。在病人对该项医疗服务的满意程度与医院的病床数成正比的情况下,无偏估计量就会产生较大的方差。并且,不同规模的医院(20个床位和1000个床位)的医院样本调查难度和单元成本不同,加之抽样前医院的样本数未知,这些情况都给等概率抽样的设计和实施带来了困难

因此,总体单元差异大时,需要牺牲“简单”来提高抽样效率。

3、提高抽样效率的2个方法

一是在抽样初始阶段,就按照总体单元规模大小分层,分层之后,每层的层抽样比不同(此处的抽样比并不严格按照单元数比例分配),对较大单元所在的层赋予更高的层抽样比,特大层的抽样比甚至可以是100%;

另一种是直接将每个单元的规模所占比例作为入样概率,不分层或者分成不清晰的层。

对比等概率抽样之一的按比例分配各层样本量的分层抽样,做法是先分层(分层依据不一定是规模,而是诸如年级、收入等辅助变量),然后按照各层单元数占总体单元数的比例分配各层样本量(抽样比与单元数严格一致),相当于保持分层的结构,缩小调查样本。

例如,上面关于医疗服务偏好的调查中,可以采用不等概率抽样中的第二种方式,直接将医院的床位数量比例作为入样概率(此时各总体单元的入样概率是不等的,是否被抽中与床位数的多少有关,大医院被抽中的可能性大)抽取医院,然后从每个入样医院中抽取相同数量的样本床位(此时各样本单元的入样概率又是不等的,大医院的抽样比低,小医院的抽样比高,即如果某病人在小医院,则被抽中的可能性更大)。两阶段的不等概率相互抵消,最后产生等概率的效果,即每个病人都有相同的入样概率。与等概率整群抽样方法相比,该不等概率抽样方法的方差较小。

(二)不等概抽样

优点:估计精度较高。不足:每个单元的规模大小在抽样中很受重视,抽样前必须获得相关辅助信息,这使得抽样框的编制有时会比较复杂。

(三)不等概抽样的适用情况

1、抽样单元在总体中的地位不一致。

例如,对某市商业销售额调查,以商场为抽样单元。虽然大型或特大型商场的数量并不多,但它们占总销售额的份额大,地位重要。对于这种情况,如果将大小商场同等对待,就显得不尽合理。并且,由于规模和管理水平的原因,对大商场展开的调查往往更加容易,可以更加细致,值得花费一定的精力去进行。

2、调查的总体单元与抽样单元不一致。

例如,某大型单位欲对本单位的职工家庭情况展开调查。一般以职工花名册作为抽样框进行抽样。如果某家庭中有不止一人在该单位工作,在简单随机抽样的方式下,这种家庭被抽中的概率更大。而调查者希望将每个家庭同等对待,这时,除了可以在抽样框中删除人员外,还可以采用不等概率抽样,即以每名职工其家庭成员在该单位工作的人数的反比作为抽样概率。

3、为了改善估计量

二、不等概抽样的分类

(一)放回不等概率抽样

特点:在抽样之前就给总体中每个单位赋予一个确定的抽样概率,在放回抽样的每一次抽取中,每个单位被抽中的概率都不变,直到抽够n个样本单位为止。由于每次抽取总体的分布都不变,所以每次抽取都是相互独立的。最重要最常用的是PPS抽样,即总体中每个单位每次被抽到的概率与单位的规模大小成比例。

不足:有放回+不等概率,使被赋予较大抽样概率的单位不仅入样机会大,而且被重复抽取的机会也大,由此造成信息的重复,降低抽样的效率。

1、样本单元放回的与规模大小成比例的不等概率抽样(PPS,probability proportional to size)

总体单元个数为、总体单元规模大小的度量为,每个总体单元的入样概率

2、PPS抽样的实施主要有两种方法:

①代码法

赋予每个单元与相等的代码数,每次抽样都产生一个之间的随机数落入的区间对应的单元被抽中,重复进行,直到抽满所需的单元数。

②拉希里法(Lahiri)

,每次产生一个之间的随机数和一个之间的随机数,如果,则该单元被抽中。否则重复抽取,直到抽满所需的单元数。

3、汉森-赫维茨(Hansen-Hurwitz)估计量

选取的样本数为,此时总体总值的估计量是汉森-赫维茨(Hansen-Hurwitz)估计量,并且是无偏的。

如果采用的是PPS抽样,则

4、PPS抽样下利用HH估计量估计总体总值的例题

采用PPS抽样,已知抽取的样本数(某些样本单位被抽中一次以上,估计的时候,也要把对应的值重复计算相应的次数)、各样本的辅助变量值(一般为规模大小)、现今各样本的调查值,计算出,则可代入公式计算以下值:

总体总值的估计:

方差及标准差估计:

在置信度为95%时,对应的相对误差为:

因此在置信度仍为95%,相对误差为20%时,所需的样本量为:

(二)不放回的不等概率抽样

特点:样本中不会出现重复单位,抽样效率比放回形式的要高。各次抽取相互不独立,使得抽样实施、目标量及其方差的估计都更加复杂。最常用最重要的是抽样,即样本量固定,总体中每个单位的入样概率与单位的规模大小严格成比例。此处不详细介绍。

样本单元不放回与规模大小成比例的不等概率抽样(

此时样本不独立。总体单元被包含到样本的概率是抽取的单元数。

三、群规模不等的整群抽样

(一)方法综述

群规模不等时的整群抽样及其估计,包含很多种方法,比如:

1、等概抽样,简单估计

此时估计量是有偏的,但是操作简单易于掌握,适用于群之间规模差异不大的情况。

2、等概抽样,加权估计

以群规模为权数,是一个无偏估计,但是方差较大。

3、等概抽样,比率估计

以群规模为辅助变量,是有偏估计,但适用于n较大的情况。并且,选取关系更密切的辅助变量能减小方差。

4、与群规模成比例的PPS抽样(汉森-赫维茨估计量)

将群的规模作为抽取样本的辅助信息,可以得到总体目标量的无偏估计,估计量和方差都有比较简明的形式,并提高了估计的效果。

该情况下的例题计算:

采用PPS抽取群,已知抽取的样本数、群规模(辅助变量)、各样本总值。以辅助变量作为依据,采用代码法抽样,得到样本后,估计过程如下:

样本均值、样本均值的方差,从而得到样本均值的置信区间。

总体均值、总体均值的方差,从而得到总体均值的置信区间。

四、关于总体比例的整群抽样

(一)抽样方法

1、群规模相等时

采用简单随机抽样抽取群,这时是无偏估计,

2、群规模不等时

例题:已知某群中具有某些特征的单位数、各群的比例、各群的规模、平均群规模,得到总体总值的估计及方差:

为了证明该方法比简单随机抽样效果更好,以下计算简单随机抽样下的估计量及方差,

此时,同时群内相关系数

五、多阶段有放回不等概率抽样

是在各级的单元大小不同的情况下,具体公式略。着重分析两个案例:

案例:关于全国地级及以上的城市成年居民人均奶制品消费情况的调查。

第一步,确定调查方法。多阶段抽样。各阶段抽样单元分别是城市、街道、居委会、居民户。

第二步,确定样本量及各阶段样本量的分配

①全国样本量的计算,95%的置信度下、为使方差达到最大、极限绝对误差,代入公式得到,估计回答率为,因此调整样本量为,由于多阶段抽样的效率比简单随机抽样的效率低,因此,取设计效应(一般在3左右),得到样本量

②各阶段样本量的配置:是按照计算出来的后推而来的。
初级单元:20个城市,每个城市有80位样本居民。

二级单元:80个街道,每个样本市内抽4个街道。

三级单元:160个居委会,每个样本街道抽2个居委会。

四级单元:1600个居民户,每个样本居委会内抽10户居民户,该数字大于等于

在每个样本居民户中,利用二维随即表抽取1个成年居民

第三步,抽样方法的选择

第一阶段,在全国城市中按与人口数成比例的放回的不等概率抽样,即PPS抽样,抽取20个城市。

二级单元和三级单元的选取都是按照与人口数成比例的不等概等距抽样。

以第二阶段为例,在某个被抽中的样本城市中,给其所属的街道编号,收集各街道的人口数,赋予每个街道与其人口数相同的代码数,将该市总人口数除以样本量4得到抽样间距,然后对代码进行随机起点的等距抽样,被抽中代码所在的街道为样本街道。

第四阶段,分别在每个样本居委会中,根据该居委会拥有的居民户数除以样本量10得到抽样间距,随机选择起点地等距抽样。

第四步,推算结果

初级单元的比例为,总体比例为,总体比例的方差估计

举例:我国劳动力的调查(以全国为总体,各省市区独立实施抽样)

1、分层四阶整群抽样(县→乡→村→小区)

①对县级单元(县、县级市或市辖区)按照人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取县级单位;

②对抽中的县级单位,采用PPS抽取乡级单位(街道、镇或乡);

③对抽中的乡级单位 ,采用PPS抽取村级单位(居委会或村委会);

④对抽中的村级单位,系统抽样抽取调查小区(由30个最相邻的住址组成)。抽中的小区调查其全部住户及家庭成员。

2、分层三阶整群抽样(乡→村→小区)

①对乡级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取乡级单位;

②对抽中的乡级单位,采用PPS抽取村级单位;

③对抽中的村级单位,系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。

3、分层两阶整群抽样(村→小区)

①对村级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用PPS在每一层抽取村级单位;

②对抽中的村级单位,采用系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。

《抽样技术》第5章 不等概抽样相关推荐

  1. R语言实现RHC随机分群,不等概抽样

    总体单元序号:Y: 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 对应的规模测度:X:42 65 52 40 75 65 45 ...

  2. 抽样技术--不等概率抽样

    文章目录 不等概抽样 放回不等概抽样 (只抽取一个样本单元的不等概抽样) 估计量 有放回不等概整群抽样 两阶段有放回不等概抽样 多阶段有放回不等概抽样 不放回不等概抽样 两阶段不放回不等概抽样 不等概 ...

  3. 【抽样技术系列03】分层随机抽样ST

    目录导引 Chap 3 分层随机抽样ST 3.1 概念,符号 3.1.1 分层抽样的定义 3.1.2 分层抽样的作用 3.1.3 分层抽样的原则 3.1.4 符号说明 3.2 简单估计量 3.2.1 ...

  4. 抽样技术--系统抽样

    文章目录 定义 直线等距抽样 圆形等距抽样 等概系统抽样 不等概系统抽样 定义 N个单元按一定顺序排列,抽一个起始单元,然后等距抽样直到满n个为止 直线等距抽样 r为初始起点,( j - 1 )k表示 ...

  5. 过拟合与模型调优(part2)--重抽样技术

    学习笔记,仅供参考,有错必纠 PS : 本BLOG采用中英混合模式,有些英文下有中文翻译 文章目录 重抽样技术 k折交叉验证 重复训练/测试集划分 Bootstrap方法 重抽样技术 Generall ...

  6. 【抽样技术】CH2 简单随机抽样

    目录 前言 一.定义 二.概述 1.总体 2.单元 3.抽样比 4.样本抽取原则 5.在抽样理论中的地位与作用 三.参数估计 1.参数表示 2.对总体特征的估计思路 3.对总体均值的估计 (1)引理 ...

  7. 用八种抽样技术,解决数据科学最大障碍之一

    全文共3210字,预计学习时长6分钟 你一定经历过这种情况:下载了一个大型数据集,开始进行分析并建立机器学习模型.但在尝试加载数据集时,计算机突然显示"内存不足"错误. 这是数据科 ...

  8. 市场调查与分析[市场调查员][抽样技术方案][抽样方法][F检验]

    正大杯比赛最新参考题(预测含必考) - 知乎 目录 A市场调查员 B抽样技术方案 一.调查目的.范围.对象及内容 二.抽样方案设计的原则与特点 三.样本区.县的选取 3.1全国区.县的调查总体 3.2 ...

  9. R语言与抽样技术学习笔记(Jackknife)

    R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap) Jackknife算法 Jackknife的想法在我很早的一篇博客<R语言与点估计学习笔记(刀切法与最小二 ...

最新文章

  1. php 进程管理,php如何管理进程
  2. (转)Python rsa 签名与验证 sign and verify
  3. linux中EOF的用法梳理
  4. 由 Windows 向 Linux 迁移字体
  5. matlab2010a连接mysql_MATLAB2010a+OpenCV2.3.1+VS2010运行TLD
  6. 天才编程少女16岁获哈佛offer,全民网红时代,我们该怎么做?
  7. php 获取网页内容 四种方法
  8. 找到符合条件的索引_程序员写了多年CRUD,总结出数据库索引这几点值得注意...
  9. jmeter连接并使用mysql数据库_jmeter连接MySQL数据库,并执行sql
  10. ns3学习之ns3模拟基本流程
  11. 智方8000系汽车配件进销存管理系统 襄樊石开软件公司
  12. dart语言和PHP,如何以Dart语言完全转储/打印变量到控制台?
  13. 数据库实验1---创建数据库和表
  14. hive获取数据中位数函数
  15. Redis原生SET、SETNX、SETEX方法以及RedisTemplate的方法 + 分布式锁的实现
  16. (USB:VCP+HID复合设备与系统配置)
  17. cpld xilinx 定义全局时钟_Xilinx+CPLD介绍
  18. OSChina 周四乱弹 —— 你妈是洗衣机的亲妈
  19. Python matplotlib与tkinter结合
  20. 在英特尔硬件上部署深度学习模型的无代码方法 OpenVINO 深度学习工作台的三部分系列文章 - CPU AI 第一部

热门文章

  1. 基于SVM的航空发动机故障诊断系统设计
  2. android颜色识别
  3. Erlang:[笔记一,构建工具rebar之编译]
  4. 国内首个政务云评估机制即将发布!
  5. 小哥allegro72讲视频百度云下载
  6. 油电混合动力汽车行星齿轮箱设计(论文+CAD图纸)
  7. uni-app 查看大图
  8. cs230 深度学习 Lecture 2 编程作业: Logistic Regression with a Neural Network mindset
  9. FANUC机器人如何查看诊断画面状态?
  10. 2018考研数学一解析 ​​​