放回不等概率抽样-PPS抽样
放回不等概率抽样-PPS抽样
- 一、数据描述
- 二、整群抽样
- 1. 抽样
- (1)调用inclusionprobabilities函数定义每个总体单元的入样概率,第一个参数定义规模变量,第二个参数定义样本容量
- (2)调用PPS抽样函数“UPmultinomial”,其参数为总体单元的入样概率变量。所得抽样结果s表示总体单元被抽中的次数。
- (3)提取抽到的样本数据
- 2. 估计
- (1)目标变量“acres92”的总值估计
- (2)目标变量“acres92”的总值估计的标准差估计
- (3)目标变量“acres92”的均值估计
- (4)目标变量“acres92”均值估计的标准差估计
一、数据描述
agpop数据文件介绍:美国政府每五年做一次有关农业的普查,收集50个州的所有农场的有关数据。数据文件中共有3041个美国县级农场或与县级农场相当的农场数据。共有4个区域(region/rnum),50个州(state/snum),以及3041个县(county/cnum)。
我们用到的变量有:
县(county/cnum), 州(state/snum), 区域(region/rnum),
1992年每个县的耕地面积(acres92), 1987年每个县的耕地面积(acres87),
1992年每个县拥有的农场个数(farms92)。
目标变量为1992年的耕地面积(acres92)。
二、整群抽样
1. 抽样
抽样要求:以“farms92”为规模变量,采用PPS抽样(放回)抽取容量为300的样本。
(1)调用inclusionprobabilities函数定义每个总体单元的入样概率,第一个参数定义规模变量,第二个参数定义样本容量
# 1.抽样
data=read.csv("抽样技术数据文件.csv",header=T,sep=",");
n=300; #样本容量
N=length(data$acres92)#总数
pik=inclusionprobabilities(data$farms92,n);pik #定义每个单元的入样概率
运行结果:【复制粘贴到此处】
> pik=inclusionprobabilities(data$farms92,n);pik # 定义每个单元的入样概率[1] 0.1461000085 0.0671185936 0.1367346233 0.1526557781 0.0393346177[6] 0.2019801399 0.0769522481 0.2211791795 0.1039557753 0.0597823753[11] 0.0265352580 0.0407394254 0.0839762869 0.0163894240 0.0600945548......
结果解释:【对结果进行解释说明】
输出结果为每个数据的入样概率。
(2)调用PPS抽样函数“UPmultinomial”,其参数为总体单元的入样概率变量。所得抽样结果s表示总体单元被抽中的次数。
s=UPmultinomial(pik);s #调用PPS抽样函数
运行结果:【复制粘贴到此处】
> s=UPmultinomial(pik);s #调用PPS抽样函数[1] 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 0 0 0 0 0 0 0 0[37] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0[73] 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0[109] 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0......
结果解释:【对结果进行解释说明】
输出结果为利用PPS抽样抽取的样本,“1”代表抽中的样本,“0”代表未抽中的样本。
(3)提取抽到的样本数据
data.pps=data[s!=0,];data.pps #提取抽到的样本数据
运行结果:【复制粘贴到此处】
> data.pps=data[s!=0,];data.pps #提取抽到的样本数据county cnum state snum acres92 acres87 acres82 farms92 farms87 farms82 largef92 largef87 largef82 smallf92 smallf87 smallf82 region rnum
6 ADAIR COUNTY 6 IA 12 401858 417178 419586 1294 1404 1508 52 42 31 101 102 95 NC 1
22 AIKEN COUNTY 22 IN 15 164025 173795 173605 963 1071 1165 18 15 15 55 55 67 NC 1
28 ALBANY COUNTY 28 PA 38 167863 184586 199590 1165 1355 1475 7 4 6 96 102 121 NE 2
......
结果解释:【对结果进行解释说明】
输出结果为所抽取到的样本数据的具体表述。
2. 估计
估计的目标变量为acres92的均值和总值,及其相应的标准误差
(1)目标变量“acres92”的总值估计
# 2. 估计
# 估计的目标变量为acres92的均值和总值,及其相应的标准误差
Z=pik[s!=0]/n; #计算每次抽样中每个样本单元被抽中的概率Zi,等于其包含概率除以样本容量n
Q=s[s!=0]; # 每个单元被抽中的次数
YHH=sum(data.pps$acres92/Z*Q)/n;YHH #目标变量“acres92”的总值估计
运行结果:【复制粘贴到此处】
> YHH=sum(data.pps$acres92/Z*Q)/n;YHH #目标变量“acres92”的总值估计
[1] 844942110
结果解释:【对结果进行解释说明】
目标变量“acres92”的总值估计值为844942110。
(2)目标变量“acres92”的总值估计的标准差估计
vars=(1/n)*(1/(n-1))*sum((data.pps$acres92/Z-YHH)^2*Q);
sqrt(vars);#目标变量“acres92”的总值估计的标准差估计
运行结果:【复制粘贴到此处】
> sqrt(vars);#目标变量“acres92”的总值估计的标准差估计
[1] 85799285
结果解释:【对结果进行解释说明】
目标变量“acres92”的总值估计的标准差估计值为85799285。
(3)目标变量“acres92”的均值估计
YHHm=(sum(data.pps$acres92/Z*Q)/n)/N; YHHm;#目标变量“acres92”的均值估计
运行结果:【复制粘贴到此处】
> YHHm=(sum(data.pps$acres92/Z*Q)/n)/N; YHHm;#目标变量“acres92”的均值估计
[1] 277850.1
结果解释:【对结果进行解释说明】
目标变量“acres92”的均值估计值为277850.1。
(4)目标变量“acres92”均值估计的标准差估计
varm=((1/N)^2)*(1/n)*(1/(n-1))*sum((data.pps$acres92/Z-YHH)^2*Q);
sqrt(varm);#目标变量“acres92”均值估计的标准差估计
运行结果:【复制粘贴到此处】
> sqrt(varm);#目标变量“acres92”均值估计的标准差估计
[1] 28214.17
结果解释:【对结果进行解释说明】
目标变量“acres92”均值估计的标准差估计值为28214.17。
放回不等概率抽样-PPS抽样相关推荐
- 抽样技术--不等概率抽样
文章目录 不等概抽样 放回不等概抽样 (只抽取一个样本单元的不等概抽样) 估计量 有放回不等概整群抽样 两阶段有放回不等概抽样 多阶段有放回不等概抽样 不放回不等概抽样 两阶段不放回不等概抽样 不等概 ...
- android随机抽奖代码_用Excel实现不放回随机抽样
所谓随机抽样,简单理解,顾名思义就是从总体中随机抽取几个或几组个体.现实中常见的例子由抽奖.抽查.数据随机分组等. 它又可分为放回随机抽样和不放回随机抽样.不放回随机抽样是指每次随机取个体后不放回总体 ...
- python 有放回随机抽取_Python 随机抽样
# -*- coding: utf-8 -*- import numpy import pandas data = pandas.read_csv( 'D:\\PDA\\4.9\\data.csv' ...
- 有放回随机抽样:重要参数subsample
原理透析 确认了有多少棵树之后,我们来思考一个问题:建立了众多的树,怎么就能够保证模型整体的效果变强呢?集成的目的是为了模型在样本上能表现出更好的效果,所以对于所有的提升集成算法,每构建一个评估器,集 ...
- pandas对dataframe的数据行进行随机抽样(Random Sample of Rows):使用sample函数进行数据行随机抽样(有放回的随机抽样,replacement)
pandas对dataframe的数据行进行随机抽样(Random Sample of Rows):使用sample函数进行数据行随机抽样(有放回的随机抽样,replacement) 目录
- pandas对dataframe的数据列进行随机抽样(Random Sample of Columns):使用sample函数进行数据列随机抽样(有放回的随机抽样,replacement)
pandas对dataframe的数据列进行随机抽样(Random Sample of Columns):使用sample函数进行数据列随机抽样(有放回的随机抽样,replacement) 目录
- R语言sample.int有放回或者无放回采样随机整数实战
R语言sample.int有放回或者无放回采样随机整数实战 目录 R语言sample.int有放回或者无放回采样随机整数实战
- asp .net mvc ajax 传值到后台,并放回JSon值解析
什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味 ...
- 组合数学-- 放回取样基础公式证明
放回取样 用CR(m , r) 表示放回取样或者重复取样时一个m集合的r组合的数量,例如在允许放回取样的情况下,集合{a , b}的4个元素的组合可以得到下面的结果: {a,a,a,a}, {b,b, ...
最新文章
- 皮一皮:现在想想真是幸运...
- 前端编码规范,个人感觉bootstrap总结的不错,拿出来给大家分享
- 华为天才少年,竟然要我用充电宝打游戏!
- BZOJ 3747 POI2015 Kinoman 段树
- 线程同步--信号量内核对象
- android.mk 编译32位_C/C++初学者常见编译错误及其解决办法
- restfulframework引用多对多外键
- 【LINUX 学习】查看和修改主机名
- 拓端tecdat|Matlab马尔可夫链蒙特卡罗法(MCMC)估计随机波动率(SV,Stochastic Volatility) 模型
- android 车牌识别 开源,在android上的车牌识别
- oracle存储过程实例
- 负反馈放大电路的四种组态
- 如何应对硬盘无法识别通电异响等那些七七八八的物理故障
- 软件测试面试中项目介绍宝典
- excel多个工作表合并怎么操作
- beyong compare激活
- linux命令看进程的tcp链接,Linux下查看TCP连接的状态的shell命令
- OUC_SE_Group04_Blog2
- python的flask框架实现的小型二手商城
- 字符串关键字的散列映射
热门文章
- Edge浏览器检查更新时出错: 无法创建该组件(错误代码 3: 0x80004002 -- system level)如何更新
- CNS服务器搭建(配合百度直连)
- 西电微机系统课程设计步进电机开环控制系统
- 官网---2019年上半年软考报名时间
- 细致的网站开发流程是怎样的?
- 硬核拆台!宏彦获水,一脸懵逼:百度李彦宏遭当众泼水,一开始肇事者就在全程直播!!
- 使用pygame实现音乐播放器(一)
- 猿编程python怎么样_猿编程怎么练习编程 让你提前熟悉代码
- <JVM上篇:内存与垃圾回收篇>01-JVM与Java体系结构
- PHP:回退(Backed)枚举