本章重点名词:抽样调查的类型,抽样调查与普查的关系,目标总体,抽样总体,抽样框,抽样单元,总体特征与估计量,方差,偏倚,均方误差,抽样误差,非抽样误差,精度。

1.1调查与抽样调查


1.1.1调查

1.1.2抽样调查

抽样调查: 是一种非全面调查,是指从研究对象全体中抽取一部分单元作为样本,根据对所抽取样本进行调查获得有关总体目标的了解。
1.非概率抽样调查:判断选样,方便抽样,自愿样本,配额抽样。 见书p3页,我觉得并不是重点。
2.概率抽样(定性分析/定量分析):随机抽样,依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法,它具有下面几个特点:
(1)排除主管上有意识的抽取单元,使没个单元都有一定机会被抽中。
(2)每个单元被抽中概率可计算
(3)估计两与样本单元观测值有关,也与入样概率有关,所以用样本估计总体需要考虑抽中概率。入样概率可计算,样本统计量分布因此可知,就具有样本推断总体理论基础
3.非概率抽样(定性分析)
需要掌握: 能够论述什么情况下用概率抽样,什么情况下用非概率抽样

4.等概率抽样与不等概率抽样

1.等概率抽样, 如果大家被抽到概率相同,权重就相同,

2.不等概率抽样权重不一样,数据的处理会复杂一些。有些时候不等概率会更有效率,

1.1.3抽样调查的作用

1.节约费用
2.时效性强
3.可以承担全面调查无法胜任的项目
4.有助于提高数据质量

1.1.4抽样调查与普查

普查优点:对于有关国计民生的重要现象,有时需要了解总体中每个单元的情况,这时就需要普查。如人口普查,全国经济普查,全国农业普查等。
抽样调查:
(1)对普查起到补充作用
(2)对普查进行修正
(3)进行深层次分析
(4)快速获得总体的估计量
(5)普查为抽样调查提供抽样框

1.1.5抽样调查应用领域

1.2 基本概念


1.2.1目标总体与抽样总体

目标总体:要研究对象的全体
抽样总体:从中抽取样本的总体

1.2.2抽样框与抽样单元

抽样框(重点):
好的抽样框:一个抽样单元对应一个目标
抽样框缺陷:

  • 属于目标总体,但未出现在抽样总体中
  • 不属于目标总体,但出现在抽样总体内
  • 多重连接,目标总体有1个被抽到的概率为kn\frac{k}{n}nk​
  • 一个抽样单元对应三个目标单元
    抽样框不同类型:
    名录框,区域框,自然框

1.2.3总体参数与统计量

1.总体参数:抽取样本的目的是要得到总体的某些特征(参数)
总体参数四种类型
(1) 总体均值:总体平均值
Ymean=1N∑i=1nYiY_{mean}= \frac{1}{N}\sum_{i=1}^n{Y_i} Ymean​=N1​i=1∑n​Yi​

(2) 总体总值:总体总量
Y=∑i=1NYi=NYmeanY = \sum_{i=1}^NY_i=NY_{mean} Y=i=1∑N​Yi​=NYmean​

(3) 总体比例:如全部产品中合格品所占比例
P=∑i=1NYiNP = \frac{\sum_{i=1}^NY_i}{N} P=N∑i=1N​Yi​​

(4) 总体比率:它是两个总体总量或总体均值之比,如固定资产利用率,人均可支配收入变动率等
R=YX=YmeanXmeanR = \frac{Y}{X}=\frac{Y_{mean}}{X_{mean}} R=XY​=Xmean​Ymean​​
2.样本 :把从总体中按一定程序抽出的部分总体基本单元的集合称为样本,样本中包含的基本单元的个数n称为样本量,统计量是根据样本n个单元的变量值计算出的一个量,也叫估计量。
估计量有:
(1)均值估计:用样本均值作为总体均值的估计
Y‾^=y‾=1n∑i=1nyi\hat{\overline{Y}}=\overline{y}=\frac{1}{n}\sum_{i=1}^ny_i Y^=y​=n1​i=1∑n​yi​
其中yiy_iyi​代表第i个样本单元的观测值
(2)总值估计:用样本均值和总体单元数得到总值估计。
Y^=Ny‾=Nn∑i=1nyi\hat{Y}=N\overline{y}=\frac{N}{n}\sum_{i=1}^ny_i Y^=Ny​=nN​i=1∑n​yi​
(3) 比例估计,用样本比例作为总体比例的估计
P^=p=1n∑i=1nyi\hat{P} = p=\frac{1}{n}\sum_{i=1}^ny_i P^=p=n1​i=1∑n​yi​
yiy_iyi​为示性变量,只有1,0
(4)比率估计:用样本比率作为总体比率的估计
R^=r=∑i=1nyi∑i=1nxi=y‾x‾\hat{R}=r=\frac{\sum_{i=1}^ny_i}{\sum_{i=1}^nx_i}=\frac{\overline{y}}{\overline{x}} R^=r=∑i=1n​xi​∑i=1n​yi​​=xy​​

1.2.4 估计两方差、偏倚、均方误差

1.估计量方差表达式 :方差反应随机因素
V(θ^)=E[θ^−E(θ^)]2V(\hat{\theta})=E[\hat{\theta}-E(\hat{\theta})]^2 V(θ^)=E[θ^−E(θ^)]2
θ^\hat{\theta}θ^为总体参数θ\thetaθ的估计,E(θ^)E(\hat{\theta})E(θ^)为估计值的数学期望
2.偏倚 :root mean square 与MSE没区别(这里我希望叫他偏差)
误差为0就是无偏估计量

1.2.5 抽样误差与非抽样误差

抽样误差:由于抽样的随机性引起的,样本总量对总体参数推断时候产生的误差,特征是他的误差可计算。

  • 可控制
  • 可计算
  • 在其他条件相同情况下,样本量越大抽样误差越小,
  • 如果抽样误差很大:增大样本量减小误差,更改抽样方法。
    非抽样误差:除了抽样误差以外由其他原因带来的误差,可分三类

(1)抽样框误差

(2)无回答误差(缺失数据)

(3)计量误差 (调查环境影响:如测视力,跟光有关系,跟距离有关系,环境有关系)

1.3几种基本抽样方法


1.3.1 简单随机抽样(simple random sampling)

简单随机抽样是最简单不加其他条件,是其他抽样方法的基础

简单随机抽样实现方式有两种

1.放回抽样:抽取过程中每次抽取都是独立的,但可能使得单元被重复抽到,在统计学中每次抽取都是一个独立事件,没个样本随机抽取概率相等

2.无放回抽样:(条件概率)
无论是又放回抽样还是无放回抽样被抽取到的概率都是相等的,
如200个同学无放回抽样,第二次抽取的概率为199200∗1199\frac{199}{200}*\frac{1}{199}200199​∗1991​

3.实施方法

-抽签

-随机数表

-计算机抽取

当样本趋于无穷,小s方差 是大S方差无偏估计

随机抽样能够抽取样本组合可能性 NnN^nNn(有放回)

公式 :详看书上公式和例题

1.3.3整群抽样(cluster sampling)

将总体中若干个基本单元合并为组,这样的组称为群,抽样时直接抽取群,然后对选择的群所有基本单位进行调查。

1.3.4多阶段抽样

采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有基本单元,而是在进行一步抽样,从选中的群中抽取若干个基本单元进行调查。

1.3.5系统抽样(systematic sampling)

将总体中所有单元按一定顺序排列,在规定范围内抽取一个单元作为初始单元,然后按照事先定好的规则抽取其他单元
如r+k,r+2k,…r+nk


4.计算样本量时候需要总体方差,当总体方差不知道时候需要怎么办,需要估计总体方差,(在实际计算中用样本方差计算,是理论估计)这也解释了下面的公式我们无法得到S时候怎么办。


允许抽样误差代表置信区间范围,区间太大就没有意义,区间范围由设计人员确定。

t:概率度计算代表正太分布中正负1.96倍标准差,使误差α\alphaα=0.05,也就是正确概率为0.95
推断分三个阶段:1.计算点估计值,2.计算估计点误差,3.计算置信区间
1.点估计
y‾=1n∑nyi\overline{y}=\frac{1}{n}\sum^ny_i y​=n1​∑n​yi​
2.计算估计点误差
v(y‾)=(1−f)s2nv(\overline{y})=(1-f)\frac{s^2}{n} v(y​)=(1−f)ns2​
3.计算总体参数置信区间


需要会讨论样本量需要条件:总体情况,误差要求,置信区间要求。

c0为费用并无直接关系,c1为单位,需要去考虑允许误差,方差,与费用的关系

根据方差和允许误差Δ\DeltaΔ 求样本量:


国外研究:数据控制在什么范围数据最有力,最省钱,质量最高===相对控制在0.05, 0.05-0.1是常规范围

例如飞船的零件和超市卖的香肠的直径误差,精度有不同判别标准,飞船肯定需要误差越小越好,而火腿肠则不需要误差很小。
抽样最适合的领域是大范围的,规模越大抽样调查越高。
论述题:简单随机抽样有关问题,什么是简单随机抽样,他的特征,样本量分配,影响样本量的因素, 计算题:计算均值,计算比率,计算样本量等

1.3.2 分层抽样(stratified sampling)

分层原则:层内方差尽可能小,层间方差尽可能大。(展开描述)
将抽样单元按某种特征或某种规则划分为不同的层,然后从不通的层中独立、随机的抽取样本,然后在合并起来。如一大锅汤,尝一勺就知道咸淡,因为总体样本量方差很小,每个位置的分布都是一样的。所以我们要分的层




k可以看出在计算样本点估计的时候只是增加了WiW_iWi​(权重),而WiW_iWi​为i层样本总量与总体量的比值nN\frac{n}{N}Nn​

同样在估计点方差计算上也是在求每层方差*WiW_iWi​后求和

如何分配每层抽取样本数,最优方法是内曼分配,当不满足内曼分配时应该选择按比例分配。








抽样:理论与应用(第二版) 金勇进 课程笔记 1~4章相关推荐

  1. pdf 天线理论与技术 钟顺时_天线理论与技术第二版-钟顺时-第一章部分习题解答.pdf...

    天线理论与技术第二版-钟顺时-第一章部分习题解答 第一次作业 Matlab 绘制电基本振子方向图和E 面H 面 1 1.1-1 ̅ ( ) ̅ ̅ ∇ × = ∇ × [ ] = − [( )] ̅ ...

  2. 视觉SLAM十四讲从理论到实践第二版源码调试笔记(理论基础1-6章)

    2019-2020-2学期机器人工程专业需要开设SLAM技术课程,使用教材为视觉SLAM十四讲从理论到实践第二版. 为方便学生学习课程知识,将Arduino.ROS1.ROS2和SLAM集成到课程定制 ...

  3. 《Android移动应用基础教程》(Android Studio)(第二版)黑马教程 课后题答案第一章

    <Android移动应用基础教程>(Android Studio)(第二版)黑马教程 课后题答案 第一章 一.填空题 1.dex 2.@color 3.AndroidManifest.xm ...

  4. 《UML用户指南第二版》再次温读笔记(一)(downmoon)

    前言:最近,花点时间重读(也不知道是第几遍了)<UML用户指南第二版>这本书,感觉虽然对WEB程序开发而言,UML的应用是一个极大的挑战,然而,其中蕴含的基本原理和指导性却是历久弥新,耐人 ...

  5. 学完可以解决90%以上的数据分析问题-利用python进行数据分析第二版(代码和中文笔记)...

    <利用python进行数据分析>是数据分析的基础教程,绝大部分数据分析师的入门教材,目前已经升级到第二版.本站搜集了教材的第二版原版代码进行中文翻译和注释,并做了一定的笔记.基本上只需要看 ...

  6. 《Python程序设计与算法基础教程(第二版)》江红 余青松,第九章课后习题答案

    推荐阅读 <Python程序设计与算法基础教程(第二版)>江红 余青松 全部章节的课后习题,上机实践,课后答案,案例研究 文章目录 例9.1~例9.53 填空题:2 思考题:3~11 上机 ...

  7. 软件工程——理论与实践(第二版)课后习题整理

    第一章 1.选择题 (1)下列说法中正确的是( B ). A.20 世纪50年代提出了软件工程的概念 B.20世纪60年代提出了软件工程的概念 C.20 世纪70年代出现了客户机/服务器技术 D.20 ...

  8. C语言程序设计第二版 甘勇, 李烨 , 卢冰

    C 语言是一种通用的.面向过程式的计算机程序设计语言.1972 年,为了移植与开发 UNIX 操作系统,丹尼斯·里奇在贝尔电话实验室设计开发了 C 语言. C 语言是一种广泛使用的计算机语言,它与 J ...

  9. 数据科学理论基础知识汇总---《数据科学理论与实践(第二版)》第二章

    目录 前言 一.数据科学的学科地位 二.统计学 2.1 统计学与数据科学 2.2 数据科学中常用的统计学知识 2.3 数据科学视角下的统计学 三.机器学习 3.1 机器学习与数据科学 3.2 数据科学 ...

  10. 软件工程——理论与实践(第二版)期末复习题库

    2.1 判断题:对象的依赖关系是一种使用关系. A. 对B. 错 正确答案: A 你的作答: A 2 单选题 2 分 简单 软件生存周期过程表示软件生存周期内的一个过程. A. 对B. 错 正确答案: ...

最新文章

  1. Python使用过滤器(filter)进行图像模糊处理
  2. golang1.13环境变量保存路径 go env -w
  3. springmvc 返回xml数据
  4. (Oracle学习笔记) sql*plus命令
  5. 2019牛客多校一 D. Parity of Tuples
  6. 【软件开发底层知识修炼】十七 快速学习GDB调试四 使用GDB进行函数调用栈的查看
  7. squid端口转发_HTTP隧道(经典版)Squid 接入指南| 阿布云 - 为大数据赋能
  8. 2nd scrum站立会议
  9. JMeter——JMeter如何进行汉化
  10. 扇贝有道180918每日一句
  11. python静态方法_python的静态方法和类方法
  12. [UPF]低功耗仿真介绍
  13. AT89S52单片机思维导图
  14. 计算机应用基础考试制作表格,计算机应用基础考试---Excel电子表格公式与函数...
  15. 外卖红包返利小程序源码系统
  16. 流媒体协议(三):FLV协议
  17. 毕业设计之 --- 基于设深度学习的人脸性别年龄识别系统
  18. 2022青海省农商银行(农信社)招聘每日一练及答案
  19. 利用flex弹性布局实现图片水平及垂直方向居中
  20. 【读书笔记】《中庸(国学大书院)》

热门文章

  1. 7本软书,助你打破职场天花板
  2. 华佗穿越来教程序员睡觉
  3. 一个字等于多少个字节?
  4. lbochs模拟器最新版_bochs模拟器最新版下载
  5. 2022年了,微信透明头像怎么设置?不多说,安排(2)
  6. 北邮OJ 126 中序遍历序列
  7. HTML5网页点击分享到whatsapp
  8. C#发送邮件,包含发送附件
  9. 怎么把音频转换成mp3格式?
  10. 定量风险分析技术__蒙特卡罗分析