统计学(3)——数据抽样方法的细节
抽样
- 数据的收集和整理
- 收集数据时的误差
- 常用的抽样方法
- 设计调查问卷的原则
第一节:数据的收集和整理
全面调查与抽样调查是数据收集过程中最常用的2种方法。
1.全面调查:就是对调查对象逐个排查。
优点:得到的数据全面,可靠
缺点:耗费人力物力财力;调查时间长
适用范围:范围比较小;容易掌控;不具有破坏性;可操作性强
2.抽样调查:是从总体中,抽取若干个体(即样本)进行调查
优点:耗费的人力物力财力少;大量节约调查时间
缺点:需要具有足够代表性的样本;具有不稳定性,容易有所偏差
适用范围:范围广,工作量大
3.总体,个体,样本
总体:在统计学中,我们把所要考察的对象的全体称为总体。
个体:其中的每个考察对象称为个体。
样本:研究中实际观测或需要抽样调查出来的那一部分个体称为样本。
样本容量:样本中包含的个体的数量
4.简单随机抽样:在抽取样本时,如果总体中的每一个体都有同等机会被抽选到样本中,这种抽样称为简单随机抽样。这样得到的样本称为随机样本。
5.总体和样本的关系:如果总体是一碗八宝粥,随机样本则是充分搅拌后,八宝粥中的任意一勺。且搅拌越充分,样本的代表性越好。
选取样本的注意事项:样本的选取直接影响分析结果。
一般情况下样本容易出现的问题:(1)抽取的样本量过少;【样本与误差的关系:数据抽取的样本量越大,抽样误差越小,尤其是在样本分布不均时,样本量过少会导致结果的可信度更低】
(2)选取的样本主体不均匀
(3)样本抽取的客观环境不一致
第二节:收集数据时的误差
1.抽样误差:
如果总体是一碗八宝粥,随机样本则是充分搅拌后,八宝粥中的任意一勺。且搅拌越充分,样本的代表性越好。然而,一勺八宝粥中的成分比例和整碗不一定相同,可能稍微多些或稍微少些。这是很正常的,这种差异不是错误,而是必然 会出现的抽样误差。抽样误差是由于抽样方法所导致的系统误差,在抽样中不可避免。
2.未响应误差:
在抽样调查中,人们因为种种原因没有对调查做出反应,这种误差称为未相应误差。
3.响应误差:
在抽样调查中,一些人因为各种原因,并没有真实反映他们的观点,称为响应误差。
和抽样误差不一样,响应误差和未响应误差是由于主观因素导致的,他们都会影响对真实世界的了解。我们在设计调查方案和进行调查过程中要尽量避免。
第三节:常用的抽样方法
首先,随机样本指的是每个个体都以同等的概率被抽到。在抽样调查时,最理想的样本就是随机样本,但随机样本有时候不是那么容易获取。
常用的抽样方法有以下四种:
(1)随机抽样:是指将调查总体的观察个体全部编号,再随机抽取部分观察个体,组成样本。
优点:由于总体中每个单位都有同等机会被抽中,所以在样本推论总体时,可用概率的方式客观地判断估计值的可靠程度。
缺点:总体较大时,难以一一编号。
(2)分层抽样:是先把要研究的总体按照某些行政分类,再在各类中分别抽取样本。比如:按照教育程度把感兴趣的人群分成几类,再在每一类中调查和该类成比例数目的人,以确保每一类都有相应比例的代表。
优点:样本代表性好,抽样误差减小
缺点:抽样过程繁杂
(3)整群抽样:指先把总体分成若干群,再从这些群中抽取几群,然后再在这些抽取的群中对个体进行简单的随机抽样。
优点:便于组织,节省经费
缺点:抽样误差大于单纯随机抽样
(4)系统抽样:是先把总体中的每个单元编号,然后随机选取其中之一,作为抽样开始点进行抽样。在选取开始点之后,通常从开始点开始控制编号,进行所谓等距抽样。由于开始点随机,如果编号随机,所以系统抽样类似于随机抽样。
优点:易于理解,简便易行
缺点:总体有周期或者增减趋势时,容易产生偏差。
第四节:设计调查问卷的原则
(1)合理性:问卷必须紧密与调查主题相关
(2)逻辑性
(3)明确性
(4)全面性
(5)非诱导性
统计学(3)——数据抽样方法的细节相关推荐
- matlab读取八叉树,基于改进型八叉树分解的三维超声图像数据抽样方法
[1] 颜光前, 赵柳, 吴俊, 等. 基于ABUS图像的轻量型切口疝补片计算机辅助检测与评估算法[J]. 云南大学学报: 自然科学版, 2017, 39(5): 768-779. DOI: 10. ...
- python读取data_Python批处理数据读取方法的细节:dataloader,Pytorch,批量,详解,DataLoader...
在训练模型的过程中,我们需要不断的读取小批量的数据样本.Pytorch提供了 data 包来读取数据.接下来我将人工生成一些数据,然后使用 data 包来处理数据. import torch impo ...
- 时序数据取样方法_数据科学的抽样方法
时序数据取样方法 语境 (Context) In most studies, it is pretty hard (or sometimes impossible) to analyse a whol ...
- 【天池赛事】零基础入门语义分割-地表建筑物识别 Task2:数据扩增方法
[天池赛事]零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline(3 天) – 学习主题:理解赛题内容解题流程 – 学习内容:赛题理解.数据读取.比赛 baseline 构建 ...
- 统计学中的Bootstrap方法(Bootstrap抽样)用来训练bagging算法,如果随机森林Random Forests
统计学中的Bootstrap方法(Bootstrap抽样)用来训练bagging算法,如果随机森林Random Forests 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学 ...
- 统计学-抽样方法(学习笔记)
目录 抽样方法 统计研究的类型 批判性评估统计研究的8个原则 抽样方法 1.简单随机抽样. 2.系统抽样:芯片开发流水线中,每隔50个芯片进行抽样. 3.任意抽样:以便利为准则去进行随机抽样(比如 通 ...
- 分类数据不均衡(抽样方法)
通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布. 查看全文 http://www.taodudu.cc/news/show-55645 ...
- 基于 Python 的 8 种常用抽样方法
抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...
- 目前缺少用于语义分割的 3D LiDAR 数据吗?关于三维点云数据集和方法的调查
目前缺少用于语义分割的 3D LiDAR 数据吗?关于三维点云数据集和方法的调查 原文 Are We Hungry for 3D LiDAR Data for Semantic Segmentatio ...
最新文章
- XSL 扩展样式表语言(EXtensible Stylesheet Language)
- When.js 1.8.0 发布,Promises/A 的实现
- BZOJ 1146: [CTSC2008]网络管理Network( 树链剖分 + 树状数组套主席树 )
- kafka tool 查看指定group下topic的堆积数量_ELK架构下利用Kafka Group实现Logstash的高可用...
- 面试官系统精讲Java源码及大厂真题 - 01 开篇词:为什么学习本专栏
- JspWriter 与 printwriter区别
- 天语手机android 4.4.4,天语 V8 4.4.4 ROM刷机包 MIUI 6 合作版
- 最短路大大大跟着合集
- libpng的使用 | 在Linux系统下编译、安装与使用
- Python 监控linux之dstat
- 考研——考研有用的“宝贝”(软件,公众号,网站,励志电影,音乐)
- 操作系统之调度 (十) --- 处理机调度、高级调度、中级调度、低级调度...
- javascript 去掉html标签,js怎么去掉html标签
- LED技术50年秘史回顾:从指示灯到街灯
- Spark系列—spark简介
- amazon - amzreport 之 FBA Inventory Reports
- 【.NET】简单使用Description特性
- C/C++ free(NULL)的思考
- 地方门户网站的运营我们缺少的是什…
- Makefile原理