python分层抽样_抽样方法—分层抽样
接着上文说,简单随机抽样法和分层抽样法的对比有过一个经典的例子。1936年美国总统大选,《文学文摘》杂志对结果进行了调查预测。他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄一千万份问卷调查表,回收约240万份,结论是兰登取胜,而盖洛普也组织了抽样调查,进行民意测试。他的预测与《文学文摘》截然相反,认为罗斯福必胜无疑。结果,罗斯福赢得了2770万张民众选票,从此盖洛普名声大噪,而盖洛普采用的就是分层抽样法。
乔治·盖洛普
分层抽样法是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样本的方法,可以避免对样本来源集中于某一群体,能够更客观地反映全体投票者的倾向。盖洛普根据白人和黑人的比例,穷人和富人的人口比例,调整调查样本的比例,将人口分为不同层次,按照层次比例分配样本数,而后在每个层次内使用随机抽样的方式进行调查。
具体来说,确定各层样本数的方法有三种:
第一是分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数。这种方法存在的问题在于,某些事情所占比例虽低但影响巨大,例如信用卡信用评级,逾期用户是少数,但确实研究重点,要是按照比例抽样会造成样本不足。
第二,非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。正如信用卡信用评级一样,需要提高逾期用户的抽样比例,增加获得的信息量。
第三,奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。这个方法是考虑抽样成本的方法,核心思想是用最少的抽样成本获得最全面的信息,标准差小的层可以少抽样,反之则要扩大抽样量,力求获得更多有用的信息。
分层抽样法的难点首先是在于总体信息获得的难度,这一方法前提要获得总体一定的统计信息,用以进行分层,而对于很多调查来说,总体信息是不可知或者难以获得的。其次,是数据分层的依据难以确定, 分层依据是否有足够的区分度,各层内部是否具有足够共性,这都是难点。
行思知识工坊为本人个人工作室,本人软件工程硕士,拥有DB2数据库认证,软考软件设计师、信息系统项目管理师资格、三级企业人力资源管理师资质,多年实战经验,提供基于Python、R和Excel的数据分析服务、人力资源管理咨询、WPS模板制作、PHP程序开发、数据库调优、信息系统项目管理咨询等服务。
更多模板和信息请关注设计师公众号“行思知识工坊”:
python分层抽样_抽样方法—分层抽样相关推荐
- python四种抽样方法的使用:随机抽样、聚类抽样、系统抽样、分层抽样
四种抽样方法见下示例代码 示例代码 from sklearn.model_selection import train_test_split import numpy as npdef random_ ...
- python正则_正则化方法及Python实现
正则化有助于克服过度拟合模型的问题.过度拟合是偏差和方差平衡的概念.如果过度拟合,机器学习模型将具有较低的准确性.当我们的机器学习模型试图从数据中学习更多属性时,就会添加来自训练数据的噪声.这里的噪声 ...
- python单稳态触发_使用 方法可以获取一个列表中最大元素的值。_学小易找答案...
[填空题]若在列表的最后添加新元素,则可以直接使用列表的 方法. [填空题]将一个线程的 属性设置为True,则该线程为守护线程. [填空题]是在调用函数时函数名后面的一对小括号中给出的参数列表. [ ...
- python白盒测试_白盒测试方法
白盒测试方法 一.前言 定义: 白盒测试又称结构测试.透明盒测试.逻辑驱动测试或基于代码的测试.白盒测试是一种测试用例设计方法,盒子指的是被测试的软件,白盒指的是盒子是可视的,你清楚盒子内部的东西以及 ...
- python三重积分_蒙特卡罗方法。三重积分。Python。“+”的操作数父级不受支持...
我尝试用蒙特卡罗方法近似三重积分∫∫∫∫xyzdV,其中S=[0,1]×[0,1]×0,1]. 我有这个代码:from numpy import * import time from scipy.in ...
- 数据处理笔记11 类别不平衡处理-抽样方法
目录 失衡的程度 分层抽样 分层抽样示例 上采样 下采样 失衡的程度 不平衡数据即类别之间的分布不均匀 一般多少比例为严重不平衡, 参考: 数据比例达到多少才是不平衡数据? - 知乎 根据少数类占比, ...
- 基于 Python 的 8 种常用抽样方法
抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...
- 时序数据取样方法_数据科学的抽样方法
时序数据取样方法 语境 (Context) In most studies, it is pretty hard (or sometimes impossible) to analyse a whol ...
- python按指定概率抽样_python:抽样和抽样方法
学习目标目标 知道总体.样本.样本大小.样本数量 知道样本统计量和总体统计量 知道总体分布.样本分布和抽样分布 知道常用的抽样方法 某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘 ...
- python:抽样和抽样方法
学习目标 目标 知道总体.样本.样本大小.样本数量 知道样本统计量和总体统计量 知道总体分布.样本分布和抽样分布 知道常用的抽样方法 某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司 ...
最新文章
- iphone 在设置了initial-scale=1 之后,在设置滚动条之后,没有滑动效果的解决办法...
- pygame 笔记-8 背景音乐子弹音效
- java 定时删除_Java编写定时删除文件程序
- 基于Away3D实现全景的相机控制器。
- tar打包排除某个文件夹
- 互联网环境下分布式事务处理系统现状与趋势
- asp.net ajax实现在线人员的显示
- Android系统集成app,Android系统集成第三方pre
- asp.net gridview 模板列 弹出窗口编辑_如何使用极速PDF编辑器的注释工具?
- Canal 实现 Mysql数据库实时数据同步
- Dual Thrust(期货)
- 关于顶级域名、二级域名、子域名的问题
- Lemmatization VS Stemming
- 【工程应用】用Redis存储特征
- 周易六十四卦——蹇卦
- Android源码编译及替换成自己编译的linux内核
- 【C++ STL应用与实现】23: 如何使用std::mem_fn (since C++11)
- Elmedia Player GO for Mac中文破解版永久激活教程
- JDK自带工具查看内存
- 行业分析| OA系统中的实时通讯