接着上文说,简单随机抽样法和分层抽样法的对比有过一个经典的例子。1936年美国总统大选,《文学文摘》杂志对结果进行了调查预测。他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄一千万份问卷调查表,回收约240万份,结论是兰登取胜,而盖洛普也组织了抽样调查,进行民意测试。他的预测与《文学文摘》截然相反,认为罗斯福必胜无疑。结果,罗斯福赢得了2770万张民众选票,从此盖洛普名声大噪,而盖洛普采用的就是分层抽样法。

乔治·盖洛普

分层抽样法是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样本的方法,可以避免对样本来源集中于某一群体,能够更客观地反映全体投票者的倾向。盖洛普根据白人和黑人的比例,穷人和富人的人口比例,调整调查样本的比例,将人口分为不同层次,按照层次比例分配样本数,而后在每个层次内使用随机抽样的方式进行调查。

具体来说,确定各层样本数的方法有三种:

第一是分层定比。即各层样本数与该层总体数的比值相等。例如,样本大小n=50,总体N=500,则n/N=0.1 即为样本比例,每层均按这个比例确定该层样本数。这种方法存在的问题在于,某些事情所占比例虽低但影响巨大,例如信用卡信用评级,逾期用户是少数,但确实研究重点,要是按照比例抽样会造成样本不足。

第二,非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。正如信用卡信用评级一样,需要提高逾期用户的抽样比例,增加获得的信息量。

第三,奈曼法。即各层应抽样本数与该层总体数及其标准差的积成正比。这个方法是考虑抽样成本的方法,核心思想是用最少的抽样成本获得最全面的信息,标准差小的层可以少抽样,反之则要扩大抽样量,力求获得更多有用的信息。

分层抽样法的难点首先是在于总体信息获得的难度,这一方法前提要获得总体一定的统计信息,用以进行分层,而对于很多调查来说,总体信息是不可知或者难以获得的。其次,是数据分层的依据难以确定, 分层依据是否有足够的区分度,各层内部是否具有足够共性,这都是难点。

行思知识工坊为本人个人工作室,本人软件工程硕士,拥有DB2数据库认证,软考软件设计师、信息系统项目管理师资格、三级企业人力资源管理师资质,多年实战经验,提供基于Python、R和Excel的数据分析服务、人力资源管理咨询、WPS模板制作、PHP程序开发、数据库调优、信息系统项目管理咨询等服务。

更多模板和信息请关注设计师公众号“行思知识工坊”:

python分层抽样_抽样方法—分层抽样相关推荐

  1. python四种抽样方法的使用:随机抽样、聚类抽样、系统抽样、分层抽样

    四种抽样方法见下示例代码 示例代码 from sklearn.model_selection import train_test_split import numpy as npdef random_ ...

  2. python正则_正则化方法及Python实现

    正则化有助于克服过度拟合模型的问题.过度拟合是偏差和方差平衡的概念.如果过度拟合,机器学习模型将具有较低的准确性.当我们的机器学习模型试图从数据中学习更多属性时,就会添加来自训练数据的噪声.这里的噪声 ...

  3. python单稳态触发_使用 方法可以获取一个列表中最大元素的值。_学小易找答案...

    [填空题]若在列表的最后添加新元素,则可以直接使用列表的 方法. [填空题]将一个线程的 属性设置为True,则该线程为守护线程. [填空题]是在调用函数时函数名后面的一对小括号中给出的参数列表. [ ...

  4. python白盒测试_白盒测试方法

    白盒测试方法 一.前言 定义: 白盒测试又称结构测试.透明盒测试.逻辑驱动测试或基于代码的测试.白盒测试是一种测试用例设计方法,盒子指的是被测试的软件,白盒指的是盒子是可视的,你清楚盒子内部的东西以及 ...

  5. python三重积分_蒙特卡罗方法。三重积分。Python。“+”的操作数父级不受支持...

    我尝试用蒙特卡罗方法近似三重积分∫∫∫∫xyzdV,其中S=[0,1]×[0,1]×0,1]. 我有这个代码:from numpy import * import time from scipy.in ...

  6. 数据处理笔记11 类别不平衡处理-抽样方法

    目录 失衡的程度 分层抽样 分层抽样示例 上采样 下采样 失衡的程度 不平衡数据即类别之间的分布不均匀 一般多少比例为严重不平衡, 参考: 数据比例达到多少才是不平衡数据? - 知乎 根据少数类占比, ...

  7. 基于 Python 的 8 种常用抽样方法

    抽样是统计学.机器学习中非常重要,也是经常用到的方法,因为大多时候使用全量数据是不现实的,或者根本无法取到.所以我们需要抽样,比如在推断性统计中,我们会经常通过采样的样本数据来推断估计总体的样本. 上 ...

  8. 时序数据取样方法_数据科学的抽样方法

    时序数据取样方法 语境 (Context) In most studies, it is pretty hard (or sometimes impossible) to analyse a whol ...

  9. python按指定概率抽样_python:抽样和抽样方法

    学习目标目标 知道总体.样本.样本大小.样本数量 知道样本统计量和总体统计量 知道总体分布.样本分布和抽样分布 知道常用的抽样方法 某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘 ...

  10. python:抽样和抽样方法

    学习目标 目标 知道总体.样本.样本大小.样本数量 知道样本统计量和总体统计量 知道总体分布.样本分布和抽样分布 知道常用的抽样方法 某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司 ...

最新文章

  1. iphone 在设置了initial-scale=1 之后,在设置滚动条之后,没有滑动效果的解决办法...
  2. pygame 笔记-8 背景音乐子弹音效
  3. java 定时删除_Java编写定时删除文件程序
  4. 基于Away3D实现全景的相机控制器。
  5. tar打包排除某个文件夹
  6. 互联网环境下分布式事务处理系统现状与趋势
  7. asp.net ajax实现在线人员的显示
  8. Android系统集成app,Android系统集成第三方pre
  9. asp.net gridview 模板列 弹出窗口编辑_如何使用极速PDF编辑器的注释工具?
  10. Canal 实现 Mysql数据库实时数据同步
  11. Dual Thrust(期货)
  12. 关于顶级域名、二级域名、子域名的问题
  13. Lemmatization VS Stemming
  14. 【工程应用】用Redis存储特征
  15. 周易六十四卦——蹇卦
  16. Android源码编译及替换成自己编译的linux内核
  17. 【C++ STL应用与实现】23: 如何使用std::mem_fn (since C++11)
  18. Elmedia Player GO for Mac中文破解版永久激活教程
  19. JDK自带工具查看内存
  20. 行业分析| OA系统中的实时通讯

热门文章

  1. 你好旧时光,斗罗大陆,红楼梦词云词频分析(动词形容词名词)
  2. matlab复数的使用,关于MATLAB在复数方面的应用
  3. 微信小程序-区分版本:开发版、体验版和正式版
  4. 如何提高测试团队效率?
  5. 发现一个好用的层级多项目管理工具
  6. win10 无法安装Hp1020和HP1106打印机问题
  7. 电感的阻抗-频率曲线
  8. Windows事件ID详细
  9. 概率论与数理统计---------分布函数
  10. redis数据类型之HashSet