学习目标

  • 目标
  • 知道总体、样本、样本大小、样本数量
  • 知道样本统计量和总体统计量
  • 知道总体分布、样本分布和抽样分布
  • 知道常用的抽样方法

某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘请了试吃者帮忙完成检验,结果却让人大跌眼镜!

没文化,真可怕!我该怎么办? 有时候数据很容易收集,例如参加健身俱乐部的人的年龄,后这一家游戏公司的销售数据。但有时候不太容易,该怎么办呢? 是时候拿出终极武器了— 抽样

1.抽样相关概念

总体:是指研究对象的整个群体。

公司生产的一批糖果

样本:是从总体中选取的一部分,用于代表总体的整体情况。

在这批糖果中随机抽取50颗糖果

样本数量:又叫样本空间,是表示有多少个样本。

在这批糖果中随机抽取50颗糖果,抽5次:样本数量=5

样本大小:也叫样本容量,表示每个样本里有多少个数据。

每个样本50颗糖果:样本大小=50

统计量:

统计量是对数据进行统计得到的量,例如:均值、方差、标准差、比例等。

  • 总体统计量:总体XX

对总体进行统计得到的统计量

  • 总体均值$$\mu$$:整批所有糖果数据的均值
  • 总体方差$$\sigma^2$$:整批所有糖果数据的方差
  • 样本统计量:样本XX

对样本进行统计得到的统计量

  • 样本均值$$\bar{X}$$:抽取的某个样本糖果数据的均值
  • 样本方差$$S^2$$:抽取的某个样本糖果数据的方差

分布:

  • 总体分布

总体数据的概率分布:整批所有糖果数据的概率分布

  • 往往未知,很多时候无法获得总体所有元素的观测值
  • 可以通过理论计算进行假定
  • 样本分布

抽取的样本中数据的概率分布:抽取的某个样本糖果数据的概率分布

  • 假设总体大小为m,样本大小为n,n趋近于m时,样本分布趋近于总体分布
  • 样本分布又称经验分布

注意:样本分布与总体分布近似(抽样正确的前提下)

  • 抽样分布

对样本统计量概率分布的一种描述:所有样本均值的概率分布

2.抽样方法

​ 抽样的目的是为了通过样本获得总体的信息,所以关键点是怎么抽样才能保证获得的样本具有代表性,下面,我们简单介绍几种常用的抽样方法。

  • 简单随机抽样(simple random sampling)。原理和我们抽扑克牌、抽奖一样,就是从一个固定的总体中(比如有N个对象),利用抽签或其他随机方法(如随机数表)抽取n个对象。所谓随机,是指总体中每一个对象被抽中的概率相等。假设两个人抽扑克牌比大小,两个人抽中大王的概率其实一样,都是1/54。
  • 系统抽样(systematic sampling)。这种抽样方法的核心在于确定一个所谓的“抽样间隔”。比如将总体对象随机编号,从1至100,我们只抽取编号个位数是7的对象,即编号为7,17,27,…的样本,本质上他们相邻的编号有一个固定的间隔——10。
  • 分层抽样(stratified sampling),是指先将总体按照某种特征分为若干层,比如按照性别分为男女两层,然后再从每一层内进行简单随机抽样。分层的目的就在于提升样本对总体的代表性,提高估计的精确度,比如一般的理工院校男生多女生少,采用分层抽样可以保证男性和女性样本都能被抽中。
  • 整群抽样(cluster sampling),是将总体分成几个群,比如我国开展的大型调查一般会以省或地区为群,先采用简单随机抽样的方法抽取群,然后从抽中的群中再抽取相关的个体进行研究。现实过程中可以将抽中的群中的所有对象作为研究样本,也可以在群内部再次进行抽样获得部分调查对象作为样本。

3.小结

  • 抽样相关概念 【知道】
  • 总体:是指研究对象的整个群体。
  • 样本:从总体中选取的一部分
  • 样本大小:每个样本里有多少个数据
  • 样本数量:表示有多少个样本。
  • 统计量
  • 总体XX
  • 总体均值$$\mu$$
  • 总体方差$$\sigma^2$$
  • 样本XX
  • 样本均值$$\bar{X}$$
  • 样本方差$$S^2$$
  • 分布:
  • 总体分布
  • 样本分布
  • 抽样分布
  • 抽样方法 【知道】
  • 简单随机抽样:随机抽
  • 系统抽样:等间隔抽
  • 分层抽样:每种分别抽
  • 整群抽样:直接抽一拨

python:抽样和抽样方法相关推荐

  1. python按指定概率抽样_python:抽样和抽样方法

    学习目标目标 知道总体.样本.样本大小.样本数量 知道样本统计量和总体统计量 知道总体分布.样本分布和抽样分布 知道常用的抽样方法 某糖果公司研发了一种超长效口香糖,为了得到口味持续时间的数据,公司聘 ...

  2. Python 程序的抽样分析器 - Py-Spy

    From:https://python.freelycode.com/contribution/detail/1320 GitHub 地址:https://github.com/benfred/py- ...

  3. 抽样平均近似方法(SAA)

    抽样平均近似方法Sample Average Approximation (SAA):可用在长尾商品的预测当中,但该方法只是通过抽样求得平均值来计算长尾商品的均值,当长尾商品销售频次非常低时,该方法效 ...

  4. Python 字典(Dictionary) get()方法

    Python 字典(Dictionary) get()方法 描述 Python 字典(Dictionary) get() 函数返回指定键的值,如果值不在字典中返回默认值. 语法 get()方法语法: ...

  5. Python最大堆排序实现方法

    Python最大堆排序实现方法,具体代码如下:   # -*- coding: utf-8 -*-   def merge_sort(seq, cmp=cmp, sentinel=None):     ...

  6. 刻意练习:Python基础 -- Task11. 魔法方法

    背景 我们准备利用17天时间,将 "Python基础的刻意练习" 分为如下任务: Task01:变量.运算符与数据类型(1day) Task02:条件与循环(1day) Task0 ...

  7. python操作yaml的方法详解

    这篇文章主要为大家介绍了python操作yaml的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助 一.参考链接 https://pyyaml.org/wiki/PyYAM ...

  8. python中函数和方法的区别?Python编程判断当前获取的对象是函数还是方法

    python中函数和方法的区别?Python编程判断当前获取的对象是函数还是方法 目录

  9. python集合(set)+常见方法+交叉并补

    python集合(set)+常见方法+交叉并补 集合的定义 定义:由不同元素组成的集合,集合是一组无序排列 可hash值,可作为字典的key. 特性:集合的目的是将不同的值存放在一起,不同的集合间用来 ...

最新文章

  1. java程序向mysql插入中文变问号
  2. Quartz 2d绘图
  3. [网络安全自学篇] 六十四.Windows安全缺陷利用之SMBv3服务远程代码执行(CVE-2020-0796)复现及防御机理
  4. 【学生信息管理系统】——问题篇
  5. 【发布】JEECG-P3 新主题后台风格(H5扁平化)
  6. 7 MM配置-企业结构-分配-给工厂分配采购组织
  7. 搞定网页打印自动分页问题
  8. 青铜到王者,看看你的MySQL数据库是什么段位,如何提升?
  9. webpack打包压缩混淆_细说webpack系列 3. webpack-cli 零配置打包
  10. 10)Thymeleaf 标记选择器语法
  11. 区块链入局新领域:助推会展产业从信息化向数字化转型!
  12. go liteIDE 快捷键
  13. html border线条重叠,关于border边框重叠颜色设置问题
  14. 送书活动还有最后一本书,怎么办呢?
  15. 淘宝首页链接跳转,非taobao.com域名下的链接处理
  16. Hadoop2.0高可用集群搭建【保姆级教程】
  17. Jsp 案例:商品浏览记录
  18. 图片信息查看软件 ExifTool GUI
  19. 万字拆解!追溯ChatGPT各项能力的起源
  20. nohup不输出nohup.out日志信息(nohup: appending output to ‘nohup.out‘)

热门文章

  1. 服务器尺寸1U有多大
  2. 一个模仿mikutap的半成品
  3. 一篇博文搞定申请技术专利流程
  4. linux命令 查看分辨率,Linux命令行(console)屏幕分辨率调整
  5. 双目立体视觉学习笔记(一)
  6. 黑马程序员:java基础——OOP面向对象的特征
  7. 偏微分方程简明教程第七章部分答案
  8. VS2019 Android Emulator安装失败
  9. 【CV学习笔记】图像预处理warpaffine-cuda加速
  10. python iba pda_Python你必须知道的十个库