商业统计原理体会1:总体(population)和样本(sample)

  • 统计的目的
    • 统计量(观察量)
    • 样本均值(sample mean)和总体均值(population mean )

统计的目的

上了一学期的课之后,最直观的感受就是统计学最开始是在做着么一件事:用样本估计总体
当样本数量和整体数量一致,也就是说你对所有研究对象都做了调查,这时的样本等于总体。但这显然不需要之后的各种各样的数学工具和模型来统计,因为你只需要一个个点过来就知道结果了。所以说,统计学大部分模型的目的是为了处理总体量较大,无法全部采样的情况,此时样本和总体的差值就是模型的重点也就是常说的noise或者叫sampleing error。

统计量(观察量)

知道统计的目的是什么之后,下一步就是怎么去分析了,但首先要找到需要分析的是什么,什么量可以去被我们分析。常见的几个统计量就那么几个,均值,方差,标准差。
但需要注意,我们这里讨论有偏估计(因为无偏估计没有什么意义),这时候,样本均值和总体均值应当是两个量,同样自然也分样本方差与整体方差等等。
另外,有些数据不好用均值去描述,就比如美国大选,选民支持的比例,这个东西的mean 就很奇怪,因为人要么是支持,要么是不支持,类似于一个伯努利变量,就是扔硬币。你不能说每个人0.7支持0.3不支持,它的每个数据点要么在0要么在1而不是围绕均值分布的。所以一般会用proportion比例来描述它。同样它也有sample proportion 和 population proportion两种。

样本均值(sample mean)和总体均值(population mean )

再次强调,咱们的目的是什么?若取均值作为观察量,那么我们的目的应当是得到总体的均值,怎么得到?通过所取样本的均值去估计。
那么接下来自然会产生问题:样本均值和总体均值有怎么样的关系?接下来就是数学家们的成果了,中心极限定理(central limit theorem),简称CLT,意思大概就是,当n(sample的数量)越大,sample mean 的分布就越接近一个正态分布,实际上我们一般更喜欢先把sample mean 标准化得到一个z值,然后再去将它的分布看作一个近乎标准正态分布。需要注意的是,这里说n越大分布越接近正态分布(具体感兴趣的可以去看CLT怎么推出来的),但实际上是否越接近对我们没意义,我们反正是要把它看成正态分布的,对我们有意义的是,当n太小的时候,看成正态分布就有点离谱了,我们关心的是多大才差不多能看成正态分布,这是一个经验值,我们这门课上是取30,别的情况可能不一样但一般差不多。

接下来就对上面的话用数学语言写一写。
样本个体记X,总体均值记 μ \mu μ,样本均值记 X ˉ \bar{X} Xˉ,样本数量记n ,总体方差记 σ 2 \sigma^{2} σ2。
用CLT估计, X ˉ ~ N ( μ , σ 2 ) \bar{X}~N(\mu,\sigma^{2}) Xˉ~N(μ,σ2)
若先标准化,得到sample mean 对应的z-value记 z = X ˉ − μ σ / n z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} z=σ/n ​Xˉ−μ​,同样z有 z ~ N ( 0 , 1 ) z~N(0,1) z~N(0,1)。注意下,这里为什么是 σ / n \sigma/\sqrt{n} σ/n ​,建议学一下基本概率论(n个iid加起来的方差),我最开始也都忘了。

总结一下,到目前为止得到了什么,得到了样本均值的概率分布,而我们的目的是得到对总体均值的估计。
样本均值概率分布有三个参数,第一是统计得到的 X ˉ \bar{X} Xˉ,已知。第二是总体均值 μ \mu μ,这是我们所希望得到的,第三是总体方差 σ 2 \sigma^{2} σ2,这里就会有所疑惑,我们不知道总体的数据,那么肯定得不到总体方差了,就会出现两个变量而我们只有一个方程。这就是接下来要讨论的了,样本方差和总体方差的区别以及如何通过样本方差去估计总体方差。

另外上面还有一个问题没有解决,对于不用均值描述的统计量,其分布是否也能用CLT估计?它又如何去估计总体的值呢?

统计学基础概念:总体(population)与样本(sample)相关推荐

  1. NumPy 快速入门系列:应用统计学基础概念、相关统计指标与NumPy的实现

    NumPy 快速入门系列:应用统计学基础概念.相关统计指标与NumPy的实现 前言: 统计学导论: 统计学定义: 统计学分类: 统计学基本概念: 统计过程: 统计指标与NumPy: 用 Python ...

  2. 【大数据人工智能】统计学入门——数据科学领域最需要了解的统计学基础概念

    目录 统计学入门--数据科学领域最需要了解的统计学基础概念 什么是统计学? 数据科学入门必备统计学概念 什么是对象? 什么是总体&

  3. 统计学基础(一)—样本与总体

    样本与总体 1 什么是样本? 样本是用来估计总体的 样本应与总体的情况相似(比如,利用埃菲尔铁塔的模型去研究真正的埃菲尔铁塔的结构.那么这个样本应该在结构上,比例上与原来的母体相似(总体 popula ...

  4. 【交易系统与方法】统计学基本概念与市场分析应用

    经济学不是一门精确的科学:它仅仅由概率定律组成.因此,最谨慎的投资者是只追求"通常"正确的一般做法,而避免"通常"错误的行为和政策的人.--L.L.B.Anga ...

  5. 【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

    总体比例与样本比例 假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人"可能偏爱曼帝公司的糖球". 结果发现,在40个人中有32个人偏爱他们的口 ...

  6. 统计学基础之样本方差和总体方差

    统计学基础之样本方差与总体方差 文章目录 统计学基础之样本方差与总体方差 1. 方差(variance)的定义 2. 样本方差 3. 总体方差公式的有偏性证明 4. 样本方差公式分母为n-1的推导 参 ...

  7. 数据分析概率及统计学基础

    一.数据分析概述 1. 数据分析的概念 数据分析就是分析数据,从一大堆数据中提取你想要的信息.比较专业的回答:数据分析是有针对性的收集.加工.整理数据,并采用统计.挖掘技术分析和解释数据的科学与艺术. ...

  8. 【4.1 统计学基本概念】(描述性统计分析)——CDA

    1.大纲 此部分占10% 1.1 统计学含义 统计学是关于数据的科学.统计学是一门收集.处理.分析.解释数据并从数据中得出结论的科学. 统计学的对象是数据. 数据的形式:分数字和文字. (1) 阿拉伯 ...

  9. 统计学基础之常用统计量和抽样分布

    目录: 一.统计量 1.概念 2.常用统计量 二.抽样分布 1.常见三大抽样分布 一.统计量: 1.概念: 统计量是统计理论中用来对数据进行分析.检验的变量.在实际应用中,当我们从某个总体中抽取一个样 ...

最新文章

  1. spring-boot框架dubbo在controlle中r注解@Reference注入service,但是调用方法时候,service报null空指针异常
  2. 6.Hibernate综述
  3. 近距离无线通信技术对比
  4. 响应式html5模板代码,响应式多用途HTML5模板
  5. 论文浅尝 | AAAI2020 - 基于规则的知识图谱组合表征学习
  6. php算法入门,a011.PHP实战:加密解密,简单算法入门
  7. msyql的FORMAT()函数设置小数位数,将小数位数保留到小数点后第n位,最后一位四舍五入
  8. testflight测试软件怎么,TestFlight使用步骤
  9. 在CentOS 7上安装Nginx服务器
  10. 广播域与冲突域的区别
  11. canvas实现简单画板
  12. 【转】java将excel文件转换成txt格式文件
  13. linux 安装守护进程supervisor
  14. vite创建vue保姆级教程
  15. iPhone手机必备宝藏APP
  16. 77道Spring面试题以及参考答案(2021年最新版),java开发项目经理面试题
  17. HDFS中四个核心的设计
  18. java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口
  19. java画球_我的世界 如何用指令画球 JAVA 1.13+
  20. 树莓派 Python编写OLED显示程序

热门文章

  1. 基于spark的电影数据分析
  2. wscript.shell用法
  3. 分析Volatile的作用及底层实现原理,面试问一点都不慌!
  4. EXCEL追加Botton
  5. Dangling Pointers----悬挂指针
  6. 转载:python中的pygame编写飞机大战(三) 子弹类的实现
  7. 冲刺上市却不被看好,绿茶餐厅为何不香了?
  8. 茂名市 2021 年高中信息技术学科素养展评
  9. 4 给出一个月的总天数
  10. proteus VSM 8.9 交互式仿真帮助