【定量分析、量化金融与统计学】统计推断基础(1)---总体、样本、标准差、标准误
目录
一、前言
二、总体与样本
1.总体(population)的概念
2.总体的性质与参数
首先是:平均数(mean)µ
标准差(standard deviation,SD)σ希腊字母sigma
3.样本(sample)的概念
3.1.为什么会出现样本的概念?以及抽样
3.2 样本的性质与参数
*****3.3 多样本抽样的概念与性质参数(关键小节)
一、前言
我发现很多人学了很久的统计学,仍然搞不清楚什么事标准差,标准误,什么是样本,什么是总体,总是概念混淆,那今天我们来盘一盘统计推断基础的四个基本概念:总体,样本,标准差,标准误。这个系列统计推断基础5部分分别是:
- 总体、样本、标准差、标准误
- 样本均值分布、中心极限定理、正态分布
- 点估计、区间估计
- 假设检验
- I型误差,II型误差
重点在基础概念,基础不牢,地动山摇,不关你是做研究还是本科基础学习阶段,基础都是很重要的。
我尽量使用语言来描述这些概念,少量使用数学公式,因为教科书上的公式已经很多了,相信来看博客的基本都是带着疑问来的,那我就用直觉的语言来解释概念,必要时使用数学公式。
二、总体与样本
1.总体(population)的概念
“总体”包含您想要理解的所有观察结果,就是我们的“现实”。
例如,您想知道工厂在一个时间段内生产的所有铅笔的平均长度,以查看输出是否得到控制,以及机器是否需要重新校准。
那么什么是总体呢?
工厂在一个时间段内生产的所有铅笔
这个就应该是你的总体包含的所有对象。
2.总体的性质与参数
总体有一些我们通常感兴趣的参数
首先是:平均数(mean)µ
平均数衡量总体的平均水平
例如:我们的铅笔平均长度为10cm,那么就是说这个工厂生产的铅笔的长度平均水平为10cm,这样能让我们对一个总体有一个大致的感受。
但是,有一个问题是平均数能否真实反映一个整体的平均水平呢?
就像有的公司会公布自己的平均薪资,例如XX公司的员工平均薪资是10w/月,但是实际情况却是这个公司的10名高管(也算员工)每个人的月薪1000w,1000员工每个人的平均工资是((10*1010)-(10*1000))/1000 = 0.1w/月,你会发现一个巨大的差异,你不是说员工的平均工资10w每月么,但是其实这个平均数已经不能反应整体水平了,因为平均数受到了大数影响,从而导致了观察偏差。所以如果你只用平均数来衡量一个整体的平均水平是非常不专业的行为,这已经违背了统计学的科学性。
***然后是容易混淆的概念:
标准差(standard deviation,SD)σ希腊字母sigma
你注意,我说的是标准差,不是标准误。
那么标准差是对数据变化的测量。反映总体的离散程度(或者你可以说是不规则程度)
假设:我们工厂生产的所有铅笔都是这样的:
那么很显然,这是个标准差很高的总体,当然,也说明,我们的生产机器不太行了,可能要换一批新的机器。
如果我们生产的铅笔是这样的:
那这就是个标准差很低的总体。
标准差的公式:
3.样本(sample)的概念
3.1.为什么会出现样本的概念?以及抽样
当我们想要测试总体的平均值或者SD时,你需要怎么做?
是不是统计总体中的所有个体,这叫做普查。
但是这是个理想情况下的手段,现实中,当你面对大量个体时,这会极大消耗你的时间。
就例如:中国的人口普查,这是项任务极其繁重的工程
或者假设你的工厂生产了10亿支铅笔,你真的要普查所有的铅笔,每一个都量一量?
实际情况可能是:
工厂的10亿铅笔,你可能会挑选100w支或者1000w支来做一个大致统计,那么问题来了。
你怎么挑选这100w或者1000w?
这就是抽样问题,你的抽样方案就是你的抽样策略。
你抽出来的这100w或者1000w的铅笔就是一个样本。
通过抽样,然后对样本进行分析,能够极大的减轻我们的时间成本。
但是,为什么样本能代表整体呢?这种方法科学么?(下节说)
3.2 样本的性质与参数
样本均值 X bar:
衡量样本的平均水平。
样本的标准差Sample standard deviation (s):
衡量样本的离散程度(或者不规则程度)
嗯?你会发现样本和总体都是标准差,那标准误是什么?
*****3.3 多样本抽样的概念与性质参数(关键小节)
你在抽样的时候为了避免因为各种原因造成的误差,你肯定不会只抽一次样本,你肯定会多次抽样,比如那10亿支铅笔,我第一组抽100w,统计数据记为TS1,放回,再抽100w,再统计记为TS2,...,反复抽了6次。
那么你现在有6个样本数据:TS1,TS2,TS3,TS4,TS5,TS6
每个样本有自己的均值和标准差(SD):
均值 | 标准差 | |
TS1 | m1 | s1 |
TS2 | m2 | s2 |
TS3 | m3 | s3 |
TS4 | m4 | s4 |
TS5 | m5 | s5 |
TS6 | m6 | s6 |
那么这些样本的均值的均值是什么呢?是不是能反映这些样本的平均水平呢?
均值 | 标准差 | |
TS1 | m1 | s1 |
TS2 | m2 | s2 |
TS3 | m3 | s3 |
TS4 | m4 | s4 |
TS5 | m5 | s5 |
TS6 | m6 | s6 |
所有的样本 | 所有样本的均值的均值 | 所有样本的均值的标准差 |
假设的所有样本的均值的分布:(50个样本为例)
那么所有样本的均值的均值就是多样本的均值
所有样本的均值的标准差就是标准误(Standard error,SE)
所以,注意!
标准差(sd)针对一个样本或是整体,一个!
标准误是多个样本的性质,多个样本的均值的标准差就是标准误(se)!
标准差与标准误转换:
仔细理解
慢点想,看着图想,这其实是个套娃的概念,
我们举个例子:串一下概念
假设有一个数据集总体{1,2,3,4,5,6,7,8,9,10}
我抽两次样,每次随机抽4个数,
样本1:sample 1 ={8,2,5,4}
样本2:sample2 = {10,1,5,6}
样本1的平均值:(8+2+5+4)/4 = 19/4 = 4.75
样本2的平均值:(10+1+5+6)/4 = 22/4 = 5.5
样本1的标准差: 2.5
样本2的标准差: 3.69685
两个样本的标准误:2.5/2 = 1.25, 3.69685/2 = 1.84842275107
除了平均值形式,很多还会有概率形式:
我放一个表在这,摘自国外的量化分析的课程,很详细:(本节只需要看,sample size,SD,MEAN,SE这几行就行,前四行)
【定量分析、量化金融与统计学】统计推断基础(1)---总体、样本、标准差、标准误相关推荐
- 【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布
目录 一.前言 二.样本均值分布 三.中心极限定理 *****中心极限定理 ***大数定理与中心极限定理有什么区别? 四.正态(概率)分布 一.前言 我发现很多人学了很久的统计学,很多总是概念混淆,那 ...
- 【定量分析、量化金融与统计学】统计推断基础(4)---假设检验(T或者Z检验)
目录 一.前言 二.假设检验的基本概念 1.假设检验的概念与目的: 2.原假设 三.假设检验的实例步骤: 例子: 一个问题: 四.不同种类的假设检验: one-sample T检验: Two-samp ...
- 【定量分析、量化金融与统计学】统计推断基础(5)---一类错误与二类错误
一.前言 这是这个系列的最后一篇,我们讲一讲什么是一类错误,什么是二类错误.这个系列统计推断基础5部分分别是: 总体.样本.标准差.标准误[定量分析.量化金融与统计学]统计推断基础(1)---总体.样 ...
- 【定量分析、量化金融与统计学】统计推断基础(3)---点估计、区间估计
一.前言 我发现很多人学了很久的统计学,仍然搞不清楚什么是点估计.区间估计,总是概念混淆,那今天我们来盘一盘统计推断基础的点估计.区间估计.这个系列统计推断基础5部分分别是: 总体.样本.标准差.标准 ...
- 【定量分析、量化金融与统计学】多元回归模型与回归推理
之前说过了一元线性回归并给出了程序,今天来说说多元回归模型(Multiple Regression Model) 目录 一.多元回归模型的简介 二.求解多元回归模型:我们使用最小二乘法为例 三.评判方 ...
- 【定量分析、量化金融与统计学】R语言方差分析ANOVA(F检验)
目录 一.前言 Fixed-effects models.Random-effects models.Mixed-effects models. 二.ANOVA使用的前提假设与假设检验 三.ANOVA ...
- 【定量分析、量化金融与统计学】各种检验的H0假设与p-value究竟是什么含义
目录 一.各种检验的分类 二.事前检验 1.正态性检验 2.方差齐次性检验 3.共线性检验 4.协方差齐次性检验 三.事后检验 1.Turkey检验 2.tamhaneT2 检验 3.交叉图检验 4. ...
- 【定量分析、量化金融与统计学】R语言:多元线性回归实例
今天来做一个R语言的多元线性回归的实例: 题目是这样的: 练习:度假村排名 旅游胜地,专门介绍高级度假和住宿的杂志<Spas>在"读者选择"评选的世界20家独立海滨精品 ...
- 【定量分析、量化金融与统计学】纵向数据分析(1)——截面数据、时间序列数据和纵向数据
一.截面数据(Cross-sectional Data) 截面数据就是固定时间来分析其他变量同一时间内的关系. 例如:比较2022年的全国20个省市的GDP与人口,那么我们就是限定了2022年,去找G ...
最新文章
- 如何开好一个 OKR 评审会议?
- java8新特性_Java8新特性之Date API|乐字节
- (转)Android 使用com.j256.ormlite
- Django之session
- (chap6 Http首部) 响应首部字段 AllowCt-EncodingCt-LanguageCt-LengthCt-Location
- 我作为一个程序员,除了写程序还会干什么?什么都不会了!
- [No0000F4]C# 枚举(Enum)
- 日期相减计算年_函数 | Excel有个“秘密”函数,计算年龄工龄特方便
- PL/SQL: Stop Making the Same Performance Mistakes
- layui datetimepicker 只日期范围到当前时间的前一天_浪琴手表如何正确调整日期?手表调日期的方法...
- python scikit learn 关闭开源_Python机器学习工具:Scikit-Learn介绍与实践
- 线性光耦 和 非线性光耦
- 与openSNP分享您的遗传故事
- (寒假开黑gym)2018 ACM-ICPC, Syrian Collegiate Programming Contest(爽题)
- Unity入门常见错误之碰撞检测方法无法触发
- 传统行业的互联网创业机会在哪里?
- STC89C52RC定时器2串口通信
- 【极简版GH60】【GH60剖析】【一】组件的选购
- IT技术培训趋势 2020 和2021 最受欢迎的是数字运营和人工智能
- 虚拟机文件的压缩与打包