统计学基本原理

1. 描述统计
- 1.1 统计分析的目的
- - 描述性统计
  - 推断性统计
- 1.2 统计学的本质——抽样
- 1.3 统计分析的关键概念
- - 4种测量尺度
  - ----集中趋势----
  - 均值
  - - （课外）偏态分布
  - 中位数
  - 众数
  - ----离散趋势----
  - 极差
  - 标准差（最常用）与方差
2. 假设检验/统计推断
- 大数定理
- 中心极限定理
- 2.1 抽样误差与标准误
- - 抽样误差
  - 标准误（SE）
  - 标准差与标准误差的区别
- 2.2 t分布
- - Z值标准化
  - t分布的Excel函数
- 2.3 参数估计
- - 置信度
- 2.4 假设检验
- - 小概率反证法
  - 步骤
  - 基本概念
  - 注意事项
3. 抽样调查
- 3.1 抽样概念
- 3.2 抽样方法
- 3.3 抽样误差与非抽样误差
- 3.4 抽样过程
- 3.5 基本原则
- 3.6 抽样单元与抽样框
- 3.7 非概率抽样
- 3.8 概率抽样
- - 简单随机抽样
  - 系统抽样（等距抽样）
  - 简单抽样与系统抽样操作比较
  - PPS抽样
  - 分层抽样
  - 区域抽样
  - 时间抽样
  - 电话抽样——RDD（Random Digit Dialing）
4. 非参数检验
- 4.1 非参数检验方法
- - 4.1.1 卡方检验
  - - 卡方检验-交叉分析（列联表分析）
  - 4.1.2 二项式检验
  - 4.1.3 K-S检验
  - 4.1.4 游程检验
  - 4.1.5 独立样本非参数检验
  - 4.1.6 配对样本非参数检验
- 4.2 非参数检验的SPSS操作
- - 4.2.1 卡方检验的SPSS操作
  - 4.2.2 二项式检验的SPSS操作
  - 4.2.3 K-S检验的SPSS操作
  - 4.2.4 游程检验的SPSS操作
  - 4.2.5 交叉分析中卡方检验的SPSS操作
  - 4.2.6 独立样本非参数检验SPSS操作
  - 4.2.7 配对样本非参数检验SPSS操作
5. 参数检验
- 5.1 t检验
- - 5.1.1 单样本均值检验
  - 5.1.2 独立样本均值检验
  - - 方差齐性检验
  - 5.1.3 配对样本均值检验
- 5.2 t检验的SPSS操作
- - 5.2.1 单样本t检验
  - 5.2.2 独立样本t检验
  - 5.2.3 配对样本t检验
- 5.3 方差检验
- - 方差检验常用术语
  - 5.3.1 单因素方差检验
  - - SPSS操作
  - 5.3.2 多因素方差检验
  - SPSS操作

1. 描述统计

1.1 统计分析的目的

统计分析：收集数据、整理分析数据和由数据得出结论的一组概念、原则和方法

描述性统计

利用表格、图形或者数值(数值特征)来展示和刻画数据中的信息

推断性统计

利用样本获得的数据对总体的性质进行估计或者检验。

总体的性质通常用概率模型刻画

1.2 统计学的本质——抽样

为了了解全体调查对象的倾向，需要以抽样的方式统计性地抽取一部分调查对象，然后根据样本中所包含的信息对总体的状况进行估计和推算

即，统计学的本质就是，用样本去推断总体的特征

1.3 统计分析的关键概念

4种测量尺度

尺度	功能	举例
定类	分类	性别
定序	分类、排序	宠物受喜爱程度
定距	分类、排序、加减	温度
定比	分类、排序、加减、乘除	身高

定类与定序合称为分类变量，定距与定比合称为连续变量

分类变量的描述统计方法只能用频次统计，对于连续变量的描述统计方法既可以用频次统计，也可以用均值、标准差

----集中趋势----

表现群体的共性；包括均值、中位数、众数

均值

算术平均
通常所说平均，指的是算术平均（也称作加和平均）

算术平均 = 数据的合计 ÷ 数据的个数

几何平均
（也称作相乘平均），作为销售增长率和价格变动率等比例数的集中趋势的度量来加以使用。
几何平均是n个数字的乘积的n次方根的正数值，只有在数据为正数时才能计算。

调和平均（很少用）
调和平均是把n个数字的倒数（1÷数字）的和作为分母，把n作为分子的值，只有在数据为正值时才能计算。
调和平均在计算速度的平均时和当下限值（最低值）附近的频数较高时使用。

调和平均 = 数据的个数 ÷ 数据的倒数的和

使用相同的数据进行计算的结果，算术平均、几何平均、调和平均依次由大到小地变化或者相等。

（课外）偏态分布

偏态分布是指频数分布不对称，集中位置偏向一侧。若集中位置偏向数值小的一侧，称为正偏态分布；集中位置偏向数值大的一侧，称为负偏态分布。

如果频数分布的高峰向左偏移，长尾向右侧延伸称为正偏态分布，也称右偏态分布；同样的，如果频数分布的高峰向右偏移，长尾向左延伸则成为负偏态分布，也称左偏态分布。

调整平均
（或称trim平均）是指从上限值和下限值中去掉一定比例（通常为5%）的数据后，剩下的数据的算术平均。
在数据的上限和下限相差较大时使用，被去掉值可能为异常值

数据呈现正态分布时，它的平均值对整体的代表性最高

中位数

当把数据由小到大排列时居于中间的值。

中值在年收入和储蓄额等的集中趋势的度量中被使用。
虽然年收入和储蓄额多的人只是少数，但由于金额极大，平均值也很大，能看出与老百姓的感觉有距离。这时就可以使用中值。

当一组序列数据之间差异较大时，导致平均值代表性较弱，可通过中位数来表示数据的集中趋势

众数

是指在频数分布中集中了最多人的选择的项目的频数值

通常通过频数分布来表示。新建公寓开始出售时销售最多的价格带等可以说是众数的代表性例子。

平均值，中位数通常用在连续变量中，众数既可以用在连续变量中，又可以用在分类变量中

----离散趋势----

频数分布、标准差、方差、四分位差、百分位数、极差、离差平方和、离散系数

极差

分布的最大值和最小值的距离

一般来说，极差在样本量多的时候要比样本量小的时候大

比较2个以上的组的极差时，要力求做到各组的样本量相等

标准差（最常用）与方差

数据的平均值与各个数据的差（称之为偏差）的平方的平均值以及这个平均值的平方根都可以考虑

差的平方的平均值叫做”方差”，而这个平均值的平方根则叫作”标准差”
即：方差 = 标准差 ²

标准差为0 （当然方差也为0），意味着没有离散，即数据的值全部相同

当数量不同的总体比较离散程度时，不能使用标准差，而是用离散系数，即标准差除以平均值（量纲）

离散系数 = σxˉ\frac{\sigma}{\bar{x}}xˉσ

求标准差的公式，是用平均值与各个数据的差除以数据的个数n，还是用他们除以n-1，是有所不同的——
用n去除的公式适合于整个总体数据的场合，而用n-1去除的公式则适合于从总体中抽取样本的场合

由于问卷调查多为抽取样本的情形，所以使用n-1去除的公式，想要从问卷调查数据中推测总体的标准差的时候，如果用n去除，由于会出现比真值还小的偏差而不能令人满意，为了填补这个偏差，用n-1去除

2. 假设检验/统计推断

大数定理

样本n越大，样本值几乎必然等于均值

中心极限定理

当样本量N逐渐趋于无穷大时，N个抽样本的均值的频数逐渐趋于正态分布

2.1 抽样误差与标准误

抽样误差

由个体差异产生的，抽样造成的统计量与总体参数的区别

标准误（SE）

表示样本统计量抽样误大小的统计量

标准差与标准误差的区别

标准差：衡量变量值变异程度，标准差越大表示变量值变异程度越大

标准误：衡量抽样误差的大小，标准误越大，抽样误差越大，样本均数的可靠性越小

2.2 t分布

t分布以0为中心，左右对称，只有一个参数自由度v，自由度（或者说样本量）趋向无穷大时，t分布趋近标准正态分布，峰值越高

Z值标准化

将t分布转化为z分布，用于判断哪些数值为异常值，Z值的绝对值大于3为异常值，大于5为极端值

t分布的Excel函数

TINV（概率值求t值），TDIST（t值求概率值）

2.3 参数估计

定义：用样本统计量推断总体参数

点估计：用相应样本统计量直接作为总体参数的估计值

区间估计：按预先给定的概率所确定的包含未知总体参数的一个范围

	统计方法	取值区间	计算过程
σ未知，样本量较小	t分布	(Xˉ−ta/2,vSXˉ,Xˉ+ta/2,vSXˉ)(\bar{X}-t_{a/2,v}S_{\bar{X}} , \bar{X}+t_{a/2,v}S_{\bar{X}})(Xˉ−ta/2,vSXˉ,Xˉ+ta/2,vSXˉ)	−ta/2,v<Xˉ−μSX~<ta/2,v-t_{a/2,v} < \frac{\bar{X}-\mu }{S_{\tilde{X}}} < t_{a/2,v}−ta/2,v<SX~Xˉ−μ<ta/2,v Xˉ−ta/2,vSXˉ<μ<Xˉ+ta/2,vSXˉ\bar{X}-t_{a/2,v}S_{\bar{X}} < \mu < \bar{X}+t_{a/2,v}S_{\bar{X}}Xˉ−ta/2,vSXˉ<μ<Xˉ+ta/2,vSXˉ
σ未知，样本量较大	z分布	(Xˉ−za/2,vSXˉ,Xˉ+za/2,vSXˉ)(\bar{X}-z_{a/2,v}S_{\bar{X}} , \bar{X}+z_{a/2,v}S_{\bar{X}})(Xˉ−za/2,vSXˉ,Xˉ+za/2,vSXˉ)	−za/2<Xˉ−μSX~<za/2-z_{a/2} < \frac{\bar{X}-\mu }{S_{\tilde{X}}} < z_{a/2}−za/2<SX~Xˉ−μ<za/2 Xˉ−za/2SXˉ<μ<Xˉ+za/2SXˉ\bar{X}-z_{a/2}S_{\bar{X}} < \mu < \bar{X}+z_{a/2}S_{\bar{X}}Xˉ−za/2SXˉ<μ<Xˉ+za/2SXˉ
σ已知	z分布	(Xˉ−za/2σXˉ,Xˉ+za/2σXˉ)(\bar{X}-z_{a/2}\sigma_{\bar{X}} , \bar{X}+z_{a/2}\sigma_{\bar{X}})(Xˉ−za/2σXˉ,Xˉ+za/2σXˉ)	−za/2<Xˉ−μσX~<za/2-z_{a/2} < \frac{\bar{X}-\mu }{\sigma_{\tilde{X}}} < z_{a/2}−za/2<σX~Xˉ−μ<za/2 Xˉ−za/2σXˉ<μ<Xˉ+za/2σXˉ\bar{X}-z_{a/2}\sigma_{\bar{X}} < \mu < \bar{X}+z_{a/2}\sigma_{\bar{X}}Xˉ−za/2σXˉ<μ<Xˉ+za/2σXˉ

只有总体标准差未知且样本量较小，按t分布统计；总体标准差已知，或未知但样本量较大，都按z分布统计

置信度

T=1.65，对应90%的置信度
T=1.98，对应95%的置信度
T=2.58，对应99%的置信度

2.4 假设检验

总体均值与样本均值不同的原因：1）抽样误差导致的，2）本质差异造成的

假设检验的目的：判断总体与样本量的差异是哪一种原因导致的

小概率反证法

假设检验基本思想：小概率反证法

问题（研究/备择假设）H1：一般设定存在显著差异
问题对立面（原假设）H0：一般设定不存在显著差异
预先设定的显著性水平（一般设定为5%）

步骤

建立检验假设（H0、H1），确定显著性水平；H0通常是定义两个变量之间不存在相关性或者没有显著差异
根据变量类型、统计推断的目的、是否满足特定条件等选择相应的检验统计量（t值、F值、Z值、卡方值）
计算H0发生概率P值
P值与显著性水平（一般为0.05）对比，p<0.05，拒绝原假设H0，则接受研究假设H1

基本概念

弃真错误：愿假设H0正确，而检验结果把它否定了

取伪错误：H0不正确，而检验结果把它肯定下来了

显著性水平即弃真错误的最大概率

注意事项

假设检验是针对总体而言，而不是针对样本
H0和H1是相互联系，对立存在，二者缺一不可
H1直接反映了检验的单双侧，需要考虑有无差异还是差异的方向
双侧检验较为保守，是否定为单侧检验需结合专业知识来判断

3. 抽样调查

样本的统计量只能用于描述样本的特征，对总体特征的推断，使用的是参数估计

3.1 抽样概念

指在不能进行全数调查时，为了推测总体的倾向，抽取真实地代表调查总体的调查对象。

3.2 抽样方法

非抽样方法

3.3 抽样误差与非抽样误差

抽样误差，是指用样本统计值与被推断的总体参数出现的偏差

非抽样误差，是指除抽样误差外，由于人为的差错引起的误差，也叫偏差

两者主要区别：抽样误差是所有抽样都存在的，可通过科学的抽样进行控制，不断变小，而非抽样误差则是失误造成的误差，为确保调查结果的准确性，应该消除非抽样误差，至少应尽可能使之最小化

非抽样误差分为：

研究者的差错带来的非抽样误差
访问员差错带来的非抽样误差
被访者差错带来的非抽样误差

3.4 抽样过程

3.5 基本原则

实现抽样的随机性原则
等概率或不等概率
实现抽样效果最佳原则
固定费用，抽样误差最小
确定精度下，调查费用最小

3.6 抽样单元与抽样框

3.7 非概率抽样

只有在样本单位出现的机会不确定的情况下，才使用非概率抽芽，非概率抽样的目的，也都是为了模拟概率抽样

3.8 概率抽样

简单随机抽样

定义：对所有调查对象编上一连串的号码，据此从名册中进行随机抽样的方法

适用场景：适用于研究总体不太大，或总体单元的元素有完备的名单时

系统抽样（等距抽样）

先求出抽样间隔值（为名册登记人数÷抽取人数所得的值舍去小数点后面数字的整数）。接着，在这个范围内选择一个随机数作为起始号码。起始号码加抽样间隔值，所对应的即为样本。进而，反复地在这个值的基础上加上抽样间隔值，以抽足所有的样本。抽取的样本量多于要求的样本量时，使用简单抽样方法从中抽取需要剔除的样本。

如果名册是按一定的规律进行登记的话，也会发生问题，需要弄清楚名册的特征之后再选择抽样的方法

简单抽样与系统抽样操作比较

PPS抽样

概率比例规模抽样，即PPS抽样，是一种运用属性抽样原理对货币金额而不是对发生率得出结论的统计抽样方法，属于概率抽样中的一种

PPS 抽样实际上是整群抽样与简单随机抽样或等距抽样（系统抽样）配合的两阶段抽样。

分层抽样

分层原则：层内差异小、层间差异大

如何选择分层变量：

选择与研究主题高度相关的变量
成本：分层因素考虑越多，选取的样本量则会越多；当成本受限时，根据研究相关性，减少分层因素

区域抽样

特征：在没有调查对象清单的访问调查中使用

优点：

没有居民基本登记名册，也可以实施访问调查
便于寻找通过外表即可看出是否符合条件的家庭户（有院子的家庭、有车的家庭等）

缺点：

有可能偏向经常在家的调查对象无法从外表看出是否符合条件和以个人为对象进行调查时，效率低下
（访问家庭与调查条件不符，调查对象正在外出等）

时间抽样

特征：

街头由于在不同时间段，行人以及到场者的人数都有所不同，所以必须考虑在不同的时间段，抽样比也要有所不同。

电话抽样——RDD（Random Digit Dialing）

通过随机数产生与不同区域正在使用的电话号码位数相等的号码，并据此来造出电话号码的方法。

4. 非参数检验

4.1 非参数检验方法

定义：非参数检验方法，是在总体分布未知或知之甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。

由于非参数检验方法在推断过程中不涉及有关总体分布的参数，因而得名为“非参数”检验。

4.1.1 卡方检验

适用于不知道总体参数的检验，是最常用的一种非参数检验

定义：检验所有类别是否包含相同频率或者用户指定比例一致

原假设H₀：变量的取值分布与均匀分布（或研究者设定的分布）没有显著差异

研究假设₁：变量的取值分布与均匀分布（或研究者设定的分布）有显著差异

卡方检验-交叉分析（列联表分析）

检验两个分类变量是否存在相关性，主要是用在两个分类变量之间的相关性检验

如果场景中需要对连续变量进行卡方检验的话，首先需要将连续变量转化为分类变量

计算公式

4.1.2 二项式检验

定义：检验二分发量（0,1）的两个类别的观察频率与指定概率参数的二项式分布下的期望频率是否一致

应用场景：检验一个变量取二分类两个值的概率是否符合设定的概率（可能是相等的，如硬币朝向，也可能是不等的，如良品率）

原假设H₀：变量的第一个取值比例与设定比例没有显著差异

研究假设H₁：变量的第一个取值比例与设定比例有显著差异

4.1.3 K-S检验

定义：将变量的观察累积分布函数与指定的理论分布进行比较，该理论分布可以是正态分布、均匀分布、泊松分布或指数分布

应用场景：许多参数检验都需要正态分布的变量。单样本Kolmogorov-Smirnov 检验可用于检验变量（例如 income）是否为正态分布。

原假设H₀：变量来自总体的分布与正态分布（设定的分布）没有显著差异，即符合正态分布

研究假设H₁：变量来自总体的分布与正态分布（设定的分布）有显著差异，即不符合正态分布

4.1.4 游程检验

定义：检验某一变量的两个值的出现顺序是否随机。

游程是相似的观察值的一个序列。游程太多或太少的样本不是随机样本。

原假设H₀：变量两个值出现顺序和随机出现没有差异，即变量两个值出现是随机出现的

研究假设H₁：变量两个值出现顺序和随机出现有差异，即变量两个值出现不是随机出现的

4.1.5 独立样本非参数检验

独立样本：无交集的两组样本，如男和女

独立样本检验：检验不同人群在特定变量取值上是否有差异

原假设H₀：两组来自总体的变量数据在分布上没有差异，即两组数据在该变量的取值上没有显著差异

研究假设H₁：两组来自总体的变量数据在分布上有差异，即两组数据在该变量的取值上有显著差异

4.1.6 配对样本非参数检验

配对样本：同组样本在不同的时间或场景等产生的数据

配对样本检验：检验同一组人群，在不同时间采集的数据是否有差异

原假设H₀：来自总体的同一组人群的两组数据在分布上没有差异，即两组数据在该变量的取值上没有显著差异

研究假设H₁：来自总体的同一组人群的两组数据在分布上有差异，即两组数据在该变量的取值上有显著差异

4.2 非参数检验的SPSS操作

统计学软件SPSS

4.2.1 卡方检验的SPSS操作

可以设置期望值，检验分布是均匀或者特定比例分布

p<0.05,则研究假设成立

4.2.2 二项式检验的SPSS操作

非二分变量可以在二项检验设置中分割为二分变量，如年龄分为大于25岁和小于25岁

p>0.05,则研究假设成立

4.2.3 K-S检验的SPSS操作

p<0.05,则研究假设成立

4.2.4 游程检验的SPSS操作

通常是检验随着时间变化而产生的两个数值，出现顺序是否随机

4.2.5 交叉分析中卡方检验的SPSS操作

如果场景中需要对连续变量进行卡方检验的话，首先需要将连续变量转化为分类变量

交叉表

交叉分析

两个都为定类变量，选择名义，都为定序变量时，选择有序
（如果既有定类也有定序，则选择名义）

结果输出

看卡方统计结果，根据P值判断两个变量是否具有相关性，如p<0.05，则说明两者存在显著相关性
看相关系数，判断两者之间相关性有多大。
0-0.2，较弱相关，0.2-0.4，弱相关，0.4-0.6，一般相关，0.6-0.8，较强相关，0.8-1，强相关
看频次分布图，具体分析两者存在什么样的相关性

4.2.6 独立样本非参数检验SPSS操作

注意：分组变量是分类变量，比较变量是连续变量

p<0.05,则研究假设成立

4.2.7 配对样本非参数检验SPSS操作

注意：比较的变量必须是连续变量

p<0.05,则研究假设成立

5. 参数检验

5.1 t检验

目的：在样本中比较连续变量的平均数，以检验均值之间的差异是否大于能被所解释的差异

解决问题：样本均值有差异，总体之间确实存在差异的概率是多少？

适用于小样本的检验方法，当样本较小时（50以下），服从t分布；样本量较大时近似服从正态分布。

在实际应用中，主要适用在两组样本的均值比较中。

分类：

5.1.1 单样本均值检验

定义：某个变量的样本均数与给定总体的已知均数相比，其差异是否有显著

数据要求：小样本时来自的总体服从正态分布，如果大样本或者是数据收集的时候没有特殊性，可以忽略正态分布的假设。

检验过程：

5.1.2 独立样本均值检验

定义：根据两独立样本的数据，对两总体均值是否有显著差异进行推断

数据要求：样本来自的总体服从正态分布

两样本必须相互独立，即：抽取其中一批样本对抽取另一批样本没有任何影响，两组样本的个案数可以不相等
要求两样本是大样本，小样本则必须来自正态总体

检验过程：

方差齐性检验

是用来检验不同组的总体方差是否相等。

在一些统计推断的过程，要求进行比较的两组或多组数据的方差相等，即要求方差齐性，如均值比较、方差分析。

方差齐性检验常用方法：

Hartley检验、Cochran检验、Bartlett检验和Levene检验，前三者对样本数据有正态分布的要求，但是Levene检验则没有这种要求，也是最常用的一种方法。

原假设：两组总体中的方差是相等的
研究假设：两组总体中的方差是不等的

当p<0.05，则研究假设成立，即两组总体中的方差是不等的，需要看第二行的t值检验结果，反之看第一行的t值结果

5.1.3 配对样本均值检验

定义：是指对同一样本进行两次测试所获得的两组数据，或对两个完全相同的样本在不同条件下进行测试所得的两组数据。

数据要求：

两样本数据必须两两配对，即：样本个数相同，个案顺序相同，如减肥茶效果、不同广告形式对
销售额的影响。
两总体服从正态分布(小样本情况下)，样本容量>30的情况下，且数据收集是随机的，可以认为服从正态分布

思路：先求出每对观测值的差，再将差值与总体均数0比较的t检验。

5.2 t检验的SPSS操作

5.2.1 单样本t检验

p<0.05，则研究假设成立，即样本均值与总体均值存在差异

5.2.2 独立样本t检验

具体看哪个p值，参考方差齐性检验

5.2.3 配对样本t检验

5.3 方差检验

方差检验，还有两个名字——F检验、ANOVA

定义：对3个以上的组之间的平均值（t检验只适用于2个以内的组）的差进行比较，从统计学意义上判断是否有显著差异，用来揭示作用于一个因变量的几个分类自变量（称为因素）的主效应和交互效应。

前提：

变量各总体服从正态分布（数据进行方差检验前需检验分布情况）
变量各总体方差相同（数据进行方差检验前需做方差齐性检验）。

变量：通常是针对自变量是分类变量（也可以是连续变量），因变量（必须）是连续变量进行的检验。

原理：

第一步，计算组内、组间、随机因素的数据差异程度；
第二步，计算组间数据差异程度占观测变量（因变量）数据总差异的比例，与组内差异、随机因素的差异占比之间的大小关系

总结：

方差分析是从数据间的差异入手，分析哪些因素是影响数据差异的众多因素中的主要因素，用以解决多总体均值的比较问题

方差分析核心问题，从数据差异角度看

观测变量的数据差异＝控制因素引起的差异＋随机因素造成的差异

方差分析正是要分析响应变量的变动是否主要是由控制因素的造成的，还是由随机因素造成的，以及控制因素的各个水平是是如何对响应变量影响的

方差检验常用术语

因素（Factor）

因素是可能对因变量有影响的变量，一般来说，因素会有不止一个水平，而分析的目的就是考察或比较各个水平对因变量的影响是否相同。

水平（Level）

因素的不同取值等级称作水平，例如性别有男、女两个水平。

单元（Cell）

单元亦称试验单位（Experimental Unit），指各因素的水平之间的每种组合。指各因素各个水平的组合，例如在研究性别（二水平）、血型（四水平）对成年人身高的影响时，该设计最多可以有2*4＝8个单元。注意在一些特殊的试验设计中，可能有的单元在样本中并不会出现，如正交设计。

元素（Element）

指用于测量因变量值的观察单位，比如研究职业与收入间的关系，月收入是从每一位受访者处得到，则每位受访者就是试验的元素。
一个单元格内可以有多个元素，也可以只有一个，甚至没有元素。
注意：元素不一定就等同于受访者个体！
- 重复测量数据
- 以家庭为单位收集资料

均衡（Balance）

如果在一个实验设计中任一因素各水平在所有单元格中出现的次数相同，且每个单元格内的元素数均相同，则该试验是均衡的，否则，就被称为不均衡。不均衡的实验设计在分析时较为复杂，需要对方差分析模型作特别设置才能得到正确的分析结果。

协变量（Covariates）

指对因变量可能有影响，需要在分析时对其作用加以控制的连续性变量，实际上，可以简单的把因素和协变量分别理解为分类自变量和连续性自变量。当模型中存在协变量时，一般是通过找出它与因变量的回归关系来控制其影响。

交互作用（Interaction）

如果一个因素的效应大小在另一个因素不同水平下明显不同，则称为两因素间存在交互作用。当存在交互作用时，单纯研究某个因素的作用是没有意义的，必须分另一个因素的不同水平研究该因素的作用大小。
如果所有单元格内都至多只有一个元素，则交互作用无法进行分析，只能不予考虑。

固定因素（Fixed Factor）

指的是该因素在样本中所有可能的水平都出现了。从样本的分析结果中就可以得知所有水平的状况，无需进行外推。绝大多数情况下，研究者所真正关心的因素都是固定因素。
- 性别：只有两种
- 疗法：只有三种

随机因素（Random Factor）

该因素所有可能的取值在样本中没有都出现，目前在样本中的这些水平是从总体中随机抽样而来，如果我们重复该研究，则可能得到的因素水平会和现在完全不同！
这时，研究者显然希望得到的是一个能够“泛化”，即对所有可能出现的水平均适用的结果。这不可避免的存在误差，需要估计误差的大小，因此被称为随机因素。

5.3.1 单因素方差检验

定义：检验3组以上人群在某个连续变量均值上是否存在差异，或某个分类变量对某个连续变量是否存在显著相关

变量：因变量是一个，且为连续变量，自变量是一个，为分类变量

原假设H₀：自变量于因变量之间不存在显著相关（不同人群之间在该连续变量的均值上没有显著差异）

研究假设H₁：自变量于因变量之间存在显著相关（不同人群之间在该连续变量的均值上有显著差异）

SPSS操作

设定“事后比较”可进行两两比较，根据方差齐性检验结果，来选择方差相等的比较结果或方差不等的检验结果

当方差不齐时，则通过非参数检验中的K个独立样本检验法进行检验

结果

当方差不等时，方差检验的结果不能使用，这时可以往下看两两对比的结果来分析

5.3.2 多因素方差检验

定义：检验多个变量在某个连续变量均值上是否存在差异，或多个变量对某个连续变量是否存在显著相关

变量：因变量是一个，且为连续变量，自变量是多个，既可以是分类变量也可以是连续变量

原假设H₀：多个自变量与因变量之间不存在显著相关

研究假设H₁：多个自变量与因变量之间存在显著相关

p<0.05,则研究假设成立

举例：

SPSS操作

一般将分类变量选到固定因子，连续变量选到协变量

模型：

全因子模型：既考虑所有自变量对于因变量直接效应，又考虑所有分类变量的交互作用对因变量的影响

定制模型：可根据研究者自身需求，定制需要考虑的因变量的影响因素。比如只考虑自变量的直接效应，或部分自变量的交互作用。

当自变量特别多时，尤其是分类变量特别多时，且样本量不多时，应该使用定制模型

p<0.05，则研究假设成立，即自变量对因变量会产生影响

6.1 统计学基本原理相关推荐

datagrid出现相同两组数据_数据分析之统计学
统计学知识思维导图第一节统计学基本原理数据分析相关概念一.描述统计测量尺度 1.定类(nominal) 功能:分类的作用,比如性别 2.定序(ordinal) 功能:分类.排序的作用,比如 ...
一元线性回归及Excel回归分析
摘要一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计.分析.建模经验的人都知道这个分析的含义,也会用各种工具来做这个分析.这里面想把这个分析背后的细节讲讲清楚,也就是后面的数学原理. ...
spss20学习之（一）
首先选择的书籍是清华出版社的<spss统计分析从入门到精通>,基本上前六章就是一些基本原理和操作过程,学起来相对较容易理解.在学习第七章方差分析的时候,深深感到原来统计学的基本知识不够扎 ...
线性拟合相关统计量理解
回归分析法&一元线性回归操作和解释用Excel做回归分析的详细步骤一.什么是回归分析法 "回归分析"是解析"注目变量"和"因于变量&quo ...
回归分析法一元线性回归操作和解释
用Excel做回归分析的详细步骤一.什么是回归分析法 "回归分析"是解析"注目变量"和"因于变量"并明确两者关系的统计方法.此时,我们把因 ...
连接统计学、机器学习与自动推理的新兴交叉领域——因果科学读书会再起航...
导语哥伦比亚大学 CausalAI 实验室主任 Elias Bareinboim 在其 ACM 邀请文章中提到:"如果我们希望下一代人工智能系统是安全的,稳健的,与人类兼容的,提升人类社会 ...
三个基本原理和概念 - 计算机图形学、数据加密、数据挖掘
一. 计算机图形学最基本原理计算机屏幕由像素组成.一个像素点包括X和Y坐标. 高级语言有画基本图形的函数或语句,可以直接调用画图形.比如画线,画圆,画四方形. 但是最底层的编程接口, ...
【思维训练】刺激战场极寒模式下带妹吃鸡的【兵法思维】和【统计学思维】
文章目录一游戏初衷二兵法策略 1)兵法心得 2)团队配置三落点策略 1)全局最优 2)局部最优 3)具体位置四生火策略 1)集合策略 2)添柴策略 3)多人点火 4)撩骚策略五决赛 ...
【PDF下载】无意中发现的另三本统计学入门好书
本来昨晚全身心准备学习材料来,但是无意中检索到三本统计学的pdf,分别翻看了一遍. 第一本统计学,一共130+页,全书一气呵成,很少见到把统计学的概念串联的,这么好的,所以忍不住再发出来. 书中一幅图 ...
【渝粤题库】陕西师范大学202071 统计学作业（专升本、高起本）
<统计学>作业一.单项选择题 1．对于占全国彩电总产量绝大比重的彩电企业进行生产基本情况全面调查这是( ) A.典型调查 B.普查 C.重点调查 D.抽样调查 2．某地进行国有商业企业 ...