AI 人工智能学习之方差分析

方差分析

方差分析(简称ANOVA)，用于两个及两个以上样本均数差别的显著性检验。方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。

它形式上是比较总体均值，但是本质上是研究变量之间的关系。这里的变量中，自变量是分类型的，因变量是数值型的，所研究的关系是是指自变量对因变量的影响。

因素和水平

方差分析中，所要检验的对象称为因素（factor），因素的不同表现称为水平（treatment），因素的每一个水平都可以看作一个总体，每个因素水平下得到样本数据称为观测值。例如三年级班级跳绳比赛，每班参赛10人，分别记录一班、二班和三班参赛人员的成绩。其中跳绳比赛就是因素，它有三个水平。

两类误差

在自变量的不同取值下，样本的各观察值之间存在差异，这种差异如果是因为抽样的随机性造成的误差，称为随机误差；如果这种差异可能是因为抽样的随机性造成的，也可能是由于检验对象因素本身所造成的，后者形成的误差是由系统性因素造成的，成为系统误差。

方差分析主要是使用方差比来比较两类误差，以检验均值是否相等。如果系统性误差显著地不同于随机误差，则均值就不相等。反之，均值就是相等的。

两类方差

组内方差：自变量的同一取值下样本数据的方差，组内方差只包含随机误差。例如一班10名参赛人数的跳绳成绩。

组间方差：自变量的不同取值下各样本之间的方差，组件方差既包含随机误差，也包含系统误差。例如，三个班级跳绳成绩之间的方差。

误差分析

如果因素的不同水平对每个水平下的均值没有影响，则组间误差只有随机误差而没有系统误差。组内误差和组间误差的均方之比应该接近1；否则它们的比值就会大于1，当大到某个程度时，就认为因素的不同水平之间存在着显著差异，也即自变量（例如班级因素）对因变量（例如不同班级的跳绳成绩）有显著影响。

在方差分析中，要研究分类型自变量对因变量的影响，在形式上就转化为了检验不同总体（因素的不同水平）的均值是否相等。

单因素方差分析

当方差分析中只涉及一个分类型自变量时称为单因素方差分析。

进行方差分析的基本假设

每个样本的观测值服从正态分布
每个样本的方差 $\sigma ^{2}$ 相同
每个样本中的个体相互独立

误差平方和

总平方和（SST），全部样本数据的误差大小的平方和。
组内平方和（SSE），组内样本误差大小的平方和。
组间平方和（SSA），组间样本误差大小的平方和。

SST=SSA+SSE

组内平方和SSE体现了随机抽样因素对总方差的贡献，而组间平方和SSA体现了随机因素和不同水平对总方差的贡献。如果SSA比SSE大很多，达到一定的显著性水平，可以认为因素的不同水平对因变量影响显著。

SST:全部观测值与总均值的误差平方和，计算公式为：

$SST=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{\bar{x}})^{2}$ ， $\bar{\bar{x}}$ 为全部样本的总均值

SSA：各组均值与总均值的误差平方和，反映各样本均值之间的差异程度。公式为：

$SSA=\sum_{i=1}^{k}n_{i}(x_{i}-\bar{\bar{x}})^{2}$ ， $\bar{\bar{x}}$ 为全部样本的总均值

SSE：每个水平或组的样本数据与其组均值的误差平方和。公式为：

$SSE=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{x_{i}})^{2}$ ， $\bar{x_{i}}$ 为组内样本的均值

计算统计量

各平方误差除以它们所对应的自由度，称为均方。
SST的自由度为 n-1，其中n为全部观测值个数；
SSA的自由度为 k-1，k为因素水平的个数
SSE的自由度为 n-k。

MST=SST/n-1;

MSA=SSA/k-1;

MSE=SSE/n-k;

则F=MSA/MSE~F(k-1,n-k)分布。

在给定显著性水平α下，计算F(k-1,n-k)分布的Fα，如果F>Fα，则拒绝原假设，表明自变量对因变量影响显著。
注意：这里的假设检验是单侧检验！

方差分析表

关系强度的测量

当组间平方和与组内平方和之比比1大到一定程度时，我们认为自变量对因变量有显著的影响，可以用组间平方和占总平方和的比例来度量自变量与因变量之间的关系强度，记为 $R^{2}$ ：

$R^{2}$ = SSA/SST

$R^{2}$ 的平方根R可以测量自变量与因变量之间的关系强度，它与相关系数r类似。

单因素方差分析基本步骤

1、提出原假设：H0——无差异；H1——有显著差异
2、选择检验统计量：方差分析采用的检验统计量是F统计量，即F值检验。
3、计算检验统计量的观测值和概率P值：该步骤的目的就是计算检验统计量的观测值和相应的概率P值。
4、给定显著性水平，并作出决策

多因素方差分析

多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。多因素方差分析不仅能够分析多个因素对观测变量的独立影响，更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响，进而最终找到利于观测变量的最优组合。

双因素方差分析

如果存在两个分类变量，需要分析是一个分类变量对因变量起作用，还是两个变量起作用，还是都不起作用。

1.无交互作用或无重复双因素方差分析，两个因素是独立的，不存在联系。

提出假设（需要分别对行因素和列因素提出假设）：
H0: μ1=μ2=...=μi=...μk (行因素自变量对因变量没有显著影响)
H1: μ1,μ2,....μk不全相等。(行因素自变量对因变量有显著影响)
H0: μ1=μ2=...=μi=...μr (列因素自变量对因变量没有显著影响)
H1: μ1,μ2,....μr不全相等。(列因素自变量对因变量有显著影响)

计算方差

总平方和SST是全部样本观测值与总样本平均值的误差平方和（自由度为kr-1）：

其中，第一项为行因素产生的误差平方和SSR（自由度为k-1）：

$\bar{x_{i\cdot }}$ 是行因素的第i个水平下的观测值的平均值：

$\bar{ x_{\cdot i }}$ 是列因素的第j个水平下的观测值的平均值：

$\bar{\bar{x}}$ 所有观测值的总平均值：

提出假设

对行因素提出的假设为：

H0:μ1=μ2=⋯=μkH0:μ1=μ2=⋯=μk

H1:μ1,μ2,⋯,μkH1:μ1,μ2,⋯,μk不全相等

对列因素提出的假设为：

H0:μ1=μ2=⋯=μrH0:μ1=μ2=⋯=μr

H1:μ1,μ2,⋯,μrH1:μ1,μ2,⋯,μr不全相等

检验统计量

需要分别确定行因素和列因素的统计量，从总平方和的分解入手，总平方和是全部样本观测值与总样本均值的误差平方和：

第一项是由行因素产生的误差平方和，记为SSR：

第二项是由列因素产生的误差平方和，记为SSC：

第三项是除行因素和列因素外的剩余因素产生的误差平方和，称为随机误差平方和，记为SSE：

SST的自由度为kr−1，SSR的自由度为k−1，SSC的自由度为r−1，SSE的自由度为(k−1)(r−1)。

行因素的均方（MSR）为：MSR = SSR/(k-1)

列因素的均方（MSC）为：MSC = SSC/(r-1)

随机误差的均方（MSE）为：MSE = SSE/((k-1)(r-1))

检验行变量对因变量的影响，采用统计量 $F_{r}$ ：

检验行变量对因变量的影响，采用统计量 $F_{c}$ ：

统计决策

将 $F_{R}$ 和 $F_{C}$ 与临界值 $F_{\alpha }$ 进行比较。

如果 $F_{R}$ > $F_{\alpha }$ ，则拒绝原假设 $H_{0}$ : $\mu _{1}$ = $\mu _{2}$ =⋯= $\mu _{k}$ ，行因素对观测值有显著影响；

如果 $F_{C}$ > $F_{\alpha }$ ，则拒绝原假设 $H_{0}$ : $\mu _{1}$ = $\mu _{2}$ =⋯= $\mu _{r}$ ，列因素对观测值有显著影响。

双因素方差分析表

关系强度的测量

将行因素和列因素的平方和加在一起，可反映两个自变量对因变量的联合效应，联合效应与总平方和的比值定义为R2R2，其平方根RR反映了这两个自变量合起来与因变量之间的关系强度：

有交互作用的双因素方差分析

如果2个因素搭配在一起会对因变量产生新的效应，就要考虑交互作用带来的影响。