文章目录

  • 什么是方差分析
    • 建立假设
    • 选择检验统计量
      • 偏差平方和
      • FFF检验统计量
    • 给出拒绝域并做出判断
  • 使用Excel进行方差分析
    • 添加数据分析工具
    • 使用分析工具库
  • 结果说明

什么是方差分析

Wikipedia:
Analysis of variance (ANOVA) is a collection of statistical models used to analyze the differences among group means and their associated procedures (such as “variation” among and between groups), developed by statistician and evolutionary biologist Ronald Fisher.

方差分析(Analysis of variance,简称ANOVA,又称变异系数分析)是一类用于分析多组数据之间均值差异的统计方法模型,还涉及一些相关的步骤(比如两组数据之间的“变异”)。


从定义上看,方差分析是分析数据间均值的差异,那为什么叫“方差”分析,而不是“均值分析”?这是因为关于均值差异的结果是通过分析方差推算的,所以前者更合适。下面的具体步骤也将说明这一点。

这里仅对单因子方差方差分析1(one-way ANOVA)假设检验的基本步骤进行说明。

建立假设

设单因子AAA有rrr个水平,记为A1,A2,...,ArA_1, A_2, ..., A_rA1​,A2​,...,Ar​,不同水平(iii)下,各mmm次重复试验样本为yij(i=1,2,...,r;j=1,2,...,m)y_{ij}(i=1,2,...,r; j=1,2,...,m)yij​(i=1,2,...,r;j=1,2,...,m) ,每个水平可看作是一个总体,即水平AiA_iAi​对应的mmm个观测样本集{yij,j=1,2,....m}\{y_{ij},j=1,2,....m\}{yij​,j=1,2,....m}为一个总体,共rrr个总体。

假定,这里每个总体均为正态分布N(μi,σi2)N(\mu_i, \sigma_i^2)N(μi​,σi2​),各总体方差(σi2\sigma_i^2σi2​)相等,所有试验样本之间相互独立。 建立如下一对假设:
H0:μ1=μ2=...=μrvsH1:μ1,μ2,...,μrH_0:\mu_1=\mu_2=...=\mu_r \ \ \ vs \ \ \ H_1:\mu_1, \mu_2, ..., \mu_rH0​:μ1​=μ2​=...=μr​   vs   H1​:μ1​,μ2​,...,μr​

若H0H_0H0​成立,则说明因子AAA的rrr各水平间无显著差异,否则有显著差异。要检验原假设成立,即各总体均值相等,记总体均值为μ=(∑i=1i=rμ)/r\mu=(\sum_{i=1}^{i=r}\mu)/rμ=(∑i=1i=r​μ)/r,第iii水平的均值与总体均值μ\muμ的差ai=μi−μa_i=\mu_i-\muai​=μi​−μ作为AiA_iAi​的水平效应,显然有∑ai=0\sum{a_i}=0∑ai​=0,那原假设可看作是H0:a1=a2=...=ar=0H_0: a_1=a_2=...=a_r=0H0​:a1​=a2​=...=ar​=0,备择假设可看作是所以aia_iai​不全为0。接着将给出检验H0H_0H0​的统计量。

选择检验统计量

我们将通过偏差平方和建立检验统计量(F统计量)来对原假设(H0H_0H0​)进行检验。

首先,给出如下数据表:

因子水平 重复1 重复2 重复m 平均
A1A_1A1​ y11y_{11}y11​ y12y_{12}y12​ y1my_{1m}y1m​ T1T_1T1​ yˉ1⋅\bar{y}_{1·}yˉ​1⋅​
A2A_2A2​ y21y_{21}y21​ y22y_{22}y22​ y2my_{2m}y2m​ T2T_2T2​ yˉ2⋅\bar{y}_{2·}yˉ​2⋅​
ArA_rAr​ yr1y_{r1}yr1​ yr2y_{r2}yr2​ yrmy_{rm}yrm​ TrT_rTr​ yˉr⋅\bar{y}_{r·}yˉ​r⋅​
TTT yˉ\bar{y}yˉ​
其中,(令i=1,2,…,r,n=r∗mi=1,2,…,r,n = r*mi=1,2,…,r,n=r∗m)
$$
\begin{aligned}
T_i &= y_{i1} + y_{i2} + … + y_{im}, \
\bar{y}_{i·} & = T_i / m, \
T &= T_1 + T_2 + … + T_r, \
\bar{y} &= (\bar{y}_1· + \bar{y}_2· + … + \bar{y}_r) / r \
&=(T_1/m + T_2/m + … + T_r/m) / r \
&=T / (r * m) \
&=T/n.
\end{aligned}
$$
偏差平方和

一般在统计学中,kkk个数据{y1,y2,...,yk}\{y_1,y_2,...,y_k\}{y1​,y2​,...,yk​}(记yˉ\bar{y}yˉ​为该组数据的均值),偏差平方和为Q=∑i=1i=k(yi−yˉ)2,Q=\sum_{i=1}^{i=k}{(y_i-\bar{y})^2},Q=i=1∑i=k​(yi​−yˉ​)2,有时简称平方和。注意到,这kkk个偏差之和为000,即有如下恒等式:∑i=1k=1(yi−yˉ)=0,\sum_{i=1}^{k=1}{(y_i-\bar{y})} = 0,i=1∑k=1​(yi​−yˉ​)=0, 这说明在QQQ中独立(线性无关)的偏差只有个k−1k-1k−1个, 在统计学中把k−1k-1k−1称为偏差平方和QQQ的自由度df=k−1df=k-1df=k−1。偏差平方和常用来度量一组数据的离散程度,对于上表中的数据,将计算如下几种偏差平方和:

  • 总体偏差平方和STS_TST​
    这nnn个数据之间的差异大小用总体偏差平方和STS_TST​表示: ST=∑i=1i=r∑j=1j=m(yij−yˉ)2,S_T=\sum_{i=1}^{i=r}{\sum_{j=1}^{j=m}{(y_{ij}-\bar{y})^2}}, ST​=i=1∑i=r​j=1∑j=m​(yij​−yˉ​)2,自由度为dfT=n−1\ df_T=n-1 dfT​=n−1,经推算可得:
    ST=∑i=1i=r∑j=1j=myij2−T2n.\begin{aligned} S_T=\sum_{i=1}^{i=r}{\sum_{j=1}^{j=m}{y_{ij}^2}} - \frac{T^2}{n}. \end{aligned} ST​=i=1∑i=r​j=1∑j=m​yij2​−nT2​.​

  • 组内偏差平方和SeS_eSe​
    仅由随机误差引起各水平(组)内部间的误差,可用组内偏差平方和表示,也称误差偏差平方和:Se=∑i=1i=r∑j=1j=m(yij−yˉi⋅)2,S_e=\sum_{i=1}^{i=r}{\sum_{j=1}^{j=m}{(y_{ij}-\bar{y}_{i·})^2}}, Se​=i=1∑i=r​j=1∑j=m​(yij​−yˉ​i⋅​)2, 自由度为dfe=r(m−1)=n−rdf_e=r(m-1)=n-rdfe​=r(m−1)=n−r.

  • 组间偏差平方和SAS_ASA​
    组间除了随机误差,还有因子AAA各水平(各组)之间效应不同产生的差异,用组间偏差平方和表示(也称为因子AAA的偏差平方和): SA=m∑i=1i=r(yˉi⋅−yˉ)2,S_A=m\sum_{i=1}^{i=r}{(\bar{y}_{i·}-\bar{y})^2}, SA​=mi=1∑i=r​(yˉ​i⋅​−yˉ​)2,自由度 dfA=r−1df_A=r-1dfA​=r−1,经推算可得:SA=1m∑i=1rTi2−T2nS_A=\frac{1}{m}\sum_{i=1}^r{T_i^2}-\frac{T^2}{n}SA​=m1​i=1∑r​Ti2​−nT2​

从上述几种偏差平方和的表示方式很容易得到:ST=SA+Se,S_T=S_A+S_e, ST​=SA​+Se​, 自由度为dfT=dfA+dfedf_T=df_A+df_edfT​=dfA​+dfe​.

FFF检验统计量

根据上面偏差平方和的定义,样本均值间的差异可转化为样本偏差平方和的差异,那么要想知道各水平之间是否有差异,就可以通过组间差与组内偏差进行比较得出。(一般情况下,组间的样本多于组内样本,而样本越多偏差平方和也会越大)

  • 若各水平间无差异,也就是各水平间只有随机误差,没有效应不同带来的误差,则组间偏差与组内偏差比较接近,也就是组间偏差与组内偏差的比值比较接近1;
  • 若各水平间有差异,也就是各水平间除了随机误差,还有不同效应带来的误差,这时各水平间的误差大于组内误差,则组间偏差与组内偏差的比值会大于1。

那么这个比值达到什么水平,才认为两者之间有显著差异?也就是比值多大,才拒绝原假设?这需要选择一个合适的检验统计量。下面先引入均方的概念。

均方的定义为每个自由度上有多少个平方和,均方 MSMSMS表示为: MS=QdfQ,MS=\frac{Q}{df_Q},MS=dfQ​Q​,其中,QQQ为偏差平方和,dfQdf_QdfQ​为对应偏差平方和的自由度。

由于均方的定义排除自由度不同所产生的干扰,这将有利于各组样本偏差平方和间的比较,所以将组间偏差平方和的均方与组内偏差平方和的均方的比值F作为检验H0H_0H0​的统计量:
F=MSAMSe=SA/dfASe/dfeF=\frac{MS_A}{MS_e}=\frac{S_A/df_A}{S_e/df_e}F=MSe​MSA​​=Se​/dfe​SA​/dfA​​
其中,SA,SeS_A, S_eSA​,Se​分别是组间偏差平方和与组内偏差平方和,dfA,dfedf_A, df_edfA​,dfe​为对应的自由度。

给出拒绝域并做出判断

这里的检验统计量FFF就服从自由度为dfAdf_AdfA​和dfedf_edfe​的FFF分布,由于FFF的值越大,越倾向于拒绝原假设,因此该检验的拒绝域WWW为W={F≥F1−α(dfA,dfe)},W=\{F \geq F_{1-\alpha}(df_A, df_e)\},W={F≥F1−α​(dfA​,dfe​)}, 其中,α\alphaα为显著性水平,一般取0.050.050.05,这里F1−α(dfA,dfe)F_{1-\alpha}(df_A, df_e)F1−α​(dfA​,dfe​)通过FFF分布查表获得。也就是说,

  • 若F≥F1−α(dfA,dfe)F \geq F_{1-\alpha}(df_A,df_e)F≥F1−α​(dfA​,dfe​),则因子AAA各组间有显著差异;
  • 若F<F1−α(dfA,dfe)F < F_{1-\alpha}(df_A,df_e)F<F1−α​(dfA​,dfe​),则说明因子AAA各组间差异不显著。

该检验的ppp值通过FFF分布对应的密度函数得到:p=P(Y≥F).p=P(Y \geq F).p=P(Y≥F).

ppp值是利用样本观测值做出拒绝原假设的最小显著性水平,一般在实际中,若ppp值很小(p≤0.001p \leq 0.001p≤0.001)时,可做出拒绝原假设;若p>0.05p>0.05p>0.05时,接受原假设。当α\alphaα与ppp比较接近时,才比较α\alphaα和ppp。如果α≥p\alpha \geq pα≥p,则在显著性水平α\alphaα下拒绝H0H_0H0​;否则,在显著水平α\alphaα下接受原假设。


关于数据的计算可使用统计分析工具,一般有SPSS, SAS等,当然还有一般人接触最多的Excel,下面是利用Excel中的分析工具进行单因子方差分析。

使用Excel进行方差分析

添加数据分析工具

若功能区已经显示有“数据分析”功能(如下图)可跳过下面三步

  1. 选择“数据”-> 右键“数据工具”-> 选择“自定义快速访问工具栏”,选择后将弹出“Excel选项”窗口(也可通过其他方式打开);
  2. “Excel选项” -> “加载项” -> “分析工具库-VBA”-> “转到”,选择后会弹出“加载宏”的窗口
  3. “加载宏”-> 在“分析工具库 - VBA”前打对勾 -> “确定”,此时Excel上的功能区就会显示“数据分析”工具(如最上面第一张图)

使用分析工具库

使用如下数据进行示例操作:

可根据上面方差分析的步骤直接计算,下面是使用Excel中的数据工具直接得到偏差平方和,自由度,均方等。

使用分析工具库进行单因子方差分析步骤:

  1. “数据分析”-> “方差分析:单因素方差分析”-> 点击“确定”后,会出现方差分析选项卡。这里请注意,Excel分析工具进行方差分析时,一列作为一组,所以将上面数据进行转置。

  2. “方差分析:单因素方差分析”选项卡 -> 在“输入区域”选择要分析的数据(可通过右侧按钮鼠标选择,也可直接手动输入) -> 在“ααα(A)”的选择填显著性水平(默认0.05) -> 在“输出区域”选择输出单元格 -> 点击“确定”后,会计算出对应数据的结果,其中包含平方和(SS) 、自由度(df),均方(MS) 等。(注:选项卡中"标志位于第一行"勾选表示 数据第一行为列名,在输出结果时会显示对应列名,若数据未选择列明则无需勾选,结果中列名会对应写成"列1", “列2”,…)

  3. 点击确定后,就会直接给出该数据对应的方差分析表:

结果说明

结果中给出了两个汇总表:

  • 第一个是各组数据之和,平均值,方差;
  • 第二个是方差分析的结果表,其中
    - SSSSSS 表示偏差平方和
    - dfdfdf 表示自由度
    - MSMSMS表示均方
    - FFF是对应组间和组内偏差平方和均方比值
    - PPP-valuevaluevalue为对应FFF值的密度函数值,也可利用Excel中=F.DIST.RT(<F值>,<组间自由度>,<组内自由度>)$公式得到
    - FcritF critFcrit为对应FFF分布,α\alphaα置信水平下自由度为df组间df_{组间}df组间​和df组内df_{组内}df组内​的临界值,也可利用Excel中=F.INV(1-<\alpha>,<组间自由度>,<组内自由度>)公式得到

  1. 茆师松,程依明, 濮晓龙.概率论与数理统计教程第二版[M].高等教育出版社:北京,2011:423-434. ↩︎

方差分析(1) ——单因素方差分析及Excel示例相关推荐

  1. excel显著性检验_数据分析系列 10/32 | Excel方差分析之单因素方差分析

    无论是什么活动,影响产品质量和产品的因素都有多种,如影响农作物产量的因素有品种.天气.施肥量.肥料的种类等等.如果我们想要了解这些因素中哪些因素对产量有显著性影响,或各个因素之间的交互作用,以及对结果 ...

  2. 单因素方差分析_基于R语言开展方差分析(一)——单因素方差分析

    基本原理 方差分析(Analysis of variance, ANOVA)是用于两个或两个以上样本均数比较的方法,还可以分析两个或多个研究因素的交互交互作用以及回归方程的线性假设检验等.其基本思想是 ...

  3. 方差分析(单因素方差分析)

    单因素方差分析 问题: 消费者与产品生产者.销售者或服务提供者之间经常发生纠纷.发生纠纷后,消费者常常会向消费者协会投诉.为了对几个行业的服务质量进行评价,消费者协会在零售业.旅游业.航空公司.家电制 ...

  4. 方差分析之单因素方差分析

         作者:DD      来源:数据科学家联盟 方差分析是一种能使多因素(多组间)检验变得简洁的一种检验方式,它能同时考虑所有的样本,不仅能使检验过程变得简洁还能排除因两两检验可能造成的错误累积 ...

  5. 统计学习-方差分析之单因素方差分析

    1.数据背景 有A.B.C.D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试使用方差分析的方法解决: 1.每个地区间的销售量是否相同? 2.不同月份的销售量是否相同? 3. ...

  6. 方差分析与单因素方差分析

    研究分类型自变量对数值型因变量的影响.检验统计的设定和检验方法与变量间的方差是否相等有关. 例如研究行业.服务等级对投诉数的影响:如表格中给出4个行业.每个行业有3个服务等级.样本容量为7.观测值为投 ...

  7. Python笔记-方差分析之单因素方差分析

    这个单因素分析一般是用来研究不同行业股票收益水平. 比如下面的代码: from statsmodels.stats.anova import anova_lm from statsmodels.for ...

  8. Excel单因素方差分析

    Excel单因素方差分析 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 单因素方差分析简介 针对多类数据(一个因子多个取值) ...

  9. 方差分析-单因素方差分析示例 (Between Subjects)

    目录 1.从一个例子出发 2.建立零假设 3.什么是MSE和MSB 4.样本大小 5.计算MSE 6.计算MSB 7.比较MSE和MSB 8.分析差异的来源 本文将从一个例子("微笑宽容实验 ...

  10. R语言Welch方差分析(Welch’s ANOVA)实战:Welch方差分析是典型的单因素方差分析的一种替代方法,当方差相等的假设被违反时我们无法使用单因素方差分析,这时候Welch’s出来救场了

    R语言Welch方差分析(Welch's ANOVA)实战:Welch方差分析是典型的单因素方差分析的一种替代方法,当方差相等的假设被违反时我们无法使用单因素方差分析,这时候Welch's出来救场了 ...

最新文章

  1. 《预训练周刊》第20期:EVA:包含28亿参数的中文预训练对话模型、基于知识融入提示词的文本分类...
  2. 美国正在衰落的24个行业:“猝不及防”还是“温水煮青蛙”?
  3. python threading多线程计算
  4. 科普| 什么是图数据库?
  5. 综合应用能力计算机类考什么用,综合应用能力考什么内容
  6. [PHP]对Json字符串解码返回NULL的一般解决方案
  7. html网页设计要点,网站交互设计的8个要点
  8. hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结
  9. solidworks重建模型好慢_转发:解决SolidWorks运行慢,经常崩溃的方法
  10. 前景检测算法(十四)--SuBSENSE算法
  11. mysql innodb远程备份_详细说明MySQL备份、还原、innoDB打开
  12. python3小程序代码_我想使用python写一个小程序作为练习,使用的是python3。
  13. SQL Server2005如何进行数据库定期备份
  14. html左侧树形图,Qunee for HTML5 - 中文 : 树形布局
  15. 液晶显示器面板型号速查[转贴]
  16. 瘦子的肠道菌群和胖子的区别_胖子和瘦子的终极 PK:比基因?比运动?比肠道细菌!...
  17. linux 无线网卡 免驱动,Linux系统下安装USB无线网卡驱动方法
  18. 京东成都研究所奋战618
  19. 这些电商运营指标你知道吗?
  20. 商业模式(三):P2P网贷平台,毛利润测算

热门文章

  1. iphone换android手机铃声,在iPhone中换个自定义铃声的11个步骤
  2. 黑客站在 ATM 面前,机器就直接吐出钞票,他们是怎么做到的?
  3. 笔记本显示器仅计算机,笔记本可以当屏幕用 笔记本屏幕当显示器用
  4. 蚂蚁金服收购印度外卖APP?
  5. HTML5视频和音频常见的格式,HTML5中视频音频的使用详解
  6. Typora设置工作台水印和导出PDF水印
  7. 推荐一个阅读代码、文档的利器:屏幕贴图工具
  8. 浩方对战平台原理初步分析
  9. CSP201903-1 小中大 (Python)
  10. 中国最后的隐世美景(转)