方差分析及其在Excel、SPSS中的应用

1.什么是方差分析?

方差分析(ANOVA)指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平。如下图,行业即为因素,零售业、旅游业、航空公司和家电制造业是行业的4个水平。

例题1:以下为4个行业在一年中各自的投诉次数,一般而言,收到投诉的次数越多,说明服务质量越差。消费者协会想知道这几个行业之间的服务质量是否有显著差别。(α=0.05)

2.方差分析的基本原理

方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,从而检验分类型自变量对数值型因变量的影响是否显著。即因变量的总误差中,除开随机误差以外,是否有分类型自变量造成的系统误差,这个误差有多大。
数据中的总误差=系统误差+随机误差。而在方差分析中,我们将其转变为:总误差(SST)=组内误差(SSE)+组间误差(SSA)。
组内误差即水平内部的误差,只包含随机抽样造成的随机误差;组间误差是不同水平之间的误差,既包括系统误差,也包括随机误差。

3.方差分析的分类

单因素方差分析:一个分类型自变量
双因素方差分析:两个分类型自变量。可分为:一、无重复双因素方差分析:只考虑主效应,而不考虑交互效应;二、可重复双因素方差分析:考虑主效应,也考虑交互效应。
交互效应指除自变量对因变量单独造成的影响外,还有可能是自变量的组合对因变量造成影响。例如图1-2,除了地区与品牌分别对销售量造成影响外,地区与品牌的搭配是否也会产生影响,此即交互效应。

4.方差分析的基本假定

①独立性:要求每个样本数据来自不同处理的独立样本
②正态性:要求每个处理对应的总体都应该服从正态总体分布。
检验方法:P-P图、Q-Q图、Shapiro-Wilk检验(适合3-50的小样本)、K-S检验
③方差齐性:各个处理的总体方差必须相等
检验方法:箱线图、残差图、Levene方差检验(原假设为各处理总体方差相等)
tips:方差分析对方差齐性要求实际较弱,略有不齐时,对分析的结果影响不是很大,尤其是当各处理的样本量相同时,方差分析对方差齐性是稳健的。
(此处引用:莫小艾莫家《方差分析以及如何用SPSS实现单因素、双因素方差分析》https://blog.csdn.net/Moxiaoaijing/article/details/81079990)

5.单因素方差分析在Excel中的应用

以例题1为例:
(1)提出假设

(2)EXCEL中的操作
步骤1:依次点击[数据]-[数据分析]-[方差分析:单因素方差分析]
步骤2:依次操作[输入区域]、[α值]、[输出区域]

步骤3:点击确定后得到以下输出结果:

6.单因素方差分析在SPSS中的应用

(1)方法一
步骤1:录入数据(行业中的1、2、3、4分别代表零售业、旅游业、航空公司和家电制造业)

步骤2:依次选择[分析]-[比较平均值]-[单因素ANOVA检验]

步骤3:将“数据”放入[因变量列表],分类型变量“行业”放入[因子]

步骤4:点击[选项],在对话框中勾选[描述]、[方差齐性检验]和【平均值图】
说明:【描述】输出因变量的描述统计内容,包括样本容量、平均数、标准差、均值的标准误差、最小值、最大值、95%的置信区间。
【方差齐性检验】输出分组方差齐性检验的Levene统计量,以检验各个总体的方差是否相等。
【固定与随机效应】显示标准离差和误差检验。
【平均值图】表示输出各水平下因变量均值的折线图。

步骤5:点击【事后比较】,在对话框中勾选【LSD】、【图基(Turkey HSD)】和【邓肯(Duncan)】
说明:【事后比较】对应方差分析中的多重比较。在方差分析结果中,若各均值不相等,但究竟是哪些均值不相等,还需进一步进行多重比较分析,以确定是哪些均值之间存在差异。
以下对SPSS中的【事后比较】选项(多重比较方法)中常用的三项作出简要说明:
【LSD】最小显著差异法,用t检验完成各组均值之间的两两比较,适用于研究者事先就已经计划好要对某对或某几对均值进行比较,不管方差分析的结果如何都要进行比较。
【图基】可靠显著差异法,用Student极差统计量对所有组间进行配对比较。适用于研究者并未事先计划进行多重比较,只是在方差分析拒绝原假设后,才需要对任意两个处理的均值进行比较。
【邓肯】修复极差法,使用SNK检验进行逐步配对比较。

说明:此外,在【对比】中,可根据需要勾选【多项式】,进行先验对比检验和趋势检验。

结果分析:

1.方差齐性检验

2.描述统计量

3.方差分析结果

4.均值多重比较分析结果


5.均值多重比较下的齐性子集结果


由图基和邓肯法的分析结果看,
第一栏列出四个行业,第二栏列出图基和邓肯取渐渐增大的Range值进行比较而分的子集。由于各组样本含量不等,计算均数用的是调和平均数的样本大小是5.638。从概率值看,p>0.05,说明各组方差具有齐次性。
观察各个行业两两比较后的数据,可以看出59(家电制造业)>49(零售业)>48(旅游业)>35(航空公司),说明家电制造业的被投诉次数最多,航空公司最少。
均值折线图也清晰地表现了这一点。如下图

7.双因素方差分析在Excel中的应用

以例题2为例:

1.无交互作用的双因素方差分析

步骤1:选择【数据】-【数据分析】-【方差分析:无重复双因素方差分析】,然后选择数据区域,点击确定输出结果。

结果分析:


由分析结果可知,行因素中F=7.20187>F crit=3.36287,所以拒绝原假设,认为超市位置对销售量有显著影响。列因素中F=10.3046>F crit=4.71805,所以拒绝原假设,认为竞争者数量对销售量有显著影响。
也可根据P-value的值进行判断,行因素中,因为P=7.4E-05<α=0.01,所以拒绝原假设;列因素中,因为P<0.01,所以拒绝原假设。

2.有交互作用的双因素方差分析

步骤1:
有交互作用的方差分析与无交互作用的操作类似,不同之处在于选择【方差分析:可重复双因素方差分析】,输出结果。

注意,此处的【每一样本的行数】表示每个样本有3条数据行作对照。在此例中表示每个超市位置有3条数据行进行对照,重复了3次试验。
注意:在EXCEL表格的输入时,应当将两个因素置于同一格子内,可依照左图进行输入,依照右图表格形式输入将会导致“每一样本行数”报错,无法进行分析。

结果分析:


依据上图数据结果,其中“样本”即“超市位置”,“列”即“竞争者数量”,“交互”表示超市位置和竞争者数量交互产生的影响。此处对应的F=3.315038<F crit=3.666717,P值=0.01605>0.01,所以,不拒绝原假设,认为竞争者数量和超市位置对销售额没有交互影响。

8.双因素方差分析在SPSS中的应用

同样以例题2为例:
首先录入数据,并将分类变量进行赋值。

步骤1:双因素分析方法和单因素方差分析的方法二步骤类似,选择【分析】-【一般线性模型】-【单变量】,将数据放入【因变量】,将超市位置和竞争者数量放入【固定因子】。

不同之处在于【模型】。单击【模型】,选择【构建项】,【类型】为“交互”,将“超市位置”和“竞争者数量”放入右侧模型,再按住“ctrl”同时点击“超市位置”和“竞争者数量”,得到右侧的“竞争者数量*超市位置”,表示二者的交互效应。

步骤2:选择【图】,将因子分别置入水平轴,并“添加”到下方“图”中。然后是【事后比较】和【选项】,具体不再做详细介绍,与单因素方法二一致。

结果分析:


此处只对主体间效应的结果作说明。其中,多了一条“超市位置*竞争者数量”的分析结果,其显著性P值=0.016>α=0.01,故接受原假设,认为超市位置和竞争者数量对销售额无交互影响。

PS:本文题目来源自贾俊平、何晓群、金勇进编著的《统计学》.中国人民大学出版社,仅为个人学习笔记,如有错误,敬请指正。

方差分析及其在Excel、SPSS中的应用相关推荐

  1. 如何给图片赋值_医学数据的变量类型及在SPSS中的赋值方法(医学统计前的重要步骤)——【杏花开医学统计】...

    杏花开生物医药统计 一号在手,统计无忧! 关 注 医学数据的变量类型 及在SPSS中的赋值方法 关键词:医学数据,变量类型,赋值,spss 下方为视频版和音频版,含软件操作步骤 导  读 不同的医学数 ...

  2. 概率论与数理统计——多方法解决-双样本方差的F检验-Excel/SPSS

    本篇将结合一个例题,借助Excel工具和SPSS,分别从不同的拒绝域位置和利用不同的函数,多方法地总结双样本的F检验的思路和方法. 参数假设检验的内容请参考<概率论与数理统计--参数假设检验&g ...

  3. 语言相关系数显著性_相关性分析在SPSS中的具体操作,一文读懂相关系数的含义及使用——【杏花开生物医药统计】...

    相关性分析介绍 生物和医学统计中,相关分析属于流程前端的探索性分析,研究变量间关系及性质,其结果在为下一步采取何种方法做出指引,为数据挖掘之前的基础工作. 相关系数的选择 相关分析之前,需要先确认变量 ...

  4. 如何将问卷结果转化成相应的数据放在spss中进行分析

    首先,将问卷的原始数据导出,如果问卷中有很多矩阵题,需要根据题目分别导出. 对问卷中的答案进行赋值,因为spss不能分析文本类内容,所以需要将所选的选项用数字赋值 以这样的方式制作excel表格 此时 ...

  5. 客户价值分析(聚类)--【Excel+SPSS】和python实现

    分类: 已知当前所研究的问题的类别数目及各类特征,将一些未知类别的个体正确地归属于其中某一类. 例如,在大学,学校根据院系.专业,将学员分类不同的类别,有学计算机的,有学金融,有学数学等,这个过程就是 ...

  6. spss三次指数平滑_选取SPSS中较优指数平滑预测模型的研究.doc

    选取SPSS中较优指数平滑预测模型的研究.doc 选取SPSS中较优指数平滑预测模型的研究 作者简介:张博文(1989-),男,汉族,山东日照人, 安徽理工大学经济与管理学院硕士研究生在读,专业:物流 ...

  7. LeetCode简单题之Excel 表中某个范围内的单元格

    题目 Excel 表中的一个单元格 (r, c) 会以字符串 "" 的形式进行表示,其中: 即单元格的列号 c .用英文字母表中的 字母 标识. 例如,第 1 列用 'A' 表示, ...

  8. Gridview导出到Excel,Gridview中的各类控件,Gridview中删除记录的处理

    Asp.net 2.0中新增的gridview控件,是十分强大的数据展示控件,在前面的系列文章里,分别展示了其中很多的基本用法和技巧(详见< ASP.NET 2.0中Gridview控件高级技巧 ...

  9. python 读取excel文件 效率 时间 格式_python读取Excel文件中的时间数据

    在使用python读取Excel文件中的时间格式,碰到的时间格式转换问题: 读取这样的表格: 输出这样的数据结果: 然而这样的结果却不是我们想要的,我们需要的是这样的结果: 1.安装python官方库 ...

最新文章

  1. linux rpm目录,Linux修改RPM的安装目录的方法
  2. ffmpeg支持x264插件
  3. python操作mongodb之六自定义类型存储
  4. Graphpad Prism作相关性分析图
  5. 软件性能测试与LoadRunner实战可以在网上和书店买到了
  6. 【渝粤题库】广东开放大学 统计基础 形成性考核
  7. Linux权限的简单剖析
  8. 矩池云上创建Pytorch 0.41环境
  9. 63万张!旷视发布最大物体检测数据集Objects365,物体检测竞赛登陆CVPR
  10. 关键词提取_tf_idf
  11. css:transform,transition,animation总结
  12. 移动开发者的未来在哪里?
  13. 数字逻辑_逻辑函数化简(配项法)例子
  14. 马氏距离Mahalanobis Distance实例
  15. 忆贵州三年的教书编程岁月:不弛于空想,不骛于虚声
  16. 学习Nginx这一篇就够了(非本人原创文章)
  17. 【Junit Experiment】Junit 软件质量测试实验--日期格式规范性+字符串格式规范性
  18. 4K智能AI双目自动跟踪云台摄像机
  19. IDEA生成jar工具包
  20. 如何从零开发一个低代码平台,有哪些成熟技术组件可用

热门文章

  1. Java 编程问题:四、类型推断
  2. BERT |(3)BERT模型的使用--pytorch的代码解释
  3. 无线传感网络技术论文笔记
  4. 重新设计TCP/IP协议栈以支持设备移动性
  5. 有哪些堪称PPT神器插件?用好这10款,让你像开挂了一样设计PPT!
  6. 在java中如何对数组实现添加、删除和插入操作呢?
  7. MySQL(三) 完整性约束
  8. android7 显示到pc,安卓手机上的画面怎么投屏到Win7电脑上?超详细投屏方法看这里!...
  9. 解决JETBRAINS官网打不开
  10. 第四章 线程切换与调度——操作系统的发动机