总第160篇/张俊红

上一篇讲了假设检验,这一篇讲讲方差分析。

1.背景:

假如你们现在针对用户提出了三种提高客单价的策略A、B、C,现在想看一下这三种策略最后对提高客单价的效果有什么不同,那我们怎么才能知道这三种策略效果有什么不同?最简单的方法就是做一个实验,我们可以随机挑选一部分用户,然后把这些用户分成三组A、B、C组,A组用户使用A策略、B组用户使用B策略、C组用户使用C策略,等策略实施一段时间以后,我们来看一下这三组分别的客单价是什么水平?哪组平均客单价高,就说明哪组策略有效果。真的可以得出这的结论吗?是可以,但是不够严谨。

为什么说不够严谨呢?是因为我们用来做实验的用户是随机挑选的,有可能客单价高的那部分用户(比如高价值用户)本身就要比其他用户群体的客单价高,那为了避免这种可能是因为随机抽样造成的结果不一致问题,我们就需要去证明下,到底是不是因为随机挑选的原因,如果不是,我们就可以去比较各组的平均客单价,哪组客单价较高,就说明哪组策略更有效果。

我们的最终目的其实就是为了比较各组的平均客单价,但是在比较均值之前,我们需要先证明下各组之间的结果不同是因为策略的原因还是随机挑选的原因,我们把这个过程叫做方差分析。

2.三个假设:

方差分析有三个假设:

1.每组样本数据对应的总体应该服从正态分布
2.每组样本数据对应的总体方差要相等,方差相等又叫方差齐性;
3.每组之间的值是相互独立的,就是A、B、C组的值不会相互影响。

正态检验主要有两种大的方法,一种是统计检验的方法:主要有基于峰度和偏度的SW检验、基于拟合度的KS、CVM、AD检验;另一种是用描述的方法:Q-Q图和P-P图、茎叶图,利用四分位数间距和标准差来判断。

方差齐性的主要判断方法有:方差比、Hartley检验、Levene检验、BF法。

由于篇幅问题,关于上面涉及到的方法以后专门来讲,有兴趣的同学可以先自行查阅。

3.方差分析流程

3.1建立假设

H0:各组的客单价均值相等;
H1:各组的客单价均值不相等或不全等。

检验水准为0.05。

3.2计算检验统计量F值

F值 = 组间方差/组内方差。我们主要是通过比较F值的大小来判断各组之间是否存在显著差异。

所谓的组间方差就是用来反映组与组之间的差异程度,组内方差就是用来反映各组内部数据的差异程度。

如果各组之间的客单价相等,即假设H0成立,也就意味着各组之间是没啥区别的,也就是组间方差会很小甚至为0,与之对应的方差很大的概率会很低,所以如果F值越大,表明在假设H0成立的前提下出现出现这一结果的概率越小,相当于我们前面提到的小概率事件,如果一旦小概率事件发生了,我们就有理由去拒绝原假设。

要来计算方差,我们需要先计算平方和。为了让大家能够更加理解,我们来举个例子来讲解各个指标怎么计算。

现在有两组数据:

第一组:80、85、96
第二组:110、125、130、145、160

第一组和第二组的总算术平均值为:
(80+85+96+110+125+130+145+160)/8 = 116.375。

第一组的算术平均值:(80+85+96)/3 = 87

第二组的算术平均值:

(110+125+130+145+160)/5 = 134

组间平方和(SSA):
= 第一组平均值与总体平均值的平方和×第一组样本数+第二组平均值与总体平均值的平方和×第二组样本数
= (87-116.375)^2×3 + (134-116.375)^2×5 = 4141.875

组内平方和(SSE):
= 第一组平方和 + 第二组平方和
=(80-87)^2+(85-87)^2+(96-87)^2

+(110-134)^2+(125-134)^2+(130-134)^2

+(145-134)^2+(160-134)^2
=134+1470=1604

总体平方和(SST):
=所有样本数据与总体平均值之间的平方和
=(80-116.375)^2+(85-116.375)^2+(96-116.375)^2

+(110-116.375)^2+(125-116.375)^2+(130-116.375)^2

+(145-116.375)^2+(160-116.375)^2
=5745.875

通过以上数据,我们可以看出 SST = SSA + SSE

总平方和会有一个问题,就是随着数据量越大,这个值会越大,所以我们引入另外一个概念:均方。均方=平方和/自由度,其中自由度是样本数-1

组间均方(MSA) = SSA/自由度 = 4141.875/(2-1) = 4141.875
组内均方(MSE) = SSE/自由度 = 1604/(8-2) = 267.333

MSA又称为组间方差,MSE称为组内方差。

F = MSA/MSE = 4141.875/267.333 = 15.4933

3.3确定边界值并做出决策

此时我们就可以通过查F表,来获得置信度为95%时的F边界值:

如果F如果F≥F边界值表面各组数据之间存在明显差异,拒绝H0假设,接受H1假设。

如果我们证实了各组数据之间是存在明显差异的,这个时候就可以去拿各组的均值来进行比较,均值越大,可以说明策略效果越好。

F值表:
https://wenku.baidu.com/view/3165819af71fb7360b4c2e3f5727a5e9846a2743.html

一般最后我们都可以得到下面这么一个表:

误差源 自由度(df) 平方和(SS) 均方和(MS) F值 显著性(P值)
组间(因素影响)
组内(误差影响)
总和

以上就是简单的方差分析的基本原理与流程,也是单因素方差分析(单因素,就是只有策略这一个维度),还有双因素方差分析,就是不止考虑策略这一个维度,还需要别的维度,比如时间、地域之类的,还有交叉作用的双因素分析,就是不止策略和地域分别的影响,这两者结合在一起可能会产生第三种影响。关于方差分析的更多内容,我们之后再来分享。

你还可以看:

聊聊置信度与置信区间

统计学的假设检验


有不少人问我统计学书籍有没有推荐,我推荐两本,第一本是《白话统计》是医学博士冯国双老师写的,真的很白话;第二本是一本教材,名字就叫《统计学》,中国人民大学出版,作者是贾俊平老师,虽然是一本教材,但是看起来完全没有教材那种晦涩难懂的感觉。

均值已知检验方差_方差分析相关推荐

  1. 均值已知检验方差_方差分析案例

    案例-摘自<商务与经济统计学>第13章 作为对65岁和65岁以上老人长期研究的一部分,位于纽约州北部地区的wentworth医疗中心的社会学家和内科医生调查了地理未知和抑郁症之间的关系.抽 ...

  2. 均值已知检验方差_χ2检验教案:独立性检验的z统计量

    摘要:「如无必要勿增实体」. 独立性检验在统计教学场合可以替代为 T 检验.F 检验,在研究应用场合应当替代为Odds Ratio置信区间的Fisher检验.或者独立两样本均值之差置信区间(连续性校正 ...

  3. 如何恢复隐藏的窗口 已知进程名称_如何判断Linux系统是否被黑客入侵?可以用这种方法...

    恶意软件有时会使用Linux内核进程伪装来隐藏其运行时,让我们研究一下如何使用这种策略来揭露Linux恶意软件. Linux内核进程伪装了什么? 在Linux上,内核创建了许多线程来帮助完成系统任务, ...

  4. java已知一个二叉树_#二叉树复习#

    #二叉树复习# 目录 满二叉树 完全二叉树 平衡二叉树 二叉树的主要性质 --二叉树的度 --二叉树的深度计算 二叉树的遍历 其他 符号变量     结点总数     深度     度为0的结点数/叶 ...

  5. java已知一个二叉树_大牛带你学 | 由二叉树的遍历序列求二叉树结构的解题方法归纳...

    前言 二叉树章节 属于数据结构考察的三大重点章节(线性表.树.图)之一,不管是在自命题院校考察和408统考都是考察频次很高的考点.今天,大牛学长就来为各位同学总结归纳一个二叉树知识考察中的常见题型的解 ...

  6. python 方差齐性检验_已知F和sig值_方差齐性 sig_如何判断方差齐性_怎么判断方差齐不齐...

    已知F和sig值,怎么判断方差齐性 用spss做两个独立样本的t检验,首先得到Levene的结果是 F=0.063,Sig=0.806 Q1:据说只用Sig(p)值判断,如果大于0.05,就是方差齐, ...

  7. 单个正态总体均值的区间估计_总体均值的区间估计 (正态总体: σ2 已知实例).pdf...

    总体均值的区间估计 (正态总体: σ2 已知实例) 总体均值的区间估计 (正态总体:σ2已知实例) [1]某种零件 2 解:已知X~N(μ,0.15 ) , ⎯x =2.14, n=9, 长度服从正态 ...

  8. python花萼长度表_读取iris数据集中的花萼长度数据(已保存为csv格式),并对其进行排序、去重,并求出和、累积和、均值、标准差、方差、最小值、最大值...

    [判断题]. 为了调整硬度,便于机械加工,低碳钢.低碳低合金钢在锻造后应采用正火处理. [简答题]请大家自由分组,原则上3人一组(成员不足时,2人亦可),以PPT形式提交作业,PPT中一定要写清楚每个 ...

  9. python方差齐性检验_方差分析中的方差齐性检验_方差齐性检验结果分析

    方差分析中的方差齐性检验_方差齐性检验结果分析_方差分析 齐性检验 方差分析时的方差齐性检验是方差分析的前提条件,还是只是后面进行均值的多重比较时选择分析方法的依据?看过几本书,这两种观点都有.我看方 ...

最新文章

  1. 使用 nginx 同域名下部署多个 vue 项目,并使用反向代理
  2. echarts 表格与 div 之间 空白的设置
  3. 第一行代码学习笔记第五章——详解广播机制
  4. 为什么基于数字的技术公司进行机器人研究
  5. iframe实现页面无刷新上传文件(PHP)----备忘
  6. select * 和select 所有字段的区别
  7. 嵌套查询和连接查询的效率_LeetCode 查找:groupby+having/嵌套查询/连接
  8. javascript一维数组的排序
  9. 记一次抓包和破解App接口
  10. Multisim14仿真基本模拟电路之 10.2单管共射放大电路的仿真实验与分析
  11. XtraReport报表控件
  12. ①万字《详解canvas api画图》小白前端入门教程(建议收藏)
  13. 计算机桌面任务栏窗口对话框菜单的功能,电脑下方的任务栏不显示怎么办 在任务栏和开始菜单属性对话框...
  14. Python爬取QQ音乐评论数据
  15. 【科普】准大一新生如何挑选笔记本电脑
  16. nginx的配置优化及经常使用的超时配置说明
  17. 向量和矩阵求导(运用迹性质求导)
  18. rayleigh波的频散曲线matlab,运用matlab画出瑞利波的频散曲线
  19. WPF 录屏软件研发心得及思路分享(已结束开发)
  20. 计算机一级经验分享,计算机一级考试经验

热门文章

  1. 基于JAVA+SpringMVC+Mybatis+MYSQL的公司管理系统
  2. 基于JAVA+SpringMVC+Mybatis+MYSQL的在线书城购物网站
  3. 基于JAVA+SpringMVC+Mybatis+MYSQL的网上商城系统
  4. yntaxError: Non-UTF-8 code starting with ‘\xe6‘ in file
  5. pygame-KidsCanCode系列jumpy-part15-PowerUp加速器
  6. 究竟 javascript 错误处理有哪些类型?
  7. springboot配置文件(.yml)中自定义属性值并在controller里面获取
  8. 提升自己逼格的编程之美之代码规范
  9. 获取Python安装目录
  10. python类库31[使用minidom读写xml]