AI 人工智能学习之方差分析
方差分析
方差分析(简称ANOVA),用于两个及两个以上样本均数差别的显著性检验。方差分析通过检验多个总体的均值是否相等来判断一个或多个分类型自变量对数值型因变量是否由显著影响。
它形式上是比较总体均值,但是本质上是研究变量之间的关系。这里的变量中,自变量是分类型的,因变量是数值型的,所研究的关系是是指自变量对因变量的影响。
因素和水平
方差分析中,所要检验的对象称为因素(factor),因素的不同表现称为水平(treatment),因素的每一个水平都可以看作一个总体,每个因素水平下得到样本数据称为观测值。例如三年级班级跳绳比赛,每班参赛10人,分别记录一班、二班和三班参赛人员的成绩。其中跳绳比赛就是因素,它有三个水平。
两类误差
在自变量的不同取值下,样本的各观察值之间存在差异,这种差异如果是因为抽样的随机性造成的误差,称为随机误差;如果这种差异可能是因为抽样的随机性造成的,也可能是由于检验对象因素本身所造成的,后者形成的误差是由系统性因素造成的,成为系统误差。
方差分析主要是使用方差比来比较两类误差,以检验均值是否相等。如果系统性误差显著地不同于随机误差,则均值就不相等。反之,均值就是相等的。
两类方差
组内方差:自变量的同一取值下样本数据的方差,组内方差只包含随机误差。例如一班10名参赛人数的跳绳成绩。
组间方差:自变量的不同取值下各样本之间的方差,组件方差既包含随机误差,也包含系统误差。例如,三个班级跳绳成绩之间的方差。
误差分析
如果因素的不同水平对每个水平下的均值没有影响,则组间误差只有随机误差而没有系统误差。组内误差和组间误差的均方之比应该接近1;否则它们的比值就会大于1,当大到某个程度时,就认为因素的不同水平之间存在着显著差异,也即自变量(例如班级因素)对因变量(例如不同班级的跳绳成绩)有显著影响。
在方差分析中,要研究分类型自变量对因变量的影响,在形式上就转化为了检验不同总体(因素的不同水平)的均值是否相等。
单因素方差分析
当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
进行方差分析的基本假设
- 每个样本的观测值服从正态分布
- 每个样本的方差 相同
- 每个样本中的个体相互独立
误差平方和
总平方和(SST),全部样本数据的误差大小的平方和。
组内平方和(SSE),组内样本误差大小的平方和。
组间平方和(SSA),组间样本误差大小的平方和。
SST=SSA+SSE
组内平方和SSE体现了随机抽样因素对总方差的贡献,而组间平方和SSA体现了随机因素和不同水平对总方差的贡献。如果SSA比SSE大很多,达到一定的显著性水平,可以认为因素的不同水平对因变量影响显著。
SST:全部观测值与总均值的误差平方和,计算公式为:
, 为全部样本的总均值
SSA:各组均值与总均值的误差平方和,反映各样本均值之间的差异程度。公式为:
, 为全部样本的总均值
SSE:每个水平或组的样本数据与其组均值的误差平方和。公式为:
, 为组内样本的均值
计算统计量
各平方误差除以它们所对应的自由度,称为均方。
SST的自由度为 n-1,其中n为全部观测值个数;
SSA的自由度为 k-1,k为因素水平的个数
SSE的自由度为 n-k。
MST=SST/n-1;
MSA=SSA/k-1;
MSE=SSE/n-k;
则F=MSA/MSE~F(k-1,n-k)分布。
在给定显著性水平α下,计算F(k-1,n-k)分布的Fα,如果F>Fα,则拒绝原假设,表明自变量对因变量影响显著。
注意:这里的假设检验是单侧检验!
方差分析表
关系强度的测量
当组间平方和与组内平方和之比比1大到一定程度时,我们认为自变量对因变量有显著的影响,可以用组间平方和占总平方和的比例来度量自变量与因变量之间的关系强度,记为 :
= SSA/SST
的平方根R可以测量自变量与因变量之间的关系强度,它与相关系数r类似。
单因素方差分析基本步骤
1、提出原假设:H0——无差异;H1——有显著差异
2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。
3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。
4、给定显著性水平,并作出决策
多因素方差分析
多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。
双因素方差分析
如果存在两个分类变量,需要分析是一个分类变量对因变量起作用,还是两个变量起作用,还是都不起作用。
1.无交互作用或无重复双因素方差分析,两个因素是独立的,不存在联系。
提出假设(需要分别对行因素和列因素提出假设):
H0: μ1=μ2=...=μi=...μk (行因素自变量对因变量没有显著影响)
H1: μ1,μ2,....μk不全相等。(行因素自变量对因变量有显著影响)
H0: μ1=μ2=...=μi=...μr (列因素自变量对因变量没有显著影响)
H1: μ1,μ2,....μr不全相等。(列因素自变量对因变量有显著影响)
计算方差
总平方和SST是全部样本观测值与总样本平均值的误差平方和(自由度为kr-1):
其中,第一项为行因素产生的误差平方和SSR(自由度为k-1):
是行因素的第i个水平下的观测值的平均值:
是列因素的第j个水平下的观测值的平均值:
所有观测值的总平均值:
提出假设
对行因素提出的假设为:
H0:μ1=μ2=⋯=μkH0:μ1=μ2=⋯=μk
H1:μ1,μ2,⋯,μkH1:μ1,μ2,⋯,μk不全相等
对列因素提出的假设为:
H0:μ1=μ2=⋯=μrH0:μ1=μ2=⋯=μr
H1:μ1,μ2,⋯,μrH1:μ1,μ2,⋯,μr不全相等
检验统计量
需要分别确定行因素和列因素的统计量,从总平方和的分解入手,总平方和是全部样本观测值与总样本均值的误差平方和:
第一项是由行因素产生的误差平方和,记为SSR:
第二项是由列因素产生的误差平方和,记为SSC:
第三项是除行因素和列因素外的剩余因素产生的误差平方和,称为随机误差平方和,记为SSE:
SST的自由度为kr−1,SSR的自由度为k−1,SSC的自由度为r−1,SSE的自由度为(k−1)(r−1)。
行因素的均方(MSR)为:MSR = SSR/(k-1)
列因素的均方(MSC)为:MSC = SSC/(r-1)
随机误差的均方(MSE)为:MSE = SSE/((k-1)(r-1))
检验行变量对因变量的影响,采用统计量 :
检验行变量对因变量的影响,采用统计量 :
统计决策
将 和 与临界值 进行比较。
如果 > ,则拒绝原假设 : ==⋯=,行因素对观测值有显著影响;
如果> ,则拒绝原假设 : ==⋯=,列因素对观测值有显著影响。
双因素方差分析表
关系强度的测量
将行因素和列因素的平方和加在一起,可反映两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为R2R2,其平方根RR反映了这两个自变量合起来与因变量之间的关系强度:
有交互作用的双因素方差分析
如果2个因素搭配在一起会对因变量产生新的效应,就要考虑交互作用带来的影响。
AI 人工智能学习之方差分析相关推荐
- 超全的AI人工智能学习路线图(内含大纲+视频+工具)
为了让自学者们得到更贴合市场.更权威的AI人工智能学习资料,我向黑马申请到了很多新视频,很骄傲能给广大自学者提供一个这样优秀的学习资源(偷笑).不用理解我整理的辛苦,不用理解我整理时累的眼角都流哈喇子 ...
- AI 人工智能学习路线
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到教程. 相关视频资料下载见:https://blog.csdn.net/qwxwaty/article/de ...
- AI人工智能学习路径图
都看了昨天的热搜没有?韩国首位AI女主播金柱夏诞生,瞧瞧,这就是科技的力量啊!用智能代替人工解放人力,相信在未来这一定是个大的发展趋势,这时候可能就有人想要进入这个行业了,那么今天,小编就来给大家分享 ...
- AI 人工智能学习经典书单
人工智能相关岗位中,涉及到的内容包含: 算法.深度学习.机器学习.自然语言处理.数据结构.Tensorflow.Python .数据挖掘.搜索开发.神经网络.视觉度量.图像识别.语音识别.推荐系统.系 ...
- 干货福利:AI人工智能学习资料教程包.zip
近几年来人工智能常常成为热门议题,经久不衰. 2020年以来,在各种政策红利催化.5G商用助推.物联网.大数据.AI芯片技术大规模落地后,几乎所有人都已经笃定,人工智能就是IT人未来的新风向. 不过有 ...
- 【AI人工智能学习】GitHub 上适合初学者的 10 个最佳开源 AI 项目
温馨提示:AI一定是未来程序员的出路,大家可以早点入坑. 目录 人工智能简介 GitHub 上适合初学者的 10 个最佳开源 AI 项目 Part.1 TensorFlow Part.2 PyTorc ...
- AI人工智能学习之回归分析
回归分析 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.回归分析按照涉及的变量的多少,分为一元回归和多元回归分析:按 ...
- AI 人工智能学习之假设检验
假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本.样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法.显著性检验是假设检验中最常用的一种方 ...
- AI人工智能学习之激活函数
因为数据的分布绝大多数是非线性的,一般神经网络的计算是线性的,那么引入激活函数,是在神经网络中引入非线性,就强化网络的学习能力.所以激活函数的最大特点就是非线性.而且能够使输出映射到有限区间之内,便于 ...
最新文章
- worksteal thread pool
- python实例方法、静态方法和类方法
- 【计算机算法设计与分析】——栈和队列
- 机器学习算法总结之支持向量机(一)
- RESTful API 设计思考
- 谈谈前端包管理工具 npm yarn pnpm
- 中科院分区发布2021年期刊重大调整(生信期刊调整为生物学大类)
- 【计算机网络自顶向下方法】Web页面请求的历程
- JAVASE,JAVAEE,JAVAME的区别
- java wsimport https,wsimport使用小结二
- 广告配音免费制作软件让你轻松完成广告配音
- MMQ 开源免费 同时支持分布式架构和数据持久化、规则引擎、ACL的MQTT broker。
- 古罗马花园石头雕像喷泉原理
- mas6a801 sw tree disp
- 谷歌开发者大会焦点:TensorFlow.js可制作微信小程序,Android 10原生支持5G,TF2.0大更新...
- SEO写作,小白如何快速写一篇高质量SEO文章
- The Pursuit of Happyness 当幸福来敲门(励志电影推荐)
- 正弦波和方波发生器的设计
- python 滤波_[开发技巧]·Python极简实现滑动平均滤波(基于Numpy.convolve)
- 现代通信原理1:绪论
热门文章
- 改变学习模式,在课外学习中获得突破
- U盘出现RAW问题时的数据恢复
- 操作系统无法识别声卡的解决方法
- 三维电子沙盘卫星图片矢量地图高程数据来源
- JavaEE - Tomcat和HTTP协议
- visifire 控件
- Libnet 特点 安装 开发流程 libnet_init libnet_destroy libnet_build_udp libnet_build_ipv4 libnet_build_ethern
- 易玩通总显示服务器没响应,《魔力宝贝》官方网站|经典魔力 新鲜乐趣
- oracle判断时间是否同一天(过滤时分秒)
- 微信公众号中 JavaScript 获取用户周边的标志性建筑列表