相关系数的比较与假设检验
最近做验证实验时需要涉及到相关系数间比较,于是查阅了许多相关资料,想在这里适当总结一下。
问题描述:特征A与特征B在样本集α中的线性相关性,在样本集β中是否仍能保持。
用统计学术语描述:随机变量A与随机变量B在样本集α中的相关系数与在样本集β中的相关系数是否有统计显著性差异?
大致思路:1)检验相关系数具有统计显著性;2)检验两个相关系数的差异性。
相关系数显著性检验
首先,加入样本集计算得到的相关系数不具有统计显著性,则表明它不能代表总体的相关系数,随后基于该相关系数的研究没有任何意义。因此,我们需要检验样本相关系数的统计显著性。
方法:t检验
步骤:
- 建立假设:H0:总体相关系数ρ=0;H1:总体相关系数ρ≠0
- 确定显著水平:alpha=0.05
- 计算统计量:
- 查临界值表,根据双侧检验决定是否拒绝原假设
结论:若拒绝原假设ρ=0,则代表在alpha=0.05的显著水平下,我们认为该相关系数具有显著性,即总体中变量A与B确实存在相关性;否则则认为该相关系数仅为样本误差,不能代表总体水平。
相关系数比较
在确定需要比较的相关系数都具有统计显著性后,我们可以对其进行比较。在我的问题定义中,应视作来自不同的两个分布的相同变量间的相关系数比较,且我们只关心是否有差异,而不关心谁比谁大或小,即只关心双边检测结果。
方法:z检验
步骤:
- 对相关系数r1和r2进行费雪变换(Fisher's z transformation)得z1和z2,使之近似满足正态分布:
- 构造变量z:=z1-z2,满足标准差σ为根号下[1/(N1-3)+1/(N2-3)],其中N1和N2分别为两个样本集的大小(推导原理可以根据正态分布性质以及费雪变换性质得来)
- 建立假设:H0:变量z的总体均值μ=0;H1:μ≠0
- 确定显著水平:alpha=0.05
- 计算统计量:绝对值(z-0)/σ
- 查询临界值表
结论:若拒绝原假设,则代表这个两个相关系数具有统计显著性差异,即在两个样本集中,我们关心的变量间的线性关系已经发生了改变。否则,视为保持。
总结
经过上述两个步骤,我们可以大概研究出变量A和B在两个数据集中是否能保持一致的线性相关性。然而,这种相关性的保持/改变程度尚未找到合理的量化指标,这是这种方式的不足之处。
附:补充解释上述检验奏效的原因
一、t检验
t检验能够检测样本均值与总体均值间的差异,但需要研究变量满足正态分布。当总体相关系数ρ=0时,相关系数的分布近似正态分布,且均值为0,如下图所示:
因此,对于假设:ρ=0,我们可以直接使用t检验来进行计算,因为我们同时满足了变量服从正态分布、研究对象为均值的条件。
二、z检验
当我们研究总体相关系数ρ≠0时的性质时,我们无法满足相关系数服从于正态分布这一条件。因此,我们需要对相关系数进行费雪变换,得到变换后的变量近似服从正态分布,该变换描述为:
z的标准差为:
其中N为样本个数。之后,我们可以使用适用于正态分布的z检验。
接下来我们分两类讨论变量A与B在ρ≠0时的情况:
- 研究样本相关系数与总体相关系数的差异;
- 研究两个样本集相关系数的差异
1、样本与总体
当我们关心样本相关系数的值r是否与总体相关系数值ρ在给定显著水平下相等时,我们的假设就变成了:H0:ρ=r以及H1:ρ≠r。
在对r和ρ进行z变换后得到zr与zρ,且标准差σ=1/根号(N-3)。之后,进行z检验,代入公式:绝对值(zr-zρ)/σ,根据得到的统计量值进行后续步骤。
2、样本与样本
在我们关心两个样本集间的对应变量A与B的相关系数r1和r2之间的比较时,我们需要构造新的变量z:=z1-z1,其中z1与z2分别为r1与r2的费雪变换值。由于z1和z2满足正态分布,因此z也满足正态分布,其方差为z1与z2的方差和。因此,z的标准差σ=1/根号[1/(N1-3)+1/(N2-3)],N1和N2为样本数量。建立假设:H0:z的总体均值为0,以及H1:z的总体均值不为0,并进行后续的检验步骤。
对于上述两点的不同,主要在于,第一种情况下,我们只有一个变量zr,而zρ是一个已知的统计量;而第二种情况下我们有z1和z2两个变量,因此需要构造新的变量z=z1-z2进行后续计算。
此外,上述举例都是基于双侧检验,若关心相关系数某一方比另一方更大/更小,可以将假设中的“等于”修改为“大于”或“小于”,并进行单侧检验。
参考资料:
https://wenku.baidu.com/view/6124338ad4d8d15abe234e34.html
https://www.cnblogs.com/jiangleads/p/9022026.html
https://www.statisticssolutions.com/comparing-correlation-coefficients/
https://bbs.pinggu.org/thread-425060-1-1.html
相关系数的比较与假设检验相关推荐
- 相关系数(用来衡量两变量间相关关系的大小)
目录 1.皮尔逊Pearson相关系数 1)总体 2)样本 3)易错 4)画散点图 5)判断相关性大小 6 )描述性统计 7)美化(相关性可视化) 2.对皮尔逊相关系数进行假设检验 1)构造统计变量 ...
- pyspark系列--统计基础
统计基础 1. 简单统计 2. 随机数 3. 四舍五入 4. 抽样 5. 描述性统计 6. 最大值最小值 7. 均值方差 8. 协方差与相关系数 9. 交叉表(列联表) 10. 频繁项目元素 11. ...
- pyspark之统计基础操作(三)
1. 简单统计 2. 随机数 3. 四舍五入 4. 抽样 5. 描述性统计 6. 最大值最小值 7. 均值方差 8. 协方差与相关系数 9. 交叉表(列联表) 10. 频繁项目元素 11. 其他数学函 ...
- matlab polyfit 拟合度,Matlab中polyfit和regress
1.表中是道琼斯工业指数(DJIA)和标准普尔500种股票指数(S&P500)1988年至1997年对应股票的收益率资料: 年份 DJIA收益率(%) S&P500收益率(%) 年份 ...
- 2020暑期数学建模(数据分析)学习笔记
总算忙完所有课程论文,购买了视频课程. 第1讲 层次分析法 综合评价课已学,B站视频也看了,略过. 第2讲 TOPSIS法(优劣解距离法) 综合评价课已学,B站视频也看了,略过. 第3讲 插值算法 针 ...
- 数学建模—降维—因子分析
(清风数学建模笔记) 因子分析在某种程度上可以被看成是主成分分析的推广和扩展.可以用主成分分析的问题也可以用因子分析,因子分析的结果更方便分析. 因子分析法通过研究变量间的相关系数矩阵,把这些变量间的 ...
- 【DOE】--方差、自由度、回归分析
系列文章目录 文章目录 系列文章目录 前言 一.假设检验 1.定义 2.假设检验的类别 3.假设检验的步骤 二.方差分析 1.定义 2.方差的引入 3.方差的计算 4.失拟 5.弯曲 6.纯误差 7. ...
- 计量地理学 实验(SPSS27)
使用SPSS(27版本)以及ArcGIS软件做的一些计量地理学实验步骤记录与简略分析.主要有如下一些实验:地理数据的统计处理.相关分析.主成分分析.多元线性回归分析.聚类分析.时间序列数据分析.因子分 ...
- 最棒的机器学习(Python代码实现)
目录 1 思维导图 2 智能奇旅:机器学习导论 2.1 机器学习的概念 2.2 机器学习的研究问题 2.3 机器学习的简单分类 2.4 机器学习涉及的内容数学知识 2.5 编程知识 2.6 算法知识 ...
- 基于R语言分析身高与体重的相关性分析
本博文源于暨南大学的<多元数据统计分析及R语言建模>.旨在讲述身高与体重相关性分析.在概率论与数理统计课程中,两个变量之间协方差的标准化,因此先要熟悉并回忆公式,套用在R语言即可. 例子: ...
最新文章
- php 运维系统开发,PHP开发运维管理系统笔记
- 进程、线程、协程、通信方式
- 可扩展标记语言--XML
- 为什么要预留字段_「镜前灯电线预留位置」为什么要安装镜前灯 镜前灯电线预留位置...
- antv图例出现分页_2020,贴地飞行的 AntV 设计
- vue设置多选框默认勾选_Angular/Vue多复选框勾选问题
- 前端学习(3193):react的容器中的错误
- [html] 跨标签页的通讯方式有哪些
- C4D双十一促销海报模板,参考一下!
- Maven开发笔记(三)—— Maven中dependencies和dependencyManagement
- alexa/alexa-avs-sample-app Windows 安装教程
- 北大软微计算机技术硕士复试,2016北大软微考研复试细节和名单.doc
- 利用ode45求解含控制量并且控制量为离散点的动力学方程
- LOJ#2538. 「PKUWC2018」Slay the Spire
- nao机器人学习笔记3
- Kotlin代码转换成Java代码
- Android 关于RemoteViews的理解(一)
- 100块钱买100只鸡的故事
- 算法产品化---在ArmNN上运行ONNX
- BAT云战争新动向:收编“旧军”,占山为王