最近做验证实验时需要涉及到相关系数间比较,于是查阅了许多相关资料,想在这里适当总结一下。

问题描述:特征A与特征B在样本集α中的线性相关性,在样本集β中是否仍能保持。

用统计学术语描述:随机变量A与随机变量B在样本集α中的相关系数与在样本集β中的相关系数是否有统计显著性差异?

大致思路:1)检验相关系数具有统计显著性;2)检验两个相关系数的差异性。

相关系数显著性检验

首先,加入样本集计算得到的相关系数不具有统计显著性,则表明它不能代表总体的相关系数,随后基于该相关系数的研究没有任何意义。因此,我们需要检验样本相关系数的统计显著性。

方法:t检验

步骤:

  1. 建立假设:H0:总体相关系数ρ=0;H1:总体相关系数ρ≠0
  2. 确定显著水平:alpha=0.05
  3. 计算统计量:
  4. 查临界值表,根据双侧检验决定是否拒绝原假设

结论:若拒绝原假设ρ=0,则代表在alpha=0.05的显著水平下,我们认为该相关系数具有显著性,即总体中变量A与B确实存在相关性;否则则认为该相关系数仅为样本误差,不能代表总体水平。

相关系数比较

在确定需要比较的相关系数都具有统计显著性后,我们可以对其进行比较。在我的问题定义中,应视作来自不同的两个分布的相同变量间的相关系数比较,且我们只关心是否有差异,而不关心谁比谁大或小,即只关心双边检测结果。

方法:z检验

步骤:

  1. 对相关系数r1和r2进行费雪变换(Fisher's z transformation)得z1和z2,使之近似满足正态分布:
  2. 构造变量z:=z1-z2,满足标准差σ为根号下[1/(N1-3)+1/(N2-3)],其中N1和N2分别为两个样本集的大小(推导原理可以根据正态分布性质以及费雪变换性质得来)
  3. 建立假设:H0:变量z的总体均值μ=0;H1:μ≠0
  4. 确定显著水平:alpha=0.05
  5. 计算统计量:绝对值(z-0)/σ
  6. 查询临界值表

结论:若拒绝原假设,则代表这个两个相关系数具有统计显著性差异,即在两个样本集中,我们关心的变量间的线性关系已经发生了改变。否则,视为保持。

总结

经过上述两个步骤,我们可以大概研究出变量A和B在两个数据集中是否能保持一致的线性相关性。然而,这种相关性的保持/改变程度尚未找到合理的量化指标,这是这种方式的不足之处。

附:补充解释上述检验奏效的原因

一、t检验

t检验能够检测样本均值与总体均值间的差异,但需要研究变量满足正态分布。当总体相关系数ρ=0时,相关系数的分布近似正态分布,且均值为0,如下图所示:

因此,对于假设:ρ=0,我们可以直接使用t检验来进行计算,因为我们同时满足了变量服从正态分布、研究对象为均值的条件。

二、z检验

当我们研究总体相关系数ρ≠0时的性质时,我们无法满足相关系数服从于正态分布这一条件。因此,我们需要对相关系数进行费雪变换,得到变换后的变量近似服从正态分布,该变换描述为:

z的标准差为:

其中N为样本个数。之后,我们可以使用适用于正态分布的z检验。

接下来我们分两类讨论变量A与B在ρ≠0时的情况:

  1. 研究样本相关系数与总体相关系数的差异;
  2. 研究两个样本集相关系数的差异

1、样本与总体

当我们关心样本相关系数的值r是否与总体相关系数值ρ在给定显著水平下相等时,我们的假设就变成了:H0:ρ=r以及H1:ρ≠r。

在对r和ρ进行z变换后得到zr与zρ,且标准差σ=1/根号(N-3)。之后,进行z检验,代入公式:绝对值(zr-zρ)/σ,根据得到的统计量值进行后续步骤。

2、样本与样本

在我们关心两个样本集间的对应变量A与B的相关系数r1和r2之间的比较时,我们需要构造新的变量z:=z1-z1,其中z1与z2分别为r1与r2的费雪变换值。由于z1和z2满足正态分布,因此z也满足正态分布,其方差为z1与z2的方差和。因此,z的标准差σ=1/根号[1/(N1-3)+1/(N2-3)],N1和N2为样本数量。建立假设:H0:z的总体均值为0,以及H1:z的总体均值不为0,并进行后续的检验步骤。

对于上述两点的不同,主要在于,第一种情况下,我们只有一个变量zr,而zρ是一个已知的统计量;而第二种情况下我们有z1和z2两个变量,因此需要构造新的变量z=z1-z2进行后续计算。

此外,上述举例都是基于双侧检验,若关心相关系数某一方比另一方更大/更小,可以将假设中的“等于”修改为“大于”或“小于”,并进行单侧检验。

参考资料:

https://wenku.baidu.com/view/6124338ad4d8d15abe234e34.html

https://www.cnblogs.com/jiangleads/p/9022026.html

https://www.statisticssolutions.com/comparing-correlation-coefficients/

https://bbs.pinggu.org/thread-425060-1-1.html

相关系数的比较与假设检验相关推荐

  1. 相关系数(用来衡量两变量间相关关系的大小)

    目录 1.皮尔逊Pearson相关系数 1)总体 2)样本 3)易错 4)画散点图 5)判断相关性大小​ 6 )描述性统计 7)美化(相关性可视化) 2.对皮尔逊相关系数进行假设检验 1)构造统计变量 ...

  2. pyspark系列--统计基础

    统计基础 1. 简单统计 2. 随机数 3. 四舍五入 4. 抽样 5. 描述性统计 6. 最大值最小值 7. 均值方差 8. 协方差与相关系数 9. 交叉表(列联表) 10. 频繁项目元素 11. ...

  3. pyspark之统计基础操作(三)

    1. 简单统计 2. 随机数 3. 四舍五入 4. 抽样 5. 描述性统计 6. 最大值最小值 7. 均值方差 8. 协方差与相关系数 9. 交叉表(列联表) 10. 频繁项目元素 11. 其他数学函 ...

  4. matlab polyfit 拟合度,Matlab中polyfit和regress

    1.表中是道琼斯工业指数(DJIA)和标准普尔500种股票指数(S&P500)1988年至1997年对应股票的收益率资料: 年份 DJIA收益率(%) S&P500收益率(%) 年份 ...

  5. 2020暑期数学建模(数据分析)学习笔记

    总算忙完所有课程论文,购买了视频课程. 第1讲 层次分析法 综合评价课已学,B站视频也看了,略过. 第2讲 TOPSIS法(优劣解距离法) 综合评价课已学,B站视频也看了,略过. 第3讲 插值算法 针 ...

  6. 数学建模—降维—因子分析

    (清风数学建模笔记) 因子分析在某种程度上可以被看成是主成分分析的推广和扩展.可以用主成分分析的问题也可以用因子分析,因子分析的结果更方便分析. 因子分析法通过研究变量间的相关系数矩阵,把这些变量间的 ...

  7. 【DOE】--方差、自由度、回归分析

    系列文章目录 文章目录 系列文章目录 前言 一.假设检验 1.定义 2.假设检验的类别 3.假设检验的步骤 二.方差分析 1.定义 2.方差的引入 3.方差的计算 4.失拟 5.弯曲 6.纯误差 7. ...

  8. 计量地理学 实验(SPSS27)

    使用SPSS(27版本)以及ArcGIS软件做的一些计量地理学实验步骤记录与简略分析.主要有如下一些实验:地理数据的统计处理.相关分析.主成分分析.多元线性回归分析.聚类分析.时间序列数据分析.因子分 ...

  9. 最棒的机器学习(Python代码实现)

    目录 1 思维导图 2 智能奇旅:机器学习导论 2.1 机器学习的概念 2.2 机器学习的研究问题 2.3 机器学习的简单分类 2.4 机器学习涉及的内容数学知识 2.5 编程知识 2.6 算法知识 ...

  10. 基于R语言分析身高与体重的相关性分析

    本博文源于暨南大学的<多元数据统计分析及R语言建模>.旨在讲述身高与体重相关性分析.在概率论与数理统计课程中,两个变量之间协方差的标准化,因此先要熟悉并回忆公式,套用在R语言即可. 例子: ...

最新文章

  1. php 运维系统开发,PHP开发运维管理系统笔记
  2. 进程、线程、协程、通信方式
  3. 可扩展标记语言--XML
  4. 为什么要预留字段_「镜前灯电线预留位置」为什么要安装镜前灯 镜前灯电线预留位置...
  5. antv图例出现分页_2020,贴地飞行的 AntV 设计
  6. vue设置多选框默认勾选_Angular/Vue多复选框勾选问题
  7. 前端学习(3193):react的容器中的错误
  8. [html] 跨标签页的通讯方式有哪些
  9. C4D双十一促销海报模板,参考一下!
  10. Maven开发笔记(三)—— Maven中dependencies和dependencyManagement
  11. alexa/alexa-avs-sample-app Windows 安装教程
  12. 北大软微计算机技术硕士复试,2016北大软微考研复试细节和名单.doc
  13. 利用ode45求解含控制量并且控制量为离散点的动力学方程
  14. LOJ#2538. 「PKUWC2018」Slay the Spire
  15. nao机器人学习笔记3
  16. Kotlin代码转换成Java代码
  17. Android 关于RemoteViews的理解(一)
  18. 100块钱买100只鸡的故事
  19. 算法产品化---在ArmNN上运行ONNX
  20. BAT云战争新动向:收编“旧军”,占山为王

热门文章

  1. GD32F205在IAR上移植FreeRTOS
  2. 身份证号码15位转18位
  3. python,PyQt5编程将qrc文件转为py文件
  4. python 使用 .qrc文件
  5. Samsung Pay和Finablr宣布跨境支付合作
  6. limesurvey-怎么用
  7. 牛津高阶字典ld2_(离线)英语词典软件推荐
  8. 电路基础和电路模拟——复习
  9. 华为java面试题目,含面试题+答案
  10. 冲量在线荣获STIF2021国际科创节2021年度技术先锋奖