多元:复相关系数和偏相关系数
本文就对多元统计中的复相关系数和偏相关系数进行阐述和说明。
1.复相关系数(Multi-correlation coefficient)
指度量y\ y y 与其最优线性预测 y~\widetilde yy 之间的相关系数。 也即有一个随机变量y\ y y 和一组随机变量 x=(x1,x2,…,xp)′\ x=(x_1,x_2,\dots,x_p)' x=(x1,x2,…,xp)′ , 现在寻找 y\ y y 和该组 x\ x x 变量之间的整体相关性。
在一般情况下,y\ y y和x\ x x组成员xi\ x_i xi 都具有一定的相关性。比如在人体素质测试中,若有 肺活量 为y\ y y,以及年龄(x1\ x_1 x1)、体重(x2\ x_2 x2)、800米跑步时间(x3\ x_3 x3)、休息时的脉搏(x4\ x_4 x4)和跑步时的脉搏(x5\ x_5 x5)六个测试项目。肺活量与其余5个变量中的每一个都具有相关性。而我们想要研究肺活量与其余五个变量之间的整体相关性。
为做到这点,首先找到一个线性组合 l′x\ l'x l′x 将x\ x x 中包含的关于 y\ y y 的信息最大限度地提取出来,然后计算 y\ y y 与 线性组合 l′x\ l'x l′x 之间的相关性,此即为复相关系数,表示为 ρy⋅x\rho_{y·x}ρy⋅x / ρy⋅1,2,3,…,p\rho_{y·1,2,3,\dots,p}ρy⋅1,2,3,…,p /ρ(y,l′x)\rho(y,l'x)ρ(y,l′x)。
根据相关系数定义,我们有ρ2(y,l′x)=Cov(y,l′x)V(y)∗V(l′x)=(σyxl′)2σyy∗l′Σxxl.\rho^{2}(y,l'x)=\frac{Cov(y,l'x)}{V(y)*V(l'x)}=\frac {(\sigma_{yx}l')^2}{\sigma_{yy}*l'\Sigma_{xx}l}.ρ2(y,l′x)=V(y)∗V(l′x)Cov(y,l′x)=σyy∗l′Σxxl(σyxl′)2.
通过柯西—施瓦茨不等式
设有一B>0\ B>0 B>0,则有(x′y)2⩽(x′Bx)(y′B−1y).\ (x'y)^2\leqslant (x'Bx)(y'B^{-1}y). (x′y)2⩽(x′Bx)(y′B−1y).等号成立当且仅当x=cB−1y\ x=cB^{-1}y x=cB−1y或y=cBx\ y=cBx y=cBx,c\ c c为常数。
设B=Σxx−1\ B=\Sigma_{xx}^{-1} B=Σxx−1,得到复相关系数的平方为ρ2(y,l′x)⩽(σxy′Σxx−1σxy)(l′Σxxl)σyy∗(l′Σxxl)=σxy′Σxx−1σxyσyy.\rho^{2}(y,l'x)\leqslant\frac{(\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy})(l'\Sigma_{xx}l)}{\sigma_{yy}*(l'\Sigma_{xx}l)}=\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}.ρ2(y,l′x)⩽σyy∗(l′Σxxl)(σxy′Σxx−1σxy)(l′Σxxl)=σyyσxy′Σxx−1σxy.
当B=Σxx−1,l=Σxx−1σxy\ B=\Sigma_{xx}^{-1},l=\Sigma_{xx}^{-1}\sigma_{xy} B=Σxx−1,l=Σxx−1σxy时等式成立。
因此,复相关系数计算公式为 ρy⋅x=maxρ(y,l′x)=σxy′Σxx−1σxyσyy.\rho_{y\cdot x}=max \rho(y,l'x)=\sqrt{\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}}.ρy⋅x=maxρ(y,l′x)=σyyσxy′Σxx−1σxy.
其中,σxy\sigma_{xy}σxy为x和y\ x和y x和y的协方差矩阵,Σxx\Sigma_{xx}Σxx为x\ x x组的自协方差矩阵。σxy′Σxx−1x\sigma_{xy}'\Sigma_{xx}^{-1}xσxy′Σxx−1x为y\ y y的最优线性预测y~\widetilde yy。以上公式也可化为ρxy′Rxx−1ρxy\sqrt{\rho_{xy}'R_{xx}^{-1}\rho_{xy}}ρxy′Rxx−1ρxy利用相关系数ρxy\rho_{xy}ρxy和相关矩阵Rxx\ R_{xx} Rxx求解。
2.偏相关系数(Partial-correlation coefficient)
指剔除其他变量的线性影响后,变量xi与xj\ x_i 与 x_j xi与xj之间的相关系数。要真正度量两个随机变量之间的相关性,必须要剔除由第三方带来的影响。
例如:①男生和女生两家相好。他两之间的亲密度可看做是相关系数。两人要想真正走在一起,必须要剔除双方父母带来的影响,测量两个人之间不受其他干扰时剩下的亲密度。这就是偏相关系数。②一个家庭的饮食支出和衣着支出存在较强的正相关性,也就是说一般吃的费用大的一般穿的费用也大,即相关系数大。但实际上,这种“伪强正相关”是由于收入这个第三方变量引起的。一般而言,高收入带动了各方面的消费支出。如果控制收入不变,则饮食和衣着费用之间的相关性则大不相同,甚至变成负相关性。消除第三方变量的影响后两者的相关性,称作偏相关。
相关系数也称为总相关系数或零阶偏相关系数,包含了一切影响带来的相关性。设有多元随机变量x\ x x,对x\ x x 及其均值向量 μ\muμ 、总体自协方差矩阵 Σ\SigmaΣ 做剖分如下:x=(x1x2)kp−k,μ=(μ1μ2)kp−k,Σ=(Σ11Σ12Σ21Σ22)kp−k.\ x=\binom{x_1}{x_2}\begin{matrix}k\\p-k\end{matrix},\mu=\binom{\mu_1}{\mu_2}\begin{matrix}k\\p-k\end{matrix},\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{pmatrix}\begin{matrix}k\\p-k\end{matrix}. x=(x2x1)kp−k,μ=(μ2μ1)kp−k,Σ=(Σ11Σ21Σ12Σ22)kp−k.
以下讨论消除x2\ x_2 x2的线性影响后x1\ x_1 x1分量之间的相关性,先记为Σ11⋅2\Sigma_{11\cdot2}Σ11⋅2。
我们讨论的方法是
- 首先找到x2\ x_2 x2对x1\ x_1 x1各分量xi\ x_i xi的最优线性预测 x~i\widetilde x_ixi,将x2\ x_2 x2中包含的xi\ x_i xi的信息尽可能提取出来;
- 计算预测误差ei=xi−x~i\ e_i=x_i - \widetilde x_i ei=xi−xi,表示x2\ x_2 x2无法解释的部分;
- 度量ei\ e_i ei之间的相关性,计算V(e)\ V(e) V(e);
- 利用相关系数公式,代入V(e)\ V(e) V(e)成分计算偏相关。
由最优线性预测公式
y~=μy+σxy′Σxx−1(x−μx)\widetilde y=\mu_y+\sigma_{xy}'\Sigma_{xx}^{-1}(x-\mu_x)y=μy+σxy′Σxx−1(x−μx)
可知e~i=xi−[μi+ai′Σ12Σ22−1(x2−μ2)].\widetilde e_i=x_i-[\mu_i+a_i'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)].ei=xi−[μi+ai′Σ12Σ22−1(x2−μ2)].
其中ai=(0,…,0,1,0,…,0)′:k×1\ a_i=(0,\dots,0,1,0,\dots,0)':k×1 ai=(0,…,0,1,0,…,0)′:k×1,1出现在第i\ i i个位置。导出e=x1−[μ1+(a1,…,ak)′Σ12Σ22−1(x2−μ2)]\ e=x_1-[\mu_1+(a_1,\dots,a_k)'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)] e=x1−[μ1+(a1,…,ak)′Σ12Σ22−1(x2−μ2)] =x1−[μ1+Σ12Σ22−1(x2−μ2)].\ =x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]. =x1−[μ1+Σ12Σ22−1(x2−μ2)].
计算xi\ x_i xi各分量间的相关性,则有V(e)=V(x1−[μ1+Σ12Σ22−1(x2−μ2)])\ V(e)=V(x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]) V(e)=V(x1−[μ1+Σ12Σ22−1(x2−μ2)]) =V(x1−Σ12Σ22−1x2)=Σ11−Σ12Σ22−1Σ21=Σ11⋅2.\ =V(x_1-\Sigma_{12}\Sigma_{22}^{-1}x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}=\Sigma_{11\cdot2}. =V(x1−Σ12Σ22−1x2)=Σ11−Σ12Σ22−1Σ21=Σ11⋅2.
于是,我们称Σ11⋅2=(σij,k=1,…,p)\Sigma_{11\cdot2}=(\sigma_{ij,k=1,\dots,p})Σ11⋅2=(σij,k=1,…,p)为偏协方差矩阵,非对角元素称为偏协方差,对角元素称为偏方差。根据相关系数的公式推导出x2\ x_2 x2给定时,xi\ x_i xi和xj\ x_j xj的(p−k)\ (p-k) (p−k)阶偏相关系数的计算公式为ρij⋅k+1,…,p=σij⋅k+1,…,pσii⋅k+1,…,p∗σjj⋅k+1,…,p,1⩽i,j⩽k.\rho_{ij\cdot k+1,\dots,p}=\frac{\sigma_{ij\cdot k+1,\dots,p}}{\sqrt {\sigma_{ii\cdot k+1,\dots,p}*\sigma_{jj\cdot k+1,\dots,p}}},1\leqslant i,j\leqslant k.ρij⋅k+1,…,p=σii⋅k+1,…,p∗σjj⋅k+1,…,pσij⋅k+1,…,p,1⩽i,j⩽k.
多元:复相关系数和偏相关系数相关推荐
- 典型相关分析(Canonical correlation analysis)(一):基本思想 、复相关系数、偏相关系数
典型相关分析系列博文: 典型相关分析(Canonical correlation analysis)(一):基本思想 .复相关系数.偏相关系数 典型相关分析(Canonical correlation ...
- 【应用多元统计分析】CH3 多元正态分布
目录 一.多元正态分布的定义 1.定义 2.二元正态分布 二.多元正态分布的性质 [property1*] [property2] [property3] [property4] [property5 ...
- 典型相关分析(Canonical correlation analysis)(二):原始变量与典型变量之间的相关性 、典型相关系数的检验
典型相关分析系列博文: 典型相关分析(Canonical correlation analysis)(一):基本思想 .复相关系数.偏相关系数 典型相关分析(Canonical correlation ...
- c语言p215答案,卫生统计学综合测试卷二及答案
一.单项选择题 1.用某地6-16岁学生近视情况的调查资料制作统计图,以反映患者的年龄分布,可用图形种类为______. A.普通线图 B.半对数线图 C.直方图 D.直条图 E.复式直条图 [答案] ...
- SPSS分析实例操作
简单相关系数 相关分析是对两个变量间的相关程度进行分析.单相关分析所用的指标称为单相关系数,也就是Pearson相关系数或者相关系数..通常用 ρ 表示总体的相关系数,以 r 表示样本的相关系数. 相 ...
- SPSS相关分析(实例操作版)
简单相关系数 相关分析是对两个变量间的相关程度进行分析.单相关分析所用的指标称为单相关系数,也就是Pearson相关系数或者相关系数..通常用 ρ 表示总体的相关系数,以 r 表示样本的相关系数. 相 ...
- 高维数据特征降维技术学习
原文地址:高维数据特征降维技术学习 作者:新技术笔记 特征降维(feature dimension reduction)是一个从初始高维特征集合中选出低维特征集合,以便根据一定的评估准则最优化缩小特征 ...
- R2: 相关系数、复相关系数及半偏相关系数之间的联系
开贴举例说明相关系数.复相关系数及半偏相关系数之间的联系. 比如,我们要预测学生在高中的表现(学生成绩),一种方法是测量学习速度和难易程度的能力测验来衡量学生的学习能力.那么,假设一个学生已经做了这样 ...
- 计算偏相关系数和复相关系数
根据4个要素的48个样本数据,计算得到的简单相关系数如下,试计算各级偏相关系数和复相关系数,并对其显著性进行检验. 1. import math 2. import numpy as np 3. im ...
- 使用SPSS进行多元回归分析
比用matlab简单. 多元回归分析 在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析.可以建立因变量y与各自变量xj(j=1,2,3,-,n)之间的多元线性回归 ...
最新文章
- 第一次搜索-连连看= =
- 加入 Spring 技术学习群
- 任务间通信的基本知识
- 云原生生态周报 Vol. 21 | Traefik 2.0 正式发布
- centos7 redis5.0以前版本 部署集群示例 - 第二篇
- SoJpt Boot 2.2-3.8 发布,Spring Boot 使用 Jfinal 特性极速开发
- 在ASP.NET Core中使用EPPlus导入出Excel文件
- 日语学习-多邻国-关卡1-时间
- Qt实践录:常见控件操作示例2
- 图像局部特征(六)--斑点检测之SIFT算法原理总结补充
- Mysql 数据库中Where 关键字的使用
- python的setheading什么意思_用Python告诉你什么是佩奇
- [2018.10.11 T3] 欠钱
- MVC模式在Java Web应用程序中的实现
- php qq邮箱验证码不显示图片,qq邮箱邮件图片不显示怎么解决-解决qq邮箱邮件图片不显示的方法 - 河东软件园...
- 搭建容器私有创库Harbor
- Image Matching:SuperGlue论文阅读笔记
- 评分的游戏:Uber是如何将乘客变成可怕的boss的?
- 边角地“变废为宝” 重庆首批社区体育文化公园交付使用
- 京东智能云APP可用来做什么?