总体Person相关系数

如果两组数据X:{X1,X2,⋯,Xn}和Y:{Y1,Y2,⋯,Yn}是总体数据(例如普查结果)那么总体均值:E(X)=∑i=1nXin,E(Y)=∑i=1nYin总体协方差:Cov(X,Y)=∑i=1n(Xi−E(X))(Yi−E(Y))n总体Person相关系数:ρXY=Cov(X,Y)σXσY=∑i=1n(Xi−E(X))σX(Yi−E(Y))σYn标准差σ:σX=∑i=1n(Xi−E(X))2n,σY=∑i=1n(Yi−E(Y))2n可以证明:∣ρXY∣⩽1,并且当Y=aX+b时,ρXY={1a>0−1a<0\text{如果}两\text{组数据}X:\left\{ X_1,X_2,\cdots ,X_n \right\} \text{和}Y\text{:}\left\{ Y_1,Y_2,\cdots ,Y_n \right\} 是总\text{体数据}\left( \text{例如普查结果} \right) \\ \text{那么}总\text{体均值:}E\left( X \right) =\frac{\sum_{i=1}^n{X_i}}{n},E\left( Y \right) =\frac{\sum_{i=1}^n{Y_i}}{n} \\ 总\text{体协方差:}Cov\left( X,Y \right) =\frac{\sum_{i=1}^n{\left( X_i-E\left( X \right) \right) \left( Y_i-E\left( Y \right) \right)}}{n} \\ 总\text{体}Person\text{相关系数:}\rho _{XY}=\frac{Cov\left( X,Y \right)}{\sigma _X\sigma _Y}=\frac{\sum_{i=1}^n{\frac{\left( X_i-E\left( X \right) \right)}{\sigma _X}\frac{\left( Y_i-E\left( Y \right) \right)}{\sigma _Y}}}{n} \\ \text{标准差}\sigma \text{:}\sigma _X=\sqrt{\frac{\sum_{i=1}^n{\left( X_i-E\left( X \right) \right) ^2}}{n}}\text{,}\sigma _Y=\sqrt{\frac{\sum_{i=1}^n{\left( Y_i-E\left( Y \right) \right) ^2}}{n}} \\ \text{可以证明:}\left| \rho _{XY} \right|\leqslant 1\text{,并且当}Y=aX+b\text{时,}\rho _{XY}=\begin{cases} 1& a>0\\ -1& a<0\\ \end{cases} 如果两组数据X:{X1​,X2​,⋯,Xn​}和Y:{Y1​,Y2​,⋯,Yn​}是总体数据(例如普查结果)那么总体均值:E(X)=n∑i=1n​Xi​​,E(Y)=n∑i=1n​Yi​​总体协方差:Cov(X,Y)=n∑i=1n​(Xi​−E(X))(Yi​−E(Y))​总体Person相关系数:ρXY​=σX​σY​Cov(X,Y)​=n∑i=1n​σX​(Xi​−E(X))​σY​(Yi​−E(Y))​​标准差σ:σX​=n∑i=1n​(Xi​−E(X))2​​,σY​=n∑i=1n​(Yi​−E(Y))2​​可以证明:∣ρXY​∣⩽1,并且当Y=aX+b时,ρXY​={1−1​a>0a<0​

要点:Person 相关系数可以看成是剔除了两个变量量纲的影响,即将X和Y标准化后的协方差


样本Person相关系数

如果两组数据X:{X1,X2,⋯,Xn}和Y:{Y1,Y2,⋯,Yn}是样本数据(一般调查得到的数据均为样本数据)样本均值:Xˉ=∑i=1nXin,Yˉ=∑i=1nYin样本协方差:Cov(X,Y)=∑i=1n(Xi−Xˉ)(Yi−Yˉ)n样本Person相关系数:rXY=Cov(X,Y)SXSY样本标准差S:SX=∑i=1n(Xi−Xˉ)2n−1,SY=∑i=1n(Yi−Yˉ)2n−1\text{如果}两\text{组数据}X:\left\{ X_1,X_2,\cdots ,X_n \right\} \text{和}Y\text{:}\left\{ Y_1,Y_2,\cdots ,Y_n \right\} 是\text{样}本\text{数据}\left( \text{一}般\text{调查得到的数据均}为\text{样}本\text{数据} \right) \\ \text{样}本\text{均值:}\bar{X}=\frac{\sum_{i=1}^n{X_i}}{n}, \bar{Y}=\frac{\sum_{i=1}^n{Y_i}}{n} \\ \text{样}本\text{协方差:}Cov\left( X,Y \right) =\frac{\sum_{i=1}^n{\left( X_i-\bar{X} \right) \left( Y_i-\bar{Y} \right)}}{n} \\ \text{样}本Person\text{相关系数:}r_{XY}=\frac{Cov\left( X,Y \right)}{S_XS_Y} \\ \text{样}本\text{标准差}S\text{:}S_X=\sqrt{\frac{\sum_{i=1}^n{\left( X_i-\bar{X} \right) ^2}}{n-1}}\text{,}S_Y=\sqrt{\frac{\sum_{i=1}^n{\left( Y_i-\bar{Y} \right) ^2}}{n-1}} 如果两组数据X:{X1​,X2​,⋯,Xn​}和Y:{Y1​,Y2​,⋯,Yn​}是样本数据(一般调查得到的数据均为样本数据)样本均值:Xˉ=n∑i=1n​Xi​​,Yˉ=n∑i=1n​Yi​​样本协方差:Cov(X,Y)=n∑i=1n​(Xi​−Xˉ)(Yi​−Yˉ)​样本Person相关系数:rXY​=SX​SY​Cov(X,Y)​样本标准差S:SX​=n−1∑i=1n​(Xi​−Xˉ)2​​,SY​=n−1∑i=1n​(Yi​−Yˉ)2​​


三点总结
  • 如果两个变量本身就是线性关系,那么Person相关系数的绝对值大的相关性就强,小的相关性就弱
  • 在不确定变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,一定要先画出散点图来进行观察才行
  • 事实上,比起相关系数的大小,我们往往更关注的是相关系数的显著性

对Person相关系数进行假设检验的方法

第一步: 提出原假设H0H_0H0​和备择假设H1H_1H1​(两个假设截然相反)

假设计算出了一个Person相关系数r,要对其是否显著的异于0进行检验,

则原假设和备择假设可以为:H0:r=0,H1:r≠0H_0: r=0,H_1:r\ne 0H0​:r=0,H1​:r​=0

第二步:在原假设成立的条件下,利用检验的量构造一个符合某一分布的统计量

对于Person相关系数而言,在满足一定条件下,可以构造一个t分布的统计量用于假设检验
t=rn−21−r2,可以证明t是服从自由度为n−2的t分布t=r\sqrt{\frac{n-2}{1-r^2}}\text{,可以证明}t是\text{服从自由度}为n-2\text{的}t\text{分布} t=r1−r2n−2​​,可以证明t是服从自由度为n−2的t分布

其中n为样本的数量\text{其中}n为\text{样}本\text{的数量} 其中n为样本的数量

第三步:将要检验的值代入这个统计量中,可以得到一个特定的值(检验值)

第四步:由于我们知道统计量的分布情况,就可以画出该分布的概率密度函数,并给定一个置信水平(以一定的概率接收原假设),根据这个置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域

代码:

%% 假设检验部分
x = -4:0.1:4;
y = tpdf(x,28);  %求t分布的概率密度值 28是自由度
figure(1)
plot(x,y,'-')
grid on  % 在画出的图上加上网格线
hold on  % 保留原来的图,以便继续在上面操作
% matlab可以求出临界值,函数如下
tinv(0.975,28)    %    2.0484  95%的置信水平
% 这个函数是累积密度函数cdf的反函数
plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-')
plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')

图片:

第五步:观察计算出来的检验值是落在了拒绝域还是接受域


一个更好的检验Person相关系数显著性的方法: P值判断法

假设需要检验的值为
t∗=3.05505t^*=3.05505 t∗=3.05505
根据这个值,计算出其对应的那个概率值,即为该简言之的P值,这个P值可以通过累计分布函数计算得到,

根据计算得到的P值判断是否接受原假设还是拒绝原假设标准如下:

%% 计算p值
x = -4:0.1:4;
y = tpdf(x,28);
figure(2)
plot(x,y,'-')
grid on
hold on
% 画线段的方法
plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-')
plot([3.055,3.055],[0,tpdf(3.055,28)],'r-')
disp('该检验值对应的p值为:')
disp((1-tcdf(3.055,28))*2)  %双侧检验的p值要乘以2

皮尔逊相关系数进行假设检验的先决条件

第一:实验数据通常假设是成对的来自于正态总体分布,因为t分布式基于数据呈现正态分布的假设的

第二:实验数据之间的差距不能太大,因为Person相关系数是受异常值的影响比较大

第三:每组样本之间是独立抽样的

因此要对Person相关系数用假设检验观察其显著性,首先要对样本数据进行观察,看它是否呈现正态分布


正态分布检验方法一:雅克-贝拉检验
对于一个随机变量{Xi},假设其偏度为S,峰度为K可以构造JB统计量:JB=n6[S2+(K−3)24]可以证明,如果{Xi}是正态分布,在大样本的情况下JBχ2(2),自由度为2的卡方分布注意:正态分布的偏度为0,峰度为3\text{对于一}个\text{随}机\text{变量}\left\{ X_i \right\} ,\text{假设其偏度}为S\text{,峰度}为K \\ \text{可以构造}JB\text{统计量:}JB=\frac{n}{6}\left[ S^2+\frac{\left( K-3 \right) ^2}{4} \right] \\ \text{可以证明,如果}\left\{ X_i \right\} 是\text{正态分布,在大样}本\text{的情况下} \\ JB~\chi ^2\left( 2 \right) ,\text{自由度}为2\text{的卡方分布} \\ \text{注意:正态分布的偏度}为0\text{,峰度}为3 对于一个随机变量{Xi​},假设其偏度为S,峰度为K可以构造JB统计量:JB=6n​[S2+4(K−3)2​]可以证明,如果{Xi​}是正态分布,在大样本的情况下JB χ2(2),自由度为2的卡方分布注意:正态分布的偏度为0,峰度为3
进行假设检验的步骤:
H0:该随机变量服从正态分布H1该随机变量不服从正态分布计算该变量的峰度和偏度,得到检验值JB∗,并计算其对应的P值将P值与0.05比较,若小于0.05则拒绝原假设,否则不能拒绝原假设(在95%的置信水平下)H_0:\text{该随}机\text{变量服从正态分布} H_1\text{该随}机\text{变量不服从正态分布} \\ \text{计算该变量的峰度和偏度,得到检验值}JB^*\text{,并计算其对应的}P\text{值} \\ \text{将}P\text{值与}0.05\text{比较,若小于}0.05\text{则拒绝原假设,}否\text{则不能拒绝原假设(在}95\%\text{的置信水平下)} H0​:该随机变量服从正态分布H1​该随机变量不服从正态分布计算该变量的峰度和偏度,得到检验值JB∗,并计算其对应的P值将P值与0.05比较,若小于0.05则拒绝原假设,否则不能拒绝原假设(在95%的置信水平下)

MATLAB中进行JB检验的语法:
[h,p]=jbtest(x,alpha)当输出h为1时,表示拒绝原假设;h等于0时表示不能拒绝原假设alpha表示显著性水平,一般取0.05,此时的置信水平为0.95x就是需要检验的随机变量,这里的x只能是向量\left[ h,p \right] =jbtest\left( x,alpha \right) \\ \text{当输出}h为1\text{时,表}示\text{拒绝原假设;}h\text{等于}0\text{时表}示\text{不能拒绝原假设} \\ alpha\text{表}示\text{显著性水平,一}般\text{取}0.05,\text{此时的置信水平}为0.95 \\ x\text{就}是\text{需要检验的随}机\text{变量,这里的}x\text{只能}是\text{向量} [h,p]=jbtest(x,alpha)当输出h为1时,表示拒绝原假设;h等于0时表示不能拒绝原假设alpha表示显著性水平,一般取0.05,此时的置信水平为0.95x就是需要检验的随机变量,这里的x只能是向量
代码:

% 检验第一列数据是否为正态分布
[h,p] = jbtest(Test(:,1),0.05)
[h,p] = jbtest(Test(:,1),0.01)% 用循环检验所有列的数据
n_c = size(Test,2);  % number of column 数据的列数
H = zeros(1,6);  % 初始化节省时间和消耗
P = zeros(1,6);
for i = 1:n_c[h,p] = jbtest(Test(:,i),0.05);H(i)=h;P(i)=p;
end
disp(H)
disp(P)

样本正态分布检验方 法二:夏皮洛-威尔克检验

适用条件:小样本 3⩽n⩽503\leqslant n\leqslant 503⩽n⩽50
H0:该随机变量服从正态分布H1:该随机变量不服从正态分布计算出威尔克统计量后,得到相应的P值将P值与0.05比较,如果小于0.05则拒绝原假设,否则不能拒绝原假设H_0:\text{该随}机\text{变量服从正态分布} H_1:\text{该随}机\text{变量不服从正态分布} \\ \text{计算出威尔克统计量后,得到相应的}P\text{值} \\ \text{将}P\text{值与}0.05\text{比较,如果小于}0.05\text{则拒绝原假设,}否\text{则不能拒绝原假设} H0​:该随机变量服从正态分布H1​:该随机变量不服从正态分布计算出威尔克统计量后,得到相应的P值将P值与0.05比较,如果小于0.05则拒绝原假设,否则不能拒绝原假设
具体可使用spass软件实现


样本正态分布检验方 法二:Q-Q检验

要利用Q-Q图鉴别样本数据是否近似于正态分布,只需要看Q-Q图上的点是否近似地在一条直线附近。(要求的数据量非常大)


spearman相关系数

第一种定义
定义:X和Y为两组数据,其spearman(等级)相关系数:rs=1−6∑i=1ndi2n(n2−1)其中di为Xi和Yi之间的等级差一个数的等级,就是将它所在的同一列数按照从小到大排序后,这个数所在的位置可以证明:rs位于−1和1之间注意:如果有相同的等级数字,则将它们所在的位置取算数平均\text{定义:}X\text{和}Y为两\text{组数据,其}spearman\left( \text{等级} \right) \text{相关系数:} \\ r_s=1-\frac{6\sum_{i=1}^n{d_i^2}}{n\left( n^2-1 \right)} \\ \text{其中}d_i为X_i\text{和}Y_i\text{之间的等级差} \\ \text{一}个\text{数的等级,就}是\text{将它}所\text{在的同一列数按照从小到大排序后,这}个\text{数}所\text{在的位置} \\ \text{可以证明:}r_s\text{位于}-1\text{和}1\text{之间} \\ \text{注意:如果有相同的等级数字,则将它们}所\text{在的位置取算数平均} 定义:X和Y为两组数据,其spearman(等级)相关系数:rs​=1−n(n2−1)6∑i=1n​di2​​其中di​为Xi​和Yi​之间的等级差一个数的等级,就是将它所在的同一列数按照从小到大排序后,这个数所在的位置可以证明:rs​位于−1和1之间注意:如果有相同的等级数字,则将它们所在的位置取算数平均


根据公式:
rs=1−6∑i=1ndi2n(n2−1)r_s=1-\frac{6\sum_{i=1}^n{d_i^2}}{n\left( n^2-1 \right)} rs​=1−n(n2−1)6∑i=1n​di2​​
可得X和Y的spearman相关系数为:
rs=1−6×(1+0.25+0.25+1)5×24=0.875r_s=1-\frac{6\times \left( 1+0.25+0.25+1 \right)}{5\times 24}=0.875 rs​=1−5×246×(1+0.25+0.25+1)​=0.875


另一种spearman相关系数的定义

在第二种定义方式种,spearman相关系数被定义成等级之间的Person相关系数

相关代码:

%% 斯皮尔曼相关系数
X = [3 8 4 7 2]'  % 一定要是列向量哦,一撇'表示求转置
Y = [5 10 9 10 6]'
% 第一种计算方法
1-6*(1+0.25+0.25+1)/5/24% 第二种计算方法
coeff = corr(X , Y , 'type' , 'Spearman')
% 等价于:
RX = [2 5 3 4 1]
RY = [1 4.5 3 4.5 2]
R = corrcoef(RX,RY)% 计算矩阵各列的斯皮尔曼相关系数
R = corr(Test, 'type' , 'Spearman')

MATLAB中计算Spearman相关系数

  • corr(X,Y,'Type','Spearman'),这里的X和Y必须是列向量
  • corr(X,'Type','Spearman'),计算x矩阵各列之间的spearman相关系数

注意:MATLAB中的spearman相关系数使用的是第二种定义方法


Spearman系数的假设检验

  • 小样本情况,即n⩽30n\leqslant 30n⩽30时,直接查临界值表即可 ,相关系数r必须大于等于表中的临界值,才能得出显著的结论(显著的异于0)

    更多详细数据在数学建模文档总结中,用到时查阅文档即可

  • 大样本情况下

构造统计量:rsn−1N(0,1)H0:rs=0,H1:rs≠0计算检验值rsn−1,并求出对应的P值与0.05相比即可\text{构造统计量}:r_s\sqrt{n-1}~N\left( 0,1 \right) \\ H_0:r_s=0, H_1:r_s\ne 0 \\ \text{计算检验值}r_s\sqrt{n-1}\text{,并求出对应的}P\text{值与}0.05\text{相比即可} 构造统计量:rs​n−1​ N(0,1)H0​:rs​=0,H1​:rs​​=0计算检验值rs​n−1​,并求出对应的P值与0.05相比即可

% 大样本下的假设检验
% 计算检验值
disp(sqrt(590)*0.0301)
% 计算p值
disp((1-normcdf(0.7311))*2) % normcdf用来计算标准正态分布的累积概率密度函数% 直接给出相关系数和p值
[R,P]=corr(Test, 'type' , 'Spearman')
Person相关系数和spearman相关系数的选择
  • 连续数据,正态分布,线性相关,用Person相关系数最恰当,当然用spearman相关系数也可以,就是效率没有person相关系数高
  • 上述任一条件不满足,就使用spearman相关系数,不能用person相关系数
  • 两个定序数据之间也可以使用spearman相关系数,不可以使用person相关系数(如优良差)

更多有关于相关系数的经典获奖论文,关注公众号,回复,“相关系数”,即可免费领取!!!

【7.0】 数学建模 | 相关系数详解 | Person相关系数、Spearman相关系数相关推荐

  1. 机器学习实战 | LightGBM建模应用详解

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  2. 华为杯2022研究生数学建模赛题+解压码

    免费提供华为杯2022研究生数学建模赛题+解压码 网盘提取方式如下 链接:https://pan.baidu.com/s/1ySjp-JG1fvd_TvwGQcDNCg 提取码:y74r –来自百度网 ...

  3. 关于android的4.2的0文件夹的详解

    关于android的4.2的0文件夹的详解 ---- android 4.0 ---- 在galaxy nexus(GN)手机上userdata分区很大,被挂在/data目录,用户的数据通常是放在sd ...

  4. mysql8.0.11 安装顺序_mysql 8.0.11 安装步骤详解

    本文为大家分享了mysql 8.0.11 安装步骤,供大家参考,具体内容如下 第一步:下载安装包 MYSQL官方下载地址:官方下载 这里第一项是在线安装,第二项是离线包安装,我选择的是第二项(不用管你 ...

  5. ASP.NET2.0 ObjectDataSource的使用详解

    介绍ObjectDataSource的使用,按照dudu的建议为了节省篇幅,做成连接,这里仅提供前三篇,后面还有几篇以后再补充吧 ASP.NET2.0 ObjectDataSource的使用详解(1) ...

  6. android ble蓝牙接收不到数据_Android蓝牙4.0 Ble读写数据详解 -2

    Android蓝牙4.0 Ble读写数据详解 -2 上一篇说了如何扫描与链接蓝牙 这篇文章讲讲与蓝牙的数据传输,与一些踩到的坑. 先介绍一款调试工具,专门调试Ble蓝牙的app.名字叫:nRF-Con ...

  7. linux下安装mysql_Linux下安装mysql-8.0.20的教程详解

    ** Linux下安装mysql-8.0.20 ** 环境介绍 操作系统:CentOS 7 mysql下载地址:https://dev.mysql.com/downloads/mysql/ 下载版本: ...

  8. mysql压缩包安装教程8.0.19,win10安装zip版MySQL8.0.19的教程详解

    win10安装zip版MySQL8.0.19的教程详解 一. 下载后解压到想安装的目录 二. 在安装目录中添加配置文件my.ini [mysqld] # 设置3306端口 port=3306 # 设置 ...

  9. mysql8.0.20安装教程linux_Linux下安装mysql-8.0.20的教程详解

    ** Linux下安装mysql-8.0.20 ** 环境介绍 操作系统:CentOS 7 mysql下载地址:https://dev.mysql.com/downloads/mysql/ 下载版本: ...

  10. mysql8.0日期类型_mysql8.0.19基础数据类型详解

    mysql基础数据类型 mysql常用数据类型概览 ![1036857-20170801181433755-146301178](D:\笔记\mysql\复习\1036857-201708011814 ...

最新文章

  1. PowerDesigner使用教程3
  2. HDU1862 EXCEL排序
  3. Android 如何调用系统默认浏览器访问
  4. Ubuntu搜狗输入法安装
  5. python装饰器property_python装饰器: @property
  6. 【优化求解】基于matlab模拟退火算法求解函数极值问题【含Matlab源码 1203期】
  7. 原版98启动盘镜像.img_【教程】利用Windows 10 官方下载工具下载最新系统镜像、制作启动盘...
  8. 联想服务器修改ip地址,联想 lenove 3750 M4服务器更改启动项和管理口IP
  9. Ubuntu18更换软件源
  10. WindRiver WorkBench创建、编译vxWorks APP工程
  11. 高德地图开放平台——行政区划分DistrictSearch 准确定位区域,指定某一城市的行政区
  12. 2021-06-16 解决MDK5使用STLINK下载不进去程序报错的问题
  13. cents OS 重装yum,配置阿里yum源
  14. Spring Cloud Bus 使用说明
  15. linux SQL2019 代理SQLServerAgent is not currently running so it cannot be notified of this action
  16. bm算法好后缀 java实现_BM算法 | Depeng's Blog
  17. IDEA连接达梦数据库
  18. 华为云数据库mysql云灾备方案_华为云MySQL云灾备解决方案,秒级同步实现数据库的高保护...
  19. 在云中实现可信的Luna SA解决方案
  20. 绝对干货:微信小程序有哪些模式能够让你快速盈利?

热门文章

  1. rz 上传文件到服务器, 屏幕疯狂输出乱码
  2. myeclipse编译无效,debug下一步执行不正确,修改的代码没有起作用
  3. Django DRF 两种接口安全机制及其配置
  4. springmvc执行过程源码分析
  5. 问题 A: 找x--《算法笔记》
  6. win10 查看已保存无线密码的方法
  7. centos6 更新xorg导致进入不了登录界面---intel(1): pEnt-device-identifier=(nil)
  8. 「Activiti精品 悟纤出品」Activiti插件来助你一臂之力 - 第327篇
  9. Java Web(三) 会话机制,Cookie和Session详解
  10. 大数据24小时:链家研究院发布地产大数据产品Real Data,上海交大与依图共建AI联合实验室