文章目录

  • 相关系数
  • pearson相关系数
    • 相关性可视化
    • 误区
    • 相关系数大小的解释
    • 例题
    • 描述性统计
      • matlab
      • excel
      • SPSS
    • 矩阵散点图
    • 计算相关系数
      • 热力图美化结果
    • 对相关系数进行假设检验
      • 假设检验知识点简单记录
      • 皮尔逊相关系数的假设检验
      • 更好的方法:P值判断法
      • 皮尔逊相关系数假设检验的条件
  • 正态分布检验
    • 大样本JB检验
    • 小样本Shapiro-wilk检验
    • QQ图
  • 第一个总结
  • 斯皮尔曼spearman相关系数
    • 定义
    • 另一种定义
    • MATLAB计算
    • 斯皮尔曼相关系数的假设检验
      • 小样本n<=30
      • 大样本
      • MARLAB中假设检验
  • 第二个总结:两种相关系数比较
  • 课后作业

相关系数

衡量两个变量之间相关性大小的指标


  • 通过样本统计量来估计总体统计量

pearson相关系数

  • 协方差与量纲有关
  • pearson相关系数可以看作是变量标准化之后的协方差
    • 这里框框里应该还要减一个(标准化后变量的)均值的,而这个均值是0
  • 总体pearson相关系数

  • pearson相关系数绝对值<1
  • 样本pearson相关系数
  • 基本一样,就是把总体的均值和标准差变成了样本的均值和标准差
    • 样本的方差分母为n-1,这就是最大的区别,无偏估计
    • 概率论与数理统计的知识点

相关性可视化

绝对值越接近1,越有线性

误区

很重要!必须要画出散点图,证明变量之间是有线性关系的,才能用皮尔逊相关系数来说明线性相关性


  • 重点

  • 四个错误
  • 非线性相关也会导致皮尔逊相关系数很大
  • 离群点影响很大
  • 皮尔逊相关系数大也不能说明了两者相关
  • 相关系数为0可能也存在非线性关系,不能说没关系

  • 总结

写论文时先画出散点图,证明有线性关系,再用皮尔逊相关系数说明其相关性。

相关系数大小的解释

这个强弱根据具体的题目来定,需要精密的时候可以定严格一点,比如>0.9的才算强相关性

例题

描述性统计

论文中我们需要把这些数组的描述性统计做成表格写出来

特别是标粗的统计量

  • 这些函数默认是按列计算的
  • 若要按行,函数第二个参数改为1

matlab

clear;clc
load 'physical fitness test.mat'  %文件名如果有空格隔开,那么需要加引号
% https://ww2.mathworks.cn/help/matlab/ref/corrcoef.html
%% 统计描述
MIN = min(Test);  % 每一列的最小值
MAX = max(Test);   % 每一列的最大值
MEAN = mean(Test);  % 每一列的均值
MEDIAN = median(Test);  %每一列的中位数
SKEWNESS = skewness(Test); %每一列的偏度
KURTOSIS = kurtosis(Test);  %每一列的峰度
STD = std(Test);  % 每一列的标准差
RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]  %将这些统计量放到一个矩阵中表示
  • 文件名如果有空格隔开,那么需要加引号

excel

excel数据分析 描述统计 勾选汇总统计 结果需要精简处理


SPSS

矩阵散点图

当需要变量两两组合看是否有线性关系时,可以用SPSS做矩阵散点图

计算相关系数

热力图美化结果

  • excel


  • matlab、python也有相应的方法,自行查阅

对相关系数进行假设检验

假设检验知识点简单记录

  • 关于假设检验的知识

  • 在概率论与数理统计和统计学两门课,我已经学过有关知识了,就没听清风的这部分

  • 双侧检验步骤

  • 单侧检验步骤大差不差

  • 实际上构造什么分布是最难的,涉及到非常复杂的证明

  • 用的时候只要知道怎么用就行,对于什么检验统计量用什么分布,是数学家探索发现的

  • 如何变成实现

    • 这样判断还是挺麻烦的,要求导啥的
    • 用p值是推荐的
    • 双侧检验的p值是单侧检验的两倍,要乘2再跟0.05比较(95%)
  • 步骤

    • 确定原假设和备择假设
    • 原假设成立条件下构造统计量
    • 计算检验值(带入计算的值),以及对应的P值
    • 比较P值与0.05的关系
      • 大于0.05,接受H0
      • 小于0.05,拒绝H0

皮尔逊相关系数的假设检验

我们通过检验相关系数的显著性,来说明相关系数有没有意义

  • 原假设H0:r=0
  • 构造符合某一分布的统计量(要检验的量的一个函数,不包含其他随机变量),这里用的是t分布
  • n趋于无穷的时候,t分布实际上就是标准正态分布

  • 计算检验值,然后要看检验值落在接受域,还是拒绝域
  • 画图:tpdf()函数就是t分布的函数,第一个参数是自变量,第二个参数是自由度(n-2)

链接:t分布查表文档

双侧检验,置信水平α=0.05

那么要找 t 1 − α 2 = t 0.975 t_{1-\frac{α}{2}}=t_{0.975} t1−2α​​=t0.975​这一列,再按自由度28找到行。找到临界值2.048

  • 得到结论

更好的方法:P值判断法

前面的过程还是太为繁琐了,我们用P值更好的检验显著性

  • tcdf():t分布的累计密度函数
  • 这里乘2是因为双侧检验
  • 得到最后计算的P值
  • 说明能否拒绝原假设
  • 论文中:显著性标记
    • 没有*:不显著
    • *:90%水平上显著
    • **:95%水平上显著
    • ***:99%水平上显著

  • MATLAB计算p值

一行代码:[R,P] = corrcoef(Test)

R返回的是相关系数表,P返回的是对应于每个相关系数的p值

%% 计算各列之间的相关系数
% 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系
% 这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图R = corrcoef(Test)   % correlation coefficient%% 假设检验部分
x = -4:0.1:4;
y = tpdf(x,28);  %求t分布的概率密度值 28是自由度
figure(1)
plot(x,y,'-')
grid on  % 在画出的图上加上网格线
hold on  % 保留原来的图,以便继续在上面操作
% matlab可以求出临界值,函数如下
tinv(0.975,28)    %    2.0484
% 这个函数是累积密度函数cdf的反函数
plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-')
plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')%% 计算p值
x = -4:0.1:4;
y = tpdf(x,28);
figure(2)
plot(x,y,'-')
grid on
hold on
% 画线段的方法
plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-')
plot([3.055,3.055],[0,tpdf(3.055,28)],'r-')
disp('该检验值对应的p值为:')
disp((1-tcdf(3.055,28))*2)  %双侧检验的p值要乘以2%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
% 在EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01  % 标记3颗星的位置
(P < 0.05) .* (P > 0.01)  % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % % 标记1颗星的位置
% 也可以使用Spss操作哦 看我演示

SPSS中操作:分析->相关->双变量->选中指标->勾选皮尔逊相关系数、勾选双尾(双侧检验)、勾选显著相关性(显著性标记)

  1. 最后要加上*** p<0.01, ** p<0.05, * p<0.1

  2. Matlab计算的是双侧检验的p值,如果需要单侧的话只
    需要除以2即可。

皮尔逊相关系数假设检验的条件

一个重要的部分:进行假设检验的前提

  • 第一个正态分布检验是要进行的
  • 后两个是默认的

正态分布检验

  • 偏度和峰度

%% 正态分布检验
% 正态分布的偏度和峰度
x = normrnd(2,3,100,1);   % 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x)  %偏度
kurtosis(x)  %峰度
qqplot(x)

大样本JB检验

  • 雅克—贝拉检验

  • 步骤

    • 确定样本量>30

    • 确定原假设和备择假设

    • 计算偏度和峰度,带入计算统计量,计算相应p值

    • 得出结论

  • MATLAB中操作

    • [h,p] = jbtest(x,alpha)
    • 这里x只能是向量,所以只能一列一列进行检验
    • 写一个循环
% 检验第一列数据是否为正态分布
[h,p] = jbtest(Test(:,1),0.05)
[h,p] = jbtest(Test(:,1),0.01)% 用循环检验所有列的数据
n_c = size(Test,2);  % number of column 数据的列数
H = zeros(1,6);  % 初始化节省时间和消耗
P = zeros(1,6);
for i = 1:n_c[h,p] = jbtest(Test(:,i),0.05);H(i)=h;P(i)=p;
end
disp(H)
disp(P)% Q-Q图
qqplot(Test(:,1))
  • 初始化保存结果的矩阵,可以节省运行时间
  • 我们计算出来发现,每列都拒绝原假设,说明每列数据全都不满足正态分布,说明前面假设检验那些显著性是没用的

小样本Shapiro-wilk检验

小样本才能用

该检验原理较为复杂,我们只要会用就习惯

matlab没有这个相关函数,所以用spss

分析 - 描述统计 - 探索

QQ图

QQ图来看是否符合正态分布

​ 在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。
​ 首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。
​ 这里,我们选择正态分布和要检验的随机变量,并对其做出QQ图,可想而知,如果要检验的随机变量是正态分布,那么QQ图就是一条直线
要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大)

  • 演示

  • 要求样本量比较大,起码几百,才能用于判断
  • 最好还是区分大样本还是小样本,然后选择前两种检验

第一个总结

正确在论文中使用皮尔逊相关系数

  • 对数据做一个描述性统计
  • 散点图判断是否有线性关系,如果有那么就可以用皮尔逊相关系数
  • 如果要检验相关系数是否显著,对其进行假设检验,那么就要做一个正态性检验
  • 如果数据符合正态分布,就可以计算一系列p值,看系数是否是显著的
  • 万一没有通过正态性检验,那么就用下面的斯皮尔曼相关系数

斯皮尔曼spearman相关系数

对数据的要求比较低,没有总体要是正态分布的前提

定义

  • 给数据排序,计算等级。
  • 等级就是排序,如果有两个一样的,就取排序的平均值

  • 极端情况下

    • 每组数据X的等级和Y的等级都相同,那么等级差全是0,计算出的r=1
    • 每组数据X和Y的等级刚好全是相反的,一个从大到小,一个从小到大,那么最后算出来r=-1
    • 可以证明r位于[-1,1]之间
  • 意义
    • >0正相关
    • <0负相关
    • 绝对值越大,相关性越强

另一种定义

斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数

  • 因为前面有等级相等取平均值,所以结果有细微的区别

MATLAB计算

两种用法

  • corr()就是一个能求很多种相关系数的函数,这里type参数为’Spearman’
  • 数据必须是列向量或者一个矩阵
  1. corr(X , Y , 'type','Spearman')
    这里的X和Y必须是列向量哦~
  2. corr(X, 'type' , 'Spearman')
    这时计算X矩阵各列之间的斯皮尔曼相关系数

%% 斯皮尔曼相关系数
X = [3 8 4 7 2]'  % 一定要是列向量哦,一撇'表示求转置
Y = [5 10 9 10 6]'
% 计算矩阵各列的斯皮尔曼相关系数
R = corr(Test, 'type' , 'Spearman')
  • 跟刚才皮尔逊相关系数结果对比

斯皮尔曼相关系数的假设检验

小样本n<=30

直接查表

一般就是找双侧检验0.05这一列,通过样本量找到表中临界值

表在资料中

必须要计算出来的>表中临界值,落在拒绝域中,才能说明显著性

大样本

p值就是右边那块红色区域的面积

下结论:p值大于0.05,因此我们无法拒绝原假设。
(和0没有显著的差异)

MARLAB中假设检验

% 直接给出相关系数和p值
[R,P]=corr(Test, 'type' , 'Spearman')
  • 结果

  • 结果画表

把皮尔逊和斯皮尔曼相关系数都勾选上,会有两个表

  • 表格修改一下放入论文中

    • 只要相关系数就行,已经标注了显著性,其他行可以删掉

第二个总结:两种相关系数比较

  • 满足上述三个条件就用皮尔逊
  • 其他的用斯皮尔曼

课后作业

本笔记来自清风老师的数学建模,强烈推荐该课程!

数学建模笔记-第五讲-相关系数相关推荐

  1. 数学建模笔记——插值拟合模型(二)

    今天是8月21日,距离上次写文章好像将近一个月了--这段时间经历了建模校内选拔赛,考试周,以及与网络小说的斗智斗勇--好吧,其实也没干什么,除了考试就是荒废-- 我最近有在思考一个问题,就是我所关注的 ...

  2. 数学建模笔记之一起读论文2019年C题——机场的出租车问题

    数学建模笔记之一起读论文--机场的出租车问题 2021-8-28 全国大学生数学建模竞赛 2019年C题 B站链接--国赛C题真题解析 1 赛题阅读与分析 原题再现: 问题C 机场的出租车问题 大多数 ...

  3. 数学建模笔记-第十四讲-主成分分析

    文章目录 主成分分析 数据降维 主成分分析思想 PCA计算过程 主成分分析的应用 例1 主成分的说明 例2 MATLAB 对结果的解释 主成分分析的滥用:主成分得分 主成分分析用于聚类 主成分回归 说 ...

  4. 数学建模笔记-第七讲-回归分析

    文章目录 回归分析 线性回归介绍 回归系数 内生性探究 蒙特卡罗代码 弱化无内生性条件 四种模型 回归系数的解释 四种模型回归系数的解释 虚拟变量 多分类的虚拟变量设置 含交互项的自变量 应用题(奶粉 ...

  5. 数学建模笔记——评价类模型之灰色关联分析

    这一篇就简单介绍一下灰色关联分析吧.灰色关联分析主要有两个作用,一是进行系统分析,判断影响系统发展的因素的重要性.第二个作用就是用于综合评价问题,给出研究对象或者方案的优劣排名. 不过这里我只能简单介 ...

  6. 数学建模笔记 因子分析

    文章目录 因子分析 跟主成分分析对比 因子分析的实例 例1 例2 因子分析模型 原理 假设 性质 因子载荷矩阵的意义 参数估计 因子旋转方法 因子分析 SPSS操作实例 第一次运行 对因子分析结果的介 ...

  7. 清风数学建模笔记——Excel画图保姆级教学

    备注:本篇内容是在Office环境下作图,WPS不支持直方图和箱线图好像.免费的Office软件可以在微信搜索中搜"Office"然后挑一个下载即可 本文借鉴了数学建模清风老师的课 ...

  8. 数学建模笔记(1)——评价类问题

    写在前面,以下为几天后的数学建模做准备,鉴于非工科背景出身,决定放弃A类题,以C类题为主,辅以B题开始学习. ( 内容主要参考知乎.CSDN及B站网课,会表明出处,侵删) 首先研究评价类问题 例如,2 ...

  9. python三次样条插值拟合的树行线_数学建模笔记——插值拟合模型(一)

    啊好像距离上次写作又过了七天,啊好像我之前计划的一周两三篇,啊辣鸡小说毁我青春,啊我是一只可怜的鸽子. 不管怎样,我又回来了,并坚定地更新着hhh.再过两三天就是我们学校数学建模选拔,再过八九天就是期 ...

最新文章

  1. 用户和组相关的配置文件总结
  2. leetcode79. 单词搜索 网格地图搜索+回溯经典写法啦
  3. 渡劫飞升的伪原创工具
  4. Android之使用MediaMetadataRetriever类获取视频第一帧
  5. 重庆大学微型计算机基础实验,计控课程方案设计书.doc
  6. activemq spring 集成与测试
  7. WINDOWS 2008Server 配置nginx 反向代理服务器 安装成服务
  8. BZOJ1090[SCOI2003] 字符串折叠
  9. 步进电机、伺服电机、舵机的理解
  10. 注意力(Attention)
  11. 如何用计算机声卡录声音,录音声卡怎么设置 录音声卡设置教程
  12. 服务器被劫持怎么修复不了,电脑DNS被劫持怎么修复?电脑dns被劫持的完美解决方法...
  13. Stata实现结构方程模型
  14. Gauss数据库初识
  15. 32位服务器系统安装教程,服务器系统数据库安装教程
  16. 《Learning Enriched Features for Real Image Restoration and Enhancement》
  17. iterm2 官方使用说明翻译
  18. IP地址,子网掩码和网关
  19. tun驱动之tun_init
  20. 2022年全球市场火锅燃料总体规模、主要生产商、主要地区、产品和应用细分研究报告

热门文章

  1. 3056: 升降梯口
  2. UVA - 11400 Lighting System Design(照明系统设计)(dp)
  3. android gps 轨迹记录仪,GPS行车轨迹不能代替行车记录仪使用
  4. VS单步调试UE4打包的exe游戏
  5. 新浪微博客户端开发开篇,作为一名Android面试者你应该知道的
  6. 爵士、古典、摇滚、流行音乐
  7. 命令打开java控制面板
  8. Linux下的超级终端(minicom)
  9. JAVA 网络编程(5) SOCKET UDP 单播和组播,以及组播其他机器收不到报文的解决方法
  10. 持续集成与持续部署(六)02-CircleCI——CircleCI配置Node.js应用之.circleciconfig.yml配置文件 deploy.sh文件内容