目录

1.皮尔逊Pearson相关系数

1)总体

2)样本

3)易错

4)画散点图

5)判断相关性大小​

6 )描述性统计

7)美化(相关性可视化)

2.对皮尔逊相关系数进行假设检验

1)构造统计变量

2)假设检验部分

3.正态性检验

1)JB检验(大样本 n>30)

2)小样本3≤n≤50:Shapiro-wilk检验

3)QQ图

4.斯皮尔曼相关系数

1)相关系数定义

2)假设检验


1.皮尔逊Pearson相关系数

先描述性统计,正态性检验,皮尔逊相关系数,显著性

1)总体

2)样本

3)易错

4)画散点图

所以先画散点图(用spss)再观察是否有线性关系,有的话用皮尔逊,否则不能用

这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图

5)判断相关性大小

R = corrcoef(Test)   % correlation coefficient

6 )描述性统计

用SPSS和excel都可以

方法:

excel:数据分析->描述统计->汇总统计

spss:

MIN = min(Test);  % 每一列的最小值MAX = max(Test);   % 每一列的最大值MEAN = mean(Test);  % 每一列的均值MEDIAN = median(Test);  %每一列的中位数SKEWNESS = skewness(Test); %每一列的偏度KURTOSIS = kurtosis(Test);  %每一列的峰度STD = std(Test);  % 每一列的标准差RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]  %将这些统计量放到一个矩阵中表示

7)美化(相关性可视化)

2.对皮尔逊相关系数进行假设检验

1)构造统计变量

n-2是自由度,n为样本数量,r皮尔逊相关系数(corroef)

n趋近于无穷时,为标准正态分布

->算出对应检测值t

补正态分布

为X~N(u,),u=0,

=1

2)假设检验部分

<1>*画直线的技巧

tpdf(x,n)概率密度函数,x为横坐标范围,n为自由度

tcdf(t,n)累积概率密度函数,t检测值,n自由度

tinv(l,n)tcdf的反函数,l:概率,就是正态分布图像面积,从负无穷到所求临界值之间的面积,n为自由度

x = -4:0.1:4;y = tpdf(x,28);  %求t分布的概率密度值 28是自由度  figure(1)plot(x,y,'-')grid on  % 在画出的图上加上网格线hold on  % 保留原来的图,以便继续在上面操作% matlab可以求出临界值,函数如下tinv(0.975,28)    %    2.0484% 这个函数是累积密度函数cdf的反函数plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-')plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')

补充: “如果呈现出显著性(结果右上角有*号,此时说明有关系;反之则没有关系);有了关系之后,关系的紧密程度直接看相关系数大小即可。一般0.7以上说明关系非常紧密;0.4~0.7之间说明关系紧密;0.2~0.4说明关系一般.”转载

总结:有假设才有显著性,先看显著性,之后观察相关性的紧密程度

<2> 另一种方法:

p值判断法

单侧检验:p=(1-tcdf(t,n))

双侧检验*2:p=(1-tcdf(t,n))*2

0.5:无显著性,无法拒绝原假设

0.5*:在90%置信上拒绝原假设

0.5**:在95%置信上拒绝原假设

0.5***:在99%置信上拒绝原假设

计算单个p值:

x = -4:0.1:4;y = tpdf(x,28);figure(2)plot(x,y,'-')grid on hold on% 画线段的方法plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-')plot([3.055,3.055],[0,tpdf(3.055,28)],'r-')disp('该检验值对应的p值为:')disp((1-tcdf(3.055,28))*2)  %双侧检验的p值要乘以2

计算各列之间的相关系数以及p值: 之后在excel中标记星号

[R,P] = corrcoef(Test)% 在EXCEL表格中给数据右上角标上显著性符号吧P < 0.01  % 标记3颗星的位置(P < 0.05) .* (P > 0.01)  % 标记2颗星的位置(P < 0.1) .* (P > 0.05) % % 标记1颗星的位置

标记*也可用SPSS:分析->相关->双变量

但标注*的规则不同

3.正态性检验

原因:计算是皮尔逊相关系数的前提

1)JB检验(大样本 n>30)

雅克‐贝拉检验

函数jbtest(x,alpha):x,检测的向量(不能是矩阵), alpha,显著性水平0.05,此刻的置信水平0.95

h=1,拒绝原假设,h=0不能拒绝原假设

h,p都为一个值

<1>检测一组数据是否满足正态性

[h,p] = jbtest(Test(:,1),0.05)[h,p] = jbtest(Test(:,1),0.01)

<2>用循环检验所有列

n_c = size(Test,2);  % number of column 数据的列数H = zeros(1,6);  % 初始化节省时间和消耗P = zeros(1,6);for i = 1:n_c    [h,p] = jbtest(Test(:,i),0.05);    H(i)=h;    P(i)=p;enddisp(H)disp(P)

补:偏度峰度

% 正态分布的偏度和峰度x = normrnd(2,3,100,1);   % 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布skewness(x)  %偏度kurtosis(x)  %峰度qqplot(x)

2)小样本3≤n≤50:Shapiro-wilk检验

只能用spss

3)QQ图

Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点 是否近似地在一条直线附近。(要求数据量非常大)

qqplot(Test(:,1))

4.斯皮尔曼相关系数

1)相关系数定义

XY必须是列向量

Matlab使用的是第二种计算方法

%% 斯皮尔曼相关系数X = [3 8 4 7 2]'  % 一定要是列向量哦,一撇'表示求转置Y = [5 10 9 10 6]'% 第一种计算方法1-6*(1+0.25+0.25+1)/5/24% 第二种计算方法coeff = corr(X , Y , 'type' , 'Spearman')% 等价于:RX = [2 5 3 4 1]RY = [1 4.5 3 4.5 2]R = corrcoef(RX,RY)% 计算矩阵各列的斯皮尔曼相关系数R = corr(Test, 'type' , 'Spearman')

2)假设检验

小样本

大样本

计算检测值t:

计算p值:

双侧p=(1-normcdf(t))*2

单侧p=1-normcdf(t)

% 计算检验值disp(sqrt(590)*0.0301)% 计算p值disp((1-normcdf(0.7311))*2) % normcdf用来计算标准正态分布的累积概率密度函数% 直接给出相关系数和p值[R,P]=corr(Test, 'type' , 'Spearman')

定序必须要用斯皮尔曼相关系数

相关系数(用来衡量两变量间相关关系的大小)相关推荐

  1. 【统计学笔记】如何判断变量间相关关系,并建立一元线性回归模型?

    本章内容: 判断两个变量间是否有相关关系,且关系强度如何? 如何建立一元线性回归模型,且模型效果如何? 如何利用回归方程进行预测? 为什么要进行残差分析,及如何进行分析? 索引

  2. 利用协方差,皮尔逊相关系数和斯皮尔曼相关系数确定变量间的关系

    利用协方差,皮尔逊相关系数和斯皮尔曼相关系数确定变量间的关系 https://www.toutiao.com/i6550915552490029576/ 数据集中的变量之间可能存在复杂且未知的关系.重 ...

  3. Mantel test: 两个矩阵相关关系的检验

    转载 http://blog.sina.com.cn/s/blog_4b678be40100o464.html Mantel test 是对两个矩阵相关关系的检验,由Nathan Mantel在197 ...

  4. Python数据可视化 | 6、基于Sesborn探索变量间的关系

    目录 绘制线性回归模型 拟合不同模型 残差图 变量间的条件关系探索 控制图片的大小和形状 小结 数据变量之间的关联性,主要针对定量数据而言: 数据的分布问题也是主要针对定量数据: 分组问题及组间问题里 ...

  5. R语言计算多变量两两之间的相关关系及显著性

    当数据存储为data.frame格式时,我们通常先将其转为matrix格式,且数据为numeric类型,继而可以使用 PerformanceAnalytics 包之间求相关,并将结果可视化. dda ...

  6. correl函数相关系数大小意义_相关系数越大,说明两个变量之间的关系就越强吗...

    展开全部 相关系数越大,说明两个变量之间的关系就越强.当相关系数为1时,两个变量其e68a84e8a2ad3231313335323631343130323136353331333431353431实 ...

  7. R语言相关关系可视化函数梳理(附代码)

    来源:R语言中文社区 作者:赵镇宁 本文约3177字,建议阅读6分钟. 本文为你介绍R语言相关关系可视化的函数进行了初步梳理,大家可根据个人需求及函数功能择优选择. 当考察多个变量间的相关关系时,通常 ...

  8. python 卡方分布值_python数据分析探索变量之间的关系

    探索变量之间的关系 引言 深入探索分析数据价值有几个重要步骤:①变量的分布检验,②探索变量间的关系,③建立关系模型,④评估,⑤总结结论与建议.接下来看看数据分析的重要一环–「探索变量间的关系」. 1 ...

  9. 统计推断——假设检验——两变量关联性分析

    一.线性相关描述 问题:两变量间是否存在相关或关联? 身高与体重 尿铅排出量与血铅含量 凝血时间与凝血酶浓度 血压与年龄 1.线性相关 例 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女 ...

最新文章

  1. 第一代电子计算机诞生的国家是( ),计算机基础知识习题.doc
  2. 用7*7的卷积核分类9*9的图片到底应该用几个卷积核?55个
  3. Android 省,市,区选择权
  4. Maven实战:Pom.xml详解
  5. FusionCharts 的XML标签属性
  6. atoi函数:c\c++中把字符串整数转换为int型整数
  7. iChart--组件定制
  8. 计算机怎么在表格里打勾,怎样在Excel输入对号√,Excel单元格怎么输入对号(方框内打勾)?...
  9. excel去掉公式()
  10. 【文案是做什么?】来源某乎“吾老湿”的精彩回答,我收藏一下,以后学习。
  11. vue-pdf插件实现PDF预览功能
  12. 灰色预测(MATLAB)
  13. 2019年安徽省大数据与人工智能应用赛总结---本科组
  14. 计算机上安装了更新ie版本,电脑XP系统安装不了ie提示“安装了更新的Internet Explorer版本”的解决方法...
  15. 【计算机毕业设计】java+mysql基于SSM的生鲜超市进销存管理系统
  16. java核心技术卷I-映射
  17. 爬虫基础_urllib
  18. 【python】注意力机制代码
  19. UERANSIM 配置和使用
  20. 【例4-3】利用数组,给定N个正整数数据(N<=100),查找最大值和最小值并输出。【输入输出样例】Input length (N<=100):(此处括号、冒号为英文符号,后面无空格;leng

热门文章

  1. 计算机应用基础2019年12月所有题,2019年12月网络教育统考《计算机应用基础》复习题(九)...
  2. 微信小程序实现规划路线
  3. Celery定时任务
  4. Android 调用JNI出错 java.lang.UnsatisfiedLinkError: No implementation found for
  5. 统计中文文本中人物出现次数
  6. mysql转dm7_DM7 达梦数据库 数据库级 数据复制(DATA REPLICATION) 搭建手册
  7. java画图Graphics绘图(GUI)图形用户界面绘画卡通人物
  8. 磁力开源项目和自己服务器,Github新项目:自己本地搭建磁力搜索系统
  9. IT男的15次相親經歷
  10. 数据链路层---差错检测和纠正