1.相关系数介绍

很多实物之间是相互有联系的,如:身体与体重、年龄与血压、高中成绩与高考成绩等,这些有关系的现象中,它们之间联系的程度和性质也各不相同。
相关分析属于数据分析流程前端的探索性分析,探究变量间关系及性质,其结果在于指导下一步采取何种方法,是数据挖掘之前的基础工作。

相关的含义

客观现象之间的数量联系存在者函数关系和相关关系。
当一个或者几个变量取定值时,另一个变量有确定的值与之对应,称为函数关系,可用Y=f(X)

  1. 当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。

  2. 相关关系不一定是因果关系

场景

相关分析之前,有必要搞清楚变量的类型,根据具体类型选择合适的相关系数。Pearson相关系数适用于两变量的度量水平都是尺度数据,并且两变量的总体是正态分布或者近似正态分布的情况,还有说法认为其样本量应大于30,可供参考,在这些条件之外的,考虑选择spearman系数或者kendall系数。

2.线性相关——Pearson相关系数

在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),有时也简称为PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。
Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。如果这两条件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。
步骤:
进行定性分析→绘制相关图→计算相关系数→相关系数检验

散点图

为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。
有以下相关类型:

作用: 粗略地给出了两个变量的相关类型与程度
通过相关散点图的形状,我们大概可以判断变量之间相关程度的强弱、方向和性质,但并不能得知其相关的确切程度。
为精确了解变量间的相关程度,还需作进一步统计分析,求出描述变量间相关程度与变化方向的量数,即相关系数。总体相关系数用p表示,样本相关系数用r表示。

3.相关系数r

变量的取值区间越大,观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠,如果数据较少,本不相关的两列变量,计算结果可能相关。
相关系数取值:-1<r<1
|r|表明两变量间相关的程度,r>0表示正相关,r<0表示负相关,r=0表示零相关。

|r|越接近于1,表明两变量相关程度越高,他们之间的关系越密切。

4.Pearson相关系数的计算

适用条件:

  1. 两变量均应由测量得到的连续变量。
  2. 两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布。
  3. 变量必须是成对的数据。
  4. 两变量间为线性关系。
  5. 离均差平方和、离均差积和的展开

5.相关系数的假设检验

在判断样本的r是否有意义,需与总体相关系数ρ=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于0是由于抽样误差所致,还是两个变量之间确实存在相关关系。
步骤:

  1. 提出假设
    H0:P=0 无关
    H1:p≠0 相关
  2. 确定显著水平 α=0.05
    如果从相关系数ρ=0的总体中取得r值的概率P>0.05,我们就接受假设,认为此r值很可能是从此总体中取得的。因此判断两变量间无显著关系;
    如果取得r值的概率P<=0.05或P<=0.01,我们就在α=0.05或α=0.01水准上拒绝检验假设,认为该r值不是来自ρ=0的总体,而是来自ρ≠0 的另一个总体,因此就判断两变量间有显著关系。
  3. 计算检验统计量,查表得到P值。拒绝H0,则两变量相关。否则,两变量无关。
    t检验法
    计算检验统计量tr,查t界值表,得到P值

6.相关注意事项

  1. 线性相关的前提条件是X、Y都服从正态分布(双变量正态分布)
  2. 当散点图有线性趋势时,才可进行线性相关分析
  3. 必须在假设检验认为相关的前提下才能以r的大小判断相关程度
  4. 相关关系不一定是因果关系,有可能是伴随关系

参考:https://wenku.baidu.com/view/31ab645377a20029bd64783e0912a21614797ffa.html
https://blog.csdn.net/liuyuan_jq/article/details/52517963
https://wenku.baidu.com/view/a75bc2b89ec3d5bbfd0a74d9.html

Pearson相关分析相关推荐

  1. spss相关性分析看结果_利用spss做Pearson相关性分析步骤详解

    有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础的一个功能应用,很多学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习的前提下,感觉云里雾里. ...

  2. pearson, kendall 和spearman三种相关分析方法的区别

    1. Pearson相关 http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient Pearson相关用于 ...

  3. 统计分析——相关分析

    Pearson相关分析(积差相关) Spearman相关分析 (秩相关) 典型相关分析

  4. mSystems: 中科院动物所王德华组揭示低温下野生动物肠道菌群提高存活率的机制...

    mSystems: 中科院动物所王德华研究团队揭示野生动物及其肠道菌群响应周期性温度波动的生理适应机制 肠道菌群调节宿主应对环境温度波动时的产热可塑性 Gut Microbiota and Host ...

  5. Cell:基因表达的改变和群落的更替塑造了全球海洋宏转录组

    编译:jiee,编辑:小菌菌.江舜尧. 导读 海洋微生物群落极大地影响着地球的生物地球化学循环.食物网和气候.尽管最近在理解海洋微生物的物种和基因组组成方面取得了进展,但对其转录组在全球范围内的变化知 ...

  6. Microbiome:中科院遗传发育所揭示植物发育和氮肥共同作用下的小麦根系微生物组...

    植物发育和氮肥共同作用下的小麦根系微生物群落变化 Root-associated microbiomes of wheat under the combined effect of plant dev ...

  7. Microbiome:植物发育和氮肥共同作用下的小麦根系微生物组

    文章目录 植物发育和氮肥共同作用下的小麦根系微生物群落变化 日报 摘要 背景 方法 结果 结论 背景 结果 根系分泌物及根际中的碳 细菌群落对植物发育和氮肥的响应 表1. 根据冗余分析(RDA),不同 ...

  8. 参考平面及其高度_GCB | 盐沼和红树林湿地类型的转变会改变亚热带湿地对于海平面上升的脆弱性么?...

    导读 为了避免海平面上升时被淹没,滨海湿地通过无机沉积物和有机质的积累使土壤表层垂直升高.由于气候变暖,红树林正在扩张并取代盐沼的气候边界,导致滨海湿地应对海平面上升的能力可能会改变.为了比较红树林和 ...

  9. spss多元非线性曲线拟合_快速掌握SPSS数据分析

    在和SPSSAU的用户交流中,我们发现本是非常简单的数据分析原理以及软件工具,结果非常多的同学完全不会SPSS数据分析,不知道如何学习,即使学过相关原理,但对具体数据进行分析时也有非常多问题. 这不禁 ...

  10. spark的数三角形算法_数据算法 Hadoop Spark大数据处理技巧 PDF 下载

    相关截图: 资料简介: 本书介绍了很多基本设计模式.优化技术和数据挖掘及机器学习解决方案,以解决生物信息学.基因组学.统计和社交网络分析等领域的很多问题.这本书还概要介绍了MapReduce.Hado ...

最新文章

  1. Android项目中的assets和raw文件夹
  2. appium+python自动化33-解锁九宫格(TouchAction)
  3. java技术详解_Java反射技术详解及实例解析
  4. 计算机考试中英文打字题,五笔及中英文打字试题(2套)含答案.docx
  5. 打脸了!中通快递曾否认用假人充当安检员,官方反手一记实锤
  6. linux sleeping进程多_一文掌握Linux实战技能系统管理篇
  7. vi/Vim的快速使用
  8. 小程序入门学习10--云开发03
  9. CCCC-GPLT L1-034. 点赞 团体程序设计天梯赛
  10. MyBatis动态SQL的List传值错误
  11. java中json转对象_Java开发中json使用,各对象与json相互转换
  12. 《古诗词-劝学惜时大全》
  13. PS进阶抠图详解(可以处理头发)
  14. photoshop 技巧
  15. Android调用摄像头--农民伯伯原文
  16. 360浏览器网页按钮点击无效
  17. CSDN怎么下载文件
  18. matlab里面atn是什么意思,matlab教程第一章
  19. 计算机控制实验室装置,新型自控原理/计算机控制多功能实验装置
  20. 使用python爬取中国电影票房数据并写入csv文件

热门文章

  1. 搜索进阶-迭代加深搜索
  2. windows提示“为了对电脑进行保护,已经阻止此应用”的解决方案 mmc.exe
  3. Vue - 中文汉字转拼音(工具函数封装)
  4. 计算机应用if函数题目,if函数练习题.doc
  5. 每一首歌曲的背后都有一段感人的故事……
  6. 计算机表格的条件公式,电脑Excel输出时如何进行多条件判断
  7. 无线AP,无线中继器与无线路由
  8. 无线路由器的五种工作模式
  9. 数据可视化看板怎么搭建,这样做小白能看懂
  10. ES3~ES7的数组方法