本文介绍相关性,以及如何在R中计算多个变量之间的相关性。

相关性

相关性是统计学中术语,它使用协方差法来衡量向量之间的相关性程度。
数学上公式为:

  • x 表示数据向量x
  • y 表示数据向量y
  • x 拔 表示x的均值
  • y 拔 表示y的均值

R 中使用cor函数计算相关性。语法如下:

cor(x, y, method)

x 和 y 表示数据向量,method 指定计算相关性的方法,默认为 pearson
皮尔逊相关系数是量化两个变量之间的相关性,即两个变量的线性关系,其值在-1到1之间:

  • -1 表示两个变量完全负相关
  • 0 表示两个变量没有相关性
  • 1 表示两个变量完全正相关

示例:

首先定义数据框,然后我们判断各个变量的相关性:


# library(pacman)
# p_load(devtools)
# p_load(DBI)
library(dplyr)df <- tibble(a = c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23),b = c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43),c = c(13, 14, 14, 14, 15, 17, 18, 19, 22, 20, 24, 26),d = c(6, 6, 7, 8, 8, 8, 7, 6, 5, 3, 3, 2))##  计算a , b 之间的相关性
cor(df$a, df$b)
# [1] 0.9279869##  计算多个变量之间的相关性
# cor(df[,-1])
cor(df[,c(2,3,4)])#            b          c          d
# b  1.0000000  0.8942139 -0.7917973
# c  0.8942139  1.0000000 -0.8063549
# d -0.7917973 -0.8063549  1.0000000cor(df)#            a          b          c          d
# a  1.0000000  0.9279869  0.9604329 -0.7915488
# b  0.9279869  1.0000000  0.8942139 -0.7917973
# c  0.9604329  0.8942139  1.0000000 -0.8063549
# d -0.7915488 -0.7917973 -0.8063549  1.0000000## 仅数值列计算相关性
# cor(df[,unlist(lapply(df, is.numeric))])
cor(df[, sapply(df, is.numeric)])
#            a          b          c          d
# a  1.0000000  0.9279869  0.9604329 -0.7915488
# b  0.9279869  1.0000000  0.8942139 -0.7917973
# c  0.9604329  0.8942139  1.0000000 -0.8063549
# d -0.7915488 -0.7917973 -0.8063549  1.0000000

相关性可视化

下面的代码展示了如何创建成对变量的相关性可视化图,让你快速浏览每对变量之间的关系:

#load psych package
library(psych)#create pairs plot
pairs.panels(df)

R 计算变量之间的相关性相关推荐

  1. 最大信息系数——检测变量之间非线性相关性

    https://blog.csdn.net/qtlyx/article/details/50780400 最后的效果就是这样的.很明显可以看到,左下角那个有点像三角函数的关系,Pearson系数(就是 ...

  2. 变量之间的相关性研究

    目录 1 什么是相关性? 协方差及协方差矩阵 相关系数 (1)简单相关分析 (2)偏相关分析 (3)复相关分析 (4)典型相关分析 2 对已有数据的预分析 2.1 绘制变量相关的热力图 2.2 对热力 ...

  3. 变量之间的相关性:协方差、相关系数

    协方差 方差和标准差衡量的是一个变量(一组数据)的离散程度,也就是变量和均值之间的偏离程度. 协方差衡量的是两个变量之间的相关性,如: 正相关:两个变量具有相同的变化趋势(也称同方向),要么同时变大, ...

  4. NLP之【点互信息PMI】——衡量两变量之间的相关性

    点互信息PMI--衡量两变量之间的相关性 绪论 一.PMI的基本概念 二.调用Python nltk来计算两个词的PMI 三.根据词语的共现频次表自定义PMI函数计算 附录:nltk.download ...

  5. 用pwcorr命令求变量之间的相关性如何加不同的星号?

    用pwcorr命令求变量之间的相关性如何加不同的星号? pwcorr命令中的star只能加一个星号,在连玉君老师的https://gitee.com/arlionn/pwcorr_a博客连接中下载pw ...

  6. 两变量之间的相关性分析

    目录 0. 基本概念 1. 卡方检测 2. Eta系数 3. Pearson系数 (1) 适用条件 (2) 系数公式 (3) t检验 4. Spearman等级相关系数 (1) 适用情况 (2) 计算 ...

  7. R 计算时间序列的交叉相关性教程

    本文介绍两个时间序列的交叉相关性,并通过示例说明R的计算过程. 时间序列交叉相关性 交叉相关性是衡量一个时间序列与另一个时间序列的延迟版本的相似程度.这种类型相关性可以用于预测另一个时间序列的未来值, ...

  8. python有哪些软件包用来考察变量之间的相关性_Python计算数据相关系数(person、Kendall、spearman)...

    pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  9. 如何用python进行相关性分析_如何在python中检查连续变量和分类变量之间的相关性?...

    将分类变量转换为虚拟变量,并将变量放在numpy.array中.例如: data.csv:age,size,color_head 4,50,black 9,100,blonde 12,120,brow ...

  10. 如何确定变量之间的相关性,是否是线性,是否正相关

    根据相关系数,y与x1-x9的关系都非常密切(r > 0.8,ρ < 0.001),财政收入与城乡居民储蓄存款年底余额之间关系最为密切(r = 0.995,ρ < 0.001) 相关 ...

最新文章

  1. Rocksdb iterator和snapshot 接口
  2. Ajax回退刷新页面问题的解决办法
  3. 160 - 9 Andrnalin.2
  4. db2存储结构换Oracle,DB2中实现Oracle的功能
  5. 计算机软件著作权奖励资金绩效目标,专项资金项目绩效目标表.pdf
  6. 计算机语言中tc是什么,新人必须了解的几个TC常用语和脚本基础知识!
  7. 计算机网络转本文科,江苏专转本计算机经验总结
  8. winform文件迁移工具
  9. AngularJS 后台交互
  10. 玩转地图投影公式,通过例题对兰伯特投影与墨卡托投影求取正反解
  11. 广数系统加工中心编程_加工中心宏程序编程应用案例分享
  12. Proteus仿真:使用8255输出连续方波
  13. 前后端RSA加密梳理
  14. 如何在 R 中计算二项式置信区间
  15. C++实现CS模型(计算机网络)
  16. !impotent的标准支持
  17. 深入理解tensorflow架构设计与实现原理(彭靖田著)
  18. 欧洲游记之—— 路过荷兰
  19. 南昌工学院计算机挂科率,南昌工学院一年预科心声
  20. 除烟超猛的油烟机,还有智慧内核加持,云米AI烟灶套装体验

热门文章

  1. 进化树软件ete3报错记录
  2. class uesrfun.php,帝国cms教程:列表页面批量添加Tags -电脑资料
  3. 【STC单片机学习】第二课:单片机是什么东西
  4. 隐私权斗士库克:出身平凡 从小喜欢伸张正义
  5. linux 下显示隐藏文件夹
  6. c语言自定义函数乘方,C语言中的乘方函数是什么?怎么写?
  7. 人生感悟:名利如云烟
  8. 基于Python的jieba分词和词云展示
  9. javascript的生命周期
  10. html打砖块游戏制作,JavaScript实现打砖块游戏