原始数据:

结果


用R实现:
统计学里,比较重要的方法,一个是协方差分析,另一个就是偏相关分析了。
协方差分析,就是在回归分析的基础上进行建模,找出去除混杂变量后,两个变量是否有显著关系,在R语言中公式如下:

summary(aov(y ~ x1+x2)) # x1是混淆变量,x2是组别。

相关性分析的原理也很简单,就是用y~x建立一元回归模型f(x),然后用实际的x减去模型预测的x,再根据差值分布求得p值。
偏相关分析的原理:

如上图,如果我们想考察X1和X2的偏相关系数,控制变量为z1, z2, z3…(所以控制变量可以是多个)。
首先,分别以X1和X2为因变量,以z1, z2, z3…为自变量,做多重线性回归(后面我们会详细讲解线性回归的内容),获得X1和X2的预测值(“^”表示预测值的意思,一般读作“hat”);
然后,分别计算残差(实际值-预测值),再对所得到的残差计算Pearson相关系数,结果即为X1和X2的偏相关系数。
逻辑很简单,总结而言,就是“先回归、求残差、再相关”。

R语言实现:

可以看出,spss算出来的皮尔逊相关系数 r 是0.972,p值=0.000,
用R的cor.test( )算出来的是cor=0.9723924,p值=0.000,跟spss一模一样。
接下来计算偏相关分析:
使用ggm包的pcor.test
pcor.test()

usage: pcor.test(r, q, n)
r : a partial correlation coefficient, computed by pcor. #pcor的结果
q :the number of variables in the conditioning set. #条件集个数
n :integer > 0, the sample size. # 样本量
结果:
tval : The Student’s t-test statistic.
df : The degrees of freedom
pvalue : The P-value, assuming a two-sided alternative.

pcor()

usage: pcor(u, S)
u是指定的要计算其相关性的变量的指数
S是样本的协方差矩阵

具体到这个数据,S就是cov(data),然后u就是c(1,2,3),这样就是冷饮销量与游泳的偏相关。如果是c(1,3,2),那就是冷饮与气温的偏相关。总之1和2必须是要计算相关性的两个变量的矩阵位置。
代码如下:

pcor.test(pcor(c(1,2,3), cov(data)), 1,11)


可以看到,pvalue是0.551,自由度是8,和spss一样,不过没有看到相关系数rho,这就很难受了。

还有另一种更好的实现方法,就是ppcor包的pcor()。

可以看到,ppcor::pcor可以直接输出数据框的所有排列组合,我们看冷饮效率对应的游泳人数,它的estimate其实就是估算的r值,也就是0.2149504,因此r=0.2149=0.2150,跟spss一模一样;它的p值是0.5509256,p=0.551跟spss一样,statistic就是t值,t=0.6225229和前面的一模一样。其余的结果为:n代表样本量11个,gp代表the number of given variables,即条件集的数量,method表示使用的方法,这个是用的和spss差不多的流程自动选择方法,很方便。
所以我还是推荐使用ppcor包,而不要用ggm包,没有R值太难受了。

补充一种更方便的方法:ppcor包的pcor.test()函数,太绝了!

pcor.test

usage:
pcor.test(x, y, z, method = c(“pearson”, “kendall”, “spearman”))
x : a numeric vector.
y: a numeric vector.
z: a numeric vector.
结果:
estimate :the partial correlation coefficient between two variables
p.value :the p value of the test
statistic :the value of the test statistic
n :the number of samples
gn :the number of given variables
method :the correlation method used

其中要注意的是,多个条件变量的话,需要是一个向量集合,例如下面:

!!!一定要注意的是,使用pcor.test的时候,一定要看清楚自由度n,以及gp值是否正确,尤其是对于两个数据库的调用比较,要使用colbind函数把比较的变量值首先合并再进行pcor.test,不要直接c(),后者会有很明显的代码错误,这个细节很容易被忽视掉。

R语言相关性分析与偏相关分析相关推荐

  1. R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战

    R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战 目录 R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战

  2. R-GIS: 如何用R语言实现GIS地理空间分析及模型预测

    前言:随着地理信息系统(GIS)和大尺度研究的发展,空间数据的管理.统计与制图变得越来越重要.R语言在数据分析.挖掘和可视化中发挥着重要的作用,其中在空间分析方面扮演着重要角色,与空间相关的包的数量也 ...

  3. R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性...

    报告链接:http://tecdat.cn/?p=32161 本文通过建立空载率的数学模型,帮助客户来分析出租车的空载率,从而对出租车补贴政策能否提高高峰期的实载率,缓解打车难问题进行了说明(点击文末 ...

  4. r语言 bsda包_使用R语言creditmodel包进行Vintage分析或留存率分析

    1 什么是vintage分析? Vintage分析(账龄分析法)被广泛应用于信用卡及信贷行业,这个概念起源于葡萄酒,即不同年份出产的葡萄酒的品质有差异,那么不同时期开户或者放款的资产质量也有差异,其核 ...

  5. R语言使用survminer包生存分析及可视化(ggsurvplot)实战详解:从数据集导入、生存对象生成、ggsurvplot可视化参数配置、设置、可视化对比

    R语言使用survminer包生存分析及可视化(ggsurvplot)实战详解:从数据集导入.生存对象生成.ggsurvplot可视化参数配置.设置.可视化对比 目录 R语言使用survminer包生 ...

  6. R语言Logistic回归模型案例:分析吸烟、饮酒与食管癌的关系

    R语言Logistic回归模型案例:分析吸烟.饮酒与食管癌的关系 目录 R语言Logistic回归模型案例分析吸烟.饮酒与食管癌的关系 #样例数据

  7. R语言临床诊断试验的ROC分析方法示例

    R语言临床诊断试验的ROC分析方法示例 ROC(receiver operating characteristic curve)接收者操作特征曲线,是由二战中的电子工程师和雷达工程师发明用来侦测战场上 ...

  8. 单因素方差分析_基于R语言开展方差分析(一)——单因素方差分析

    基本原理 方差分析(Analysis of variance, ANOVA)是用于两个或两个以上样本均数比较的方法,还可以分析两个或多个研究因素的交互交互作用以及回归方程的线性假设检验等.其基本思想是 ...

  9. 《R语言机器学习:实用案例分析》——1.2节R的数据结构

    本节书摘来自华章社区<R语言机器学习:实用案例分析>一书中的第1章,第1.2节R的数据结构,作者[印度] 拉格哈夫·巴利(Raghav Bali)迪潘简·撒卡尔(Dipanjan Sark ...

  10. 《R语言机器学习:实用案例分析》——1.3节使用函数

    本节书摘来自华章社区<R语言机器学习:实用案例分析>一书中的第1章,第1.3节使用函数,作者[印度] 拉格哈夫·巴利(Raghav Bali)迪潘简·撒卡尔(Dipanjan Sarkar ...

最新文章

  1. iphone黑屏转圈_iphone7无限转圈黑屏怎么回事?
  2. 拉取ftp服务器上的文件_winscp和云服务器,2步实现winscp将文件上传到腾讯云Linux云服务器...
  3. 【ArcGIS风暴】基于ArcGIS空间分析功能研究渭河流域镇驻地空间分布格局
  4. F# 与 WPF 之多语言实现MVVM(二)
  5. 增长是一切企业问题解决的入口
  6. 通过 AnyTrans 将照片从 Mac 传输到 iPhone,无需 iTunes
  7. 【数据结构 严蔚敏版】 循环队列 基本操作
  8. 推荐系统实践:基于数据集MovieLens构造简单推荐系统
  9. 2019建模美赛B题(派送无人机)M奖论文
  10. 详解如何运用技术手段查处公车私用和超速行驶
  11. ACM 国际大学生程序设计竞赛简介
  12. Unicode双向算法详解(bidi算法)(一)
  13. 守护客户数据价值:企业级NewSQL HTAP分布式云TBase架构详解
  14. 根据视频URL解析视频信息(本地|网络)
  15. 蓝桥杯_大胖子走迷宫
  16. ceph rgw lc工作流程
  17. 英国脱欧对中国光伏产业的短期及长期影响
  18. 2016年蓝桥杯预赛第十题最大比例
  19. av_bitstream_filter_init声明为已否决
  20. 【自然语言处理】 知识融入方法

热门文章

  1. win10搜索框没反应或者搜索太慢,看这篇就够了
  2. 2021河北计算机专接本考试复习资料
  3. c语言怎么查找中文字符,C语言自学,汉字编码范围查询!
  4. 龙之谷冰龙linux手工服务端,【网游】【龙之谷】v300冰龙巢穴一键服务端+客户端+GM工具+视频教程...
  5. 特洛伊木马与计算机病毒有什么区别,特洛伊木马Vs病毒Vs蠕虫, 有什么区别?...
  6. 鲍威尔法c语言程序详解,鲍威尔法编程-powell法编程 c语言编程 c++6.0
  7. 自己仿的一个网页,比较适合小白入门
  8. 淘宝/天猫API:item_search_jupage-天天特价
  9. 【云计算】云的七大分类定义说明
  10. 安装KETTLE教程,并配置执行定时任务