R语言实战笔记 基本统计分析-相关
相关
相关系数可以用来描述定量变量之间的关系。
将使用R基础安装中的state.x77数据集,提供了美国50个州在1977年的人口、收入、文盲率、预期寿命、谋杀率和高中毕业率数据等。
数据如下:
相关的类型
Pearson、Spearman和Kendall相关:
可以用cor(x, use= , method= )函数计算三种相关系数。而cov()函数可用来计算协方差。
cor和cov的参数:
x:矩阵或数据框
use:指定缺失数据的处理方式。可选的方式为all.obs(假设不存在缺失数据——遇到缺失数据时将报错)、everything(遇到缺失数据时,相关系数的计算结果将被设为missing)、complete.obs(行删除)以及pairwise.complete.obs(成对删除,pairwise deletion)
method:指定相关系数的类型。可选类型为pearson、spearman或kendall。
> states<-state.x77[,1:6]
> cov(states)
> cor(states)
> cor(states,method = "spearman")
cov()计算了方差和协方差
第一个cor()计算了Pearson积差相关系数
第二个cor()计算了Spearman登记相关系数(可以看到收入和高中毕业率之间存在很强的正相关,而文盲率和预期寿命之间存在很强的负相关)
默认情况下得到的结果是一个方阵。你同样可以计算非方形的相关矩阵。
> x<-states[,c("Population","Income","Illiteracy","HS Grad")]
> y<-states[,c("Life Exp","Murder")]
> cor(x,y)
偏相关
偏相关是指在控制一个或多个定量变量时,另外两个定量变量之间的相互关系。
函数格式:pcor(u , s)
u是一个数值向量,前两个数值表示要计算相关系数的变量下标,其余的数值为条件变量(即要排除影响的变量)的下标。
S为变量的协方差阵。
> library(ggm)
> colnames(states)
> pcor(c(1,5,2,3,6),cov(states))
在控制了收入、文盲率和高中毕业率的影响时,人口和谋杀率之间的相关系数为0.346。偏相关系数常用于社会科学的研究中。
其他类型的相关
polycor 包中的 hetcor() 函数可以计算一种混合的相关矩阵,其中包括数值型变量的Pearson积差相关系数、数值型变量和有序变量之间的多系列相关系数、有序变量之间的多分格相关系数以及二分变量之间的四分相关系数。
相关性的显著性检验
在计算好相关系数后,要进行统计显著性检验。
常用原假设为变量间不相关(即总体的相关系数为0)。
- cor.test(x, y, alternative = , method = )
cor.test(x, y, alternative = , method = )对单个的Pearson、Spearman和Kendall相关系数进行检验。
x和y:要检验相关性的变量;
alternative:用来指定进行双侧检验或单侧检验(“two.side”、“less”、“greater”);
method:用以指定要计算的相关类型(“pearson”、“kendall”、“spearman”);
> cor.test(states[,3],states[,5])
检验了预期寿命和谋杀率的Pearson相关系数为0的原假设。在一千万次中只会有少于一次的机会见到0.703这样大的样本相关度(即p=1.258e–08)。拒绝原假设。即预期寿命和
谋杀率之间的总体相关度不为0。
- corr.test()
corr.test()函数可以计算相关矩阵和显著性水平。
use= 的取值可为 “pairwise” 或 “complete” (分别表示对缺失值执行成对删除或行删除)。
method= 的取值可为 “pearson” (默认值)、 “spearman” 或 “kendall”
> library(psych)
> corr.test(states,use="complete")
这里可以看到,人口数量和高中毕业率的相关系数(–0.10)并不显著地不为0(p=0.5)。
其他显著性检验
- pcor.test(r, q, n)
psych包中的pcor.test(r, q, n)函数可以用来检验在控制一个或多个额外变量时两个变量之间的条件独立性。
r是由pcor()函数计算得到的偏相关系数
q是要控制的变量数(用数值表示位置)
n为样本大小
R语言实战笔记 基本统计分析-相关相关推荐
- R语言实战笔记 基本统计分析-频数列联表和简单的独立性检验
描述性统计分析 使用车辆路试(mtcars)数据集.关注每加仑汽油行驶英里数(mpg),马力(hp),车重(wt). > myvars<-c("mpg","h ...
- R语言实战笔记--第十五章 处理缺失数据
R语言实战笔记–第十五章 处理缺失数据 标签(空格分隔): R语言 处理缺失数据 VIM mice 缺失值(NA),是导致我们计算错误的一大来源,处理缺失数据在实际的应用中有着较为重要的作用. 基本方 ...
- R语言实战笔记--第十二章 重抽样(置换检验)与自助法
R语言实战笔记–第十二章 重抽样(置换检验)与自助法 标签(空格分隔): R语言 重抽样 自助法 置换检验 置换检验 双样本均值检验的时候,假设检验的方法就是,检查正态性.独立性.方差齐性,分别对应的 ...
- R语言实战笔记--第十四章 主成分和因子分析
R语言实战笔记–第十四章 主成分和因子分析 标签(空格分隔): R语言 主成分分析 因子分析 原理及区别 主成分分析与因子分析很接近,其目的均是为了降维,以更简洁的数据去解释结果,但这两种方法其实是相 ...
- R语言实战笔记--第四五章 数据管理
R语言实战笔记–第四&五章 数据管理 标签(空格分隔): R语言 第四.第五章都是说的数据管理,合并在一起做个总结,在个人看来,数据管理是一件非常繁琐的事情,但是,每个统计的前提都是一个合适的 ...
- R语言实战笔记--第九章 方差分析
R语言实战笔记–第九章 方差分析 标签(空格分隔): R语言 方差分析 术语 组间因子,组内因子,水平:组间因子和组同因子的区别是,组间因子对所有测试对象进行分组,而组内因子则把所有测试对象归为同一组 ...
- R语言实战笔记--第八章 OLS回归分析
R语言实战笔记–第八章 OLS回归分析 标签(空格分隔): R语言 回归分析 首先,是之前的文章,数理统计里面的简单回归分析,这里简单回顾一下: 简单回归分析的原理:最小二乘法,即使回归函数与实际值之 ...
- R语言实战之描述性统计分析
R语言实战之描述性统计分析 下面展示一些 描述性统计分析的R代码语言. vars <- c("mpg","hp","wt") head ...
- R语言mad(c(1 2 3 4)),R语言--数据管理-R语言实战笔记-第四五章
第四.第五章都是说的数据管理,合并在一起做个总结,在个人看来,数据管理是一件非常繁琐的事情,但是,每个统计的前提都是一个合适的数据样本,对的,"合适",做到合适可不是一个简单的事情 ...
最新文章
- 这才是世界排名前十位的奢侈品
- tomcat6 配置web管理端访问权限
- 8张图带你理解Java整个只是网络(转载)
- linux中DNS的介绍及DNS的高速缓存
- 睡还是被睡,这是一个问题!
- 下列选项中不属于python循环语句的是哪一项_下列选项中,不属于字典操作的方法是哪一项?_学小易找答案...
- Android安全笔记-Broadcast基本概念
- input之question
- IE10 访问 ASP.NET 站点的问题
- 讨论生活中什么样东西可以何种变量描述找出生活中顺序执行事情用c语言,《C语言程序设计》实验指导书...
- 设计模式之构造函数模式
- python selenium 弹出框定位_selenium弹框元素定位-冻结界面
- 股票数据下载-如何下载股票历史行情数据?
- addEventListener和attachEvent
- 河北单招2021计算机类,2021河北省单招十大类专业
- 二胎政策来袭 职场妈妈生还是升
- 中移动TD-LTE及对终端的要求
- C#+SQL Server工资管理系统
- kindle 更新_如何手动更新您的Kindle
- 橙汁的面试经验汇总(百度、平安壹钱包、诺瓦、快手、bigo、海信、奇安信、小米、迈瑞医疗、顺丰、网易互娱、多益游戏、京东、穆迪)