分类变量、有序变量与数值变量相关性分析方法总结及 R 语言应用
文章目录
- 一、分类 & 分类·相关性分析
- 二、有序 & 有序·相关性分析
- 三、数值 & 数值·相关性分析
- 四、分类 & 有序·相关性分析
- 五、分类 & 数值·相关性分析
- 六、有序 & 数值·相关性分析
- 本文全部假设显著性水平为0.05,特殊说明的除外。
一、分类 & 分类·相关性分析
分类变量分析方法的选取与数据状态有较大相关性,计数据样本量为n,两变量交叉单元格数据为T。
卡方检验
卡方检验科用于对二维列联表的行变量和列变量的相关性检验,只能反应相关统计学意义,无法分析相关性强度
· 当所有T≥5并且总样本量n≥40,用Pearson卡方进行检验
· 当T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验
「R语言」> chisq.test(x1,x2)
样本量不够会提示检测结果可能不准确(Chi-squared approximation may be incorrect):
样本量够大后正常。p值小于0.05,str1与str2之间有显著相关关系。Fisher精确检验
可以用于检验任何 R×CR\times CR×C 数据之间的相关关系(也可用于分析2*2数据)。与卡方检验只能拟合近似分布不同的是,Fisher精确检验可以分析精确分布,更适合分析小样本数据。
· T<1或n<40,则用Fisher’s检验
「R语言」> fisher.test(x1,x2)
· R 中fisher.test()可以在任意行列数大于等于2的二维列联表中使用,但不能用于2×2的列联表,2(a/b)×2(s/t)报错如下:
2(a/b)×4(a/b/c/d)可以。p值小于0.05,str1与str3有显著相关性
2(a/b)×3(a/b/c)也行。p值大于0.05,str1和str4没啥关系Cochran-Mantel-Haenszel检验
Cochran-Mantel-Haenszel检验的原假设为:两个名义变量(x1,x2)在第三个变量(x3)的每一层中都是条件独立的
「R语言」> mantelaen.test(x1,x2,x3)
二、有序 & 有序·相关性分析
(一)当有序分类不能认为是定距时(比如三等奖和二等奖的差异与二等奖和一等奖的差异一般不同):
- Spearman相关
Spearman相关又称Spearman秩相关,用于检验有序变量(相关性检验对象中至少一个是定序的)或不满足正态分布假设的等间隔数据的关联强度和关联性质。
「R语言」> cor.test(x1, x2, method = “spearman”) x1, x2均为数值形式变量,为原变量的秩数。 - Kendall’s tau-b(肯德尔)等级相关系数
Kendall’s tau-b 相关系数是用于检验至少有一个有序分类变量关联强度和方向的非参数分析方法。该检验与Spearman相关的应用范围基本一致,但更适用于存在多种关联的数据(如列联表)。
(二)当可以认为是定距时:
- Mantel-Haenszel 趋势检验
该检验也被称为Mantel-Haenszel 卡方检验、Mantel-Haenszel 趋势卡方检验。该检验根据研究者对有序分类变量类别的赋值,判断两个有序分类变量之间的线性趋势
三、数值 & 数值·相关性分析
Pearson相关系数
Pearson相关系数度量了两个连续变量之间的线性相关程度
「R语言」> cor( x1,x2,method=‘pearson’)Spearman相关系数
Spearman等级相关系数可以衡量非线性关系变量间的相关系数,是一种非参数的统计方法,可以用于定序变量或不满足正态分布假设的等间隔数据;
「R语言」> cor( x1,x2,method=‘spearman’)KKendall秩相关系数
Kendall秩相关系数也是一种非参数的等级相关度量,类似于Spearman等级相关系数。
「R语言」> cor( x1,x2,method=‘kendall’)
- 「R」stata包:chisq.test() , fisher.test(), mantelhaen.test() , cor()
-cor() 函数最重要的参数为 X,use,method。
---- X即指定分析的变量;
---- use指定缺失值处理的方法:all.obs则假设不存在缺失数据,遇到缺失数据时将会报错;everything遇到缺失数据时,结果将返回missing;complete.obs进行行删除;pairwise.complete.obs则成对删除
---- method指明计算相关系数的方法:pearson、spearman、kendall
四、分类 & 有序·相关性分析
(一)有序变量 X1X_1X1 & 二分类变量X2X_2X2
无因果关系:
1.1 Biserial秩相关:
Biserial秩相关可以用于分析二分类变量和有序分类变量之间的相关性。在用二分类变量预测有序分类变量时,该检验又称为Somers’ d检验。此外,Mann-Whitney U检验也可以输出Biserial秩相关结果。有序变量为因变量:
2.1 有序Logistic回归
有序Logistic回归在本质上并不是为了分析二分类变量和有序分类变量之间的相关性。但我们仍可以用有序logistic回归及其对应的OR值判断这两类变量之间的统计学关联。二分变量为因变量:
3.1 Cochran-Armitage 检验
Cochran-Armitage 检验又称Cochran-Armitage 趋势检验,常用于分析有序分类自变量和二分类因变量之间的线性趋势。该检验可以判断随着有序分类变量的增加,二分类因变量比例的变化趋势,是对其线性趋势的统计学分析。
3.2 Mantel-Haenszel卡方检验:
Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。要求一个变量是有序的,另一个变量可为二分类也可为多分类。
3.3 Cochran-Armitage趋势检验:
Cochran-Armitage 趋势检验要求一个变量是有序分类变量,另一个变量是二分类变量。
(二)有序变量 X1X_1X1 & 多分类变量X2X_2X2
- Mantel-Haenszel卡方检验:
Mantel-Haenszel卡方检验也称线性趋势检验(Test for Linear Trend)或定序检验(Linear by Linear Test)。要求一个变量是有序的,另一个变量可为二分类也可为多分类。
五、分类 & 数值·相关性分析
(一)数值变量 X1X_1X1 & 二分类变量X2X_2X2:ttt 检验等
- Point-biserial 相关性分析
Point-biserial相关是Pearson相关的一种特殊形式,适用于分析二分类变量和连续变量之间的相关性 - ttt 检验 :
相当于检验不同X2X_2X2对应的X1X_1X1是否有差异,有显著差异则相关,无显著差异则无法说明其相关(运用假设检验的原因不能直接说不相关)。注意这里的 p 值代表检验结果显著程度,与相关程度无直接关系。
(二)数值变量 X1X_1X1 & 多分类变量X2X_2X2:单因素方差分析等
- ANOVA:
跟 t 检验一个原理,就是分类变量的类别超过2类后也适用。p 值小于显著水平则两变量具有一定的相关性,若 p 值大于显著性水平则无法证明两变量具有相关性(运用假设检验的原因不能直接说不相关),同样 p 值代表检验结果显著程度,与相关程度无直接关系。
六、有序 & 数值·相关性分析
没有专门针对有序变量和数值变量相关性分析的方法,一般将连续变量视为有序变量,按照有序 & 有序的方法进行分析
- 相关关系不是因果关系,相关关系是对称的。如果a和b是正相关关系,a会随着b的增加而增加,那么反过来b也会随着a的增加而增加,无论发现哪种现象,都能说明a和b之间存在正相关关系。本文评论中很多朋友纠结于x是什么,y是什么,实际上如果只是研究相关关系,x与y是可以互换的,关于相关关系的结论不会受影响。但如果朋友们研究的是因果关系,那么单纯相关分析是不足够的,需要更为进阶的模型来辅助研究。
分类变量、有序变量与数值变量相关性分析方法总结及 R 语言应用相关推荐
- R语言置换检验(permutation tests、响应变量是否独立于组、两个数值变量是独立的吗、两个分类变量是独立的吗)、置换检验的基本步骤、R语言自助法Bootstrapping计算置信区间
R语言置换检验(permutation tests.响应变量是否独立于组.两个数值变量是独立的吗.两个分类变量是独立的吗).置换检验的基本步骤.R语言自助法Bootstrapping.自助法计算单个统 ...
- python基于pingouin包进行统计分析:使用partial_corr函数执行两个变量之间的偏相关性检验、covar参数指定对应的协变量(多个)、method参数指定相关性分析方法
python基于pingouin包进行统计分析:使用partial_corr函数执行两个变量之间的偏相关性检验.covar参数指定对应的协变量(多个).method参数指定相关性分析方法.altern ...
- SPSS常用的相关性分析方法解析(转载)
相关性分析旨在分析两组数据之间是否相互影响,彼此是否独立的变动.SPSS内部提供了多种分析数据相关性的方法:卡方检验(Chi-SquareTest),Pearson相关系数计算,Spearman相关系 ...
- 相关性分析方法(Pearson、Spearman)
有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能 ...
- R语言自定义多分类混淆矩阵可视化函数(mutlti class confusion matrix)、R语言多分类混淆矩阵可视化
R语言自定义多分类混淆矩阵可视化函数(mutlti class confusion matrix).R语言多分类混淆矩阵可视化 目录
- 分类型变量预测连续型变量_SPSS中的Variable数据变量类型介绍,一次性弄清无序分类变量、有序分类变量、 离散型数值变量、连续型数值变量的区别!...
变量的概念:变量也就是就是一种可以进行测量的数据条目(data item),对于定义变量在统计里非常重要,特别是在进行SPSS分析的时候,需要明确定义一个变量的性质.打开SPSS软件时,数据录入界面上 ...
- 如何选择相关性分析方法
关注"心仪脑"查看更多脑科学知识的分享. 我们说研究变量之间的关系主要有两种,一种是函数关系,一种是相关关系. 相关性分析主要用于:(1)判断两个或多个变量之间的统计学关联:(2) ...
- r语言转化为python_数值型与字符型转换总结|R语言
在日常碰到问题时出现当前"数据类型不能进行操作"的提示时还是有些脑壳疼,所以这次整理了针对R数据类型转换的总结.理论部分主要是R for Data Science的向量节选翻译.& ...
- r 字符串转化为数值_玩转数据处理120题R语言版本
点击上方"早起Python",关注并星标公众号 和我一起玩Python 本文为玩转数据处理120题|R语言版本 习题|刘早起,解答|陈熹 大家好,本文为R语言数据处理120题系列完 ...
最新文章
- 布局文件中fill_parent、match_parent和wrap_content有什么区别?
- Hadoop详解(四):HDFS shell操作和Java API操作
- day19 生成器函数
- 批创建清账凭证,POSTING_INTERFACE_CLEARING
- [云炬创业学笔记]第二章决定成为创业者测试7
- 【LeetCode】69. Sqrt(x) (2 solutions)
- python---tuple元祖
- 机器学习也可以在线做!
- 编程之美读书笔记之-高效率的安排见面会
- 修改网页代码_网站建设中使用简洁规范代码的重要性
- 四级口语计算机对话,四级英语口语对话常用的句子
- matlab硬币覆盖问题和八皇后,八皇后问题matlab程序
- 为什么别的手机都能接收wifi,而红米手机却收不到?
- linux基本命令示例_Linux ps命令– 20个真实示例
- sunlight的中文_DianaVickersSunlight中文歌词
- PS下载Adobe Photoshop 2020中文安装教程 亲测可用
- JS逆向加密——AES加密解密
- 前端的长度单位有哪些
- 通过U盘安装windows简易教程
- dede标签云(TAG)随机颜色及大小的实现方法