在做数据分析时,为了提炼观点,相关性分析是必不可少,而且尤为重要的一个环节。但是,对于不同类型的数据,相关性分析的方法都各不相同。本文,主要按照不同的数据类型,来对各种相关性分析方法进行梳理总结。

相关性分析是指对两个或多个具备相关性的变量元素进行分析,相关性不等于因果性。

一、离散与离散变量之间的相关性

1、卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

(1)假设,多个变量之间不相关

(2)根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及 自由度

df=(C-1)(R-1)

(3)查卡方表,求p值

卡方值越大,P值越小,变量相关的可能性越大,当P<=0.05,否定原假设,认为变量相关。

2、信息增益 和 信息增益率

在介绍信息增益之前,先来介绍两个基础概念,信息熵和条件熵。

信息熵,就是一个随机变量的不确定性程度。

条件熵,就是在一个条件下,随机变量的不确定性。

(1)信息增益:熵 - 条件熵

在一个条件下,信息不确定性减少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大,表示引入条件X之后,不纯度减少得越多。信息增益越大,则两个变量之间的相关性越大。

(2)信息增益率

假设,某个变量存在大量的不同值,例如ID,引入ID后,每个子节点的不纯度都为0,则信息增益减少程度达到最大。所以,当不同变量的取值数量差别很大时,引入取值多的变量,信息增益更大。因此,使用信息增益率,考虑到分支个数的影响。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、连续与连续变量之间的相关性

1、协方差

协方差,表达了两个随机变量的协同变化关系。如果两个变量不相关,则协方差为0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

当 cov(X, Y)>0时,表明 X与Y 正相关;

当 cov(X, Y)<0时,表明X与Y负相关;

当 cov(X, Y)=0时,表明X与Y不相关。

协方差只能对两组数据进行相关性分析,当有两组以上数据时就需要使用协方差矩阵。

协方差通过数字衡量变量间的相关性,正值表示正相关,负值表示负相关。但无法对相关的密切程度进行度量。当我们面对多个变量时,无法通过协方差来说明那两组数据的相关性最高。要衡量和对比相关性的密切程度,就需要使用下一个方法:相关系数。

2、线性相关系数

也叫Pearson相关系数, 主要衡量两个变量线性相关的程度。

r=cov(X,Y)/(D(X)D(Y))

相关系数是用协方差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。

线性相关系数必须建立在因变量与自变量是线性的关系基础上,否则线性相关系数是无意义的。

三、连续与离散变量之间的相关性

1、连续变量离散化

将连续变量离散化,然后,使用离散与离散变量相关性分析的方法来分析相关性。

2、箱形图

使用画箱形图的方法,看离散变量取不同值,连续变量的均值与方差及取值分布情况。

如果,离散变量取不同值,对应的连续变量的箱形图差别不大,则说明,离散变量取不同值对连续变量的影响不大,相关性不高;反之,相关性高。

转载于:https://www.cnblogs.com/wenwen-ariel-512/p/10422453.html

201807 相关性度量的几种方法-卡方检验、相关系数、信息增益...相关推荐

  1. pandas相关性分析的三种方法

    使用pandas中的皮尔逊,肯德尔和斯皮尔曼做特征相关性分析 三种系数的具体试用范围可参考: https://blog.csdn.net/qrdsy_lrf/article/details/79227 ...

  2. 利用ENVI和ARCGIS做相关性分析的两种方法

    一.ENVI里如何对两个波段进行相关性分析 1.首先获取要统计的两个波段的信息,这里用的ndvi和地表反照率(aldeo),两个波段值经过归一化后进行计算 2.首先利用layer stacking工具 ...

  3. 用MATLAB实现信号相关性度量的仿真实验——经验门限下欺骗式干扰鉴别方法

    仿真实验描述: 情况1:设TNR为0dB,有源假目标复包络序列间的理论相关系数为JNR/(JNR+1)=0.5. 情况2,设TNR为3dB,有源假目标复包络序列间的理论相关系数为0.66661. 在所 ...

  4. 分类变量和连续变量的相关性度量

    本文主要参考<R语言实战>中第七章内容. 首先来看一下分类变量的探索.R提供了多种检验类别型变量(因子)独立性的方法,主要有卡方独立性检验.Fisher精确检验和Cochran-Mante ...

  5. 多元高斯分布异常检测代码_数据科学 | 异常检测的N种方法,阿里工程师都盘出来了...

    ↑↑↑↑↑点击上方蓝色字关注我们! 『运筹OR帷幄』转载 作者:黎伟斌.胡熠.王皓 编者按: 异常检测在信用反欺诈,广告投放,工业质检等领域中有着广泛的应用,同时也是数据分析的重要方法之一.随着数据量 ...

  6. 【数据挖掘笔记六】挖掘频繁模式、关联和相关性:基本概念和方法

    6.挖掘频繁模式.关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式. 6.1 基本概念 频繁模式挖掘搜索给定数据集中反复出现的联系,旨在发现大型事 ...

  7. 【论文翻译】HeteSim:异构网络中相关性度量的通用框架

    原文链接:https://blog.csdn.net/Mrong1013967/article/details/115330139 HeteSim:异构网络中相关性度量的通用框架 摘要 相似性搜索是许 ...

  8. 机器学习中处理缺失值的7种方法

    机器学习中处理缺失值的7种方法 转载 |  https://cloud.tencent.com/developer/article/1680427 作者 | Satyam Kumar 编译 | VK ...

  9. 【简单总结】句子相似度计算的几种方法

    [简单总结]句子相似度计算的几种方法 1.句子相似度介绍: 句子相似度–指的是两个句子之间相似的程度.在NLP中有很大的用处,譬如对话系统,文本分类.信息检索.语义分析等,它可以为我们提供检索信息更快 ...

最新文章

  1. 高校教授称已推翻爱因斯坦相对论,项目还被推荐入选河北科学技术奖?!回应来了!...
  2. 谈GPT-2(附大量网址)
  3. ==和equals()的区别
  4. 018对象——对象 get_class get_declared_classes get_declared_interfaces
  5. Caused by: android.os.NetworkOnMainThreadException错误解决办法
  6. 前端学习(3218):批量传递props
  7. 6.6(java学习笔记)文件分割(IO综合例子)
  8. 关于将表单上传到服务器
  9. java list filter 性能,java的List中使用filter過濾出符合特定條件的元素List
  10. Linux stat命令和AIX istat命令 (查看文件修改时间)
  11. 从铸剑到御剑:滴滴工程效能平台建设之路
  12. 阿里巴巴Java开发手册
  13. c#类似跑马灯抽签小程序
  14. linux中磁盘阵列说明,常用磁盘阵列说明
  15. tensorflow 中dataset.padded_batch函数的个人理解过程
  16. R语言之 as.formula()
  17. 第四章:CPU体系结构笔记
  18. TweenMax.to()的使用
  19. 看论文时的几个数学术语
  20. Mybatis 核心知识点整理成图

热门文章

  1. 使用HTML文件作为中转生成WORD文档
  2. 59.进程的三种状态,以及之间转换的过程
  3. 马斯克宣布将芯片成功植入猴子大脑,让它们可以玩电子游戏
  4. TensorFlow 2.0.0-RC0版发布,专注于简单性与易用性
  5. 西北工业大学附属中学2019届高考毕业生去向,其中北大清华88人
  6. php采集网页,phpQuery采集网页实现代码实例
  7. router linux命令,router os 常用命令详解
  8. 042_CSS3字体
  9. 004_常用浏览器内核
  10. mysql count or null_sql 语句中count()有条件的时候为什么要加上or null