目录:前言

偏相关或复相关

意义与用途

分析方法:

1、 样本相关系数矩阵、相关系数检验

2、 复相关分析

3、 决定系数

(RMSE的介绍)

小结

一、前言:

继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者以上的变量之间的相关关系分析。

没读过上篇文章请先仔细阅读再过来,因为多变量本质上是基于双变量的TzeSing Kong:相关性分析(两变量)​zhuanlan.zhihu.com

二、偏相关或复相关

简单相关:研究两变量之间的关系

偏相关或复相关:研究三个或者以上变量与的关系

在这里仍然是选择最简单的线性相关来解释:

三、意义与用途:

有些情况下,我们只想了解两个变量之间是否有线性相关关系,并不想拟合建立它们的回归模型,也不需要区分自变量和因变量,这时可用相关性分析。

四、分析方法:

1、样本相关阵

来自正态总体

容量为

的样本,其中每个样本

个观测

分别计算两两样本之间的简单相关系数

,它们构成的矩阵就是:

由于每个变量跟自己的相关系数就是

,即:

其中,

就是两个变量的简单相关系数。

例子:

> X <- read.table("clipboard", header = T)

> cor(X) # 相关系数矩阵

y x1 x2 x3 x4

y 1.0000000 0.9871498 0.9994718 0.9912053 0.6956619

x1 0.9871498 1.0000000 0.9907018 0.9867664 0.7818066

x2 0.9994718 0.9907018 1.0000000 0.9917094 0.7154297

x3 0.9912053 0.9867664 0.9917094 1.0000000 0.7073820

x4 0.6956619 0.7818066 0.7154297 0.7073820 1.0000000

再看看矩阵散点图:

> pairs(X, ...) # 多元数据散点图

相关系数检验:

> install.package('psych') # 先安装一个'psych'的包

> library(psych)

> corr.test(X)

Call:corr.test(x = yX)

Correlation matrix

y x1 x2 x3 x4

y 1.00 0.99 1.00 0.99 0.70

x1 0.99 1.00 0.99 0.99 0.78

x2 1.00 0.99 1.00 0.99 0.72

x3 0.99 0.99 0.99 1.00 0.71

x4 0.70 0.78 0.72 0.71 1.00

Sample Size

[1] 31

Probability values (Entries above the diagonal are adjusted for multiple tests.)

y x1 x2 x3 x4

y 0 0 0 0 0

x1 0 0 0 0 0

x2 0 0 0 0 0

x3 0 0 0 0 0

x4 0 0 0 0 0

To see confidence intervals of the correlations, print with the short=FALSE option

上面矩阵是相关系数的

值矩阵,下面矩阵是

值矩阵

可以看出

的关系都十分密切

相关系数

且置信度

2、复相关分析

实际分析中,一个变量(

)往往要受到多种变量(

)的综合影响,

所谓复相关,就是研究多个变量同时与某个变量的相关关系,

度量复相关程度的指标是复相关系数

多个变量同时与某个变量的相关关系不能直接测算,只能通过间接测算

复相关系数的计算:

设因变量

,自变量为

,构造一个线性模型为:

作相关分析,就是对

做简单相关分析

记:

的复相关系数,

的简单相关系数

的计算公式:

复相关系数常用于多元线性回归分析中,我们希望知道因变量与一组自变量之间的相关程度,即复相关,复相关系数反映了一个变量与另一组变量的密切程度。

假设检验:

与多元回归的方差分析一样,所以我留在下篇文章阐述回归分析与方差分析的时候会继续详细说明

综上:

至于

还有

是什么?

就由下篇文章阐述回归分析的时候会详细说明。TzeSing Kong:线性回归——描述变量间预测关系最简单的回归模型​zhuanlan.zhihu.com

3、决定系数

(coefficient of determination)

在复相关系数中,根号里面的比值

其实说明了回归平方和与总离差平方和的比值,反应了回归贡献的百分比

把复相关系数两边平方一下就能得到决定系数

决定系数用于评价多元回归方程、变量选择、曲线回归方程拟合的好坏程度中,常常用到。

【注意】 是相关性的度量,并不是准确性的度量!!!

依赖于

的波动程度(样本方差),这会使得我们看待模型的好坏有着巨大影响,例如,假设测试集

的方差是

,如果一个模型的

大致为

,但是另一个测试集

的方差是

(分母小了,

小了),

则变为

。变成了模型好坏取决于测试集的波动程度,所以这个十分不靠谱

不明白上面的话,可以再看一个例子,如果我们建立了一个模型预测广州房价,如果测试集中广州房屋售价的波动范围较大——方差较大(40万-几千万),因为方差大,所以很可能导致

也比较大(假设

),但

可能十万,这对于广州房价预测来说是一个很糟糕的预测范围。

具体用法,留在回归分析中详细阐述。TzeSing Kong:线性回归——描述变量间预测关系最简单的回归模型​zhuanlan.zhihu.com

在 线性回归 中的 3.4 决定系数

# 先建立多元线性回归模型

> fm = lm(y~x1+x2+x3+x4,data = X)

计算多元线性回归模型决定系数

> R2 = summary(fm)$r.sq

> R2

[1] 0.9997162

计算复相关系数

> R = sqrt(R2)

> R

[1] 0.9998581

【补】

什么是RMSE?

RMSE是回归问题的性能指标,衡量的是 预测值

与 真实值

间的差距

是测量预测误差的标准差

举例子:RMSE 等于 50000,根据【

准则】意味着:

大约 68% 的预测值位于真实值的 50000元(

)以内,

大约 95% 的预测值位于真实值的 100000元 (

)以内,

大约 99.7% 的预测值位于真实值的 150000元内 (

)以内

五、小结:

可以看出多变量相关分析跟回归分析的关系很密切,多变量相关分析能为回归分析服务,因为要具有相关性才有做线性回归拟合的价值

python多变量相关性分析_多变量相关性分析(一个因变量与多个自变量)相关推荐

  1. python酒店评论分析_酒店舆情分析

    Python进行携程酒店评论舆情分析 第一步:分析设计 我们是对酒店进行舆情分析,所有我们的核心是酒店的评论数据:对住客的评论数据进行特征提取,通过住客对酒店的评分,对数据进行分类,并使用朴素贝叶斯算 ...

  2. python灰色关联度分析_灰色关联分析法 python

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 本文2290字,预计阅读需10分钟: 关联分析(association anal ...

  3. firebase分析_为什么我在下一个项目中不使用Firebase分析

    firebase分析 If I were looking for an analytics service, I would not use Firebase Analytics. It has to ...

  4. 转录组分析_高级转录组分析和R数据可视化

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

  5. 哔哩哔哩公司swot分析_「127」一个简单的工具分析自己的优势与劣势

    今天要介绍的就是---SWOT分析方法. 何谓SWOT,SWOT是由优势(Strength).劣势(Weakness).机会(Opportunity)和威胁(Threat)四个单词的第一个字母组成. ...

  6. edger多组差异性分析_转录组edgeR分析差异基因 | 生信菜鸟团

    转录组edgeR分析差异基因 edgeR是一个研究重复计数数据差异表达的Bioconductor软件包.一个过度离散的泊松模型被用于说明生物学可变性和技术可变性.经验贝叶斯方法被用于减轻跨转录本的过度 ...

  7. 两个自变量和一个因变量spss_多个自变量多个因变量用SPSS如何分析?

    多个自变量多个因变量用SPSS如何分析? 提问: 我是在做问卷,然后是要研究A与B两个问题之间的关系.然后AB分别设定了n个问题,从完全不符合到完全符合设为1到5的数值.昨晚问卷后我就有A1,A2-- ...

  8. 没有第三个变量的前提下交换两个变量_多变量相关性分析(一个因变量与多个自变量)...

    目录: 前言 偏相关或复相关 意义与用途 分析方法: 1. 样本相关系数矩阵.相关系数检验 2. 复相关分析 3. 决定系数 (RMSE的介绍) 小结 一.前言: 继上一篇文章,继续探讨相关性分析,这 ...

  9. python解zuobiaoxi方程_滑坡稳定性分析程序初探---Python版!

    0 前言 山体滑坡是常见的自然灾害,从理论分析的角度讲,滑坡的稳定性分析方法源自于高中物理学,如图1所示.前者的滑动分析非常简单,在已知滑块的重量以及接触面摩擦系数的基础上通过计算下滑力和抗滑力的关系 ...

  10. python 视频分析_成为视频分析专家:自动生成集锦的方法(Python实现)

    概述以一种简单的方法在Python中生成视频集锦 不使用机器学习或深度学习,学习如何自动生成集锦 使用我们自己的方法,对一场完整的板球比赛自动生成集锦 介绍 我是个超级板球迷.从我记事起,我就迷上了这 ...

最新文章

  1. 如何用javascript获取文本框,下拉框,单选框的对应值或者将值赋给它们?雪原虎 发布于:2007-10-22 00:32
  2. SpringCloud学习2-Springboot监控模块(actuator)
  3. centos7 设置ip地址
  4. SAP HANA Cloud Connector图文全攻略
  5. java:Map借口及其子类HashMap五,identityHashMap子类
  6. 舞台音效控制软件_舞台音乐控制软件下载
  7. 大数据培训:hadoop基础教程
  8. 代码实现-pack_padded_sequence()与pad_packed_sequence()
  9. 电脑使用android手机摄像头,电脑怎么使用安卓手机摄像头 电脑使用手机摄像头的方法...
  10. Counting Bloom Filter
  11. 登录失败 12306服务器不稳定,12306显示登陆失败43003怎么办-12306登录显示43003含义详解...
  12. Android触摸屏失效后的操作方法
  13. python解决数学问题
  14. Springboot实验室自主预约系统毕业设计源码111953
  15. 哈希(哈希表与哈希函数)
  16. Matlab中IFFT/FFT注意事项及在OFDM仿真中的应用问题
  17. 密码学:分组密码.(块密码:是一种对称密码算法)
  18. Sublime的使用小技巧
  19. Arduino中矩阵键盘的编程与搭建
  20. 你是怎么管理时间的?

热门文章

  1. 笔记本如何解除锁定计算机,笔记本电脑数字小键盘如何解锁_笔记本电脑数字键盘被锁定了如何打开-win7之家...
  2. STM32F103_study46_The punctual atoms(STM32 The location of all interrupt service functions )
  3. 高山仰止,景行行止。虽不能至,然心向往之。
  4. 当欧洲开始通过页游对抗假新闻,中国何时起步媒介素养培育?
  5. Foxmail登录不上163邮箱。。。
  6. 如何通过网页超链接控制电脑应用程序
  7. 线性代数——矩阵的秩
  8. OpenERP/Odoo的架构
  9. 快速预警、高效疏通,ZBOX打造高速公路智慧通信站
  10. [MATLAB] ks检验 混合von mises分布