基于相关性分析和主成分分析的变量筛选方法

主成分分析法 指标筛选

既然在课程专题四中讲到主成分分析法,那么这里再进一步介绍主成分分析法,概括起来说,主成分分析主要由以下几个方面的作用。主成分分析能降低所研究的数据空间的维数(降维)。即用研究m维的Y空间代替p维的X空间(m

多维数据的一种图形表示方法(可视化)。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析

用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

前面三种都挺好理解,这里首先着重分析一下怎么用主成分分析来筛选回归变量。

主成分分析法

主成分分析( principal component analysis,PCA) ,也称主

分量分析或矩阵数据分析。它通过变量变换的方法把相关的变量变为若干不相关的综合指标变量,从而实现对数据集的降维,使得问题得以简化。

基本原理

主成分分析的原理可以简单的陈述如下:借助一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机变量,使之指向样本点散布最开的n个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统。通常数学上的处理就是将原来n个指标作线性组合,作为新的综合指标,并且这些新的综合指标之间是相互无关的。

计算过程构造样本矩阵

其中,表示第组样本数据中的第个变量的值.

对矩阵做标准化变换得矩阵

其中

对标准化阵求相关系数矩阵

这里有一点需要注意的是:标准化后的矩阵Z的相关系数矩阵(就是每列变量之间的相关系数构成的矩阵)是等于矩阵Z的协方差矩阵。因为前面也有讲过相关系数就是标准化了的协方差(无量纲化)。也就是说.

对相关系数矩阵R求特征值与特征向量

解样本相关矩阵R 的特征方程得n个特征值, 并且(为矩阵R是非负定矩阵)

确定值,使信息的利用率达到 80% 以上。

这里就相当于我们专题四讲到的二八分析法了。

求出每个特征值的特征向量,并单位化

对每个解方程组,得特征向量,再单位化得

将标准化后的指标变量转换为主成分

其中称为第一主成分, 称为第二主成分....

对个主成分进行综合评价

对个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率(单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小,换句话理解就是这个主成分对信息的利用率).

基于相关性分析的指标筛选原理

两个指标之间的相关系数,反映了两个指标之间的相关性。相关系数越大,两个指标反映的信息相关性就越高。而为了使评价指标体系简洁有效,就需要避免指标反映信息重复。通过计算同一准则层中各个评价指标之间的相关系数,删除相关系数较大的指标,避免了评价指标所反映的信息重复。通过相关性分析,简化了指标体系,保证了指标体系的简洁有效,这部分内容在以前的文章中已有介绍。这次通过和主成分分析来结合使用。

基于主成分分析的指标筛选方法

因子载荷的原理

通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要。

那么因子载荷怎么得到的呢?其实很简单,过程如下:

主成分分析的基本模型

设:是第个主成分(); 是第个特征值对应的特征向量的第个分量;为第个指标的观测值;-主成分的个数;-指标的个数。则第个主成分为

含义:第个主成分表示为评价指标的线性组合,反映了原有海选指标的信息。

筛选过程

根据主成分分析法的计算过程,求得相关系数矩阵的特征值 , 反映了第个主成分所表示的原始信息含量,即所解释原始指标的数据总方差,则主成分表示的原始指标数据的方差贡献率为:

主成分表示的原始指标数据的方差贡献率,即为第个主成分所表示的原始信息含量占所有主成分所表示的全部原始信息含量的比例.

因子载荷 :

得到了因子载荷矩阵就可以进行指标筛选了,因子载荷反映指标对评价结果的影响程度,通过主成分上因子载荷的绝对值晒选指标,越大表示指标对评价结果越有显著影响,越应该保留;反之,越应该删除。通过对相关性分析筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小的指标,保证筛选出重要的指标。

相关性分析和主成分分析相同点基于相关性分析的指标筛选和基于主成分分析的指标筛选,均是在准则层内进行指标的筛选处理,准则层之间不进行筛选。这种做法的原因是,通过人为地划分不同准则层,反映评价事物不同层面的状况,避免误删反应信息不同的重要指标。

基于相关性分析的指标筛选和基于主成分分析的指标筛选的思路,均是筛选出少量具有代表性的指标。

相关性分析和主成分分析不同点两次筛选的目的不同:基于相关性分析的指标筛选的目的是删除反应信息冗余的评价指标。基于主成分分析的指标筛选的目的是删除对评价结果影响较小的评价指标。

两次筛选的作用不同:基于相关性分析的指标筛选的作用是保证筛选选出的评价指标体系简洁明快。基于主成分分析的指标简选的目的是筛选出重要的指标。

总结

通过基于相关性分析的第一次指标定量筛选。通过相关性分析的方法,进行第一次定量筛选,剔除了反应信息重复的指标,保证筛选后的指标体系简洁有效。基于相关性分析的第二次指标定量晒选。通过对评价指标进行主成分分析,删除因子载荷小的评价指标,保证筛选出重要的指标。

matlab程序

主成分分析法实现很简单,python直接调用包就行,这里提一下matlab上的简单实现,针对具体问题的程序,有需求再找我吧。%输入数据(以矩阵形式输入)

X = [];

%数据预处理:标准化

mu = mean(X);

X_norm = bsxfun(@minus, X, mu);

sigma = std(X_norm);

X_norm = bsxfun(@rdivide, X_norm, sigma);

%协方差矩阵

covMat = cov(X_norm);

%奇异值分解,U为特征向量,S为特征值

[U, S] = svd(covMat);

%提取特征值

lambda = diag(S);

%累积信息占比,也就是累积方差贡献率

fprintf('累积信息占比:%.4f \n', cumsum(lambda)/sum(lambda));

%求因子载荷矩阵

B = U .* sqtr(lambda');

matlab指标之间的关系分析,基于相关性分析和主成分分析的变量筛选方法相关推荐

  1. 基于相关性分析和主成分分析的变量筛选方法

    基于相关性分析和主成分分析的变量筛选方法 https://www.zybuluo.com/notmylove/note/1508052 主成分分析法 指标筛选 既然在课程专题四中讲到主成分分析法,那么 ...

  2. R语言rms包生存分析之限制性立方样条(RCS, Restricted cubic spline)分析详解实战:拟合连续性自变量和事件风险之间的关系:基于survival包lung数据

    R语言rms包生存分析之限制性立方样条(RCS, Restricted cubic spline)分析详解实战:拟合连续性自变量和事件风险之间的关系:基于survival包lung数据 目录

  3. IM3、IIP3、OIP3、G、P1dB指标之间的关系

    文章更新与问题,可关注微信公众号,谢谢! 噪声系数与非线性失真是描述射频系统性能优劣的两个重要指标. 噪声-限制了系统所能处理的最低信号电平: 非线性失真-限制了系统所能处理的最高信号电平: 在非线性 ...

  4. 射频中的 IM3、IIP3、OIP3、G、P1dB指标之间的关系

    噪声系数与非线性失真是描述射频系统性能优劣的两个重要指标. 噪声-限制了系统所能处理的最低信号电平: 非线性失真-限制了系统所能处理的最高信号电平: 在非线性器件(放大器.混频器等)输入端,输入等幅度 ...

  5. R语言相关性分析和相关性分析可视化常用方法汇总

    本次,介绍一下相关性分析以及相关性分析可视化常用方法. 0. 相关数据 library(learnasreml) library(tidyverse) data(fm) str(fm)dd = fm ...

  6. 基于相关性分析系统性能瓶颈

    测试的过程中,难免需要会遇到一些性能瓶颈,那么就要求我们能够分析出性能瓶颈,并给出解决方案. 性能瓶颈很抽象,我们可以通过数据使其具象. 以我工作内容为例,服务器处理数据的能力是有限的,那么其处理的边 ...

  7. matlab计算潮差程序,一种基于FVCOM模型的可视化潮汐潮流预报方法与流程

    本发明涉及潮汐预报技术领域,特别是涉及一种基于FVCOM模型的可视化潮汐潮流预报方法. 背景技术: 潮汐预报对一定海区在未来一定时间内的潮汐涨落情况进行的推算和预报.预报内容包括逐日的高潮和低潮高度及 ...

  8. matlab模式识别提取特征向量,一种基于小波特征向量提取的手机检测方法与流程...

    本发明涉及到手机检测领域,尤其涉及到一种基于小波特征向量提取的手机检测方法. 背景技术: 随着保密要求的不断提高,很多场合严禁携带手机.录音笔.录像机等电子产品,亟需一种设备可以检测出该类电子产品.目 ...

  9. matlab 零速检测,一种基于车辆零速检测的惯性导航误差修正方法与流程

    本发明涉及车载导航与定位领域,尤其是涉及一种基于车辆零速检测的惯性导航误差修正方法. 背景技术: 惯性导航系统(inertialnavigationsystem,ins)能根据惯性传感器(陀螺仪.加速 ...

  10. matlab 野值剔除,一种基于多项式拟和的野值剔除方法与流程

    本发明涉及一种基于多项式拟和的野值剔除方法,适用于通信. 导航等测控系统领域. 背景技术: 在通信.导航等测量数据中往往包含了大量的严重偏离被测量真 值的数据点,这些异常数据就称为野值.尽管野值数量较 ...

最新文章

  1. 【2019/4/30】周进度报告
  2. 003 PECompact 2.55
  3. 使用strcat_s函数的注意事项
  4. 路由器和网关的区别?
  5. 经典算法研究系列:十、从头到尾彻底理解傅里叶变换算法、上
  6. jetty java 禁用目录列表_Apache httpd 目录列表禁用配置(options indexes)
  7. 利用Javacsv实现Java读写csv文件
  8. 武汉大学计算机学院c语言试题,武汉大学计算机学院C语言历年试题(48页)-原创力文档...
  9. Hadoop 2.7.1 使用minicluster进行单元测试
  10. 一个计算机爱好者的不完整回忆(十六)我的第一台电脑
  11. php 图形库 锯齿,PHP imageantialias - 是否使用抗锯齿(antialias)功能
  12. (二)Jointly Optimizing Diversity and Relevance in Neural Response Generation
  13. 用原生JS和CSS3做一个有趣的cube相册
  14. 安全态势攻防赛事可视化,助力网络安全发展
  15. 基于 OpenSSH 的身份认证与密钥管理
  16. 从FTP模块学习先进的诊断技术(Erlang Trace机制)
  17. MATLAB figure最大化
  18. Greenplum 6安装指南(CentOS 7.X)
  19. 报错:ResourceExhaustedError OOM when allocating
  20. python 自动抢红包_基于Airtest实现python自动抢红包

热门文章

  1. Android 悬浮窗日志工具
  2. 什么是虚拟主机管理系统?
  3. Rockchip | Rockchip Camera技术
  4. Rockchip平台TP驱动详解
  5. 邮箱客户端 gmail支持_如何在新的Gmail中启用离线支持
  6. 16.4 weak_ptr简介、weak_ptr常用操作与尺寸问题
  7. 光纤激光器输出激光参数的一些概念及运算
  8. 使用关键词快速搜索商品代码
  9. np.max()、np.argmax()、np.maximum()、np.min()、np.argmin()、np.minimum()、np.sum()
  10. YOLO v3源码详解