数学建模暑期集训21:主成分分析(PCA)
当遇到指标众多的场景时,以前通常的处理方法基本采用逐步回归的思想。即判断各指标之间的相关程度,保留几个重要的指标, 剔除其它不重要的指标。相关方法有:三大相关系数计算法、多元线性回归法、随机森林法、灰色相关系数法等。
此篇文章将介绍主成分分析,在不剔除任何指标的情况下实现数据的降维。
主成分分析简介
主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。
主成分分析的思想
主成分分析计算步骤
主成分分析指标解释案例
主成分分析的一大难点是指标意义模糊,难以解释,下面这个例子可以辅助理解。
上表的累计贡献率 = 当前项贡献率 + 之前的累计贡献率。当累计贡献率 > 80%时,剩下的特征向量可以舍弃。
上面的分析需要一定的语言组织能力,也需要一定运气成分,若难以解释,或者强行解释,或者换方法。
主成分分析matlab实操
下面给出一道例题:
加载数据:
load data2.mat
运行下面的代码,得到结果:
clear;clc
% load data1.mat % 主成分聚类
load data2.mat % 主成分回归[n,p] = size(x); % n是样本个数,p是指标个数%% 第一步:对数据x标准化为X
X=zscore(x); % matlab内置的标准化函数(x-mean(x))/std(x)%% 第二步:计算样本协方差矩阵
R = cov(X);%% 注意:以上两步可合并为下面一步:直接计算样本相关系数矩阵
R = corrcoef(x);
disp('样本相关系数矩阵为:')
disp(R)%% 第三步:计算R的特征值和特征向量
% 注意:R是半正定矩阵,所以其特征值不为负数
% R同时是对称矩阵,Matlab计算对称矩阵时,会将特征值按照从小到大排列哦
% eig函数的详解见第一讲层次分析法的视频
[V,D] = eig(R); % V 特征向量矩阵 D 特征值构成的对角矩阵%% 第四步:计算主成分贡献率和累计贡献率
lambda = diag(D); % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1); % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda); % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda); % 计算累计贡献率 cumsum是求累加值的函数
disp('特征值为:')
disp(lambda') % 转置为行向量,方便展示
disp('贡献率为:')
disp(contribution_rate')
disp('累计贡献率为:')
disp(cum_contribution_rate')
disp('与特征值对应的特征向量矩阵为:')
% 注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来
% rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
disp(V)%% 计算我们所需要的主成分的值
m =input('请输入需要保存的主成分的个数: ');
F = zeros(n,m); %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:mai = V(:,i)'; % 将第i个特征向量取出,并转置为行向量Ai = repmat(ai,n,1); % 将这个行向量重复n次,构成一个n*p的矩阵F(:, i) = sum(Ai .* X, 2); % 注意,对标准化的数据求了权重后要计算每一行的和
end
前两个的主成分累计贡献率已达97.74%,因此保存主成分的个数选择2。
输入个数之后,得到F矩阵,将数据导入Spss或Stata可以做聚类或回归。
%% (1)主成分聚类 : 将主成分指标所在的F矩阵复制到Excel表格,然后再用Spss进行聚类
% 在Excel第一行输入指标名称(F1,F2, ..., Fm)
% 双击Matlab工作区的F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Spss中进行。%%(2)主成分回归:将x使用主成分得到主成分指标,并将y标准化,接着导出到Excel,然后再使用Stata回归
% Y = zscore(y); % 一定要将y进行标准化哦~
% 在Excel第一行输入指标名称(Y,F1, F2, ..., Fm)
% 分别双击Matlab工作区的Y和F,进入变量编辑中,然后复制里面的数据到Excel表格
% 导出数据之后,我们后续的分析就可以在Stata中进行。
数学建模暑期集训21:主成分分析(PCA)相关推荐
- 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析
在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析.本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便. 空谈 ...
- 数学建模暑期集训14:博弈论与纳什均衡
前言 博弈论的内容在数学建模中比较少见,但2020年国赛B题确实考到了这一部分,因此掌握一些基本的原理方法还是有所必要.并且,博弈论本身和模糊综合评价类型比较类似,都是难度不高,不太依赖编程的方法,掌 ...
- 数学建模:评价模型——主成分分析 PCA SPSS实现、python实现
文章目录 PCA介绍 SPSS实现 python实现 简单的主成分分析 主成分分析用于综合评价 Notice PCA介绍 主成分分析(Principal Component Analysis,PCA) ...
- 数学建模暑期集训26:遗传算法
遗传算法是优化类问题的经典智能算法.本篇将介绍遗传算法的基本概念以及利用遗传算法来求解单目标规划模型. 达尔文进化论的基本思想 遗传算法的设计是受到达尔文进化论的启发.先看下面这张图的几个基本概念. ...
- 数学建模暑期集训15:matlab求解多目标规划模型
多目标规划模型的求解方法 1.传统优化算法 1.1主要目标法 1.2分层序列法 1.3加权法 1.4理想点法 2.智能优化算法 遗传算法等- 例题实战:MATLAB中多目标遗传算法求解法 通用形式 例 ...
- 数学建模暑期集训17:蒙特卡洛法
定义 蒙特卡罗⽅法⼜称统计模拟法,是⼀种随机模拟⽅法,将所求解的问题同⼀定的概率模型相联系,⽤电⼦计算机实现统计模拟或抽样,以获得问题的近似解.为象征性地表明这⼀⽅法的概率统计特征,故借⽤赌城蒙特卡罗 ...
- matlab篮球队需要五名队员,2016年数学建模暑期训练题目
2016年武汉理工大学数学建模暑期培训练习题 1.编写MATLAB 和lingo 程序求解下列方程(组) (1)4 x sin x cos x += (2) x x 24-= (3)求方程 ()074 ...
- 数学建模(六) 主成分分析,聚类分析,对策论,马氏链
全并到一起写是因为我只想写十篇. 1.主成分分析 PCA!!! 主成分分析(Principal Component Analysis, PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元 ...
- 数学建模常用模型21:BP神经网络(三层)
给大家安利一款朋友开发的自研国产数据分析基础工具,一键式自动分析,自动生成分析模板,5分钟掌握主流61个统计类数学模型(几乎涵盖SPSS绝大部分功能),以及23个有监督机器学习(包括随机森林,SVM, ...
最新文章
- Perl时间处理函数
- shocked的歌曲 类似shell_韩庚 / Wiz Khalifa / Juicy J / Kill The Noise演唱歌曲《Shell Shocked》歌词介绍_TOM明星...
- 语法分析器 java实验报告_词法分析器实验报告.doc
- 图解内存搜索工具初步使用
- C#使用事件方式Winform窗体之间传值
- java native堆_Java Native Memory比堆更快吗?
- SaaS CRM系统存在的五大安全漏洞
- Android之Content和activity、service、Application关系和attachBaseContext函数调用的时候
- java 页面输出一个页面_java学习之:一个完整页面输出信息的过程(以输出Doctor表中信息为例)...
- printstream_Java PrintStream clearError()方法与示例
- Enze frist day
- 自带公式编辑_公式都是怎么编辑出来的?如何打出公式上下标符号?
- 09程序员的修炼之道阅读笔记之三
- a5松下驱动器参数设置表_松下伺服驱动器参数设置MSD043A1X
- android 资源国际化 国家/地区 语言缩写代码
- iPhone手机屏幕尺寸
- 2019 “钱”途光明的 8 大前端开发技术,你还差几个?
- adb 查看屏幕大小_如何从adb命令行获取Android设备的屏幕尺寸?
- 原生JS实现 ‘Tab栏切换’,‘手风琴’,‘轮播图’效果
- 积分商城搭建的要点与优势有哪些?
热门文章
- android 8.1 9.0 10.0 app应用卸载黑名单
- 头条面试官:在浏览器地址栏输入一个URL后回车,背后会进行哪些技术步骤?
- 28 字符串排列(还差点,list包含、Arrays、Collections的sort)全排列
- 陌陌推出“树莓”APP入局种草赛道,如何避免碰瓷“小红薯”?
- 2020CCFBDCI训练赛之通用音频分类baseline
- Pandas读取excel文件(pandas.read_excel)
- Unable to ping server at localhost:1099
- pythonurllib登录微博什么意思_登录微博详解-爬虫的第一站
- R155附录5 Part A
- 计算机网络域名解析,域名解析是什么意思?