文章目录

  • 一、综述
  • 二、主成分分析
  • 三、主成分分析的计算步骤(可在Matlab实现)
  • 四、对于主成分的解释
  • 五、主成分分析的应用

一、综述

主成分分析的本质是降维,她能够将多个指标转换为少数几个主成分。这些主成分之间互不相关,且是原变量的线性组合。通过对主成分的分析便可对原始数据有一个较为准确的把握。

二、主成分分析

假设有 nnn 个样本,ppp 个指标,则可构成大小为 n×pn \times pn×p 的样本矩阵 xxx:x=[x11x12⋯x1px21x22⋯x2p⋮⋮⋱⋮xn1xn2⋯xnp]x = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}x=⎣⎢⎢⎢⎡​x11​x21​⋮xn1​​x12​x22​⋮xn2​​⋯⋯⋱⋯​x1p​x2p​⋮xnp​​⎦⎥⎥⎥⎤​ 假设想要找到一组变量 z1,z2,⋯,zm(m≤p)z_1, z_2, \cdots, z_m (m \leq p)z1​,z2​,⋯,zm​(m≤p),且满足:{z1=l11x1+l12x2+⋯+l1pxpz2=l21x1+l22x2+⋯+l2pxp⋮zm=lm1x1+lm2x2+⋯+lmpxp\left\{ \begin{aligned} &z_1 = l_{11}x_1 + l_{12}x_2 + \cdots + l_{1p}x_p \\ & z_2 = l_{21}x_1 + l_{22}x_2 + \cdots + l_{2p}x_p \\ \vdots \\ &z_m = l_{m1}x_1 + l_{m2}x_2 + \cdots + l_{mp}x_p \end{aligned} \right.⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧​⋮​z1​=l11​x1​+l12​x2​+⋯+l1p​xp​z2​=l21​x1​+l22​x2​+⋯+l2p​xp​zm​=lm1​x1​+lm2​x2​+⋯+lmp​xp​​ 系数 lijl_{ij}lij​ 的确定原则:
(1)ziz_izi​ 与 zj(i≠j;i,j=1,2,⋯,m)z_j(i \neq j; i, j = 1, 2, \cdots, m)zj​(i​=j;i,j=1,2,⋯,m) 相互无关;
(2)z1z_1z1​ 是 x1,x2,⋯,xpx_1, x_2, \cdots, x_px1​,x2​,⋯,xp​ 的一切线性组合中方差最大者;
(3)z2z_2z2​ 是与 z1z_1z1​ 不相关的 x1,x2,⋯,xpx_1, x_2, \cdots, x_px1​,x2​,⋯,xp​ 的所有线性组合中方差最大者;
(4)以此类推,从而可以确定 lijl_{ij}lij​。

三、主成分分析的计算步骤(可在Matlab实现)

  1. 对原始数据矩阵进行标准化处理
    按列计算均值 xjˉ=1n∑i=1nxij\bar{x_j} = \frac{1}{n}\sum_{i = 1}^{n}x_{ij}xj​ˉ​=n1​∑i=1n​xij​ 和标准差 Sj=∑i=1n(xij−xjˉ)2n−1S_j = \sqrt{\frac{\sum_{i = 1}^{n}(x_{ij} - \bar{x_j})^2}{n - 1}}Sj​=n−1∑i=1n​(xij​−xj​ˉ​)2​​ ,计算的标准化数据 Xij=xij−xjˉSjX_{ij} = \frac{x_{ij} - \bar{x_j}}{S_j}Xij​=Sj​xij​−xj​ˉ​​,从而可以得到原始数据进行标准化后的矩阵:X=[X11X12⋯X1pX21X22⋯X2p⋮⋮⋱⋮Xn1Xn2⋯Xnp]X = \begin{bmatrix} X_{11} & X_{12} & \cdots & X_{1p} \\ X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ X_{n1} & X_{n2} & \cdots & X_{np} \end{bmatrix}X=⎣⎢⎢⎢⎡​X11​X21​⋮Xn1​​X12​X22​⋮Xn2​​⋯⋯⋱⋯​X1p​X2p​⋮Xnp​​⎦⎥⎥⎥⎤​

  2. 计算标准样本的协方差矩阵 rij=1n−1∑i=1n(Xki−Xˉi)(Xkj−Xˉj)=1n−1∑i=1nXkiXkjr_{ij} = \frac{1}{n - 1}\sum_{i = 1}^{n}(X_{ki} - \bar{X}_i)(X_{kj} - \bar{X}_j) = \frac{1}{n - 1}\sum_{i = 1}^{n}X_{ki}X_{kj}rij​=n−11​i=1∑n​(Xki​−Xˉi​)(Xkj​−Xˉj​)=n−11​i=1∑n​Xki​Xkj​ 从而可以得到协方差矩阵:R=[r11r12⋯r1pr21r22⋯r2p⋮⋮⋱⋮rp1rp2⋯rpp]R = \begin{bmatrix} r_{11} & r_{12} & \cdots & r_{1p} \\ r_{21} & r_{22} & \cdots & r_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ r_{p1} & r_{p2} & \cdots & r_{pp} \end{bmatrix}R=⎣⎢⎢⎢⎡​r11​r21​⋮rp1​​r12​r22​⋮rp2​​⋯⋯⋱⋯​r1p​r2p​⋮rpp​​⎦⎥⎥⎥⎤​

  3. 计算 RRR 的特征值和特征向量
    特征值:λ1≥λ2≥⋯≥λp≥0\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0λ1​≥λ2​≥⋯≥λp​≥0
    特征向量:KaTeX parse error: Undefined control sequence: \cdtos at position 150: …\end{bmatrix}, \̲c̲d̲t̲o̲s̲, a_p = \begin…

  4. 计算主成分贡献率以及累计贡献率

    贡献率 = λi∑k=1pλk(i=1,2,⋯,p)\frac{\lambda_i}{\sum_{k = 1}^{p}\lambda_k} (i = 1, 2, \cdots, p)∑k=1p​λk​λi​​(i=1,2,⋯,p)

    累计贡献率 = ∑k=1iλk∑k=1pλk(i=1,2,⋯,p)\frac{\sum_{k = 1}^{i}\lambda_k}{\sum_{k = 1}^{p}\lambda_k} (i = 1, 2, \cdots, p)∑k=1p​λk​∑k=1i​λk​​(i=1,2,⋯,p)

  5. 写出主成分
    第 iii 个主成分:Fi=a1iX1+a2iX2+⋯+apiXp(i=1,2,⋯,m)F_i = a_{1i}X_1 + a_{2i}X_2 + \cdots + a_{pi}X_p (i = 1, 2, \cdots, m)Fi​=a1i​X1​+a2i​X2​+⋯+api​Xp​(i=1,2,⋯,m)

  6. 根据系数分析主成分代表的意义
    对于每个主成分而言,指标前面的系数越大,代表该指标对于主成分的影响越大。注意:对于主成分的解释往往是最困难的一步。

四、对于主成分的解释

主成分的解释往往带有一点模糊性,没有原始变量那么清晰透彻,许多人将它称为降维的代价。一旦主成分中某个主成分无法解释,那么整个主成分分析也就失败了。

五、主成分分析的应用

  1. 主成分聚类
    计算出主成分之后,可以将其视为新的指标,然后再SPSS中进行聚类分析。

  2. 主成分回归
    主成分回归可以用于解决多重共线性的问题。计算出主成分后将其视为自变量,便可以在Stata中进行回归分析。注意进行异方差检验哦~~~

    关于多重共线性下,主成分回归和逐步回归的选取:

    1. 如果主成分能够被很好的解释,那么两者都采用(๑•̀ㅂ•́)و✧!
    2. 如果主成分不能很好的解释,那么建议采用逐步回归。

数学建模学习笔记(十三)——主成分分析相关推荐

  1. 【数学建模学习笔记【集训十天】之第六天】

    数模学习目录 Matplotlib 学习 Matplotlib简介 Matplotlib 散点图 运行效果如下: Matplotlib Pyplot 运行效果如下: 关于plot() 运行效果如下: ...

  2. 数学建模学习笔记(2.3)lingo软件求解线性规划问题

    数学建模学习笔记(2.3)lingo软件求解线性规划问题 lingo软件的优势在于体积小,专注于解决优化问题 且编程语言通俗易懂,没有门槛 对于刚刚接触数学建模同学比较友善 当然对于已经参与建模很久的 ...

  3. 数学建模学习笔记(1)数学模型的特点和分类

    数学建模学习笔记(1)数学模型的特点和分类 ps:学习的教材为姜启源著的<数学模型(第四版)> 领取数模资料和更多内容请关注公众号:拾壹纪元 传送门: 线性规划(LP)问题 https:/ ...

  4. 数学建模学习笔记之评价问题聚类分析法

    数学建模学习笔记之评价问题聚类分析法 物以类聚.人以群分. 聚类分析是一个很大的概念,显然根据分类的依据不同会出现很多很多聚类的方法.例如K-Means .Sequential Leader.Mode ...

  5. 清风数学建模学习笔记——主成分分析(PCA)原理详解及案例分析

    主成分分析   本文将介绍主成分分析(PCA),主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息. 一般 ...

  6. 数学建模学习笔记(一):插值法

    文章目录 前言 一.一维插值问题的描述 二.常用插值方法 1.Lagrange插值法 2.Newton插值法 三.高次插值的Runge现象 四.Matlab插值 1.一维插值 2.二维插值 3.散乱点 ...

  7. 数学建模学习笔记-概况

    目录 1概况. 数学建模: 数学建模的模块: 一般步骤: 全过程: 论文的基本流程 模块学习: 1.题目备战:掌握固定模式 2.摘要备战:总结归纳能力,通过看高水平论文掌握. 3.问题重述:切忌直接抄 ...

  8. 高数叔数学建模学习笔记(1)

    此处将我在学习高数叔数学建模课程中遇到的代码记录下来,便于查看.学习. 5.matlab中的文件 wendu.m clear; f=input('temperature:'); c=5*(f-32)/ ...

  9. 数学建模学习笔记(二):非线性规划模型例题与灵敏度分析

    文章目录 前言 一.一个简单的非线性规划模型 二.问题的求解 1.模型的建立与求解 2.得出结论 三.灵敏度分析 总结 参考书目 前言 数学建模解决问题的过程一般分为五个步骤,称为五步方法,五个步骤如 ...

  10. 数学建模学习笔记(十一)——预测模型

    文章目录 一.综述 二.灰色预测简介 三.GM(1, 1)模型 四.使用灰色系统建模的前提 -- 准指数规律检验 五.对于GM(1, 1)的检验 六.GM(1, 1)模型的拓展 七.什么时候使用灰色预 ...

最新文章

  1. 其他算法-PCA主成分分析
  2. 电气simulink常用模块_16种常用模块电路分析,电气工程师的必备
  3. android 扫描音乐,native.js扫描android手机本地音乐
  4. 招聘面试的套路和原则
  5. 地址已经被使用——Address already in use(来自《后台开发:核心技术于应用实践》)
  6. 关于JSP页面无法加载css,游览器访问jsp页面样式未生效导致乱序
  7. 飞鸽传书内部排序算法的性能比较
  8. Python - SIP参考指南 - 介绍
  9. python开发工具下所有软件都打不开_Python中pip/setup安装插件失败提示“pypi.python.org” 打不开的解决办法...
  10. 解决log4j:WARN No appenders could be found for logger
  11. Kubernetes基础篇:主要特性、基本概念与总体架构
  12. 湖北省贷款贴息扶持政策申报指南,2022年申报条件以及贴息奖励标准
  13. 单位球坐标变换为椭球 matlab
  14. OpenLayers学习笔记中级篇(四、地图图标操作)
  15. 帝国CMS系统自动生成sitemap.xml网站地图的教程
  16. 机械转计算机,成功上岸鹅厂。白菜价年薪40w
  17. 计算机在聋校教学中有哪些作用,现代信息技术在聋校语文教学中的应用
  18. C# 文字视频生成器
  19. 驱动力3.0,动力全开~
  20. 复数中的运算符重载(续)

热门文章

  1. 驱动开发 --- 串口
  2. ppt文字转换成word
  3. 微信小程序 错题记事本 111111
  4. Java实现MD5加密及验证(两种方式,加盐md5与未加盐md5)
  5. vue解决h5 video视频 ios和安卓兼容问题
  6. 关于SNR和EbN0转换关系
  7. 《有限与无限的游戏》第五章 自然是不能言说者的王国:经典摘抄(1)
  8. SpringCloud 实战笔记
  9. 网易暑期实习面经(二面凉)
  10. U-boot之flash初始化完全代码分析