主成分分析法

主成分分析法是一种非常适用,又相对简单的数据处理的方法。它是利用降维的方法,将数据表示的信息的主要成分提取出来,所以叫做主成分分析法。主成分分析法最直观的目的是要将冗余的数据特征进行降维处理,与此同时保留数据最重要的一部分特征,使其主要的特征成分最大的保持整个数据信息完整性。

它的运用非常的广泛:

1.由于它可以提取主要的信息成分,所以它可以用来过滤掉信号的噪声

2.它可以用于合并特征。当有一些信息相关性非常大的时候,我们可以用主成分分析法把它们合并成一个特征;它也可以用于去掉冗余的特征。当两个特征表示的信息一致的时候,我们可以利用主成分分析法帮我们剔除掉其中一个。

3.当我们出现特征很多,过度拟合情况的时候。我们可以用主成分分析法帮助我们把真正有用的部分给保留下来。

下面我们来介绍一下,主成分分析的原理:

在介绍之前,我们要先对原始数据做一个说明。由于在表征信息时,原始数据所含有的每个特征会有不同的量纲,代表着不同的含义,所以在用原始数据直接进行主成分分析是不对的。我们应该在进行主成分分析之前,先对原始数据中的每个特征进行归一化处理。以下所指的原始数据,都是指经过了归一化处理之后的数据

假设我们现在有一组含有m维特征的数据,其中每一维代表一个数据特征:

现在我们考虑如下的线性变换:

也可以写作如下形式:

其中,

由上面的公式,我们可以知道,假设说我们知道,那么中就相当于保存了数据中所有的信息。如果说,前面的几个就在很大程度上保留了数据的信息,那我们就可以把一些作用不大的信息去掉,只保留原始数据中的主要信息,这就是主成分分析法的原理。

那么主成分分析法具体是怎么做的呢?

1.主成分分析法中限制了之间必须要是相互独立的,之间的独立性保证了之间没有重复的信息。也就是说,原始数据中的冗余的被剔除掉了。从数学上来说,可以表示为:

2.之间的对信息保存做出的贡献是由它的方差来衡量的,方差越大,原始数据中的信息保存的也就越多。

3.此外,主成分分析法还限定了,因为我们可以把上面的线性变换看做是数据上的投影,表示的是投影向量,所以

我们将从投影的角度来导出主成分分析法中各主成分的求法。

首先,由于原始数据是进行归一化处理之后的数据,所以中的每个特征的均值为0,所以在投影到上之后,它的均值还是为0。我们考虑其中一组变换,它会使数据的方差变为:

括号里面的部分,正好就是数据的协方差矩阵,注意上面的的范围,是从1到n,表示的是数据中样本的个数。

把这个等式的第一项的第三项提出来,令:

(协方差矩阵)

分别左乘,由于可得:

现在可以清晰的看出, 为协方差矩阵 的特征值, 为该特征值所对应的特征向量。当 为协方差矩阵 的最大特征值时,此时对应的投影方差最大,这个时候的特征向量 所对应的线性变换 就是线性变换中占据数据 信息最多的成分。以此类推,协方差矩阵 的第二大特征值 所对应的线性变换 就是线性变换中占据数据 信息第二多的成分……

由此我们就推导出了主成分的求解方法。

在几何上,主成分分析法所表示的意思就是把原本的数据,投影到相互正交的特征向量(因为协方差矩阵为对称矩阵)上去。

比如说,如下图所示(图片来自于网络),数据的样本点在原本的两个特征方向上都十分的分散。

这个时候,我们可以将样本点根据线性变换投影到新的特征上去。

此时可以看到,样本点明显集中了很多。并且样本点在方向上的方差比在方向上的方差要大,所以为其主成分。

特征值的含义

通过上面对于主成分分析法的介绍,其实我们可以大概看出来特征值和特征向量在一个矩阵中扮演了什么样的角色。
特征值的大小代表了矩阵正交化之后所对应特征向量对于整个矩阵的贡献程度。
也可以从矩阵变换的角度来理解特征值和特征向量,当一个矩阵乘以形变矩阵 (Transform),就相当于在 矩阵特征向量的方向上,对原来的矩阵进行拉伸和收缩,拉升和收缩的程度就是用特征值来表征的。举个例子,如果说我现在是一个纸片人,我和一个形变矩阵 相乘,我的身高变成了原来的两倍,而宽度没变,那么可以说,这个形变矩阵在我身高方向的特征向量所对应的特征值是2,在横向方向的特征值为1。

主成分分析法及特征值的含义相关推荐

  1. 主成分分析法_数学建模 || 葡萄酒的评价(1)主成分分析法

    首先要说一下,这篇文章我在其他的平台发过,也是本人亲自写的,如果大家觉得眼熟的话放弃轻松,没有抄袭,主要是因为与我这 "葡萄酒的评价" 题目成系列了,因此在这里再把这个贴出来. 2 ...

  2. PCA降维(主成分分析法)

    PCA降维(主成分分析法) PCA的基本思想 PCA数学推导(最大方差法) 第一步,数据去中心化 第二步,找到新最标轴 第三步,选择你需要数据的百分之几的成分 PCA算法的优劣 问题 使用PCA到底需 ...

  3. 基于主成分分析法的安全评价模型

    目录 一.安全评价简介 二.引入 三.调查问卷的设置 四.问卷发放与回收 五.主成分分析法介绍 六.SPSS主成分分析(简易版) 6.1 数据的导入与设定 6.2 信效度分析 6.3 SPSS主成分分 ...

  4. 数学建模学习笔记(21)主成分分析法

    主成分分析法概述 主成分分析(PCA)是一种降维算法,能够将多个数据指标转换为少数几个主成分,这些主成分是原始变量的线性组合,并且彼此之间互不相关,能够反映原始数据的大部分信息. 主成分分析法的适用情 ...

  5. 最小二乘法与主成分分析法原理及应用详解和它们的联系

    网上关于最小二乘法及主成分分析的介绍数不胜数,这两种方法均为挖掘数据分布规律的最重要也是最基本的工具.主成分分析法与最小二乘法实际上有所联系,前者分析出的"主方向"实质上是最小二乘 ...

  6. R语言主成分分析法笔记

    01.什么是主成分分析法 简要概括主成分分析法的作用:把能反映某种特征的很多指标汇总成一个指标. 举例而言,一家银行的流动性可以体现在它的现金资产占比和定期存款占比上-- 银行A的现金资产占比是0.1 ...

  7. 主成分分析法(PCA)的理解(附python代码案例)

    目录 一.PCA简介 二.举个例子 三.计算过程(公式) 3.0 题干假设 3.1 标准化 3.2 计算协方差矩阵 3.3 计算特征值和特征值向量 3.3 多重共线性检验(可跳过) 3.4 适合性检验 ...

  8. 主成分分析法怎么提取图片中的字_在主成分分析里,如何提取主成分

    因子分析---选项中有一项是特征根植大于1 或者说是指定主成分个数,默认是提取的特征根植为1, 你改成 下面的指定主成分个数那一项就可以了 你想指定几项都可以 不过要小于所有变量个数 Fp = a1i ...

  9. 主成分分析法(PCA)原理漫谈

    在研究OpenCV人脸识别算法时,了解到其中OpenCV特征脸法Eigenfaces是基于主成分分析法(principal component analysis,简称PCA),后来再了解到PCA不仅仅 ...

最新文章

  1. GIT常用命令以及使用详解图示
  2. java instanceof用法_Java基础高频面试题汇总(1.4W字详细解析)
  3. 开放下载!《iOS开发者必读资讯》
  4. Galgame研发日志:那么,怎么才能回本呢?
  5. 浅谈C++中内存分配、函数调用和返回值问题
  6. 记一起因证书引发的支付宝支付异步通知接收不到的事故
  7. k均值例子 数据挖掘_【十大经典数据挖掘算法】k-means
  8. 2018-06-13 第三十八天
  9. 转:Gulp使用指南
  10. getRequestDispatcher 和sendRedirect区别及路径问题
  11. 百度网盘文件真实地址解析
  12. 显卡XP驱动 Win7驱动 NVIDIA GT520M GT525M GT540M
  13. 美国北亚利桑那大学计算机专业排名,美国北亚利桑那大学排名学费
  14. 六键无冲和全键无冲哪个好_键盘冷知识:全键无冲到底是什么?
  15. 使用json报错java.lang.NoClassDefFoundError: nu/xom/ParentNode
  16. 腾讯成立技术委员会,地位高于 6 大事业群
  17. 异构网络-元图、知识图谱
  18. 华为重度渗透的欧洲,美国如何清剿?
  19. 采购工作的基本内容和注意事项
  20. activemq、rabbitmq、kafka原理和比较

热门文章

  1. Java数组转集合之Arrays.asList()用法
  2. Shiro学习(6)Realm整合
  3. 核心显卡和独立显卡的区别
  4. 电路的基本概念(1) 自学笔记
  5. Ubuntu 16.04 安装 CUDA Toolkit 10.0
  6. strace命令解析
  7. 人在做,天在看:天道有轮回,苍天饶过谁
  8. netcat常用命令
  9. 二叉树、平衡二叉树、完全二叉树、满二叉树
  10. IP段是什么意思?扬州高防服务器103.219.30.X