数据降维:主成分分析法
前言
什么叫做主成分分析法,我们先看一张图椭圆的图,如果让你找一条线,使得椭圆上所有点在该线上映射的点最分散,保留下来的信息最多,你会怎么选择这条线?若是下图,会选择水平线,这是用一维的方式去尽可能多的表示二维的数据,那么多维的数据呢,是否可以用较低维的数据尽可能表示。
如何用二维的平面去尽可能表示一个椭球面呢?
思想
主成分分析法是一种统计方式,简化数据的方式,是一种线性变换,把数据变换到新的坐标系中,使得任意投影的第一大方差映射到第一主成分上,第二大方差映射到第二主成分上。如果舍弃高维的主成分,一般可以达到保留对方差贡献最大的特征,在一些方面上,可以保留数据的主要特征,当然,为了数据更好看,我们会把坐标轴的中心移到数据的中心,这可以让数据处理起来更方便。
在数学上
在数学上,我们用 L2L^2L2 范数的平方(L2L^2L2范数的平方与其本身在相同位置取得最小值,单调递增,性质更好)来计算,x 为输入,c∗c^*c∗ 为最优编码:
c∗=(L2)2=argminc∣∣x−g(c)∣∣22=(x−g(c))T(x−g(c))=xTx−2xTg(c)+g(c)Tg(c)=argminc−2xTDc+cTIlc(其中c=f(x),g(c)=Dc)∴∇c(−2xTDc+cTc)=0c=f(x)=DTxc^*=(L^2)^2=argmin_c||x-g(c)||_2^2 \\\\ =(x-g(c))^T(x-g(c)) \\\\ =x^Tx-2x^Tg(c)+g(c)^Tg(c) \\\\ =argmin_c-2x^TDc+c^TI_lc \\\\ (其中c=f(x),g(c)=Dc) \\\\ \therefore\nabla_c(-2x^TDc+c^Tc)=0 \\\\ c=f(x)=D^Tx c∗=(L2)2=argminc∣∣x−g(c)∣∣22=(x−g(c))T(x−g(c))=xTx−2xTg(c)+g(c)Tg(c)=argminc−2xTDc+cTIlc(其中c=f(x),g(c)=Dc)∴∇c(−2xTDc+cTc)=0c=f(x)=DTx
由上可知,若要得到c只需要一个矩阵乘法。定义重构操作:
r(x)=g(f(x))=DDTxD∗=argminD∑i,j(xj(i)−r(x(i))j)2其中DTD=Ilr(x)=g(f(x))=DD^Tx \\\\ D^*=argmin_D\sqrt{\sum_{i,j}(x_j^{(i)}-r(x^{(i)})_j)^2} \\\\ 其中D^TD=I_l r(x)=g(f(x))=DDTxD∗=argminDi,j∑(xj(i)−r(x(i))j)2其中DTD=Il
经过复杂的 推导,用数学归纳法可以证明,矩阵 D 可以由前 XTXX^TXXTX 的前 lll 个最大的特征值对应的特征向量组成。
总结
主成分分析法主要用于数据降维,目标为尽量减少原数据的损失的情况下,尽可能减少数据量。
- 本文首发自RAIS
数据降维:主成分分析法相关推荐
- 数据降维——主成分分析
1.作用 主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差 ...
- 数据降维--------主成分分析(PCA)算法原理和实现学习笔记
1 主成分分析背景 '''PCA计算步骤(思想是把数据投影到方向向量使数据集的特征向量到方向向量的垂线长度最短) 1.去平均 2.计算协方差矩阵 3.计算协方差矩阵的特征向量和特征值 4.将特征值从小 ...
- 主成分分析法_数学建模 || 葡萄酒的评价(1)主成分分析法
首先要说一下,这篇文章我在其他的平台发过,也是本人亲自写的,如果大家觉得眼熟的话放弃轻松,没有抄袭,主要是因为与我这 "葡萄酒的评价" 题目成系列了,因此在这里再把这个贴出来. 2 ...
- 多元统计分析——数据降维——因子分析(FA)
一.因子分析简介 1.定义 1904年,英国心理学家CharlesSpearman研究了33名学生在古典语.法语和英语三门成绩,三门成绩的相关性系数如下: 三门成绩的高度相关会不会是由于它们三个成绩的 ...
- R语言主成分分析法笔记
01.什么是主成分分析法 简要概括主成分分析法的作用:把能反映某种特征的很多指标汇总成一个指标. 举例而言,一家银行的流动性可以体现在它的现金资产占比和定期存款占比上-- 银行A的现金资产占比是0.1 ...
- 数据降维1:主成分分析法思想及原理(配图版)
0x01 什么是主成分分析法 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法). 其最主要的用途在于&quo ...
- 主成分的java版_数据降维:主成分分析法
前言 什么叫做主成分分析法,我们先看一张图椭圆的图,如果让你找一条线,使得椭圆上所有点在该线上映射的点最分散,保留下来的信息最多,你会怎么选择这条线?若是下图,会选择水平线,这是用一维的方式去尽可能多 ...
- 数据降维之主成分分析法PCA
主成分分析法PCA 参考链接:https://www.bilibili.com/video/BV1E5411E71z 主成分分析(Principal Component Analysis,PCA), ...
- python主成分分析法降维_【数据降维】主成分分析法
主要内容本系列马上就要进入建模的阶段了,但是在这之前还有一些准备工作要做,能让我们最终得到的分析结果更好,数据降维便是其中之一. 数据降维实际上是对输入特征的一次精简.通常来说当我们已经通过数据处理得 ...
最新文章
- 从谷歌AutoML到百度EasyDL,AI大生产时代,调参师不再是刚需
- 《Science》杂志:机器学习究竟将如何影响人类未来的工作?
- 现在的学生太强了,徒手撸了一个小米商城项目(附源码)!
- RocketMq Producer最佳实践
- 中国商用密码SMS4
- Python 查看pip安装的包的位置(查看pip安装包的路径)
- 【Avro】两种根据avsc文件生成avro序列化的实体类-maven和avro-tool
- 这不是海市蜃楼,这是平地雾
- datagrid getselected/getselections/getData之间的用法差异
- Unity 代码加密 Mono 编译与加密 windows版
- JAVA制作游戏脚本(1)---Robot机器人
- Elasitcsearch CPU 使用率突然飙升,怎么办?
- linux下的超级服务器inetd
- Unity Bone weights do not match bones.
- 颜色透明度百分比对应8位颜色值
- 考华为云认证要做什么准备,怎么做题库?
- 回顾系列2-部落战争
- torchAudio中wav2vec2的源码(三)——transformer-encoder的构建
- 抓取整个网页的图像捕捉工具:Web2Pic Pro
- 电脑桌面上做工作计划的便签软件是啥?