1.主成分分析应用背景及目标:
1.1 背景分析

  • 我们希望可以从南极洲站点监测数据中得到南极洲地表温度的计算公式,进而解释分析气候变暖的内在原因。为了能够得带南极洲地表温度更多方面,更完整的信息,需要用多变量(year ,station altitude,station pressure ,wind speed, wind direction)组成的向量来表示,这些用来描述观察南极洲地表温度的变量,抽离出来就是高维数据。高维数据一方面提供了有关地表温度极其丰富、详细的信息,但另一方面,由于高维数据自身表达和处理复杂,可能会给随后的数据处理工作带来了前所未有的困难 。
  • 所以需要通过主成分分析对数据降维,year ,station altitude,station pressure ,wind speed, wind directions是南极洲洲科学考察站记录的数据,信息丰富,这些数据可能与南极洲地表温度有关,但是我们却不知道如何分析这些数据与地表温度之间的关系。应用主成分分析降低复杂度,一方面可以解决“维数灾难”;另一方面可以更好地认识和理解数据。

1.2 目标

  • 高维数据降维,用几个主成分替了原始的五个特征:year ,station altitude,station pressure ,wind speed, wind direction, 同时,这几个主成分可以表示原始五个特征的80% 以上的信息。 通过计算综合主成分影响程度累积百分比,对影响南极洲地表温度的五个特征进行定量分析,进而合理选择预测计算南极洲地表温度的主成分(特征),建立南极洲温度计算预测模型。

2. 数据样本转换为矩阵
2.1 原始数据样本预处理

  • 数据有五个与南极洲地表温度相关联的特征,分别为Year , Station_level_pressure , Wind_speed , Wind_direction ,Height
  • 部分数据样本如下:

2.2 数据样本转换为矩阵
数据转换为如下形式的矩阵:

即如下形式:其中 n = 24 , p = 6

3. 对原始数据进行标准化处理
由于Year , Station_level_pressure , Wind_speed , Wind_direction ,Height具有不同的单位和不同的变异程度。  不同的单位常使系数的实践解释发生困难。例如:Station_level_pressure的单位是 hecto-Pascals,Wind_speed 的单位是knots,那么在计算中可能会出现不同变量配予系数相加的情况。1004.39hecto-Pascals 的差异怎么可以与15.2knots的差异相加? 由于不同变量自身具有相差较大的变异,会使在计算出的关系系数中,不同变量所占的比重大不相同。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。


4. 计算样本相关系数矩阵

为方便,假定原始数据样本标准化后仍用X表示,则经标准化处理后的数据的相关系数为:

5. 用雅克比方法求相关系数矩阵R的特征值

6. 选择重要的主成分,并写出主成分表达式
6.1 计算贡献率 (主成分得分)
通过主成分分析得到了五个主成分,但是,由于各个主成分所占方差百分比逐渐递减,包含的信息量也子在逐渐递减,所以并不是选取所有五个主成分,根据各个主成分的累计贡献率的大小选取前 k 个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即:

6.2 计算结果整理分析
主成分得分表如下:
PV : The percentage of variance

贡献率越大,说明该主成分包含的原始变量的信息越强。主成分个数 k 的选取,主要根据主成分的累积贡献率来决定,即一般要求累积贡献率达到 85% 以上,这样才能保证综合变量能包括原始变量的绝大多数信息。在我们计算出来的主成分得分表中,前三个主成分影响力累计达到81.555%,所以我们选取PCA构造出来的前三个主成分为模型的三个特征 。通过PCA 构造出来的三个主成分(也就是我们模型的三个新特征)是原来变量Year , Station_level_pressure , Wind_speed , Wind_direction ,Height 的线性组合,通过对主成分表达式的系数的定性分析可知,这个线性组合中各个变量的系数有大有小,有正有负,有的大小相当,因而不能简单的认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分综合了绝对值大的变量,有几个变量大小系数相当时,则认为这一主成分是这几个变量的总和 。
6.3 根据主成分得分表得出主成分表达式
主成分得分表如下:

三个主成分的计算公式如下:

7.应用主成分计算公式处理数据
根据标准化的原始数据,把各个样本,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即主成分得分。具体形式可如下:

部分数据如下
PC One: Principal Component One
PC Two: Principal Component Two
PC Three: Principal Component three

主成分分析实战篇:南极考察站检测数据降维相关推荐

  1. 机器学习入门与Python实战(十):数据降维PCA主成分分析

    目录 现实问题思考:金融股价预测 数据降维 为什么需要数据降维 数据降维最常用的方法:主成分分析(PCA) 知识巩固 Python实战:PCA+逻辑回归预测检查者是否患糖尿病 拓展学习 现实问题思考: ...

  2. Unity实战篇:读取Excel数据并转换成Asset

    在开发游戏过程中我们不可避免的会遇到要给游戏数据配表的问题,(毕竟一个一个string写太累了啊喂!),而且配表还有利于数据的观察和策略性修改,也有利于游戏的维护与更新.这篇博客讲的是读取Excel表 ...

  3. 可视化绘图技巧100篇分析篇(一)-数据降维NMDS分析(补充篇)

    目录 前言 算法原理 什么是NMDS分析? NMDS与其他降维方式有什么区别?

  4. matlab 数据降维和重构_核主成分分析(Kernel PCA, KPCA)的MATLAB 实现

    前言 核主成分分析 (KPCA) 是一种非线性数据处理方法,其核心思想是通过一个非线性映射把原始空间的数据投影到高维特征空间, 然后在高维特征空间中进行基于主成分分析 (PCA) 的数据处理.KPCA ...

  5. caffe框架下目标检测——faster-rcnn实战篇操作

    原有模型 1.下载fasrer-rcnn源代码并安装 git clone --recursive https://github.com/rbgirshick/py-faster-rcnn.git 1) ...

  6. 目标检测实战篇1——数据集介绍(PASCAL VOC,MS COCO)

    前言   前面我们讲过了目标检测的YOLO系列算法,SSD算法.从这个博文开始,我们要真实开启实战篇章.在正式介绍实战篇之前,我们需要先知道两个数据集:PASCAL VOC和COCO数据集. 一.PA ...

  7. 【行人检测】miss rate versus false positives per image (FPPI) 前世今生(实战篇-上)

    上文我们说到[行人检测]miss rate versus false positives per image (FPPI) 前世今生(理论篇),今天我们来跑通作者绘制FPPI图的代码以及源码解读 (第 ...

  8. 数据降维:PCA主成分分析降维示例及函数参数解释

    文章目录 主成分分析(PCA)介绍 PCA转化步骤 PCA示例 sklearn中的PCA PCA优缺点 优点 缺点 主成分分析(PCA)介绍 PCA也被叫做卡尔胡宁-勒夫转换(KLT),是一种用户在高 ...

  9. 实战CenterNet,训练猫脸关键点检测数据集并测试

    实战CenterNet,训练猫脸关键点检测数据集并测试 一.本机配置 二.环境搭建 三.数据准备 四.开始训练 五.测试 六.references 这里主要记录一下,调试CenterNet用来训练猫脸 ...

最新文章

  1. RAC RMAN 备份 RMAN-03009 ORA-19504 ORA-27040 RMAN-06012 channel c3 not allocated 错误分析
  2. wine应用运行后字体都是问号
  3. 好的软件人员必看的书
  4. python服务端编程_Python实现的简单文件传输服务器和客户端
  5. 【转】7个顶级心理预言
  6. onerror捕获异常
  7. linux 离线安装node.js,Linux上离线安装node.js、Newman、newman-reporter-html
  8. 单元测试框架TestableMock快速入门(五):复用Mock类与方法
  9. 学习笔记12--智能驾驶安全设计案例
  10. NPOI Word插入图片的方法
  11. PHP实现 鸡兔同笼的问题
  12. 2020我们一起“只争朝夕,不负韶华”
  13. 50个直击灵魂的问题_短不短,是一个直击灵魂的问题~
  14. matlab中主程序如何调用其它子程序,主程序怎样调用子程序
  15. Linux服务器需要安装代理软件EPS(agent)数据库
  16. S3C2440移植linux3.4.2内核之内核框架介绍及简单修改
  17. APICloud 自定义模块开发的一些坑
  18. Linux的top命令详解
  19. Mac下安装whistle
  20. 来自 Qt 官网的呐喊

热门文章

  1. 【离线语音专题②】安信可语音开放平台的使用——VC系列SDK的获取
  2. mysql表分区数量限制_详解MySQL分区表的局限和限制的代码实例
  3. 测试qq和微信voip内网穿透
  4. 堆和栈得区别--向WXP学习
  5. 计算机中什么符号代表除号,电脑怎么打除号?word除号怎么打出来?键盘上÷号是哪个键?除以符号电脑怎么打?...
  6. RFC2617- HTTP Authentication自译本-(3) (转)
  7. 【C语言】动态申请空间
  8. chrome控制台如何把vw显示成px_Chrome 开发者工具的11 个高级使用技巧
  9. Edify Script (Android Shell)定制Twrp刷机包
  10. 加速度计和陀螺仪原理