第十三章 利用PCA来简化数据

一.降维技术

当数据的特征很多的时候,我们把一个特征看做是一维的话,我们数据就有很高的维度。高维数据会带来计算困难等一系列的问题,因此我们需要进行降维。降维的好处有很多,比如:降低算法开销,让数据更加便于使用,去燥,数据更易于显示等等。

目前的降维技术主要有三种:第一种主成分分析(PCA),也就是本章介绍的内容,它只保留方差方向最大的若干个特征;第二种是因子分析,这种方法它的思想就是认为数据是由隐参数和噪声混合而成,如果我们能够找到隐参数和噪声就能够实现降维;第三种是独立成分分析(ICA),这种方法的思想是它认为数据是由若干个独立的数据源混合而成,如果我们能够找到这些数据源,就能够实现降维。

二.PCA的基本思想

PCA就是把一个高维的空间映射到一个低维的空间,这个低维的空间,让样本点的投影尽可能的分开,距离尽可能的大。要找到这样的一个低维空间,我们是通过不断的选择方差最大的方向来作为新特征维度实现的,当选择的方向的数目少于初始的特征维度,就实现了降维。

PCA算法的一般特性:

1.它的优点:降低数据的复杂度

2.它的缺点:可能用不到,会丧失一些有用的信息

3.它的使用类型:数值型数据

PCA算法实现的一般过程:

1.进行去中心化(也就是将每个数据减掉它的平均值)

2.计算XTX,也就是计算出协方差矩阵

3.计算协方差矩阵的特征向量和特征值

4.将得到的特征值进行从小到大的排列,然后选择值最大的d个特征值对应的特征向量作为新空间的方向向量

5.将数据映射到新的空间

三.PCA算法的实现

根据PC A算法的一般过程我们可以得到以下的实现方式:

首先我们需要获得数据

其次我们就能够定义PC A算法了

四.总结

PC A算法是一种进行降维的重要方法。我们在选择保留的特征的数目时,我们既可以实现设定,也可以根据得到特征值来进行选择。保留合适的特征数目对于数据非常的重要。

当前的降维方法主要有三种,一种是独立成分分析,一种是主成分分析,还有一种就是因子分析。主成分分析是一种应用比较广泛的方法。主成分分析他通过不断选择数据方差最大的方向来实现降维。

PCA算法和SVD

如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值.这里可以将特征值为负,特征向量旋转180度,也可看成方向不变,伸缩 ...

使用Apriori算法和FP-growth算法进行关联分析

系列文章:学习笔记 最近看了中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集).正如章 ...

用Spark学习FP Tree算法和PrefixSpan算法

在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...

最小生成树---Prim算法和Kruskal算法

Prim算法 1.概览 普里姆算法(Prim算法),图论中的一种算法,可在加权连通图里搜索最小生成树.意即由此算法搜索到的边子集所构成的树中,不但包括了连通图里的所有顶点(英语:Vertex (gra ...

经典算法和OJ网站(开发者必备-转)

一. Online Judge简介: Online Judge系统(简称OJ)是一个在线的判题系统.用户可以在线提交程序多种程序(如C.C++.Pascal)源代码,系统对源代码进行编译和执行,并通过 ...

BM算法和Sunday快速字符串匹配算法

BM算法研究了很久了,说实话BM算法的资料还是比较少的,之前找了个资料看了,还是觉得有点生涩难懂,找了篇更好的和算法更好的,总算是把BM算法搞懂了. 1977年,Robert S.Boyer和J St ...

台球游戏的核心算法和AI(2)

前言: 最近研究了box2dweb, 觉得自己编写Html5版台球游戏的时机已然成熟. 这也算是圆自己的一个愿望, 一个梦想. 承接该序列的相关博文: • 台球游戏核心算法和AI(1) 同时结合htm ...

mahout中kmeans算法和Canopy算法实现原理

本文讲一下mahout中kmeans算法和Canopy算法实现原理. 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉.虽然算法较为简单,在实际应用中却可以有不错的效果:其算法原理也决定了 ...

转载:最小生成树-Prim算法和Kruskal算法

本文摘自:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/30/2615542.html 最小生成树-Prim算法和Kruskal算法 Prim算 ...

随机推荐

查内网虚拟机映射的公网IP

1.访问ip138.com 2.curl ifconfig.me

Qt 读写XML文件

1.读操作: QDomDocument doc( “mydocument " ); QFile file( "ccc.xml" ); if ( !file.open( I ...

Lintcode--009(单词切分)

http://www.lintcode.com/zh-cn/problem/word-break/ 单词切分 给出一个字符串s和一个词典,判断字符串s是否可以被空格切分成一个或多个出现在字典中的单词. ...

Python科学计算学习一 NumPy 快速处理数据

1 创建数组 (1) array(boject, dtype=None, copy=True, order=None, subok=False, ndmin=0) a = array([1, 2, 3 ...

1013团队alpha冲刺日志集合帖

alpha冲刺day1 alpha冲刺day2 alpha冲刺day3 alpha冲刺day4 alpha冲刺day5 alpha冲刺day6 alpha冲刺day7 alpha冲刺day8 alph ...

[Codeforces 864D]Make a Permutation!

Description Ivan has an array consisting of n elements. Each of the elements is an integer from 1 to ...

[2017BUAA软工助教]团队开发阶段CheckList

alpha阶段流程与相关节点 以下流程与团队项目中个人的得分点是一一对应的,详见QA文档中"个人在团队项目的得分部分" http://www.cnblogs.com/Childis ...

Python 手动新建 Scrapy项目

# 创建项目 scrapy startproject 工程名 # 创建爬虫 scrapy genspider example example.com

【Hadoop 分布式部署 十 一: NameNode HA 自动故障转移】

问题描述:    上一篇就是NameNode 的HA 部署完成,但是存在问题,问题是如果 主NameNode的节点宕机了,还是需要人工去使用命令来切换NameNode的Acitve 这样很不方便,所以 ...

Authentication required (packagist.phpcomposer.com) 账号密码到哪里获取?

安装好composer后,执行composer install 报这个错 面对这个错有两种方法.1,他说你的composr 版本不够稳定,composer update 一下,或者 composer ...

pca算法python_PCA算法和python实现相关推荐

  1. python选择排序从大到小_经典排序算法和Python详解之(一)选择排序和二元选择排序...

    本文源自微信公众号[Python编程和深度学习]原文链接:经典排序算法和Python详解之(一)选择排序和二元选择排序,欢迎扫码关注鸭! 扫它!扫它!扫它 排序算法是<数据结构与算法>中最 ...

  2. 关联规则挖掘算法: Aprior算法和Fpgrowth算法

      关联规则挖掘的目的是挖掘不同物品(item)之前的相关性,啤酒和尿布的故事就是一个典型的成功例子.关联规则挖掘思想简单高效,在广告推荐领域也有较多的应用,主要用于推荐模型落地前的流量探索以及构建规 ...

  3. pca算法python_PCA算法实现

    前言 PCA算法是数据降维中最常用的算法之一,利用PCA算法实现的数据降维能够有效减少算法运行时间和算法对硬件的消耗.本篇文章将使用python实现PCA算法,并将其应用于图像处理. 使用PCA算法实 ...

  4. matlab实现prim算法,Prim算法和Kruskal算法的Matlab实现

    Prim算法和Kruskal算法的Matlab实现 <计算机仿真>期末大作业 Prim算法和Kruskal算法的Matlab实现 05605刘禹050697(30) 连线问题应用举例: 欲 ...

  5. 用通俗易懂的方式讲解:主成分分析(PCA)算法及案例(Python 代码)

    文章目录 知识汇总 加入方式 一.引入问题 二.数据降维 三.PCA基本数学原理 3.1 内积与投影 3.2 基 3.3 基变换的矩阵表示 3.4 协方差矩阵及优化目标 3.5 方差 3.6 协方差 ...

  6. 粒子群优化算法和python代码_Python编程实现粒子群算法(PSO)详解

    1 原理 粒子群算法是群智能一种,是基于对鸟群觅食行为的研究和模拟而来的.假设在鸟群觅食范围,只在一个地方有食物,所有鸟儿看不到食物(不知道食物的具体位置),但是能闻到食物的味道(能知道食物距离自己位 ...

  7. 常见数据挖掘算法和Python简单实现

    1.K近邻算法 原理:计算待分类样本与每个训练样本的距离,取距离最小的K个样本,这k个样本,哪个类别占大多数,则该样本属于这个类别. 优点:1.无需训练和估计参数,2.适合多分类,3.适合样本容量比较 ...

  8. 【Linux进程、线程、任务调度】三 CPU/IO消耗型进程 吞吐率/响应 SCHED_FIFO算法与SCHED_RR算法 SCHED_NORMAL算法和CFS算法 nice与renic chrt

    学习交流加(可免费帮忙下载CSDN资源): 个人微信: liu1126137994 学习交流资源分享qq群1(已满): 962535112 学习交流资源分享qq群2(已满): 780902027 学习 ...

  9. 《OpenCv视觉之眼》Python图像处理十四 :Opencv图像轮廓提取之Scharr算法和Canny算法

    本专栏主要介绍如果通过OpenCv-Python进行图像处理,通过原理理解OpenCv-Python的函数处理原型,在具体情况中,针对不同的图像进行不同等级的.不同方法的处理,以达到对图像进行去噪.锐 ...

最新文章

  1. 创建自己的人脸识别系统
  2. ios cordova报gap://ready 弹出框,一直弹
  3. Java设计模式-工厂模式(2)工厂方法模式
  4. TypeSprict -- 基础类型
  5. 汽车租赁php参考文献,求租赁或者汽车租赁的英文参考文献
  6. Android Context应用上下文详解
  7. Linux 文件权限详解 含义和修改和安全
  8. matlab绘图白边设定
  9. 全新互联网四通手机震撼上市
  10. (27)System Verilog设计UART接收
  11. apache commons-beanutils中BeanUtils和PropertyUtils区别
  12. 使用微信开发工具开发微信小程序(二)——协同工作、发布与事件绑定
  13. 计算机创新论文特点,计算机应用技术的创新分析
  14. AT32 XMC驱动PC卡/CF卡
  15. html显示文件夹图片,Html读取本地文件夹下图片并显示
  16. DEVC++小游戏狼人杀
  17. dubbo实现原理介绍
  18. 【虹科案例】极高的精度水平——虹科数字化仪在大型强子对撞机机器保护系统中的应用
  19. MATLAB与安捷伦lan口通讯,matlab与安捷伦示波器通讯问题
  20. matlab算法改进,pso算法改进含MATLAB代码

热门文章

  1. 搜狗重磅开源的又一力作:一个服务器引擎
  2. Group Lasso
  3. 公司内部资料!游戏上线前部署准备,就这新手都行
  4. sql日期查询 中文格式转换
  5. 跨境电商,淘宝app详情接口,淘宝详情页接口,宝贝详情页接口,商品属性接口,商品信息查询,商品详细信息接口,h5详情
  6. java使用sigar获取服务器的信息
  7. CSDN大礼包--高校圆桌派大礼包
  8. 我叫mt3.2更新公告
  9. 判断kkt条件的例题_KKT条件原理
  10. docker安装方法