主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域。它的主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。关于PCA的更多介绍,请参考:https://en.wikipedia.org/wiki/Principal_component_analysis.

PCA的主要算法如下:

组织数据形式,以便于模型使用;

计算样本每个特征的平均值;

每个样本数据减去该特征的平均值(归一化处理);

求协方差矩阵;

找到协方差矩阵的特征值和特征向量;

对特征值和特征向量重新排列(特征值从大到小排列);

对特征值求取累计贡献率;

对累计贡献率按照某个特定比例选取特征向量集的子集合;

对原始数据(第三步后)进行转换。

其中协方差矩阵的分解可以通过按对称矩阵的特征向量来,也可以通过分解矩阵的SVD来实现,而在Scikit-learn中,也是采用SVD来实现PCA算法的。关于SVD的介绍及其原理,可以参考:矩阵的奇异值分解(SVD)(理论)。

本文将用三种方法来实现PCA算法,一种是原始算法,即上面所描述的算法过程,具体的计算方法和过程,可以参考:A tutorial on Principal Components Analysis, Lindsay I Smith. 一种是带SVD的原始算法,在Python的Numpy模块中已经实现了SVD算法,并且将特征值从大从小排列,省去了对特征值和特征向量重新排列这一步。最后一种方法是用Python的Scikit-learn模块实现的PCA类直接进行计算,来验证前面两种方法的正确性。

用以上三种方法来实现PCA的完整的Python如下:

import numpy as np

from sklearn.decomposition import PCA

import sys

#returns choosing how many main factors

def index_lst(lst, component=0, rate=0):

#component: numbers of main factors

#rate: rate of sum(main factors)/sum(all factors)

#rate range suggest: (0.8,1)

#if you choose rate parameter, return index = 0 or less than len(lst)

if component and rate:

print('Component and rate must choose only one!')

sys.exit(0)

if not component and not rate:

print('Invalid parameter for numbers of components!')

sys.exit(0)

elif component:

print('Choosing by component, components are %s......'%component)

return component

else:

print('Choosing by rate, rate is %s ......'%rate)

for i in range(1, len(lst)):

if sum(lst[:i])/sum(lst) >= rate:

return i

return 0

def main():

# test data

mat = [[-1,-1,0,2,1],[2,0,0,-1,-1],[2,0,1,1,0]]

# simple transform of test data

Mat = np.array(mat, dtype='float64')

print('Before PCA transforMation, data is:\n', Mat)

print('\nMethod 1: PCA by original algorithm:')

p,n = np.shape(Mat) # shape of Mat

t = np.mean(Mat, 0) # mean of each column

# substract the mean of each column

for i in range(p):

for j in range(n):

Mat[i,j] = float(Mat[i,j]-t[j])

# covariance Matrix

cov_Mat = np.dot(Mat.T, Mat)/(p-1)

# PCA by original algorithm

# eigvalues and eigenvectors of covariance Matrix with eigvalues descending

U,V = np.linalg.eigh(cov_Mat)

# Rearrange the eigenvectors and eigenvalues

U = U[::-1]

for i in range(n):

V[i,:] = V[i,:][::-1]

# choose eigenvalue by component or rate, not both of them euqal to 0

Index = index_lst(U, component=2) # choose how many main factors

if Index:

v = V[:,:Index] # subset of Unitary matrix

else: # improper rate choice may return Index=0

print('Invalid rate choice.\nPlease adjust the rate.')

print('Rate distribute follows:')

print([sum(U[:i])/sum(U) for i in range(1, len(U)+1)])

sys.exit(0)

# data transformation

T1 = np.dot(Mat, v)

# print the transformed data

print('We choose %d main factors.'%Index)

print('After PCA transformation, data becomes:\n',T1)

# PCA by original algorithm using SVD

print('\nMethod 2: PCA by original algorithm using SVD:')

# u: Unitary matrix, eigenvectors in columns

# d: list of the singular values, sorted in descending order

u,d,v = np.linalg.svd(cov_Mat)

Index = index_lst(d, rate=0.95) # choose how many main factors

T2 = np.dot(Mat, u[:,:Index]) # transformed data

print('We choose %d main factors.'%Index)

print('After PCA transformation, data becomes:\n',T2)

# PCA by Scikit-learn

pca = PCA(n_components=2) # n_components can be integer or float in (0,1)

pca.fit(mat) # fit the model

print('\nMethod 3: PCA by Scikit-learn:')

print('After PCA transformation, data becomes:')

print(pca.fit_transform(mat)) # transformed data

main()

运行以上代码,输出结果为:

这说明用以上三种方法来实现PCA都是可行的。这样我们就能理解PCA的具体实现过程啦~~有兴趣的读者可以用其它语言实现一下哈~~

参考文献:

PCA 维基百科: https://en.wikipedia.org/wiki/Principal_component_analysis.

讲解详细又全面的PCA教程: A tutorial on Principal Components Analysis, Lindsay I Smith.

博客:矩阵的奇异值分解(SVD)(理论):http://www.cnblogs.com/jclian91/p/8022426.html.

博客:主成分分析PCA: https://www.cnblogs.com/zhangchaoyang/articles/2222048.html.

Scikit-learn的PCA介绍:http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html.

Python使用三种方法实现PCA算法[转]

主成分分析(PCA) vs 多元判别式分析(MDA) PCA和MDA都是线性变换的方法,二者关系密切.在PCA中,我们寻找数据集中最大化方差的成分,在MDA中,我们对类间最大散布的方向更感兴趣. 一句 ...

python字符串连接的三种方法及其效率、适用场景详解

python字符串连接的方法,一般有以下三种:方法1:直接通过加号(+)操作符连接website=& 39;python& 39;+& 39;tab& 39;+&amp ...

python每次处理一个字符的三种方法

python每次处理一个字符的三种方法 a_string = "abccdea" print 'the first' for c in a_string: print ord(c) ...

python更新数据库脚本三种方法

最近项目的两次版本迭代中,根据业务需求的变化,需要对数据库进行更新,两次分别使用了不同的方式进行更新. 第一种:使用python的MySQLdb模块利用原生的sql语句进行更新 import MySQ ...

python下载文件的三种方法

Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块. 当然你也可以利用ftplib从ftp站点下载文件.此外Python还提供了另外一种方法 ...

python网络编程调用recv函数完整接收数据的三种方法

最近在使用python进行网络编程开发一个通用的tcpclient测试小工具.在使用socket进行网络编程中,如何判定对端发送一条报文是否接收完成,是进行socket网络开发必须要考虑的一个问题.这 ...

python 多线程编程之threading模块(Thread类)创建线程的三种方法

摘录 python核心编程 上节介绍的thread模块,是不支持守护线程的.当主线程退出的时候,所有的子线程都将终止,不管他们是否仍在工作. 本节开始,我们开始介绍python的另外多线程模块thre ...

python—字符串拼接三种方法

python—字符串拼接三种方法   1.使用加号(+)号进行拼接 字符串拼接直接进行相加就可以,比较容易理解,但是一定要记得,变量直接相加,不是变量就要用引号引起来,不然会出错,另外数字是要转换为字 ...

随机推荐

IOS数据存储之Sqlite数据库

前言: 之前学习了数据存储的NSUserDefaults,归档和解档,沙盒文件存储,但是对于数据量比较大,需要频繁查询,删除,更新等操作的时候无论从效率上还是性能上,上述三种明显不能满足我们的日常开发 ...

架构实例之Demo_JSP_JavaBean

架构实例之Demo_JSP_JavaBean 1.开发工具和开发环境      开发工具: MyEclipse10,JDK1.6.0_13(32位),Tomcat7.0(32位),mysql5.7.1 ...

mongo-c-driver使用VS2013编译

1.下载mongo-c-driver源码文件 使用github来下载. git clone https://github.com/mongodb/mongo-c-driver.git 下载完之后,进入 ...

MIT 6.828 JOS学习笔记1. Lab 1 Part 1: PC Bootstrap

Lab 1: Booting a PC Part 1: PC Bootstrap 介绍这一部分知识的目的就是让你能够更加熟悉x86汇编语言,以及PC启动的整个过程,而且也会首次学习使用QEMU软件来仿 ...

Traffic Lights

Traffic Lights time limit per test 2 seconds memory limit per test 256 megabytes input standard inpu ...

nginx location 匹配顺序

location 匹配的原型是这样的:location [=|~|~*|^~|@] /uri/ { … } “=”是精确匹配“@”是命名的location ,在正常的location 匹配中不会使用, ...

URL重写以后发布到IIS找不到页面

1.读取必须勾选,否则无法加载资源文件(img,css等) c:\windows\microsoft.net\framework\v2.0.50727\aspnet_isapi.dll

UVa 1467 (贪心+暴力) Installations

题意: 一共有n项服务,每项服务有安装的时间s和截止时间d.对于每项任务,如果有一项超出截止时间,惩罚值为所超出时间的长度.问如何安装才能使惩罚值最大的两个任务的惩罚值之和最小. 分析: 如果是求总惩 ...

【2011 Greater New York Regional 】Problem B	The Rascal Triangle

一个简单的规律题,每一列都是一个等差数列: 代码: #include #define ll long long using namespace std; int main( ...

微信小程序——微信支付

这个讲起来也就比较麻烦一点,因为需要的不仅仅是咱们代码上的技术,嘿嘿! 先整理一下思路.如果想做微信支付: 1.现有一个公司账户(非个人账户),并且实名认证过的. 2.微信号 必须开通微信支付功能. ...

pca算法python代码_三种方法实现PCA算法(Python)相关推荐

  1. pca算法python实现_三种方法实现PCA算法(Python)

    主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域.它的主要作用是对高维数据进行降维.PCA把原先的n个特征用数目 ...

  2. Eclipse远程调试Java代码的三种方法

    Eclipse远程调试Java代码的三种方法, 第1种方法是用来调试已经启动的Java程序,Eclipse可以随时连接到远程Java程序进行调试, 第2种方法可以调试Java程序启动过程,但是Ecli ...

  3. eclipse 远程调试java_Eclipse远程调试Java代码的三种方法

    Eclipse远程调试Java代码的三种方法, 第1种方法是用来调试已经启动的Java程序,Eclipse可以随时连接到远程Java程序进行调试, 第2种方法可以调试Java程序启动过程,但是Ecli ...

  4. python定时爬虫三种方法

    python定时爬虫三种方法 第一种 import timefrom scrapy import cmdlinedef doSth():# 把爬虫程序放在这个类里 zhilian_spider 是爬虫 ...

  5. python中pca算法_Python使用三种方法实现PCA算法

    主成分分析(PCA) vs 多元判别式分析(MDA) PCA和MDA都是线性变换的方法,二者关系密切.在PCA中,我们寻找数据集中最大化方差的成分,在MDA中,我们对类间最大散布的方向更感兴趣. 一句 ...

  6. python打印菱形三种方法_用python打印菱形的实操方法和代码

    python怎么打印菱形?下面给大家带来三种方法: 第一种 rows = int(input('请输入菱形边长:\n')) row = 1 while row <= rows: col = 1 ...

  7. python控制示波器获取波形_三种方法教你用示波器快速捕获异常

    万事开头难!当你想用示波器来分析问题时,你一定有想过,我要如何才能把问题抓下来?当然,只有抓下来之后,才能进行后面种种的分析,否则一切都是空谈.本文将带你用三种最好用的方法将异常抓下来. 一.滚动模式 ...

  8. 加密Python代码的5种方法

    Python越来越热门了,2022年1月编程语言排行榜上挤进第一. Python优点很多,比如简单易学,代码量少,能做的事很多等等,和其他语言一样,Python也有一些不可掩盖的缺点,版本不兼容,运行 ...

  9. 三种方法实现PCA降维

    主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域.它的主要作用是对高维数据进行降维.PCA把原先的n个特征用数目 ...

最新文章

  1. iphone相关总结
  2. java Memcache使用详解
  3. 计算机专业期末考试是编程序,武汉大学计算机学院C语言期末考试
  4. Django框架实现支付宝第三方支付
  5. 编写高效的PyTorch代码技巧(下)
  6. 进程控制1--fork vfork函数
  7. C#LeetCode刷题-深度优先搜索
  8. testflight怎么做版本更新_《动物森友会》万圣节版本更新后,别忘了做这五件事情...
  9. [VC++]最小化图标至托盘中
  10. 50 岁再次创业:我希望 20 年后还能解 Bug
  11. LINQ SQL分组取最近一条记录
  12. matlab提取线条,请问如何将图片中的红色激光线条给提取出来啊,有没有大佬救救孩子,贴出代码给瞅瞅啊!谢谢!...
  13. 从 BM 到 RBM
  14. Windows Driver开发_NT Driver框架:The driver is not in a state to accept this command
  15. led led c语言程序设计,单片机C语言程序设计:8X8LED 点阵显示数字
  16. Python的网络编程[5] - BOOTP + TFTP + FTP - 实现一个简单的文件传输流程
  17. Haar特征提取算法的实现
  18. Android WebView开发(三):WebView性能优化
  19. 【论文笔记】使用物理原理和领域知识进行无标注的监督学习
  20. 解决Word2013光标乱跳的问题

热门文章

  1. 【Unity3D游戏开发学习笔记】(一)Unity3D初认识
  2. “文人相轻”:论初创团队倾轧问题
  3. Deep Feedback Network for Recommendation
  4. DirectFB教程导读-在屏幕中心画一条横线
  5. 这些被夸爆了的绘图软件,哪一款更实用?
  6. .NET AES加密
  7. 我的世界服务器雪球菜单无限雪球,我的世界[mcbe雪球菜单详解] 带你做一个完美的雪球带你入门~...
  8. Tornado框架上手记录
  9. JS图片轮播切换效果实现
  10. 自动登录百度推广后台