python主成分分析实验报告_python进行主成分分析

数据：

序号

1.5

120

250

4.5

120

3.5

1.5

270

280

3.5

170

180

3.5

130

220

1.5

160

1.5

220

2.5

140

220

120

数据标准化：

-1.102513

-0.308130

-1.347755

-0.708447

-1.440017

-0.782175

-1.347755

-0.251384

-0.202502

0.639961

-0.269551

0.662740

1.260015

2.062098

0.404327

-1.622571

-0.202502

1.114007

-0.808653

0.662740

-1.440017

-0.782175

-0.404327

0.662740

-1.102513

-1.256220

0.539102

0.205678

1.485017

1.588052

-0.269551

1.119803

1.597518

1.114007

-0.539102

1.119803

0.360004

0.639961

-0.808653

1.119803

0.472505

1.114007

-0.134776

0.205678

-0.090001

-0.308130

2.021633

0.662740

0.922511

-0.782175

0.269551

-0.708447

0.247503

-0.782175

2.695510

1.119803

0.922511

0.165916

-0.134776

-0.251384

0.022500

-0.308130

0.673878

-0.708447

0.922511

-0.308130

-0.134776

-1.165509

-1.102513

-1.256220

-0.673878

-1.622571

-1.327515

-1.256220

-0.404327

1.119803

-0.202502

-0.308130

0.673878

-1.622571

数据标准化：也可以用sklearn包

from sklearn import preprocessing

#Z-Score标准化

#建立StandardScaler对象

zscore = preprocessing.StandardScaler()

# 标准化处理

data_zs = zscore.fit_transform(data)

注意：sklearn这种处理求标准差时分母为n，而我们下面的std计算时分母为n-1，Spss里的计算分母也为n-1。

sklearn降维：

pca=dp.PCA(n_components=2) #加载pca算法，设置降维后主成分数目为2

reduced_x=pca.fit_transform(x) #对原始数据进行降维，保存在reduced_x中

数据标准化代码：

import pandas as pd

import numpy as np

csv_data = pd.read_csv('C:/Users/admin/Desktop/2019.10.05/算法/主成分分析/data.csv') # 读取训练数据

csv_data=csv_data.drop('序号', axis=1) #去掉序号那一列

describe=csv_data.describe() # 对每一列数据进行统计，包括计数，均值，std，各个分位数等。

mean=describe.loc['mean']

std=describe.loc['std']

m=csv_data.index.size #行数

n=csv_data.columns.size #列数

column=csv_data.columns.values #['x1' 'x2' 'x3' 'x4']

#实现对数据框里的每个元素进行相关操作

for i in range(0,m):

for j in range(0,n):

csv_data.iloc[i,j]=(csv_data.iloc[i,j]-mean[j])/std[j] #第i行，第j列

print("标准化后的数据：\n",csv_data)

主成分分析：

import pandas as pd

import math

import numpy as np

from scipy import linalg

csv_data = pd.read_csv('C:/Users/admin/Desktop/2019.10.05/算法/主成分分析/data.csv') # 读取训练数据

csv_data=csv_data.drop('序号', axis=1) #去掉序号那一列

corr = csv_data.corr() #求变量之间的相关系数，判断是否可以进行主成分分析

print("原始数据:\n",csv_data)

print("\n相关系数矩阵：\n",corr)

describe=csv_data.describe() # 对每一列数据进行统计，包括计数，均值，std，各个分位数等。

mean=describe.loc['mean']

std=describe.loc['std']

a=list(csv_data['x1'])

x11=[]

for i in range(0,20):

x11.append((a[i]-mean['x1'])/std['x1'])

b=list(csv_data['x2'])

x22=[]

for i in range(0,20):

x22.append((b[i]-mean['x2'])/std['x2'])

c=list(csv_data['x3'])

x33=[]

for i in range(0,20):

x33.append((c[i]-mean['x3'])/std['x3'])

d=list(csv_data['x4'])

x44=[]

for i in range(0,20):

x44.append((d[i]-mean['x4'])/std['x4'])

arr=np.array([x11,x22,x33,x44]) #中心化后的数据

print("\n标准化后的数据：\n",arr.T)

M=corr.values #将相关系数转为矩阵

eig,vec=np.linalg.eig(M) #计算矩阵的特征值、特征向量。eig是list类型，vec是类型

per=[] #贡献率的计算

for i in range(0,4):

per.append(eig[i]/sum(eig))

print("\n相关系数矩阵的特征值：\n",eig)

# vec1=vec[[:]][:,[1,3,2,0]]

per=sorted(per,reverse=True) #贡献率排序(从大到小)

print("\n贡献率排序：\n",per)

print("\n累计贡献率：\n",np.array(per).cumsum()) #贡献率的累计计算

#定义单位正交化的函数

def gram_schmidt(A):

"""Gram-schmidt正交化"""

global Q #必须申明为全局变量，否则无法调用Q

Q=np.zeros_like(A)

cnt = 0

for a in A.T:

u = np.copy(a)

for i in range(0, cnt):

u -= np.dot(np.dot(Q[:, i].T, a), Q[:, i]) # 减去待求向量在已求向量上的投影

e = u / np.linalg.norm(u) # 归一化

Q[:, cnt] = e

cnt += 1

R = np.dot(Q.T, A)

print("\n正交单位化后的特征向量：")

print(Q.T)

gram_schmidt(vec)

print("\n按特征值大小排列的正交单位化后的特征向量：")

print(Q.T[[1,3,2,0][:]])

y=np.dot(arr.T,Q.T[[1,3,2,0][:]].T)

Y=pd.DataFrame(y)

Y.rename(columns={0:'Y1',1:'Y2', 2:'Y3',3:'Y4'}, inplace = True)

print("\n主成分的值(得分):\n",Y)

print("\n主成分相关系数矩阵：")

corr1=Y.corr()

print(corr1)

result = csv_data.join(Y,how='inner')

print("\n原始数据和主成分得分：")

print(result)

corr2=result.corr()

print("\n原始数据和主成分得分之间的相关系数：")

print(corr2.iloc[0:4, 4:8])

输出结果：

python主成分分析实验报告_python进行主成分分析相关推荐

python综合实验报告_Python程序设计实验报告五：综合运用三种基本结构进行程序设计（综合性实验）...
安徽工程大学 Python程序设计实验报告班级物流191 姓名姚彩琴学号3190505129 成绩日期 2020.4.22 指导老师修宇 [实验名称]综合运用三种基本结构进行程序设计(综合性实 ...
python综合实验报告_Python程序设计实验报告
安徽工程大学 Python程序设计实验报告班级:物流192 姓名:刘马汉卿学号:319005211 成绩: 日期:2020年4月29日指导老师:修 ...
python数据分析实验报告_Python数据分析综合小练习：销售数据分析
有这样一个小小的练习题: 卖电子商品的老板,每天记录了自己卖出的U盘,电脑支架,插座,电池,音箱,鼠标,usb数据线,手机充电线等数量,客户的需求是一方面,也可以通过客户购买关联性比较强的商品进行引导 ...
python爬虫实验报告_python爬虫实验
原博文 2013-06-28 13:30 − 那天在新浪微博上看到北北出的题目,由于最近也在做类似的爬虫研究,所以就有了这个实验. 后来在QQ上和北北说了下,要求是啥都抓,就抓乌云的... 然后就开始 ...
python数据分析实验报告_Python 数据分析入门实战
本训练营中,我们将学习怎么样使用 Python 进行数据分析.课程将从数据分析基础开始,一步步深入讲解.从 Python 的基础用法到数据分析的各种算法,并结合各种实例,讲解数据分析过程中的方方面面. ...
python投资分析实验报告_Python的实验报告怎么写?
以面向对象程序设计实验为例: 一.实验目的了解面向对象程序设计思想了解对象.类.封装.继承.方法.构造函数和析构函数基本概念掌握定义类.成员变量.成员函数.静态变量和静态方法掌握通过类定义实现继 ...
python冒泡排序实验报告_python中的冒泡排序
首先,再将python的冒泡排序之前,先来复习一个python中的自带排序函数:sort(但是这个函数是没有返回值的,并且只能针对列表,大家使用的时候需要注意一下): 例子如下: li=[11,22, ...
python万年历实验报告_Python实现的简单万年历例子分享
#!/usr/bin/env python2 #-*- coding:utf-8 -*- __author__ = 'jalright' """ 使用python实现万年 ...
python万年历实验报告_Python编程——万年历
2017年五月份日历万年历这个题目几乎是不论学哪种编程语言必要尝试的一个小知识,综合了循环,逻辑关系判断等各编程语言的基础知识.今天我们一起用Python实现简单的万年历功能(查看某年各个月份日历和 ...

python主成分分析实验报告_python进行主成分分析

python主成分分析实验报告_python进行主成分分析相关推荐

最新文章

热门文章