数据预处理-数据规约-属性规约

原数据：

#-*- coding: utf-8 -*-import pandas as pd
from sklearn.decomposition import PCA    #PCA主成分分析函数inputfile = '../data/principal_component.xls'
outoutfile = './dimention_reducted.xls'    #降维后的数据data = pd.read_excel(inputfile)pca = PCA()
pca.fit(data)
pca.components_    #返回模型的各个特征向量
pca.explained_variance_ratio_    #返回各个成分各自的方差百分比; variance：方差; ratio：百分比

输出：pca.explained_variance_ratio_

[8.19870356e-01 1.24403427e-01 4.35654729e-02 1.01185073e-02
1.44614964e-03 3.46741246e-04 1.51101937e-04 9.82436662e-05]

从上面的结果可以得到特征方程det有8个特征根，对应8个特征向量以及各个成分的方差百分比(也称贡献率)，其中方差百分比越大，说明向量的权重越大。当选取前3个主成分时，累计的贡献率已达到98.78%（81.98%+12.44%+4.36%），说明选取前3个主成分进行计算已经相当不错了，因此可以重建PCA模型，设置n_components=3，计算出成分结果

#-*- coding: utf-8 -*-import pandas as pd
from sklearn.decomposition import PCA    #主成分分析函数inputfile = '../data/principal_component.xls'
outputfile = './dimention_reducted.xls'data = pd.read_excel(inputfile)pca = PCA(3)    #n_components=3表示PCA算法中所要保留的主成分个数为3，也即保留下来的特征个数为3
pca.fit(data)
low_d = pca.transform(data)    #用它来降低维度
print(low_d)pd.DataFrame(low_d).to_excel(outputfile, index=False)    #保存结果

原始数据从8维降到了3维：

[[ 1.05001221 -5.51748501 -5.91441212]
[-22.99722874 -1.97512405 -0.20900558]
[-13.89767671   3.37263948 -0.79992678]
[ 5.67710353 10.923606    11.64081709]
[ 25.0534891   -6.9734989    0.85775793]
[ -2.81280563 -6.07880095 -2.65207248]
[ 14.1489874   16.43302809 -4.11709058]
[ 41.83184701 -11.32960529   3.20277843]
[ -1.00625614 -2.65780713 -0.27401457]
[-21.33464558 -2.82555148   0.17044138]
[-35.91396474 -5.99120963   3.78629425]
[ 3.6840302    5.68331179   1.42625345]
[ 6.51710808   6.93649707 -7.11782042]]

数据预处理-数据规约-属性规约相关推荐

Py之scikit-learn：机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略
Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...
一、数据预处理——数据归一化数据标准化
一.数据预处理--数据归一化 & 数据标准化点击标题即可获取文章相关的源代码文件哟! 1.1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据 ...
python抽样_python数据预处理 :数据抽样解析
何为数据抽样: 抽样是数据处理的一种基本方法,常常伴随着计算资源不足.获取全部数据困难.时效性要求等情况使用. 抽样方法: 一般有四种方法: 随机抽样直接从整体数据中等概率抽取n个样本.这种方法优势 ...
数据预处理-数据变换-属性构造
代码来源: Python数据分析与挖掘实战 #-*- coding: utf-8 -*- #线损率属性构造import pandas as pdinputfile = '../data/electri ...
数据预处理+数据清理
1.概述实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...
超全面 pandas 数据预处理+数据概览处理技巧整理（持续更新版）
这篇文章主要是整理下使用pandas的一些技巧,因为经常不用它,这些指令忘得真的很快.前段时间在数模美赛中已经栽过跟头了,不希望以后遇到相关问题的时候还去网上查(主要是太杂了).可能读者跟我有一样的问 ...
Pandas数据预处理|数据清理
Pandas数据预处理(Data Preprocess)-数据清理日期:2021/4/27 作者:就叫易易好了注:本篇文章采用的数据集为"vgsales.csv",下载链接:h ...
Python数据预处理数据的方法总结（使用sklearn-preprocessing）
文章目录数据预处理思路数据预处理方法 1 标准化:去均值,方差规模化 2 规模化稀疏数据 3 规模化有异常值的数据 4 正则化Normalization 5 二值化–特征的二值化 6 类别特征编码 ...
数据标准化处理方法_机器学习系列-数据预处理-数据标准化（归一化）-理论
在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...
数据认知与数据预处理--数据认知
一.数据类型 1.属性的定义每一条数据可以称为数据集的一个样本,而每一条数据要用不同的特征描述出来,特征也称为属性. 属性通常分为两大类. 一类是定性描述的属性,其可以划分为标称属性,布尔属性,序值 ...

数据预处理-数据规约-属性规约

数据预处理-数据规约-属性规约相关推荐

最新文章

热门文章