数据预处理-数据规约-属性规约
原数据:
#-*- coding: utf-8 -*-import pandas as pd
from sklearn.decomposition import PCA #PCA主成分分析函数inputfile = '../data/principal_component.xls'
outoutfile = './dimention_reducted.xls' #降维后的数据data = pd.read_excel(inputfile)pca = PCA()
pca.fit(data)
pca.components_ #返回模型的各个特征向量
pca.explained_variance_ratio_ #返回各个成分各自的方差百分比; variance:方差; ratio:百分比
输出:pca.explained_variance_ratio_
[8.19870356e-01 1.24403427e-01 4.35654729e-02 1.01185073e-02
1.44614964e-03 3.46741246e-04 1.51101937e-04 9.82436662e-05]
从上面的结果可以得到特征方程det有8个特征根,对应8个特征向量以及各个成分的方差百分比(也称贡献率),其中方差百分比越大,说明向量的权重越大。当选取前3个主成分时,累计的贡献率已达到98.78%(81.98%+12.44%+4.36%),说明选取前3个主成分进行计算已经相当不错了,因此可以重建PCA模型,设置n_components=3,计算出成分结果
#-*- coding: utf-8 -*-import pandas as pd
from sklearn.decomposition import PCA #主成分分析函数inputfile = '../data/principal_component.xls'
outputfile = './dimention_reducted.xls'data = pd.read_excel(inputfile)pca = PCA(3) #n_components=3表示PCA算法中所要保留的主成分个数为3,也即保留下来的特征个数为3
pca.fit(data)
low_d = pca.transform(data) #用它来降低维度
print(low_d)pd.DataFrame(low_d).to_excel(outputfile, index=False) #保存结果
原始数据从8维降到了3维:
[[ 1.05001221 -5.51748501 -5.91441212]
[-22.99722874 -1.97512405 -0.20900558]
[-13.89767671 3.37263948 -0.79992678]
[ 5.67710353 10.923606 11.64081709]
[ 25.0534891 -6.9734989 0.85775793]
[ -2.81280563 -6.07880095 -2.65207248]
[ 14.1489874 16.43302809 -4.11709058]
[ 41.83184701 -11.32960529 3.20277843]
[ -1.00625614 -2.65780713 -0.27401457]
[-21.33464558 -2.82555148 0.17044138]
[-35.91396474 -5.99120963 3.78629425]
[ 3.6840302 5.68331179 1.42625345]
[ 6.51710808 6.93649707 -7.11782042]]
数据预处理-数据规约-属性规约相关推荐
- Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略
Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...
- 一、数据预处理——数据归一化 数据标准化
一.数据预处理--数据归一化 & 数据标准化 点击标题即可获取文章相关的源代码文件哟! 1.1 数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据 ...
- python抽样_python数据预处理 :数据抽样解析
何为数据抽样: 抽样是数据处理的一种基本方法,常常伴随着计算资源不足.获取全部数据困难.时效性要求等情况使用. 抽样方法: 一般有四种方法: 随机抽样 直接从整体数据中等概率抽取n个样本.这种方法优势 ...
- 数据预处理-数据变换-属性构造
代码来源: Python数据分析与挖掘实战 #-*- coding: utf-8 -*- #线损率属性构造import pandas as pdinputfile = '../data/electri ...
- 数据预处理+数据清理
1.概述 实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...
- 超全面 pandas 数据预处理+数据概览 处理技巧整理(持续更新版)
这篇文章主要是整理下使用pandas的一些技巧,因为经常不用它,这些指令忘得真的很快.前段时间在数模美赛中已经栽过跟头了,不希望以后遇到相关问题的时候还去网上查(主要是太杂了).可能读者跟我有一样的问 ...
- Pandas数据预处理|数据清理
Pandas数据预处理(Data Preprocess)-数据清理 日期:2021/4/27 作者:就叫易易好了 注:本篇文章采用的数据集为"vgsales.csv",下载链接:h ...
- Python数据预处理数据的方法总结(使用sklearn-preprocessing)
文章目录 数据预处理思路 数据预处理方法 1 标准化:去均值,方差规模化 2 规模化稀疏数据 3 规模化有异常值的数据 4 正则化Normalization 5 二值化–特征的二值化 6 类别特征编码 ...
- 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论
在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...
- 数据认知与数据预处理--数据认知
一.数据类型 1.属性的定义 每一条数据可以称为数据集的一个样本,而每一条数据要用不同的特征描述出来,特征也称为属性. 属性通常分为两大类. 一类是定性描述的属性,其可以划分为标称属性,布尔属性,序值 ...
最新文章
- 用Ajax 构建关键任务的企业级Web 应用 ——《深入 Ajax :架构与最佳实践》
- undefined reference to 'pthread_mutex_trylock'
- 判断标签是否出界,重新设置样式
- EventBus1.0.1源码解析
- Swift中文教程(八) 枚举类型
- 视觉中国网站部分恢复上线? 官方回应:并没有
- c语言 k最近邻分类算法代码,实验二 K-近邻算法及应用
- python自动化办公入门书籍-用python进行办公自动化都需要学习什么知识呢?
- 排序算法专题-选择排序
- 专访Two Sigma CEO Nobel: 当前AI投资有太多的炒作
- unity3d怎么让模型动起来_Unity3d笔记——利用Animator使模型动起来
- phpquery抓取网站内容简单介绍
- 优动漫PAINT下载的素材找不到怎么办?
- SQLI DUMB SERIES-3
- Modern PHP读书笔记一
- 电脑蓝屏0x000024解决记录
- mmclassification
- 面试别向HR说这六种离职原因
- 【精品】IntelliJ 文件模板 创建 通用Controller
- 解读微信终端开源背后的故事