原数据:

#-*- coding: utf-8 -*-import pandas as pd
from sklearn.decomposition import PCA    #PCA主成分分析函数inputfile = '../data/principal_component.xls'
outoutfile = './dimention_reducted.xls'    #降维后的数据data = pd.read_excel(inputfile)pca = PCA()
pca.fit(data)
pca.components_    #返回模型的各个特征向量
pca.explained_variance_ratio_    #返回各个成分各自的方差百分比; variance:方差; ratio:百分比

输出:pca.explained_variance_ratio_

[8.19870356e-01 1.24403427e-01 4.35654729e-02 1.01185073e-02
 1.44614964e-03 3.46741246e-04 1.51101937e-04 9.82436662e-05]

从上面的结果可以得到特征方程det有8个特征根,对应8个特征向量以及各个成分的方差百分比(也称贡献率),其中方差百分比越大,说明向量的权重越大。当选取前3个主成分时,累计的贡献率已达到98.78%(81.98%+12.44%+4.36%),说明选取前3个主成分进行计算已经相当不错了,因此可以重建PCA模型,设置n_components=3,计算出成分结果

#-*- coding: utf-8 -*-import pandas as pd
from sklearn.decomposition import PCA    #主成分分析函数inputfile = '../data/principal_component.xls'
outputfile = './dimention_reducted.xls'data = pd.read_excel(inputfile)pca = PCA(3)    #n_components=3表示PCA算法中所要保留的主成分个数为3,也即保留下来的特征个数为3
pca.fit(data)
low_d = pca.transform(data)    #用它来降低维度
print(low_d)pd.DataFrame(low_d).to_excel(outputfile, index=False)    #保存结果

原始数据从8维降到了3维:

[[  1.05001221  -5.51748501  -5.91441212]
 [-22.99722874  -1.97512405  -0.20900558]
 [-13.89767671   3.37263948  -0.79992678]
 [  5.67710353  10.923606    11.64081709]
 [ 25.0534891   -6.9734989    0.85775793]
 [ -2.81280563  -6.07880095  -2.65207248]
 [ 14.1489874   16.43302809  -4.11709058]
 [ 41.83184701 -11.32960529   3.20277843]
 [ -1.00625614  -2.65780713  -0.27401457]
 [-21.33464558  -2.82555148   0.17044138]
 [-35.91396474  -5.99120963   3.78629425]
 [  3.6840302    5.68331179   1.42625345]
 [  6.51710808   6.93649707  -7.11782042]]

数据预处理-数据规约-属性规约相关推荐

  1. Py之scikit-learn:机器学习sklearn库的简介、六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类)、安装、使用方法(实际问题中如何选择最合适的机器学习算法)之详细攻略

    Py之scikit-learn:机器学习sklearn库的简介(组件/版本迭代).六大基本功能介绍(数据预处理/数据降维/模型选择/分类/回归/聚类).安装.使用方法(实际问题中如何选择最合适的机器学 ...

  2. 一、数据预处理——数据归一化 数据标准化

    一.数据预处理--数据归一化 & 数据标准化 点击标题即可获取文章相关的源代码文件哟! 1.1 数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据 ...

  3. python抽样_python数据预处理 :数据抽样解析

    何为数据抽样: 抽样是数据处理的一种基本方法,常常伴随着计算资源不足.获取全部数据困难.时效性要求等情况使用. 抽样方法: 一般有四种方法: 随机抽样 直接从整体数据中等概率抽取n个样本.这种方法优势 ...

  4. 数据预处理-数据变换-属性构造

    代码来源: Python数据分析与挖掘实战 #-*- coding: utf-8 -*- #线损率属性构造import pandas as pdinputfile = '../data/electri ...

  5. 数据预处理+数据清理

    1.概述 实际的数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源.低质量的数据将会导致低质量的挖掘结果.有大量的数据预处理技术: - - 数据清理:可以用来清楚数 ...

  6. 超全面 pandas 数据预处理+数据概览 处理技巧整理(持续更新版)

    这篇文章主要是整理下使用pandas的一些技巧,因为经常不用它,这些指令忘得真的很快.前段时间在数模美赛中已经栽过跟头了,不希望以后遇到相关问题的时候还去网上查(主要是太杂了).可能读者跟我有一样的问 ...

  7. Pandas数据预处理|数据清理

    Pandas数据预处理(Data Preprocess)-数据清理 日期:2021/4/27 作者:就叫易易好了 注:本篇文章采用的数据集为"vgsales.csv",下载链接:h ...

  8. Python数据预处理数据的方法总结(使用sklearn-preprocessing)

    文章目录 数据预处理思路 数据预处理方法 1 标准化:去均值,方差规模化 2 规模化稀疏数据 3 规模化有异常值的数据 4 正则化Normalization 5 二值化–特征的二值化 6 类别特征编码 ...

  9. 数据标准化处理方法_机器学习系列-数据预处理-数据标准化(归一化)-理论

    在做一个具体的机器学习项目中,拿到收集到的数据后,一般都是需要做数据预处理,而标准化(暂时不考虑标准化和归一化的主要区别)是数据预处理中一个比较重要的环节,那么为什么需要对数据进行标准化处理呢? 数据 ...

  10. 数据认知与数据预处理--数据认知

    一.数据类型 1.属性的定义 每一条数据可以称为数据集的一个样本,而每一条数据要用不同的特征描述出来,特征也称为属性. 属性通常分为两大类. 一类是定性描述的属性,其可以划分为标称属性,布尔属性,序值 ...

最新文章

  1. 用Ajax 构建关键任务的企业级Web 应用 ——《深入 Ajax :架构与最佳实践》
  2. undefined reference to 'pthread_mutex_trylock'
  3. 判断标签是否出界,重新设置样式
  4. EventBus1.0.1源码解析
  5. Swift中文教程(八) 枚举类型
  6. 视觉中国网站部分恢复上线? 官方回应:并没有
  7. c语言 k最近邻分类算法代码,实验二 K-近邻算法及应用
  8. python自动化办公入门书籍-用python进行办公自动化都需要学习什么知识呢?
  9. 排序算法专题-选择排序
  10. 专访Two Sigma CEO Nobel: 当前AI投资有太多的炒作
  11. unity3d怎么让模型动起来_Unity3d笔记——利用Animator使模型动起来
  12. phpquery抓取网站内容简单介绍
  13. 优动漫PAINT下载的素材找不到怎么办?
  14. SQLI DUMB SERIES-3
  15. Modern PHP读书笔记一
  16. 电脑蓝屏0x000024解决记录
  17. mmclassification
  18. 面试别向HR说这六种离职原因
  19. 【精品】IntelliJ 文件模板 创建 通用Controller
  20. 解读微信终端开源背后的故事

热门文章

  1. ftp 速度_如何评价我的骑行功率(FTP)?
  2. html代码_HTML代码与基础
  3. 图像处理:灰度(级)和分辨率
  4. 【Transformer】CLS(classification)有什么用?
  5. linux 下后台运行python脚本
  6. Select网络模型下的简单CS实例
  7. 转子接地保护原理_转子一点接地保护原理示意图
  8. mysql数据库集群架构图_搭建MySQL-Cluster集群架构
  9. path弧形参数 svg_SVG路径中的A指令(画弧线)
  10. Gdu – Windows 也能用的「命令行式」磁盘使用情况分析工具