数据预处理,PCA主成分分析
from sklearn.decomposition import PCA
my_pca = PCA(n_components=7) #10个属性删了3个剩7个
#数据表中不允许出现离散数据(salary,department),而且分析的left属性也不需要进行pca处理,因为是我们关注的属性
lower_mat = my_pca.fit_transform(df.drop(labels=["salary","department","left"],axis = 1))
print("Ratio:",my_pca.explained_variance_ratio_) #通过主成分分析,发现只有第一个值接近1,其他值都接近0,所以只保留第一个值就行了
sns.heatmap(pd.DataFrame(lower_mat).corr(),vmin=-1,vmax=1,cmap=sns.color_palette("RdBu",n_colors=128))
plt.show()
结果:
数据预处理,PCA主成分分析相关推荐
- MATLAB实战系列(二十七)-数据预处理-PCA主成分分析
我们在进行数据分析时,往往会发现数据具有很多种属性,比如某类型饼干的口味.加工方式.保质期.价格.购买人群等等.每一种属性就代表该数据在某一维度上的数值.多维度的数据无疑会增加数据的准确性与可靠性,但 ...
- 机器学习入门与Python实战(十):数据降维PCA主成分分析
目录 现实问题思考:金融股价预测 数据降维 为什么需要数据降维 数据降维最常用的方法:主成分分析(PCA) 知识巩固 Python实战:PCA+逻辑回归预测检查者是否患糖尿病 拓展学习 现实问题思考: ...
- 深度学习——数据预处理篇
深度学习--数据预处理篇 文章目录 深度学习--数据预处理篇 一.前言 二.常用的数据预处理方法 零均值化(中心化) 数据归一化(normalization) 主成分分析(PCA.Principal ...
- 深入浅出Python机器学习9——数据预处理、降维、特征提取及聚类
数据预处理 使用 StandScaler 进行数据预处理 首先手工生成一些数据: 用make_blobs 函数时,指定了样本数量 n_samples 为 40,分类 centers 为 ...
- 中药材鉴别-方法:聚类;PCA 主成分分析;线性判别式分析;判别式检验
基于线性判别式的中药材鉴别问题的数学模型 摘要 本文旨在讨论如何利用中药材的光谱特征鉴别药材的种类及产地,主要运用 系统聚类,PCA 主成分分析,线性判别,判别式运用等方法,使用了 MATLAB,Ex ...
- 第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)
前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
- 对pca降维后的手写体数字图片数据分类_python机器学习API介绍13: 数据降维及主成分分析...
数据降维概述:数据降维是机器学习领域中重要的内容,所谓的降维就是采用某种映射方法,将高维空间中的数据点映射到低维的空间中.其本质是学习一个映射函数f: x->y.其中x是原始数据点的表述,目前多 ...
- 数据降维之主成分分析法PCA
主成分分析法PCA 参考链接:https://www.bilibili.com/video/BV1E5411E71z 主成分分析(Principal Component Analysis,PCA), ...
- 数据分析实战:python热门音乐分析 附代码+数据 +论文(PCA 主成分分析,sklearn 机器学习,pytorch 神经网络,k-means 聚类,Librosa 音频处理,midi 音序)
项目概述: 本选取了抖音当下最热门的 400 首音乐,通过一系列方法提取每首歌的波形特征,再经过降维以及机器学习等手段,进行无监督学习对音乐数据进行聚类的同时训练并使用监督学习分类器进行音乐流派分类, ...
- 【python数据分析】数据建模之 PCA主成分分析
PCA主成分分析:最广泛无监督算法 + 基础的降维算法. 通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量 → 高维数据的降维 PCA主成分分析: 二维数据降维 / 多 ...
最新文章
- Android Priority Job Queue (Job Manager):多重不同Job并发执行并在前台获得返回结果(四)...
- MySQL插入数据时报错Cause: java.sql.SQLException: #HY000的解决方法
- 将DataTable中的数据导入到数据库中
- Maven与IDEA结合
- Python cmd中输入'pip' 不是内部或外部命令,也不是可运行的程序或批处理文件。...
- 聊一聊对外API接口的存活检查可以怎么做
- int 为什么是2147483647_现在的C语言编辑器里的int范围为什么是-2147483648~2147483647...
- OpenShift 4 - Knative教程 (7) Eventing之Broker和Trigger
- MongoDB3.4为单独的数据库创建用户
- 用C/C++实现SMC动态代码加密技术
- 121 monogdb安装, 增删改查, mongodb中的update修改器 pymomgo
- SQL Server 2005数据库镜像
- 各层电子数排布规则_电子排布式书写规则
- c语言软件开发心得:
- APP运营推广不简单 这些数据指标一定要看!
- 夜空中的守望者的目光
- 计算机硬件资源如何共享,如何设置计算机共享资源
- cxzday8-字符串作业
- kubernetes搭建dashboard-v1.10.1
- 移动端测试——adb命令
热门文章
- autocad java api_AutoCAD .NET API 概述
- SSL证书默认保护www和不带www?
- Linux安装输入法后无法显示候选框
- 编译器cc、CC、gcc、g++区别
- 使用 PspTerminateThreadByPointer 强制结束进程
- js php通讯录,基于aotu.js实现微信自动添加通讯录中的联系人功能
- 《Journal of Building Performance Simulation》期刊介绍(SCI 3区)
- 照片不超过100kb怎么弄?图片怎么压缩到100kb以内?
- python360安全浏览器_python3.7--pycharm selenium自启360浏览器/360极速浏览器方法
- 2009年山西省各市GDP排名、城镇居民人均可支配收入排名、农民人均纯收入排名...