实际的分类问题和回归问题中,都有可能遇到多达50个或100个(甚至更多)的特征问题。对于分类问题来说,特征若为二值变量,我们通常认为其中的任何一个特征对于实现正确的分类都有它自己的贡献。但是,有理由怀疑这些特征之间是否存在着相关性,即里面是否存在着某种信息的冗余。回归问题也同样存在特征冗余的情况。

本篇博客重点讨论回归问题中特征选择的情况。

一、成分分析

一种处理过多维数的方法是采用组合特征的方法来降维。对几个特征作线性组合是一种特别具有吸引力的方法,因为线性组合容易计算,并且能够进行解析分析。从本质上来说,线性方法是把高位的数据投影到低维空间中。有两种经典的寻找有效的线性变换的方法。

其一是主成分分析(principal component analysis,PCA),这一方法的目的是寻找在最小均方意义下最能代表原始数据的投影方法。另一种方法是多维缩放(Multi Dimensional Scaling,MDS),这一方法能够使原始空间中样本之间的距离在低维空间中得以保持。

1.1 主成分分析PCA

PCA方法参数n_components,如果设置为整数,则n_components=k。

如果将其设置为小数,则说明降维后的数据能保留的信息。

#PCA
from sklearn.decomposition import PCA
import pandas as pddata = pd.read_csv('1.csv')estimator = PCA(n_components=8)   # 初始化,压缩至8维(根据实际情况可变)# 利用训练特征决定(fit)8个正交维度的方向,并转化(transform)原训练特征
pca_X_train = estimator.fit_transform(data)#打印压缩后的数据集形状
print(pca_X_train.shape)

使用PCA降维之后的数据进行预测会损失一些预测的准确性,在降维过程中为了避免大量的噪声和冗余,也会损失一些有用的信息,但用降维后的数据进行模型的训练大大降低了模型训练的时间,也降低了模型训练的难度,对于高维数据来说是一个比较好的选择。

非线性降维常用方法,是基于核技巧对线性降维方法进行“核化”,例如核主成分分析(KPCA)。

机器学习——特征选择(降维)PCA和MDA相关推荐

  1. 入门机器学习(十六)--降维(PCA算法)

    降维(PCA算法) 1. 数据压缩(Data Compression) 2. 数据可视化(Data Visuallization) 3. 主成分析问题(Principal Component Anal ...

  2. 机器学习sklearn-PCA降维算法

    1 概述 1.1 什么叫"维度" 对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维. 针对每一张表,维度指的是样本的数量或特征的数 ...

  3. 机器学习算法_机器学习算法之PCA算法

    前言 在机器学习中降维是我们经常需要用到的算法,在降维的众多方法中PCA无疑是最经典的机器学习算法之一,最近准备撸一个人脸识别算法,也会频繁用到PCA,本文就带着大家一起来学习PCA算法. 前置内容 ...

  4. 关于机器学习特征选择的方法总结

    机器学习特征选择的方法总结 1.特征选择的重要性 随着深度学习的发展, 大大缩减了特征提取和设计的任务. 不过, 特征工程依然是各种机器学习应用领域的重要组成部分.其中对于特征选择(排序)的研究对于数 ...

  5. 机器学习入门之PCA与ICA

    文章目录 主成分分析 PCA 什么是降维 PCA (Principal Component Analysis) 算法流程 独立成分分析 ICA 问题引入 算法 基于最大似然估计 ICA的经典假设与不确 ...

  6. MachineLearning 13. 机器学习之降维方法UMAP及可视化 (umap)

    点击关注,桓峰基因 桓峰基因公众号推出机器学习应用于临床预测的方法,跟着教程轻松学习,每个文本教程配有视频教程大家都可以自由免费学习,目前已有的机器学习教程整理出来如下: MachineLearnin ...

  7. MachineLearning 12. 机器学习之降维方法t-SNE及可视化 (Rtsne)

    点击关注,桓峰基因 桓峰基因公众号推出机器学习应用于临床预测的方法,跟着教程轻松学习,每个文本教程配有视频教程大家都可以自由免费学习,目前已有的机器学习教程整理出来如下: MachineLearnin ...

  8. 机器学习——数据降维

    文章目录 数据降维 1 维度灾难与降维 2 主成分分析 2.1 PCA原理 2.2 PCA算法 2.3 PCA算法实验 3 SVD降维 4 核主成分分析降维 总结 数据降维 数据降维又称维数约简,就是 ...

  9. python分类预测降低准确率_十分钟掌握python机器学习特征选择

    十分钟掌握python机器学习特征选择-1.jpg (33.2 KB, 下载次数: 0) 2018-6-26 23:01 上传 在机器学习中,特征选择是实践中的一步, 帮你在所有特征中选择对结果贡献最 ...

  10. 机器学习 特征选择篇——python实现MIC(最大信息系数)计算

    机器学习 特征选择篇--python实现MIC(最大信息系数)计算 摘要 python实现代码 计算实例 摘要 MIC(最大信息系数) 可以检测变量之间的非线性相关性,常用于特征工程中的特征选择,即通 ...

最新文章

  1. 2019年上半年收集到的人工智能大神与大咖观点文章
  2. 日本机器人实力大盘点,和Atlas的高调刷屏相比,日本机器人的默默崛起更让人忌惮...
  3. 高并发缓存处理之——缓存穿透的几种形式及解决方案
  4. javaweb学习总结(三十四)——使用JDBC处理MySQL大数据
  5. c#web页面显示弹窗_C#中三种弹出信息窗口的方式
  6. 使用SQL Server作业设置定时任务
  7. echo字符集 shell_Shell echo命令:输出字符串
  8. Java-IO操作性能对比
  9. 10条设计师应该知道的字体设置技巧
  10. python多元线性回归_多元线性回归模型精度提升 虚拟变量
  11. 文件夹加密软件排行榜
  12. 打开其他软件时,老是弹出Xftp6安装的问题
  13. GoDot引擎打包安卓
  14. 键盘鼠标录制哪个好用_美商海盗船Scimitar RGB Elite鼠标体验:再多技能也怕这把弯刀...
  15. selenium调用edge driver的坑
  16. 沃趣发布QData T5 性能价格均碾压Exadata
  17. 我上传的CSDN资源无法使用的处理方法
  18. TimerFd使用心得
  19. 柳比歇夫的时间管理法—《可以量化…
  20. 【Shopee干货】虾皮广告关键词选词技巧

热门文章

  1. 自学生物信息学(思维+超全常用网站)
  2. 张艾迪(创始人):拥抱单身与自由的Eidyzhang
  3. 3300万IOPS、39微秒延迟、碳足迹认证,谁在认真搞事情?
  4. 服!造成程序员脱发的两大原因竟然是……
  5. nz-table数据动态横向合并
  6. c++中sqrt函数的使用
  7. swisssql-sql server to oracle,Sql Server移植到Oracle之Migration Workbench
  8. CGB2103-day01
  9. LibcSearcher找不到合适的libc(更新到python3版本Libc)
  10. 网站适配IE浏览器的几个注意事项