探索性数据分析是数据科学模型开发管道的重要组成部分。数据科学家将大部分时间花在数据清洗、特征工程和执行其他数据整理技术上。降维是数据科学家在执行特征工程时使用的技术之一。

降维是将高维数据集转换为可比较的低维空间的过程,真实的数据集通常有很多冗余特征,降维技术可用于去除这些冗余特征或将n维数据集转换为2维或3维进行可视化。

在本文中,我们将讨论8种降维技术,它们可以用于各种用例来降低数据集的维度。

1. 缺失值

真实的数据集通常包含大量缺失记录,这可能是由于记录数据时数据损坏或保存失败造成的。我们可以尝试各种数据插补技术来填补缺失的记录,但这仅在特征缺失数量有限时有效。

如果缺失特征值的数量大于指定的阈值,则最好从训练数据中删除该特征。我们可以删除所有缺失特征记录大于阈值(比如50%)的特征,从而降低数据的维度。

缺失值的可视化:白线表示存在缺失值

上述缺失值解释图像是使用themissingno包为titanic数据生成的。特征“Age”和“Cabin”有大量缺失记录,最终,它们可以从训练样本中去除。

2.相关性滤波器

一个或多个特征的相关性较高说明其具有相似的变化趋势且可能包含相似的信息,它会破坏自变量的统计显著性,我们可以删除与其他独立特征相关的特征,还可以删除与目标类标签不相关的特征。

有多种技术可以计算独立特征之间的相关性,包括 Pearson、Spearman、Kendall、卡方检验等。

相关矩阵的热图

上述相关矩阵热图(针对titanic数据集)是使用df.corr()函数计算的。

3.方差滤波器

只有一个特征类别的分类特征或方差很小的数值特征变量,这些特征不会对我们的模型有一定的提升,可以从训练样本中删除。

函数DataFrame.var()可以计算 Pandas 数据帧的所有特征的方差。DataFrame.value_counts()函数可以计算每个特征的分布。

4.前向/后向特征选择

前向特征选择技术是一种选择最佳特征集的包装技术。这是一个循序渐进的过程,特征是根据上一步的推断来选择的。前向特征选择技术的步骤是:

  • 1.使用每个特征分别训练机器学习模型,并测量每个模型的性能。

  • 2.获取性能最佳的特征并使用其余特征重新训练单个模型。

  • 3.重复这个过程并一次添加一个特征,产生性能最佳的特征被保留。

  • 4.重复步骤 2 和 3,直到模型的性能没有明显的改善。

前向特征选择

后向特征选择技术类似于前向特征选择,但工作方式正好相反,最初选择所有特征,并在每一步中删除最冗余的特征。

5.主成分分析

主成分分析 (PCA) 是一种非常古老的降维技术。PCA 通过保留特征的方差将特征向量投影到低维空间,它找到最大方差的方向以获得最佳特征列表。PCA 可用于将非常高维的数据投影到所需的维度。PCA算法的步骤是:

  • 标准化数据集

  • 计算标准化数据集的协方差矩阵

  • 计算协方差矩阵的特征值和特征向量

  • 取特征向量与具有高特征值的特征向量的点积。

6.t-SNE

t-SNE(t-分布式随机邻域嵌入)是一种降维技术,主要用于数据可视化。t-SNE将高维的数据集转换为可以进一步可视化的二维或三维向量。

t-SNE 的性能优于 PCA,因为它保留了数据的局部结构,并通过保留邻域局部结构将每个数据点从较高维度嵌入到较低维度空间。

更多内容可以查看:https://distill.pub/2016/misread-tsne/

7.UMAP

UMAP(Uniform Manifold Approximation)是一种新的降维技术,它是一种非常有效的可视化和可伸缩降维算法,其工作方式与 t-SNE 类似,但是它保留了更多全局结构、具有优越的运行性能、更好的可扩展性。

更多详情:https://umap-learn.readthedocs.io/en/latest/basic_usage.html

8.自动编码器(Auto Encoder )

自动编码器(Auto Encoder )是一种基于单层感知器的降维方法。它有两个组成部分:压缩(编码器)和扩展(解码器)。输入层和输出层的节点数量相同,而中间层的神经元数量少于输入层和输出层。

数据集被传递到自动编码器神经网络模型,并被编码到较低维度的隐藏层。然后它尝试从简化的编码中生成尽可能接近其原始输入的表示。中间层是减少到可比较的较低维度的向量。

总结

在本文中,我们讨论了基于特征选择的降维方法、基于组件的降维技术、基于投影的方法,最后是基于神经网络的自动编码器。ISOMAP 是另一种基于投影的降维方法,其工作方式类似于 UMAP 和 t-SNE。SVD 和 ISO 是其他一些基于组件的降维技术。


往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑黄海广老师《机器学习课程》课件合集
本站qq群851320808,加入微信群请扫码:

【机器学习】机器学习中必知必会的 8 种降维技术,最后一款超硬核!相关推荐

  1. 机器学习中必知必会的 8 种降维技术,最后一款超硬核!

    欢迎关注 ,专注Python.数据分析.数据挖掘.好玩工具! 探索性数据分析是数据科学模型开发管道的重要组成部分.数据科学家将大部分时间花在数据清洗.特征工程和执行其他数据整理技术上.降维是数据科学家 ...

  2. tableau必知必会之如何在同一视图中进行相同分析维度图表的切换

    实际业务场景中,你可能会遇到类似的分析需求:多组织架构.多业务线的数据分析,希望能在同一个视图中,通过切换图表,可以快速查看不同层级数据的分析结果. 例如下图,我们将企业总部设置为"板块&q ...

  3. gns3中两个路由器分别连接主机然后分析ip数据转发报文arp协议_关于TCP/IP,必知必会的十个问题!...

    本文整理了一些TCP/IP协议簇中需要必知必会的十大问题,既是面试高频问题,又是程序员必备基础素养. TCP/IP十个问题 TCP/IP十个问题 一.TCP/IP模型 TCP/IP协议模型(Trans ...

  4. 从《MySQL必知必会》中对MySQL的理解

    MySQL是一个开源的DBMS,是目前主流的关系型数据库DBMS之一.在<MySQL必知必会>中,作者通过简单实用的订单实例简而明要地介绍了MySQL,这里简单汇总. 查询 检索+过滤+排 ...

  5. SQL必知必会-笔记(完善版):第1课

    文章目录 SQL必知必会 一.了解数据库 1.1 数据库基础 1.1.1 数据库 (补充)数据库管理系统: 注意1: 1.1.2 表 1.1.3 列和数据类型 1.1.4 行row 1.1.5 主键 ...

  6. Java XxlJob 必知必会<续篇>

    通过 Java  XxlJob 必知必会 这篇文章的学习,我们大致知道了 xxljob 是做什么的,今天这篇文章我们将继续研究一下 xxljob 的其他使用场景. Step1: 创建一个运行模式为 P ...

  7. Java架构师必知必会,带走不谢

    可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地. 成为Java架构师,需要掌握哪些技能呢 ...

  8. c2064 项不会计算为接受0个参数的函数_【JS必知必会】高阶函数详解与实战

    本文涵盖 前言 高级函数概念 函数作为参数的高阶函数 map filter reduce sort详解与实战 函数作为返回值的高阶函数 isType函数与add求和函数 如何自己创建高阶函数 前言 一 ...

  9. mysql必知必会_《MySQL必知必会》学习小结

    关于SQL,之前通过sqlzoo的题目,完成了入门,也仅仅是入门而已. 最近都在忙着投简历和找新的数据分析项目做(为了练python和面试的时候有的聊),所以SQL放了一段时间没练.目前的工作用不到, ...

最新文章

  1. MetaPhlAn2:宏基因组物种组成分析
  2. C# MD5加密工具方法
  3. Activity源码分析
  4. (转载)把syslog接收的远程日志从/var/log/messages中分开
  5. python输出一个数的每一位_Python练习实例88 | 读取7个数(1—50)的整数值,每读取一个值,程序打印出该值个数的*。...
  6. day35-hibernate映射 03-Hibernate持久态对象自动更新数据库
  7. Python——rrdtool模块的安装
  8. centos mysql 修改mysql用户密码
  9. TCP、UDP、HTTP
  10. windows命令行设置和系统快捷键
  11. Synchronized与ReentrantLock的区别
  12. 所有自然数相加的和是-1/12,你信吗?
  13. mod sim tcp配置_ModSim32和ModScan32两种Modbus调试工具使用说明
  14. json数据转换工具-js
  15. asp.net1002-公司人事管理信息系统#毕业设计
  16. \t\tASE产生排名除使用identity外另外的方式(转载)
  17. Blender学习入门(一)-Blender的下载和插件安装
  18. c语言算摄氏温度和绝对温度,将华氏度转换为绝对温度C语言
  19. 大数据带来新机遇:如何利用大数据技术优化跨境电商运营?
  20. 关于微信支付,支付宝支付

热门文章

  1. 电脑能上网,手机连上wifi不能上网
  2. Linq to sql(一):预备知识(二)
  3. httpWebRequest和webRequest的区别
  4. Spring Shiro 入门必看
  5. Database 2 Day DBA guide_Chapter3
  6. 银行登录控件仿制--防钩子,防嗅探
  7. python 元类的call_python3 全栈开发 - 内置函数补充, 反射, 元类,__str__,__del__,exec,type,__call__方法...
  8. JavaSE(七)——Scanner类、String类
  9. JavaSE(一)——HelloWorld
  10. rsatool使用步骤图解_图解360系统重装大师如何使用