降维可以用两种不同的方式来完成:
(1) 只保留原始数据集最相关的变量(特征选择)
(2) 通过找到一组较小的新变量,每个变量都是输入变量的组合,包含与输入变量基本相同的信息(降维)

(1)遗漏价值比率(Missing Value Ratio)

如果任何变量中缺失值的百分比大于该阈值,我们将删除该变量。

(2)低方差滤波器(Low Variance Filter)

计算每个变量的方差,然后删除与数据集中的其他变量相比具有低方差的变量。假设某一变量的所有值都等于某一常量,那么该属性是无法对模型起到有效的作用,还不如舍弃这个变量。因此可以设置某一阈值,对属性进行过滤筛选。

(3)高相关滤波器(High Correlation filter)

两个变量之间的高度相关性意味着它们具有相似的趋势,并且可能携带相似的信息。我们可以计算本质上是数值的独立数值变量之间的相关性。如果相关系数超过某个阈值,我们可以删除其中一个变量,作为一般准则,我们应该保持那些与目标变量表现出良好或高相关性的变量。

通常,如果一对变量之间的相关性大于0.5-0.6,我们应该认真考虑删除这些变量之一。

(4)随机森林(Random Forest)

随机森林是最常用的特征选择算法之一。我们需要通过应用one-hot将数据转换为数字形式,因为随机森林(Scikit-Learn实现)只接受数字输入。

通过随机森林,可以输出每个特征的重要性程度,由此来进行特征的选择。

(5)反向特征消除(Backward Feature Elimination)

以下是反向特征消除的主要步骤:

  • 先获取数据集中的全部n个变量,然后用它们训练一个模型。
  • 计算模型的性能。
  • 在删除每个变量(n次)后计算模型的性能,即我们每次都去掉一个变量,用剩余的n-1个变量训练模型。
  • 确定对模型性能影响最小的变量,把它删除。
  • 重复此过程,直到不再能删除任何变量。

可以使用“RFE.RANKIGIN”命令检查变量的排名。

(6)前向特征选择(Forward Feature Selection)

是反向特征消除的相反过程,而不是消除特征。我们试图找到最佳的特征,以提高性能的模型。该技术的工作原理如下:

  • 我们从一个特性开始。本质上,我们使用每个特征分别训练N次模型。

  • 选择最佳性能的变量作为起始变量。

  • 然后我们重复这个过程并一次添加一个变量。产生最高性能增加的变量被保留。

  • 我们重复这个过程直到模型的性能没有明显的改善。

    注意: 后向特征消除和前向特征选择都耗时且计算昂贵。 它们实际上仅用于具有少量输入变量的数据集。

(7)因子分析(Factor Analysis)

因子分析是一种常见的统计方法,它能从多个变量中提取共性因子,并得到最优解。假设我们有两个变量:收入和教育。它们可能是高度相关的,因为总体来看,学历高的人一般收入也更高,反之亦然。所以它们可能存在一个潜在的共性因子,比如“能力”。

在因子分析中,我们将变量按其相关性分组,即特定组内所有变量的相关性较组间变量的相关性较。我们把每个组称为一个因子,它是多个变量的组合。和原始数据集的变量相比,这些因子在数量上更少,但携带的信息基本一致。

(8)主成分分析(Principal Component Analysis )

如果说因子分析是假设存在一系列潜在因子,能反映变量携带的信息,那PCA就是通过正交变换将原始的n维数据集变换到一个新的被称做主成分的数据集中,即从现有的大量变量中提取一组新的变量。下面是关于PCA的一些要点:

  • 主成分是原始变量的线性组合。
  • 第一个主成分具有最大的方差值。
  • 第二主成分试图解释数据集中的剩余方差,并且与第一主成分不相关(正交)。
  • 第三主成分试图解释前两个主成分等没有解释的方差。

(9)独立成分分析(Independent Component Analysis)

独立分量分析(ICA)基于信息理论,是最广泛使用的降维技术之一。PCA和ICA之间的主要区别在于,PCA寻找不相关的因素,而ICA寻找独立因素

如果两个变量不相关,它们之间就没有线性关系。如果它们是独立的,它们就不依赖于其他变量。例如,一个人的年龄和他吃了什么/看了什么电视无关。

该算法假设给定变量是一些未知潜在变量的线性混合。它还假设这些潜在变量是相互独立的,即它们不依赖于其他变量,因此它们被称为观察数据的独立分量。

(10)基于投影的几种方法(Methods Based on Projections)

(11) t分布随机邻居嵌入(t- Distributed Stochastic Neighbor Embedding (t-SNE))

(12)均匀流形近似和投影(uniform manifold approximation and projection[UMAP])

(13)奇异值分解(SVD)

参考原文
原文参考翻译 I
原文翻译参考 II

【NLP】十二种属性降维的方法相关推荐

  1. pytorch(7)——二十二种transforms数据预处理方法

    **一.数据增强** 数据增强:叫数据增广,数据扩增,他是对训练集进行变换,使训练集更丰富从而让模型更具泛化能力. 二.transforms--裁剪 1)transforms.Centercrop 功 ...

  2. 自学python方法-十二种学习Python的方法【Programming】

    这些资源将帮助您入门,并逐渐熟悉Python. 图片来源:Markus Spiske on Unsplash Python 是世界上最流行的编程语言之一. 它受到了世界各地开发者和制造商的欢迎. 大多 ...

  3. python学习方法_十二种学习Python的方法

    python学习方法 Python是地球上最流行的编程语言之一. 它被世界各地的开发商和制造商所接受. 大多数Linux和MacOS计算机都预装了Python版本,现在,即使是少数Windows计算机 ...

  4. 中国筷子的十二种忌讳(转)

    中国人使用筷子用餐是从远古流传下来的,古时又称其为"箸",日常生活当中对筷子 的运用是非常有讲究的.一般我们在使用筷子时,正确的使用方法讲究得是用右手执筷,大拇指和食指捏住筷子的上 ...

  5. 计算机中十二种常用密码的破解方法(转)

    计算机中十二种常用密码的破解方法(转)[@more@] 在日常操作中,我们经常要输入各种各样的密码,例如开机时要输入密码,QQ时也要先输入密码,假如你忘记了这些密码,就有可能用不了机器.打不开文件.不 ...

  6. 电脑密码的十二种破解方法

    电脑密码的十二种破解方法 日常操作中,我们经常要输入各种各样的密码,例如开机时要输入密码,QQ时也要先输入密码,假如你忘记了这些密码,就有可能用不了机器.打不开文件.不能聊天-- 也许还会造成很大的损 ...

  7. 十二种抓龙头妖股的实战方法

    十二种抓龙头妖股的实战方法,每一种方法都非常实用,不过想要实战操作就要知道什么是龙头股,所谓的龙头股就是当前涨幅最大的个股,也是引领一个行业的妖股,所以想要提前介入,就得有很多的实战之后才能总结的秘诀 ...

  8. OpenCV学习笔记(二十一)——绘图函数core OpenCV学习笔记(二十二)——粒子滤波跟踪方法 OpenCV学习笔记(二十三)——OpenCV的GUI之凤凰涅槃Qt OpenCV学习笔记(二十

    OpenCV学习笔记(二十一)--绘图函数core 在图像中,我们经常想要在图像中做一些标识记号,这就需要绘图函数.OpenCV虽然没有太优秀的GUI,但在绘图方面还是做得很完整的.这里就介绍一下相关 ...

  9. 关于Authorware的十二种使用技巧

    Authorware是美国Macromedia公司(现已被adobe公司收购)开发的一种多媒体制作软件,它是一个图标导向式的多媒体开发工具.今天我们学习一下Authorware的十二种使用技巧,如果你 ...

最新文章

  1. vmware无法打开ubuntu解决办法
  2. R语言ggplot2可视化线图(line plot):当数据有中断、缺失时R不会将数据绘制为连续的线图、而是出现断点
  3. WCF入门教程(vs2010)
  4. Android事件分发机制解析
  5. highcharts一天时间 与一周时间_如何规划自己一天的时间
  6. a singleton implemention
  7. [CF1082G]Petya and Graph
  8. idea系列主题推荐:material theme ui(Dracula)
  9. 【转】visual studio 2010失败或.net framework 4.0 0xc8000247错误解决
  10. SAP Spartacus 如何调试待翻译文本的 place holder 和翻译之后的值
  11. 文件操作(stat函数)
  12. Redis主从复制配置(原理剖析)
  13. SparkStreaming DStream入门及其算子应用
  14. 弹框中的elment-form在弹框重新打开后,怎么初始化验证信息
  15. C/C++[codeup 2043]小白鼠排队
  16. 正点原子STM32F103(精英版)------电容触摸按键
  17. AndroidStudio 设置全局查找快捷键
  18. 微信小程序是计算机软件吗,pc端 移动端 客户端 微信小程序区别?
  19. Json对象和string之间的转换
  20. Freeswitch总结大全

热门文章

  1. 【小5聊】微信公众平台用户信息相关接口调整,不再返回性别和地区信息(2021.10.21)
  2. 善用产业大数据平台,赋能产业数字化转型升级
  3. Xmind序列号/版本: XMind 8 Update 9 (R3.7.9.201912052356)
  4. 移动端h5页面会被植入广告问题解决
  5. 注册腾讯云域名绑定服务器
  6. VBA中如何清空excel工作表内容
  7. Android自定义拍照实现
  8. 如果公司限制了你的网速怎么办
  9. 手机长途话费应再降!
  10. ocelot和nginx比较_Ocelot一个优秀的.NET API网关框架