降维是一个去掉冗余的不重要的变量,而只留下主要的可以保持信息的变量的过程。通常通过两种途径来实现:

  • 一个是特征选择(Feature Selection)

  • 一种是特征提取(Feature Extraction)

在我们实际的工作中,往往会遇到大数据。这些大数据不仅仅是样本量大,往往有时候变量很多,可能会有成千上万个变量,或者称之为特征。而有时候有些特征根本就不重要,也提供不了重要的信息,它们只是一些噪音。在这种情况下,降低特征个数就非常重要。

比如在图像处理分析中,通常会有很多幅图像,比如图像是从不同角度,不同位置得到的一组庞大的图像集,而每一幅图像又包含太多的像素,这时候降维就很重要,尤其是你的任务不是需要检测每一幅图像里的每一个像素的时候。

降维的一个很流行的方法就是主成分分析(Principal Component Analysis (PCA))方法,这也是我最开始学到的第一个降维方法。PCA是一种映射法, 它会把原来的特征映射到新的空间,新的空间中的特征表示成原来特征的线性组合。而在新的主成分空间中,特征的个数会极大的减少,而研究表明PCA可以很好的保持原来特征所提供的信息,也就是说虽然维数大大降低了,但是PCA仍然可以最大程度的保留着原来的信息量。

PCA是一种成功的降维方法,当然也可以用它来Visualize高维空间的数据。但是它也有一些局限的地方,比如有些研究称它是一种映射方法,映射后新的特征就变成了原来特征的线性组合,这样它的解释性就没有那么强。比如,你跟医生合作,如果你说线性组合,他们可能根本不关心,他们更想知道的是原来的特征。

所以,鉴于上面的局限性, 于2002年,Isabelle Guyon等人发表了一篇文章,题目是 “Gene Selection for Cancer Classification using Support Vector Machines“。他们提出了一种新的降维方法,那就是 Recursive feature elimination(RFE)。这种方法没有像PCA那样做了线性变换,而是保持了原始的特征,而且它还考虑了原始特征之间的关系(interactions)。这个方法出来之后,变得非常流行,从它的引用率就可以看出来。

当时的SVM-RFE是很流行的,后来又有了别的模型的RFE,比如 Random forest-RFE 等等。你自己也可以搜搜看看。如果感兴趣的话,也建议自己运行一遍试试,看看他的输出到底是什么,自然你就会一目了然了。

另外一种特别流行的, 不得不说的降维方法就是t-Stochastic Neighbor Embedding (tSNE),它是一种非线性的降维方法。我们可以这种方法来降低特征的个数,也就是可以用它来做特征选择,从而把选择后的特征作为机器学习模型的出入。通常情况下,我们经常使用tSNE来做数据的可视化(data visualization).

图片来自这里(http://www.nlpca.org/pca-principal-component-analysis-matlab.html)

这篇文章的原作者,留美女博士、AI专家

欢迎长按关注

降维技术 (Dimensionality Reduction)相关推荐

  1. 高维数据降维 国家自然科学基金项目 2009-2013 NSFC Dimensionality Reduction

    2013 基于数据降维和压缩感知的图像哈希理论与方法 唐振军 广西师范大学 多元时间序列数据挖掘中的特征表示和相似性度量方法研究 李海林 华侨大学       基于标签和多特征融合的图像语义空间学习技 ...

  2. 12个降维技术的终极指南(使用Python代码)

    https://blog.csdn.net/weixin_41697507/article/details/89426508 Introduction 您曾经使用过具有超过一千个功能的数据集吗? 超过 ...

  3. 【12个降维技术的终极指南(使用Python代码)】

    Adam坤 于 2019-04-21 01:04:02 发布 2722 已收藏 34 分类专栏: AI程序员 机器学习 算法 数据科学 版权 AI程序员 同时被 3 个专栏收录 166 篇文章3 订阅 ...

  4. [论文翻译]A Global Geometric Framework for Nonlinear Dimensionality Reduction

    论文题目:A Global Geometric Framework for Nonlinear Dimensionality Reduction 论文来源:Science 290, 2319 (200 ...

  5. Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos

    Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos ...

  6. 【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping

    1.背景 对比学习算是比较早就已经提出了一种技术.其中,早期比较有名的一篇文章就是Lecun等在<Dimensionality Reduction by Learning an Invarian ...

  7. 【论文翻译】A Global Geometric Framework for Nonlinear Dimensionality Reduction

    论文题目:A Global Geometric Framework for Nonlinear Dimensionality Reduction 非线性降维的全局几何框架 科学家们在处理大量高维数据时 ...

  8. 文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction

    学习笔记,仅供参考,有错必究 关键词:子空间聚类,降维,主成分分析,贝叶斯信息准则,k-centroids VARCLUST: clustering variables using dimension ...

  9. An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi...

    An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi... ...

  10. Dimensionality Reduction

    Dimensionality Reduction --Hands-on Machine Learning with Scikit-Learn and TensorFlow -Chapter 8 Int ...

最新文章

  1. ELK安装文档及相关优化
  2. 组合数函数-快速提取所有可能的组合数
  3. MATLAB入门级知识
  4. 中blur函数_Comonad在图像处理中的应用
  5. Dubbo 线上 Thread pool is EXHAUSTED 问题排查
  6. Linux文件系统不是必须的,而是必要的!
  7. ICCV 2021 LVIS Challenge 长尾分布实例分割挑战赛,冠军解决方案
  8. (20)FPGA多路选择器设计(第4天)
  9. 表达式 jsp_[JSTL表达式] -JSTL中的所有,都在这
  10. bzoj 1688: [Usaco2005 Open]Disease Manangement 疾病管理(状压)
  11. modelsim安装_Modelsim10.7安装教程
  12. 通达信最新 行情服务器,【图】2021年通达信新的高级行情服务器IP_股票,炒股,炒股公式,股票指标,股票论坛_股票软件技术交流论坛_理想论坛 - 股票论坛...
  13. NI CompactRIO嵌入式系统开发流程总结
  14. 基于SSM高校教师教务信息管理系统
  15. SWAT | SWAT源码编译
  16. [转] Node.js 服务端实践之 GraphQL 初探
  17. 12306一直显示服务器忙,网购春运火车票首日 12306网站又现服务器忙
  18. [OpenCV] cv.remap() 重映射学习笔记/map1 map2易混点
  19. 《MINECRAFT我的世界 新手完全攻略(第3版)》一2.2 去找树
  20. VMware 只能打开一个.vmx,无法打开第二个

热门文章

  1. Linux 服务器代理 上网
  2. JDK12 ShenandoahGC小试牛刀
  3. 计算机一级 单元格尺寸设置,如何调整设置excel表格单元格大小一样大
  4. ROS机器人操作系统(rospy)
  5. 机器学习:单词拼写纠正器python实现
  6. boot的时候无法进入BIOS,无法使用键盘
  7. Web 前端从入门菜鸟到实践老司机所需要的资料与指南合集
  8. Win10 新版Edge浏览器Flash Player不兼容,总是显示flash与地区不兼容(完美解决)
  9. 1037u支持64位linux吗,英特尔® 赛扬® 处理器 1037U
  10. docker运行portainer