降维技术 (Dimensionality Reduction)
降维是一个去掉冗余的不重要的变量,而只留下主要的可以保持信息的变量的过程。通常通过两种途径来实现:
一个是特征选择(Feature Selection)
一种是特征提取(Feature Extraction)
在我们实际的工作中,往往会遇到大数据。这些大数据不仅仅是样本量大,往往有时候变量很多,可能会有成千上万个变量,或者称之为特征。而有时候有些特征根本就不重要,也提供不了重要的信息,它们只是一些噪音。在这种情况下,降低特征个数就非常重要。
比如在图像处理分析中,通常会有很多幅图像,比如图像是从不同角度,不同位置得到的一组庞大的图像集,而每一幅图像又包含太多的像素,这时候降维就很重要,尤其是你的任务不是需要检测每一幅图像里的每一个像素的时候。
降维的一个很流行的方法就是主成分分析(Principal Component Analysis (PCA))方法,这也是我最开始学到的第一个降维方法。PCA是一种映射法, 它会把原来的特征映射到新的空间,新的空间中的特征表示成原来特征的线性组合。而在新的主成分空间中,特征的个数会极大的减少,而研究表明PCA可以很好的保持原来特征所提供的信息,也就是说虽然维数大大降低了,但是PCA仍然可以最大程度的保留着原来的信息量。
PCA是一种成功的降维方法,当然也可以用它来Visualize高维空间的数据。但是它也有一些局限的地方,比如有些研究称它是一种映射方法,映射后新的特征就变成了原来特征的线性组合,这样它的解释性就没有那么强。比如,你跟医生合作,如果你说线性组合,他们可能根本不关心,他们更想知道的是原来的特征。
所以,鉴于上面的局限性, 于2002年,Isabelle Guyon等人发表了一篇文章,题目是 “Gene Selection for Cancer Classification using Support Vector Machines“。他们提出了一种新的降维方法,那就是 Recursive feature elimination(RFE)。这种方法没有像PCA那样做了线性变换,而是保持了原始的特征,而且它还考虑了原始特征之间的关系(interactions)。这个方法出来之后,变得非常流行,从它的引用率就可以看出来。
当时的SVM-RFE是很流行的,后来又有了别的模型的RFE,比如 Random forest-RFE 等等。你自己也可以搜搜看看。如果感兴趣的话,也建议自己运行一遍试试,看看他的输出到底是什么,自然你就会一目了然了。
另外一种特别流行的, 不得不说的降维方法就是t-Stochastic Neighbor Embedding (tSNE),它是一种非线性的降维方法。我们可以这种方法来降低特征的个数,也就是可以用它来做特征选择,从而把选择后的特征作为机器学习模型的出入。通常情况下,我们经常使用tSNE来做数据的可视化(data visualization).
图片来自这里(http://www.nlpca.org/pca-principal-component-analysis-matlab.html)
这篇文章的原作者,留美女博士、AI专家
欢迎长按关注
降维技术 (Dimensionality Reduction)相关推荐
- 高维数据降维 国家自然科学基金项目 2009-2013 NSFC Dimensionality Reduction
2013 基于数据降维和压缩感知的图像哈希理论与方法 唐振军 广西师范大学 多元时间序列数据挖掘中的特征表示和相似性度量方法研究 李海林 华侨大学 基于标签和多特征融合的图像语义空间学习技 ...
- 12个降维技术的终极指南(使用Python代码)
https://blog.csdn.net/weixin_41697507/article/details/89426508 Introduction 您曾经使用过具有超过一千个功能的数据集吗? 超过 ...
- 【12个降维技术的终极指南(使用Python代码)】
Adam坤 于 2019-04-21 01:04:02 发布 2722 已收藏 34 分类专栏: AI程序员 机器学习 算法 数据科学 版权 AI程序员 同时被 3 个专栏收录 166 篇文章3 订阅 ...
- [论文翻译]A Global Geometric Framework for Nonlinear Dimensionality Reduction
论文题目:A Global Geometric Framework for Nonlinear Dimensionality Reduction 论文来源:Science 290, 2319 (200 ...
- Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos
Review of Feature Selection, Dimensionality Reduction and Classification for Chronic Disease Diagnos ...
- 【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping
1.背景 对比学习算是比较早就已经提出了一种技术.其中,早期比较有名的一篇文章就是Lecun等在<Dimensionality Reduction by Learning an Invarian ...
- 【论文翻译】A Global Geometric Framework for Nonlinear Dimensionality Reduction
论文题目:A Global Geometric Framework for Nonlinear Dimensionality Reduction 非线性降维的全局几何框架 科学家们在处理大量高维数据时 ...
- 文献记录(part17)--VARCLUST: clustering variables using dimensionality reduction
学习笔记,仅供参考,有错必究 关键词:子空间聚类,降维,主成分分析,贝叶斯信息准则,k-centroids VARCLUST: clustering variables using dimension ...
- An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi...
An Indexable Time Series Dimensionality Reduction Method for Maximum Deviation Reduction and Simi... ...
- Dimensionality Reduction
Dimensionality Reduction --Hands-on Machine Learning with Scikit-Learn and TensorFlow -Chapter 8 Int ...
最新文章
- ELK安装文档及相关优化
- 组合数函数-快速提取所有可能的组合数
- MATLAB入门级知识
- 中blur函数_Comonad在图像处理中的应用
- Dubbo 线上 Thread pool is EXHAUSTED 问题排查
- Linux文件系统不是必须的,而是必要的!
- ICCV 2021 LVIS Challenge 长尾分布实例分割挑战赛,冠军解决方案
- (20)FPGA多路选择器设计(第4天)
- 表达式 jsp_[JSTL表达式] -JSTL中的所有,都在这
- bzoj 1688: [Usaco2005 Open]Disease Manangement 疾病管理(状压)
- modelsim安装_Modelsim10.7安装教程
- 通达信最新 行情服务器,【图】2021年通达信新的高级行情服务器IP_股票,炒股,炒股公式,股票指标,股票论坛_股票软件技术交流论坛_理想论坛 - 股票论坛...
- NI CompactRIO嵌入式系统开发流程总结
- 基于SSM高校教师教务信息管理系统
- SWAT | SWAT源码编译
- [转] Node.js 服务端实践之 GraphQL 初探
- 12306一直显示服务器忙,网购春运火车票首日 12306网站又现服务器忙
- [OpenCV] cv.remap() 重映射学习笔记/map1 map2易混点
- 《MINECRAFT我的世界 新手完全攻略(第3版)》一2.2 去找树
- VMware 只能打开一个.vmx,无法打开第二个
热门文章
- Linux 服务器代理 上网
- JDK12 ShenandoahGC小试牛刀
- 计算机一级 单元格尺寸设置,如何调整设置excel表格单元格大小一样大
- ROS机器人操作系统(rospy)
- 机器学习:单词拼写纠正器python实现
- boot的时候无法进入BIOS,无法使用键盘
- Web 前端从入门菜鸟到实践老司机所需要的资料与指南合集
- Win10 新版Edge浏览器Flash Player不兼容,总是显示flash与地区不兼容(完美解决)
- 1037u支持64位linux吗,英特尔® 赛扬® 处理器 1037U
- docker运行portainer