近红外光谱分析技术已经在很多领域得到了广泛应用,但是实际分析过程中所采集的数据都是高维、复杂的数据信号,如何从复杂的信号中选择出建模所需要的基本数据就是所谓的近红外光谱数据特征筛选或特征选择,特征提取和特征选择从数学角度来讲是两种不同的方法。

特征选择是通过选择特征变量相对集中的区间进行组合处理,然后对所筛选的变量进行下一步操作,这种方法简单、易操作,对于含有稀疏变量,即特征峰相对集中的数据而言计算成本低,可操作性强。但是对于复杂数据,例如茶叶检测而言,简单的优势反而致使该方法产生较差的分析性能,主要原因是特征变量分布分散,选择少量区间无法解释分析对象特性。一些传统的特征选择算法包括基于信息熵(联合熵)的选择、基于分形维数的最佳波段指数选择、基于波段相关度、离散度或B距离等的选择等。这些方法往往试图对所有波段选择最优组合,但研究表明,以最佳波段指数、联合信息熵等对全部波段进行搜索计算的最优搜索方法在高光谱数据中因为计算量太大的原因难以得到应用,因此往往要研究次优算法。最常用的次优选择算法有顺序前向选择法、顺序后向选择法和最速上升搜索算法。随着计算智能、进化计算等理论的发展,粗糙集、遗传算法和蚁群优化等新方法在光谱数据的降维处理中也陆续得到了应用。但是,由于特征选择受搜索方法和决策准则的显著影响,无论如何选择都必然会损失大量信息,因此更多的研究工作倾向于特征提取,目前应用较广的特征选择方法有子区间最小二乘法(iPLS)及无信息变量筛除法(UVE)。

通过特征提取技术,原始高维光谱数据被映射或变换至低维空间(同时仍保留原始数据的某些必要特征),从而可在很大程度上避免维数灾难,使得后续分类或聚类等任务不仅更加稳定、高效、易于处理,而且更为重要的是,产生更优的泛化性能。目前,已有众多特征提取方法先后被提出并应用于光谱数据的降维,如最小噪声分离(Minimum Noise Fraction,MNF)、投影寻踪、小波变换、主成分分析(PCA)、线性判别分析、独立成分分析(Independent Component Analysis,ICA)等。这些方法具有坚实的理论基础,易于执行和分析,得到了许多成功的应用。但是,它们均为(全局的)线性方法,无法揭示数据内在的非线性结构,而光谱数据是本质非线性的。为了实现光谱数据的非线性特征提取,可以借助于核技巧或核技术,将传统的线性技术核化,如Yang等提出的核Fisher判别分析、Fauvel等提出的核PCA以及Bai等提出的核ICA。另一类重要的非线性特征提取技术是基于局部特性的流形学习方法,该方法在简单光谱分析中的效果优于PCA等传统方法,很多研究文章都讨论了该方法在近红外光谱分析领域的应用,并由部分学者提出了多种改进方法,如Chen等给出了基于局部保持投影(Locality Preserving Projection,LPP)的光谱数据特征提取算法。LPP本质上是拉普拉斯特征映射的线性化版本,既具有线性方法简单、快捷、可延展的优点,又具有一般线性方法所不具备的非线性流形学习能力,在光谱数据特征提取领域得到了较好的应用。但是,LPP需要付出参数选择的额外代价,并且最近的研究表明,参数的微小变化将导致最终结果大相径庭。虽然交叉验证是常用的参数选择技术,但往往只适合于监督学习,并且耗费大量训练样本,导致高的计算开销。事实上,当训练样本(特别是有标记训练样本)较少时,目前尚无可靠的方法进行参数选择。

除了上述两个思路之外,基于稀疏表示的近红外光谱特征选择是目前该领域讨论最多的话题,也是除了发表针对光谱SCI论文最多的领域。稀疏表示(Sparse Representation,SR)是近年来信号处理和模式识别领域的一个研究热点,是对多维数据进行线性分解的一种表示方法。它的稀疏性表现在对每个输入的信号,只有少数几个基函数具有较大的响应输出,而其它基函数的输出接近于零。因此,稀疏表示在图像降噪、修复、超分辨率处理、压缩感知等经典的图像和信号处理问题上表现出了优越的性能。近年,随着机器学习和模式识别领域的发展,考虑到稀疏表示具有自然的判别能力,能获得相互独立的特征,同时系数的稀疏分布能更好地拉开各类特征之间的距离,稀疏表示被推广到降维、分类、目标探测等相关领域。另外,降维算法的主要目的是:在保证一定学习性能的前提下提取尽可能少的特征数目。因此,降维算法在某种意义上说也是一种稀疏学习方式。

目前,求解稀疏表示方法主要有 Lasso、Lars、Elastic Net。Zou等人在原始PCA上引入Lasso和Elastic Net稀疏方法,提出稀疏主成分分析(Sparse PCA),值得一提的是LASSO和Elastic net方法用于范围很广,2年前我听一个讲座,台湾清华大学化工系的一位老师利用LASSO和Elastic net进行文物修复过程中有关潜在损坏区域的检测,结果很漂亮,并在4年期间发表了60多篇SCI(不一定都是基于该算法的)。类似的,Clemmensen等提出稀疏判别分析,Qiao等提出稀疏线性判别分析,Zheng等提出稀疏局部保持嵌入。而Moghaddam等将谱边界和稀疏子空间学习融合在一个框架中,即利用贪婪算法和广义谱边界的系数主成分分析和稀疏线性判别分析两种算法。随之,Cai等将谱回归方法融入到经典的子空间学习中,如PCA、LDA和LPP,提出一种新的降维框架统一稀疏子空间学习方法。次年,Cai等在AAAI国际会议上发表了基于图的稀疏投影方法。在此基础上,Lai等提出在保持稀疏关系的同时最大化不同样本间距离的稀疏局部判别投影。Zhou等提出流形弹性网络(Manifold Elastic Net,MEN)方法,并利用MEN提出稀疏降维的一种框架。Wright等、Cheng等、Huang等和Qiao等研究员先后利用稀疏表示构建L1图,并应用到子空间学习方法的中,即寻找一个能保留原始高维数据稀疏关系的低维子空间,此处统称稀疏保持投影(Sparsity  Preserving  Projections,SPP)。随后,Qiao等将半监督判别分析(Semi-Supervised Discriminant Analysis,SDA)中正则项用SPP代替,提出稀疏保持判别分析(Sparsity Preserving Discriminant Analysis,SPDA)的半监督方法。Wong在SPP基础上引入非负矩阵分解,提出具有自然判别信息的非负稀疏保持嵌入(Non-negative Sparseness Preserving Embeding,NSPE)。Gui等和Lu等在SPP基础上已引入判别信息分别提出判别稀疏近邻保持嵌入两种监督方法。

值得一提的是,特征提取和数据降维之间存在交叉区域,有的方法既叫数据降维,又叫特征选择,但是数据降维不等于特征提取或者特征选择,特别是针对高光谱数据处理时,数据降维是信号重建的关键一步,但是并不是特征选择,特征选择需要构建稀疏字典,通过最小化目标函数进行变量选择。

常用特征选择方法:CARS、GA、iPLS、UVE、PSO、SPA、VIP、PCA等MATLAB代码已在我的博客下载文件中更新,欢迎下载,具体代码调试和后期咨询欢迎随时交流(前期上传代码有误,CSDN现有版本不支持修改,已经下载的同学联系我,无偿提供更新代码)。

于2019年11月29

个人新建立的weixingongzhonghao,光谱学与光谱分析,欢迎大家关注,光谱交流群!

近红外光谱特征选择、特征提取区别及稀疏表示相关推荐

  1. 绘制近红外光谱特征选择筛选出的变量分布图

    这里写自定义目录标题 绘制近红外光谱特征选择筛选出的变量分布图(特征波长图) 用python绘制变量分布图 用MATLAB绘制特征波长图 绘制近红外光谱特征选择筛选出的变量分布图(特征波长图) 在近红 ...

  2. 特征工程(1):特征提取、特征构建、特征选择的区别

    特征对于预测而言是相当重要的,在预测建模之前的大部分工作都是在寻找特征,没有合适特征的预测模型,就几乎等于瞎猜,对预测目标而言没冇任何意义.特征通常是指输入数据中对因变量的影响比较明显的有趣变量或属性 ...

  3. 特征提取和特征选择方法

    一.特征提取和特征选择 1.特征选择和特征选择的区别 =特征选择和降维(特征提取)有些许的相似点=,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性的数目:但是两者所采用的方式方法却不同: ...

  4. 机器学习(特征选择与稀疏学习)

    在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别.那么在提取到的众多特征中,如何有效的提 ...

  5. 机器学习之降维(特征选择与特征提取)

    一.降维技术主要分为两大类:特征选择和特征提取. 基本概念:特征选择:我们可以选出原始特征的一个子集.特征提取:通过现有信息进行推演,构造出一个新的特征子空间. 为什么要降维:    (1)数据的多重 ...

  6. 周志华 《机器学习》之 第十一章(特征选择与稀疏学习)概念总结

    在做图像识别的程序中,我们经常遇到特征这个词语,也常有特征提取作为识别的前序工作,通常我们可以根据提取到的特征,根据应有特征进行对比,最终完成对物体缺陷等的识别.那么在提取到的众多特征中,如何有效的提 ...

  7. 机器学习(11) -- 特征选择与稀疏学习

    11.1 子集搜索与评价 特征选择:从给定的特征集中选择出相关特征子集的过程.特征选择过程必须确保不丢失重要特征. 处理高维数据两大主流技术:降维,特征选择 无关特征:与当前学习任务无关 冗余特征:它 ...

  8. dodo:人脸识别方法个人见解(包括稀疏表示方法的理解)

    dodo:人脸识别方法个人见解 科院网站 http://www.cbsr.ia.ac.cn/Li%20Group/publicationsCH.htmlgoogle的软件picasa汉王公司  dod ...

  9. 特征选择:A Constrained Competitive Swarm Optimiser withan SVM-based Surrogate Model for Feature Selecton

    摘要 摘要-特征选择(FS)是一种重要的数据预处理技术,它通过选择相关特征的一个小子集来提高学习性能.然而,由于其巨大的搜索空间,它也具有挑战性.近年来,竞争群优化器(CSO)由于其潜在的全局搜索能力 ...

最新文章

  1. android ui 最新教程,Android更新UI的五种方式,androidui五种
  2. 局域网中架设Win 2003终端服务器
  3. 还在埋头写论文?知网检索的这些小技巧让你有如神助!
  4. Java Fork/Join 框架
  5. 最小硬盘实现单原子信息存储 超现有硬盘500倍
  6. 杨辉三角Python解法
  7. 又有好奇心,又能自主学习,这个机器人棒棒哒!
  8. Google I/O 2019 将于5月7日举办
  9. VBS操作 PDF时,常用快捷键(Adobe Acrobat Reader)
  10. 欧姆龙多PLC串行链接模式的应用
  11. Magisk 最新版本 V24.1 源码编译踩坑集锦
  12. linux编译gdal geos,使用nmake编译GDAL+GEOS(傻瓜教程)
  13. 《居里夫人自传》读后感
  14. matlab 差分 平稳时间序列,利用时间序列模型预测贵阳市烟草生长期内的降水量...
  15. 简单的喜欢最长远 平凡中的陪伴最心安 懂你的人最温暖
  16. Android移动开发的几种方式
  17. 自我营销(转帖自 TI E2E 工程师社区 (Beta))
  18. 01 【nodejs简介】
  19. (7)Artemis传输配置
  20. 485、CAN、单总线、SPI、I2C的概念,特点,协议,使用方法及通信方式,还有它们之间的区别

热门文章

  1. ismobile什么意思_英语mobile是什么中文意思
  2. 20190512 XTCPC游记
  3. Linux windows共享上网
  4. 儿童台灯用白炽灯还是led灯好?盘点眼科医生推荐的儿童LED
  5. matlab 生成静音文件,matlab去除静音段
  6. DirectX10+MSVC
  7. CTF密码学-编码基础知识点总结
  8. springcloud+fastdfs在docker中设置防盗链
  9. 这 10 种 MySQL 经典错误案例,99% 的程序员一定遇到过!你呢?
  10. ubuntu18.04 安装mx250显卡驱动(超详细)