一 特征选择(feature selection)的简介

  我们现在正处在大数据的时代,大量的高维数据在各种领域中无处不在,如社交媒体、医疗保健、生物信息学和在线教育
  当数据挖掘和机器学习算法应用于高维数据时,一个关键问题被称为维数诅咒:数据在高维空间中变得更加稀疏,对为低维空间设计的算法产生不利影响的现象。用一个例子表示就是如果用one-hot编码来对文章进行编码(即一篇文章为一个正交向量),因为天下很少有两篇一模一样的文章,所以这个特征空间就会很稀疏。此外,由于有大量的feature,学习模型往往会过度拟合。
  数据降维是解决上述问题方法之一。它主要可分为两大部分:
  ①feature extraction特征抽取是将原始的高维特征投影到一个新的低维特征空间中。新构造的特征空间通常是原始特征的线性或非线性组合。
  ②feature selection特征选择则直接选择相关特征的子集来构建模型
  现实世界的数据包含许多无关的、冗余和有噪声的特征。通过特征选择来删除这些特征可以降低存储和计算成本,同时避免了信息的显著丢失或学习性能的下降。具体的情况如下图所示:

  根据上面的图情况可以知道。(b)redundant feature这种情况下,两个特征的相关性实在太强了,只保留一个特征就可以了。而(c)irrelevant feature这种情况下样本的分布非常杂乱,这种情况下这两组特征对机器学习任务没有一点用处,所以(b),(c)两种情况是符合执行特征选择这一操作的。

二 在conventional data上的特征选择

(一)Similarity-Based Methods

  不同的特征选择算法利用不同类型的标准来定义特征的相关性。其中,有一系列的方法通过其保持数据相似性的能力来评估特征的重要性。我们将它们称为基于相似性的方法。
  对于监督学习,数据相似性可以从标签信息中获得;而对于无监督学习,大多数方法利用不同的距离度量来获得数据相似性。这种方法可以表示为以下的公式:

  公式中的U(x)可以理解为是一种效应函数,这种方法的前提是各个特征都是独立的,流程就是选择前k个效应函数最大的特征。从拓扑学的角度来看,这种特征选择的方法就是:从原来的特征集合S中选择一个子集,从而可以最大程度地保持原数据的流形结构,U(x)一定程度上可以理解为是衡量数据流形结构的完整性的工具。(完整性包括不缺失,不冗余)
  附:流形(Manifold)是局部具有欧式空间性质的空间,包括各种纬度的曲线曲面,例如球体、弯曲的平面等。流形的局部和欧式空间是同构的。流形是线性子空间的一种非线性推广
  这类算法有非常多的实现:Laplacian Score,SPEC,Fisher Score等等。下面介绍这类算法的一个实现:Relief特征选择算法
  Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss。
  然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。

(二)Information-Theoretical-Based Methods

  现有的特征选择算法的一大家族是基于信息理论的方法。学者们提出了许多手工设计的信息理论标准来最大化特征相关性和最小化特征冗余。这类特征选择算法的大多数算法都是在是在监督学习的前提下执行的。
  此外,大多数信息理论的概念只能应用于离散变量。因此,该家族中的特征选择算法只能适用于离散数据。对于连续的特征值,事先需要采用一些数据离散化技术
  在这种特征选择算法当中,我们通过前向顺序搜索来解决特征选择问题,具体方法就是:
  ①在统一的条件似然最大化特征选择框架的前提下,设计一个criterion函数J(x),其中x为特征
  其中J(x)函数设计的通用框架如下图所示:
  举一个例子:如果g(x)是一个线性函数,那么J(x)就可以表示为香农信息项(例如信息增益,条件信息增益等)的线性组合。

  ②将特征按照J(x)的得分逐个地添加到特征集中作为特征选择结果
  这样的方法有很多,例如基于information gain(或者说mutual information)的filter的特征选择方法。

(三)Sparse-Learning-Based Methods(稀疏学习)

  还有一种方法是基于稀疏学习的方法,其目的是最小化拟合误差以及一些稀疏正则化项。稀疏正则化器迫使许多特征系数较小,或完全为零,然后可以简单地消除相应的特征。这种方法的正确性在于损失函数加上正则化项可以防止过拟合,从而取得更好的拟合效果。基于稀疏学习的方法由于其良好的性能和可解释性,近年来受到了广泛的关注。
  最经典的基于稀疏学习的特征选择方法就是LASSO回归(就是线性回归加上2阶的正则化项)和SVM,logistic回归的正则化表达方法

(四)Statistical-Based Methods(统计特征)

  另一类特征选择算法是基于不同的统计度量。由于它们依赖于各种统计度量,而不是学习算法来评估特征相关性,因此大多数都是基于过滤器的方法。此外,大多数基于统计的算法都是单独分析特征的。因此,在选择阶段不可避免地会忽略了特征冗余。这类特征选择方法比较常见使用的统计量有以下这些:Low Variance,T-Score,Chi-Square Score,Gini Index等。

(五)基于集成树模型的特征选择方法

  现在的集成树模型例如lightgbm,XGboost,Catboost,随机森林都有feature_importance这一个属性,它们都有一套属于自己的特征选择方法。其实这种算法和特稀疏学习比较像,但是上面的方法是基于损失函数的正则化项。

三 在Structured feature数据上的特征选择

  现有的传统数据的特征选择方法是基于一个强烈的假设,即特征相互独立,而忽略了固有的特征结构。然而,在许多实际的应用程序中,特性可以表现出各种结构,每一种不同的特征结构都具有不同的特征选择方法,下面就是几种Structured feature的特征选择情况。具体的方法太多了,以后慢慢学习,用到了就会更新

(一)Group Feature

  特征可以表现出组的结构。最常见的例子之一是,在多因素方差分析(差方差分析)中,每个因素都与几个组相关,可以用一组虚拟特征来表示。例如在本人参加的全球蛋白质亲和力预测大赛当中,一组数据可以用来表示抗体链A的特征,一组可以用来表示抗体链B的特征。

(二)Tree Feature Structures

  特征还可以显示树状结构。例如,在人脸识别中,一张照片的所有不同的像素可以表示为一个树,其中根节点表示整个人脸,其子节点可以是不同的器官,每个特定的像素都被视为一个叶节点。树状特征图如下图所示:

(三)Graph Feature Structures

  在许多情况下,特性可能有很强的成对交互作用。例如,在自然语言处理中,如果我们将每个单词作为一个特征,那么我们就有了不同单词之间的同义词和反义词关系。此外,许多生物学研究表明,基因之间存在着很强的成对依赖关系。

特征选择综述论文阅读笔记相关推荐

  1. 基于深度学习的表面缺陷检测方法综述-论文阅读笔记

    //2022.3.2日阅读笔记 原文链接:基于深度学习的表面缺陷检测方法综述 (aas.net.cn) 个人对本篇综述内容的大致概括 论文首先介绍了表面缺陷检测中不同场景下的成像方案,主要根据表面颜色 ...

  2. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  3. [论文阅读笔记52]深度学习实体关系抽取研究综述

    来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

  4. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  5. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

  6. [论文阅读笔记15]Recognizing Complex Entity Mentions:A Review and Future Directions

    一,题目 Recognizing Complex Entity Mentions:A Review and Future Directions 识别复杂实体mentions:回顾与未来方向 Dai X ...

  7. 论文阅读笔记《USAC: A Universal Framework for Random Sample Consensus》

      本文总结了RANSAC算法的流程与存在的问题,整理了近几年基于RANSAC提出的改进算法,并整合各个算法的优势,提出一个统一的RANSAC算法框架.因此本文也可以看做是一片关于RANSAC算法的论 ...

  8. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  9. 论文阅读笔记 | 目标检测算法——SAPD算法

    如有错误,恳请指出. 文章目录 1. Introduction 2. Soft Anchor-Point Detector 2.1 Detection Formulation with Anchor ...

最新文章

  1. 软考之CPU的寻址方式
  2. mysql 去重取出最小值_5000字总结MySQL单表查询,新手看这一篇足够了!
  3. 读博无门就业碰壁,孤独当了7个月“民科”后,我的论文中了顶会
  4. 虎虎生威且看今朝 | 数据派优秀志愿者风采展
  5. 分享:手机应用存5个严重的信息安全隐患你晓得吗?
  6. Visual Studio 2017 Android 调试无法连接到虚拟机
  7. 构建闭环式的研发运维体系----云效EDAS DevOps
  8. iOS中AutoLayer自动布局流程及相关方法
  9. 【渝粤教育】 国家开放大学2020年春季 1021劳动与社会保障法 参考试题
  10. 大楼(bzoj 2165)
  11. 2.1.3码元、波特、速率、带宽
  12. ADO 错误:0x80004005,连接字符串属性无效
  13. 数据库链接池c3p0配置踩坑
  14. B2B跨境电子商务平台综合服务解决方案
  15. java 代码混淆原理
  16. Android距离传感器
  17. html视频如何转换成mp4视频格式,将MP4、MPEG、MOV等格式的视频转换成WEBM格式的方法...
  18. docker学习笔记(五)如何创建自己的阿里云镜像仓库(这是2021版的阿里云教程)
  19. 极光小课堂 | 极光短信与 Java 整合指南
  20. mysql gtid 同步_结合案例说说5.7使用gtid同步后,mysql.gtid_executed引起的从库gtid断层...

热门文章

  1. 数字电路实验怎么接线视频讲解_卡思数据:2020短视频内容营销趋势报告(把企业怎么用短视频来新时代的营销获客讲解最好的报告)99页...
  2. java和.net能共存吗_是否能让JAVA 和 .NET框架共存(转)
  3. C# Unicode编码解码
  4. Anchor free的心得
  5. JAVA教程-JAVA语言基础框架知识学习点-JAVA精通必看
  6. 最新超火毒鸡汤词汇类的微信小程序前端源码
  7. 标识和可追溯性要求_3条规则制定,设计和可追溯性的简单指南
  8. 联想台式计算机功率,【联想台式机】联想扬天6100台式机改装nas主机,联想台式机怎么进入bios_什么值得买...
  9. 基于cuda的开源程序_4种基于植物的饮食的开源应用程序
  10. 我用ChatGPT写2023高考语文作文(五):北京卷I