特征选择relief算法介绍

特征选择的基础了解:(可以参考:一篇关于特征选择的博客)
特征选择过程一般包括:特征子集产生过程,评价函数,停止准则,验证过程。

1 特征子集选择过程
根据搜索过程的方法的不同,可以将特征选择分为穷举、启发式、随机几种方法。以上几种方法不改变特征的原始属性,而有些方法通过对特征进行空间变换,去除相关性。比如PCA、傅立叶变换、小波变换等。

2 每种评价函数各有优劣,所以需要根据实际情况进行选择。根据不同的评价准则,可以分为:过滤器(Filter)模型、封装器(wrapper)模型以及混合模型。过滤器模型是将特征选择作为一个预处理过程,利用数据的内在特性对选取的特征子集进行评价,独立于学习算法。而封装器模型则将后续学习算法的结果作为特征评价准则的一部分根据评价函数的不同(与采用的分类方法是否关联),可以将特征选择分为独立性准则、关联性度量。

当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。
根据特征选择的形式又可以将特征选择方法分为3种:

Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

3 停止准则是与评价函数相关的,当评价函数值达到某个阈值后就可停止搜索。比如对于独立性准则,可以选择样本间平均间距最大;对于关联性度量,可以选择使得分类器的准确召回最高作为准则。

4 度量测试数据集上验证选出来的特征子集的有效性。最好采取与前期选择方法不相关的度量方法,这样可以减少其间的耦合。

Relief为一系列算法,它包括最早提出的Relief以及后来拓展的ReliefF和RReliefF,其中RReliefF算法是针对目标属性为连续值的回归问题提出的,下面仅介绍一下针对分类问题的Relief和ReliefF算法。

Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。

Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加,因而运行效率非常高。具体算法如下所示:


由于Relief算法比较简单,但运行效率高,并且结果也比较令人满意,因此得到广泛应用,但是其局限性在于只能处理两类别数据,因此1994年Kononeill对其进行了扩展,得到了Relief-F作算法,可以处理多类别问题。该算法用于处理目标属性为连续值的回归问题。ReliefF算法在处理多类问题时,每次从训练样本集中随机取出一个样本R,然后从和R同类的样本集中找出R的k个近邻样本(near Hits),从每个R的不同类的样本集中均找出k个近邻样本(near Misses),然后更新每个特征的权重,如下式所示:



Relief系列算法运行效率高,对数据类型没有限制,属于一种特征权重算法,算法会赋予所有和类别相关性高的特征较高的权重,所以算法的局限性在于不能有效的去除冗余特征。

特征选择relief算法介绍相关推荐

  1. 特征选择之Relief算法与Relief-F算法

    特征选择之Relief算法与Relief-F算法 一.背景介绍 二.Relief算法 三.Relief-F算法 参考资料 一.背景介绍 Relief算法是由Kira提出的一种经典的过滤式特征选择算法, ...

  2. 特征选择算法----Relief算法python实现

    特征选择算法----Relief算法 特征选择算法分为: (1)封装式算法:遗传算法,适用于处理大规模的数据,具有全局搜索能力强且不易陷入局部最优解. (2)嵌入式算法:需要嵌入机器学习算法,往往降维 ...

  3. 特征选择----relief及reliefF算法

    relief算法 Relief算法最早由Kira提出,最初局限于两类数据的分类问题.Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的 ...

  4. Matlab中特征选择reliefF算法使用方法(分类与回归)

    1. ReliefF简介 ReliefF是特征选择的一种算法,在高维特征样本中,选取部分具有代表性的特征,从而降低样本特征维度.它也是relief算法的进阶.Relief算法只能用来做二分类,但其算法 ...

  5. 西瓜书课后11.1(Relief算法)

    题目 试编程实现Relief算法,并考察其在西瓜数据集3.0上的运行结果. 分析 Relief是一种过滤式特征选择方法.简单来说就是利用这种方法可以计算出各个特征子集的重要性.我们用 δ j \del ...

  6. relief算法研究

    最近由于工作需要,对数据进行降维处理,通过对各种算法的研究,想寻找一种比较理想的算法,处理数据维度,达到降维的目的,对PCA进行研究,但是PCA是对当前多维数据的空间变换,无法达到物理降维的目的,因此 ...

  7. 简单易懂的机器学习算法介绍

    决策树 - - -决策树的基本原理 决策树(Decision Tree)是⼀种分⽽治之的决策过程.⼀个困难的预测问题,通过树的分⽀节点,被划分成两个或多个较为简单的⼦集,从结构上划分为不同的⼦问题.将 ...

  8. 用通俗易懂的方式讲解:TF-IDF算法介绍及实现

    文章目录 1.TF-IDF算法介绍 (1)TF是词频(Term Frequency) (2) IDF是逆向文件频率(Inverse Document Frequency) (3)TF-IDF实际上是: ...

  9. 反汇编算法介绍和应用——递归下降算法分析

    上一篇博文我介绍了Windbg使用的线性扫描(linear sweep)反汇编算法.本文我将介绍IDA使用的递归下降(recursive descent)反汇编算法.(转载请指明来源于breaksof ...

  10. 改进型 clock 页面置换算法实现_ID生成算法雪花算法介绍及实现

    1. SnowFlake 算法介绍 雪花算法是由 Twitter 公司开源的可在分布式系统中产生一个全局唯一 ID 的算法.最初 Twitter 把存储系统从 MySQL 迁移到 Cassandra, ...

最新文章

  1. WordPress添加固定位置的百度分享按钮
  2. iOS 相册权限绕过漏洞
  3. 使用ifconfig取出网卡eth0的ip地址
  4. ftp邮箱里的文件无法连接服务器,服务器FTP不能连接的一些解决方法 - 新网数据 - 主机,域名,邮箱提供商 - www.nIDC.cn...
  5. 网站开启 IPv6 访问,测试是否支持 IPV6
  6. 自定义按键_NS推送10.0.0版本更新 新增按键自定义和数据转移功能
  7. 理解 JMeter 聚合报告(Aggregate Report)
  8. Java程序模拟QQ空间登录 - 并模拟刷说说的赞(图文) 注意:腾讯修改了加密算法,已失效(2015-01-31)
  9. Kubernetes首爆严重安全漏洞,请升级你的Kubernetes
  10. axios 上传文件 封装_axios 封装【满足常规数据上传及file上传】
  11. NP、OSPF链路状态数据库
  12. 遗传算法原理案例及MATLAB代码
  13. 2014汽车之家笔试
  14. python机器学习之特征选择(过滤法、嵌入法、包装法案例详解)
  15. 洛谷 P5708 【深基2.习2】三角形面积(C)
  16. 三年经验的程序员,为什么能力要强过80%的人
  17. python怎么算积分_蒙特卡洛方法求定积分及python实现(转)
  18. html语言对奇偶数行设置颜色,纯CSS实现奇偶数行颜色交替(兼容主流浏览器)
  19. [学习笔记]Java如何处理EXCEL的读取
  20. bbp公式求圆周率、python_【并行计算】六种方法计算圆周率

热门文章

  1. 键盘盲打练习打字软件 v6.30绿色版
  2. 读《C专家编程》笔记-关于内存泄漏
  3. 计算机那种专业包括vr,VR技术的大学专业有哪些
  4. 电脑版微信发消息转圈圈
  5. QQ安装目录下各文件用途不完全揭密(转)
  6. 金庸群侠传3改数据攻略(少壮不努力,老大改数据)
  7. 国人魔改后的中文优化版资源管理器,终于解决我多年的难题
  8. 电脑右下角自动弹出窗口(弹窗)
  9. 西门子PLC的选型方法总结
  10. 工业和能源1994-2019年省级面板数据