Relief 特征选择算法简单介绍

原创 2017年03月11日 16:56:11
  • 标签:
  • 机器学习
  • 4279

相关文章 
特征选择 
LVW(Las Vegas Wrapper)特征选择算法简单介绍

  Relief(Relevant Features)是著名的过滤式特征选择方法,Relief 为一系列算法,它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 针对的是二分类问题,RRelief-F 算法可以解决多分类问题,RRelief-F 算法针对的是目标属性为连续值的回归问题。 
  

1、原始的 Relief 算法

  最早提出的 Relief 算法主要针对二分类问题,该方法设计了一个“相关统计量”来度量特征的重要性,该统计量是一个向量,向量的每个分量是对其中一个初始特征的评价值,特征子集的重要性就是子集中每个特征所对应的相关统计量之和,因此可以看出,这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 ττ,只需选择比 ττ 大的相关统计量对应的特征值,也可以指定想要选择的特征个数 kk,然后选择相关统计量分量最大的 kk 个特征。 
  有了 Relief 的基本思想,那么现在的问题就转换成如何得到一种有效的权值或者相关统计量类对特征进行度量,Relief 借用了“假设间隔”(hypothesis marginhypothesis margin)的思想,我们知道在分类问题中,常常会采用决策面的思想来进行分类,“假设间隔”就是指在保持样本分类不变的情况下,决策面能够移动的最大距离,可以表示为:

θ=12(∥x−M(x)∥−∥x−H(x)∥)                 (1)θ=12(‖x−M(x)‖−‖x−H(x)‖)                 (1)

  其中,M(x)M(x)、H(x)H(x) 指的是与 xx 同类的和与 xx 非同类的最近邻点。

  我们知道,当一个属性对分类有利时,则该同类样本在该属性上的距离较近,而异类样本在该属性上的距离较远,因此,若将假设间隔推广到对属性的评价中,则对应于公式(1)圆括号中的第一项越小,第二项越大,则该属性对分类越有利。“假设间隔”能对各维度上的特征的分类能力进行评价,从而就可以近似地估计出对分类最有用的特征子集,Relief 正是利用了这个特性。 
   
  假设训练集 DD 为 (x1,y1),(x2,y2),⋯,(xm,ym)(x1,y1),(x2,y2),⋯,(xm,ym),对每个样本 xixi,计算与 xixi 同类别的最近邻 xi,nhxi,nh,称为是“猜中近邻”(near−heatnear−heat),然后计算与 xixi 非同类别的最近邻 xi,nmxi,nm,称为是“猜错近邻”(near−missnear−miss),则属性 jj 对应的相关统计量为:

δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2             (2)δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2             (2)

  其中,xjaxaj 代表样本 xaxa 在属性 jj 上的取值,diff(xja,xjb)diff(xaj,xbj) 的计算取决于属性 jj 的类型: 
  对离散型属性:

diff(xja,xjb)={0,1,xja=xjbotherwisediff(xaj,xbj)={0,xaj=xbj1,otherwise

  对连续型属性:

diff(xja,xjb)=|xja−xjb|diff(xaj,xbj)=|xaj−xbj|

  注:xjaxaj,xjbxbj已经规范化到 [0,1][0,1] 区间。 
   
  从公式(2)中可以看出,若 xixi 与其猜中近邻 xi,nhxi,nh 在属性 jj 上的距离小于 xixi 与其非同类别的最近邻 xi,nmxi,nm 的距离,则说明属性 jj 对区分同类与异类样本是有利的,反之则不利,因此公式(2)的值越大则说明该属性的分类能力越强。 
  公式(2)得到的是单个样本对每个属性的评价值,将所有样本对同一个属性的评价值进行平均就得到了该属性的相关统计分量,分量值越大,分类能力就越强。

2、Relief-F

  Relief 算法只能直接处理两分类的特征选择,改进的 Relief-F 算法能够处理多分类问题,它将多分类视为是一类对多类直接加以解决。其方法是寻找当前样本的各类最近邻点并综合加以计算。 
  假设数据集为 DD,该数据集一共包含 |y||y| 个类别,对示例 xixi,若它属于第 kk 类(k∈{1,2,⋯,|y|}k∈{1,2,⋯,|y|}),则 Relef-F 算法先在第 kk 类的样本中寻找 xixi 的最近邻 xi,nhxi,nh,作为样本 xixi 的猜中近邻,然后在第 kk 类之外的每个类别的样本中寻找 xixi 的最近邻 xi,l,nmxi,l,nm(l=1,2,⋯,|y|;l≠kl=1,2,⋯,|y|;l≠k),作为样本 xixi 的猜错近邻,则相关统计量对应于属性 jj 的分量为:

δj=∑i−diff(xji,xji,nh)2+∑l≠k(pl×diff(xji,xji,l,nm)2)δj=∑i−diff(xij,xi,nhj)2+∑l≠k(pl×diff(xij,xi,l,nmj)2)

  其中,plpl 为第 ll 类样本在数据集 DD 中所占的比例。

【参考文献】 
《机器学习》周志华著.–北京:清华大学出版社

版权声明:本文为博主原创文章,未经博主允许不得转载。 http://blog.csdn.net/coffee_cream/article/details/61420732

Relief 特征选择算法简单介绍

原创 2017年03月11日 16:56:11
  • 标签:
  • 机器学习
  • 4279

相关文章 
特征选择 
LVW(Las Vegas Wrapper)特征选择算法简单介绍

  Relief(Relevant Features)是著名的过滤式特征选择方法,Relief 为一系列算法,它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 针对的是二分类问题,RRelief-F 算法可以解决多分类问题,RRelief-F 算法针对的是目标属性为连续值的回归问题。 
  

1、原始的 Relief 算法

  最早提出的 Relief 算法主要针对二分类问题,该方法设计了一个“相关统计量”来度量特征的重要性,该统计量是一个向量,向量的每个分量是对其中一个初始特征的评价值,特征子集的重要性就是子集中每个特征所对应的相关统计量之和,因此可以看出,这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 ττ,只需选择比 ττ 大的相关统计量对应的特征值,也可以指定想要选择的特征个数 kk,然后选择相关统计量分量最大的 kk 个特征。 
  有了 Relief 的基本思想,那么现在的问题就转换成如何得到一种有效的权值或者相关统计量类对特征进行度量,Relief 借用了“假设间隔”(hypothesis marginhypothesis margin)的思想,我们知道在分类问题中,常常会采用决策面的思想来进行分类,“假设间隔”就是指在保持样本分类不变的情况下,决策面能够移动的最大距离,可以表示为:

θ=12(∥x−M(x)∥−∥x−H(x)∥)                 (1)θ=12(‖x−M(x)‖−‖x−H(x)‖)                 (1)

  其中,M(x)M(x)、H(x)H(x) 指的是与 xx 同类的和与 xx 非同类的最近邻点。

  我们知道,当一个属性对分类有利时,则该同类样本在该属性上的距离较近,而异类样本在该属性上的距离较远,因此,若将假设间隔推广到对属性的评价中,则对应于公式(1)圆括号中的第一项越小,第二项越大,则该属性对分类越有利。“假设间隔”能对各维度上的特征的分类能力进行评价,从而就可以近似地估计出对分类最有用的特征子集,Relief 正是利用了这个特性。 
   
  假设训练集 DD 为 (x1,y1),(x2,y2),⋯,(xm,ym)(x1,y1),(x2,y2),⋯,(xm,ym),对每个样本 xixi,计算与 xixi 同类别的最近邻 xi,nhxi,nh,称为是“猜中近邻”(near−heatnear−heat),然后计算与 xixi 非同类别的最近邻 xi,nmxi,nm,称为是“猜错近邻”(near−missnear−miss),则属性 jj 对应的相关统计量为:

δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2             (2)δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2             (2)

  其中,xjaxaj 代表样本 xaxa 在属性 jj 上的取值,diff(xja,xjb)diff(xaj,xbj) 的计算取决于属性 jj 的类型: 
  对离散型属性:

diff(xja,xjb)={0,1,xja=xjbotherwisediff(xaj,xbj)={0,xaj=xbj1,otherwise

  对连续型属性:

diff(xja,xjb)=|xja−xjb|diff(xaj,xbj)=|xaj−xbj|

  注:xjaxaj,xjbxbj已经规范化到 [0,1][0,1] 区间。 
   
  从公式(2)中可以看出,若 xixi 与其猜中近邻 xi,nhxi,nh 在属性 jj 上的距离小于 xixi 与其非同类别的最近邻 xi,nmxi,nm 的距离,则说明属性 jj 对区分同类与异类样本是有利的,反之则不利,因此公式(2)的值越大则说明该属性的分类能力越强。 
  公式(2)得到的是单个样本对每个属性的评价值,将所有样本对同一个属性的评价值进行平均就得到了该属性的相关统计分量,分量值越大,分类能力就越强。

2、Relief-F

  Relief 算法只能直接处理两分类的特征选择,改进的 Relief-F 算法能够处理多分类问题,它将多分类视为是一类对多类直接加以解决。其方法是寻找当前样本的各类最近邻点并综合加以计算。 
  假设数据集为 DD,该数据集一共包含 |y||y| 个类别,对示例 xixi,若它属于第 kk 类(k∈{1,2,⋯,|y|}k∈{1,2,⋯,|y|}),则 Relef-F 算法先在第 kk 类的样本中寻找 xixi 的最近邻 xi,nhxi,nh,作为样本 xixi 的猜中近邻,然后在第 kk 类之外的每个类别的样本中寻找 xixi 的最近邻 xi,l,nmxi,l,nm(l=1,2,⋯,|y|;l≠kl=1,2,⋯,|y|;l≠k),作为样本 xixi 的猜错近邻,则相关统计量对应于属性 jj 的分量为:

δj=∑i−diff(xji,xji,nh)2+∑l≠k(pl×diff(xji,xji,l,nm)2)δj=∑i−diff(xij,xi,nhj)2+∑l≠k(pl×diff(xij,xi,l,nmj)2)

  其中,plpl 为第 ll 类样本在数据集 DD 中所占的比例。

【参考文献】 
《机器学习》周志华著.–北京:清华大学出版社

版权声明:本文为博主原创文章,未经博主允许不得转载。 http://blog.csdn.net/coffee_cream/article/details/61420732

转载于:https://www.cnblogs.com/my871208586/p/8549681.html

【转载】Relief 特征选择算法简单介绍相关推荐

  1. Karplus-Strong 算法简单介绍和实现

    Karplus-Strong 算法简单介绍和实现 本文为Coursera数字信号处理课程第一周内容,对相关课程刚兴趣的同学,请参看这里 为了有更好的交互性,本文所有代码均上传至Microsoft Az ...

  2. Relief特征选择算法

    Relief特征选择算法 Relief算法最早由Kira提出,最初局限于两类数据的分类问题.Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征 ...

  3. python特征选择relieff图像特征优选_基于Relief特征选择算法的研究与应用

    作者姓名导师姓名文献出处论文摘要伴随着当代科学技术的高速发展,人类已经进入了信息爆炸的时代.数据挖掘技术通过从大量数据中揭示出隐含的信息,将海量的高维数据转换为有用的信息和知识.特征选择是数据挖掘中的 ...

  4. LRU(Least Recently Used)算法简单介绍

    文章目录 LRU算法简介 使用场景 简单实现 简单介绍 LRU算法简介 LRU英文翻译过来就是least recently used,字面意思就是最近最少使用,说白了就是一种淘汰算法,当有新的元素插入 ...

  5. RSYNC及其算法简单介绍

    现在的存储系统,本身都具备很强的迁移以及备份策略,虽然还是基于网络传输,有相对延迟,但是方便了不少.另外,现在使用的存储系统,读写瓶颈的问题,也大都改为对象存储. 而我们那时候做文件存储,最头疼的就是 ...

  6. 垃圾回收算法简单介绍——JVM读书笔记lt;二gt;

    垃圾回收的过程主要包含两部分:找出已死去的对象.移除已死去的对象. 确定哪些对象存活有两种方式:引用计数算法.可达性分析算法. 方案一:引用计数算法 给对象中加入一个引用计数器.每当有一个地方引用它时 ...

  7. 文本分析算法简单介绍-1

    以下内容是基于李博<机器学习实践应用>,邹博小象学院<机器学习课程>以及李航书籍<统计学习方法>加上自己的理解提炼而成 文本分析算法大致可以分成3种方法:机械分词, ...

  8. 神经网络之感知器算法简单介绍和MATLAB简单实现

    Perceptron Learning Algorithm 感知机学习算法,在1943年被生物学家MeCulloch和数学家Pitts提出以后,面临一个问题:参数需要依靠人工经验选定,十分麻烦.因此人 ...

  9. Annoy算法简单介绍

    Annoy算法 与Faiss相比,Annoy搜索,速度更快一点,主要目的是建立一个数据结构快速找到任何查询点的最近点.通过牺牲查询准确率来换取查询速度,这个速度比faiss速度还要快. 是什么 Ann ...

最新文章

  1. ubuntu16配置ZooKeeper集群(这里用的是Zookeeper3.4.10)
  2. 数据中心智能电源分配器(PDU)的趋势与应用
  3. starting mysql. success!_启动mysql报错解决问题过程
  4. centos7.4二进制安装mysql
  5. [react] 组件卸载前,加在DOM元素的监听事件和定时器要不要手动清除?为什么?
  6. RFID开发利器 proxmark3
  7. js高级(类和对象)
  8. boost::asio::io_context的事件循环
  9. 看 设计模式之策略模式探讨初步 有感,并摘取部份内容,学习之
  10. Linux进程的管理与调度(四) -- Linux下的进程类别以及其创建方式
  11. jersey文件服务器,通过jersey实现客户端图片上传
  12. 盘点激光雷达技术在智能交通上的应用
  13. 用 Python 对 Excel 表格内数据进行去重、分类,标记异常及分析
  14. 计算机联盟社团团活动总结,社团活动总结
  15. 计算机技术在现代地球科学中的重要性,浅谈GIS技术在地球科学中的应用.doc
  16. 简易留言簿系统-ASP.NET MVC (后台基本完成)
  17. 新编好的大盘指数预测程序,欢迎关注
  18. 避坑指南:Zotero的文件管理与同步zotfile、webdav
  19. 论光模块光电信号的转换和信号的调制
  20. Latex 定义definition

热门文章

  1. Spring学习,AOP术语
  2. py语法基础010_字符串操作
  3. maxwell的安装与使用
  4. 【webrtc】PlanB 回调onAddStream和onAddTrack
  5. Beyond Meat, Inc.宣布达成历史性协议,将植物肉生产带到毗邻上海的战略重地嘉兴经济技术开发区以供应中国市场
  6. LORA无线远传水表是如何实现远传功能的呢?
  7. IE11线上显示pdf文件以及pdf.js用法
  8. vue-print-nb实现页面打印,如何隐藏打印打印区域中的某个div?
  9. 同步android wear音乐,Android Wear首次更新:添加离线音乐、GPS功能等
  10. 香橙派Pi5安装个性化桌面Komorebi