Relief 特征选择算法简单介绍

原创 2017年03月11日 16:56:11

标签：
机器学习

4279

相关文章
特征选择
LVW（Las Vegas Wrapper）特征选择算法简单介绍

　　Relief（Relevant Features）是著名的过滤式特征选择方法，Relief 为一系列算法，它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ，其中最早提出的 Relief 针对的是二分类问题，RRelief-F 算法可以解决多分类问题，RRelief-F 算法针对的是目标属性为连续值的回归问题。
　　

1、原始的 Relief 算法

　　最早提出的 Relief 算法主要针对二分类问题，该方法设计了一个“相关统计量”来度量特征的重要性，该统计量是一个向量，向量的每个分量是对其中一个初始特征的评价值，特征子集的重要性就是子集中每个特征所对应的相关统计量之和，因此可以看出，这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 ττ，只需选择比 ττ 大的相关统计量对应的特征值，也可以指定想要选择的特征个数 kk，然后选择相关统计量分量最大的 kk 个特征。
　　有了 Relief 的基本思想，那么现在的问题就转换成如何得到一种有效的权值或者相关统计量类对特征进行度量，Relief 借用了“假设间隔”（hypothesis marginhypothesis margin）的思想，我们知道在分类问题中，常常会采用决策面的思想来进行分类，“假设间隔”就是指在保持样本分类不变的情况下，决策面能够移动的最大距离，可以表示为：

θ=12(∥x−M(x)∥−∥x−H(x)∥) (1)θ=12(‖x−M(x)‖−‖x−H(x)‖) (1)

　　其中，M(x)M(x)、H(x)H(x) 指的是与 xx 同类的和与 xx 非同类的最近邻点。

　　我们知道，当一个属性对分类有利时，则该同类样本在该属性上的距离较近，而异类样本在该属性上的距离较远，因此，若将假设间隔推广到对属性的评价中，则对应于公式（1）圆括号中的第一项越小，第二项越大，则该属性对分类越有利。“假设间隔”能对各维度上的特征的分类能力进行评价，从而就可以近似地估计出对分类最有用的特征子集，Relief 正是利用了这个特性。
　　
　　假设训练集 DD 为 (x1,y1),(x2,y2),⋯,(xm,ym)(x1,y1),(x2,y2),⋯,(xm,ym)，对每个样本 xixi，计算与 xixi 同类别的最近邻 xi,nhxi,nh，称为是“猜中近邻”（near−heatnear−heat），然后计算与 xixi 非同类别的最近邻 xi,nmxi,nm，称为是“猜错近邻”（near−missnear−miss），则属性 jj 对应的相关统计量为：

δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2 (2)δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2 (2)

　　其中，xjaxaj 代表样本 xaxa 在属性 jj 上的取值，diff(xja,xjb)diff(xaj,xbj) 的计算取决于属性 jj 的类型：
　　对离散型属性：

diff(xja,xjb)={0,1,xja=xjbotherwisediff(xaj,xbj)={0,xaj=xbj1,otherwise

　　对连续型属性：

diff(xja,xjb)=|xja−xjb|diff(xaj,xbj)=|xaj−xbj|

　　注：xjaxaj，xjbxbj已经规范化到 [0,1][0,1] 区间。
　　
　　从公式（2）中可以看出，若 xixi 与其猜中近邻 xi,nhxi,nh 在属性 jj 上的距离小于 xixi 与其非同类别的最近邻 xi,nmxi,nm 的距离，则说明属性 jj 对区分同类与异类样本是有利的，反之则不利，因此公式（2）的值越大则说明该属性的分类能力越强。
　　公式（2）得到的是单个样本对每个属性的评价值，将所有样本对同一个属性的评价值进行平均就得到了该属性的相关统计分量，分量值越大，分类能力就越强。

2、Relief-F

　　Relief 算法只能直接处理两分类的特征选择，改进的 Relief-F 算法能够处理多分类问题，它将多分类视为是一类对多类直接加以解决。其方法是寻找当前样本的各类最近邻点并综合加以计算。
　　假设数据集为 DD，该数据集一共包含 |y||y| 个类别，对示例 xixi，若它属于第 kk 类（k∈{1,2,⋯,|y|}k∈{1,2,⋯,|y|}），则 Relef-F 算法先在第 kk 类的样本中寻找 xixi 的最近邻 xi,nhxi,nh，作为样本 xixi 的猜中近邻，然后在第 kk 类之外的每个类别的样本中寻找 xixi 的最近邻 xi,l,nmxi,l,nm（l=1,2,⋯,|y|;l≠kl=1,2,⋯,|y|;l≠k），作为样本 xixi 的猜错近邻，则相关统计量对应于属性 jj 的分量为：

δj=∑i−diff(xji,xji,nh)2+∑l≠k(pl×diff(xji,xji,l,nm)2)δj=∑i−diff(xij,xi,nhj)2+∑l≠k(pl×diff(xij,xi,l,nmj)2)

　　其中，plpl 为第 ll 类样本在数据集 DD 中所占的比例。

【参考文献】
《机器学习》周志华著.–北京：清华大学出版社

Relief 特征选择算法简单介绍

原创 2017年03月11日 16:56:11

标签：
机器学习

4279

相关文章
特征选择
LVW（Las Vegas Wrapper）特征选择算法简单介绍

1、原始的 Relief 算法

θ=12(∥x−M(x)∥−∥x−H(x)∥) (1)θ=12(‖x−M(x)‖−‖x−H(x)‖) (1)

　　其中，M(x)M(x)、H(x)H(x) 指的是与 xx 同类的和与 xx 非同类的最近邻点。

δj=∑i−diff(xji,xji,nh)2+diff(xji,xji,nm)2 (2)δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2 (2)

　　其中，xjaxaj 代表样本 xaxa 在属性 jj 上的取值，diff(xja,xjb)diff(xaj,xbj) 的计算取决于属性 jj 的类型：
　　对离散型属性：

diff(xja,xjb)={0,1,xja=xjbotherwisediff(xaj,xbj)={0,xaj=xbj1,otherwise

　　对连续型属性：

diff(xja,xjb)=|xja−xjb|diff(xaj,xbj)=|xaj−xbj|

2、Relief-F

δj=∑i−diff(xji,xji,nh)2+∑l≠k(pl×diff(xji,xji,l,nm)2)δj=∑i−diff(xij,xi,nhj)2+∑l≠k(pl×diff(xij,xi,l,nmj)2)

　　其中，plpl 为第 ll 类样本在数据集 DD 中所占的比例。

【参考文献】
《机器学习》周志华著.–北京：清华大学出版社

转载于:https://www.cnblogs.com/my871208586/p/8549681.html

【转载】Relief 特征选择算法简单介绍相关推荐

Karplus-Strong 算法简单介绍和实现
Karplus-Strong 算法简单介绍和实现本文为Coursera数字信号处理课程第一周内容,对相关课程刚兴趣的同学,请参看这里为了有更好的交互性,本文所有代码均上传至Microsoft Az ...
Relief特征选择算法
Relief特征选择算法 Relief算法最早由Kira提出,最初局限于两类数据的分类问题.Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征 ...
python特征选择relieff图像特征优选_基于Relief特征选择算法的研究与应用
作者姓名导师姓名文献出处论文摘要伴随着当代科学技术的高速发展,人类已经进入了信息爆炸的时代.数据挖掘技术通过从大量数据中揭示出隐含的信息,将海量的高维数据转换为有用的信息和知识.特征选择是数据挖掘中的 ...
LRU(Least Recently Used)算法简单介绍
文章目录 LRU算法简介使用场景简单实现简单介绍 LRU算法简介 LRU英文翻译过来就是least recently used,字面意思就是最近最少使用,说白了就是一种淘汰算法,当有新的元素插入 ...
RSYNC及其算法简单介绍
现在的存储系统,本身都具备很强的迁移以及备份策略,虽然还是基于网络传输,有相对延迟,但是方便了不少.另外,现在使用的存储系统,读写瓶颈的问题,也大都改为对象存储. 而我们那时候做文件存储,最头疼的就是 ...
垃圾回收算法简单介绍——JVM读书笔记lt;二gt;
垃圾回收的过程主要包含两部分:找出已死去的对象.移除已死去的对象. 确定哪些对象存活有两种方式:引用计数算法.可达性分析算法. 方案一:引用计数算法给对象中加入一个引用计数器.每当有一个地方引用它时 ...
文本分析算法简单介绍-1
以下内容是基于李博<机器学习实践应用>,邹博小象学院<机器学习课程>以及李航书籍<统计学习方法>加上自己的理解提炼而成文本分析算法大致可以分成3种方法:机械分词, ...
神经网络之感知器算法简单介绍和MATLAB简单实现
Perceptron Learning Algorithm 感知机学习算法,在1943年被生物学家MeCulloch和数学家Pitts提出以后,面临一个问题:参数需要依靠人工经验选定,十分麻烦.因此人 ...
Annoy算法简单介绍
Annoy算法与Faiss相比,Annoy搜索,速度更快一点,主要目的是建立一个数据结构快速找到任何查询点的最近点.通过牺牲查询准确率来换取查询速度,这个速度比faiss速度还要快. 是什么 Ann ...

【转载】Relief 特征选择算法简单介绍

Relief 特征选择算法简单介绍

1、原始的 Relief 算法

2、Relief-F

Relief 特征选择算法简单介绍

1、原始的 Relief 算法

2、Relief-F

【转载】Relief 特征选择算法简单介绍相关推荐

最新文章

热门文章