互信息特征选择python_基于互信息的特征选择算法MATLAB实现

在概率论和信息论中，两个随机变量的互信息(Mutual Information，简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。

互信息的定义

正式地，两个离散随机变量 X 和 Y 的互信息可以定义为：

其中 p(x,y) 是 X 和 Y 的联合概率分布函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

在连续随机变量的情形下，求和被替换成了二重定积分：

其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底，互信息的单位是bit。

直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y(或 X)单独包含的不确定度相同，称作 Y(或 X)的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性：I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出：当 X 和 Y 独立时，p(x,y) = p(x) p(y)，因此：

此外，互信息是非负的(即 I(X;Y) ≥ 0; 见下文)，而且是对称的(即 I(X;Y) = I(Y;X))。

互信息特征选择算法的步骤

①划分数据集

②利用互信息对特征进行排序

③选择前n个特征利用SVM进行训练

④在测试集上评价特征子集计算错误率

缺点

此种特征选择方法是最大化特征与分类变量之间的相关度，就是选择与分类变量拥有最高相关度的前k个变量。但是，在特征选择中，单个好的特征的组合并不能增加分类器的性能，因为有可能特征之间是高度相关的，这就导致了特征变量的冗余。

代码

注意使用的数据集是dlbcl，大概五千多维，可以从UCI上下载，最终选择前100特征进行训练。

主函数代码：

MATLAB

clear all

close all

clc;

[X_train,Y_train,X_test,Y_test] = divide_dlbcl();

Y_train(Y_train==0)=-1;

Y_test(Y_test==0)=-1;

% number of features

numF = size(X_train,2);

[ ranking , w] = mutInfFS( X_train, Y_train, numF );

k = 100; % select the Top 2 features

svmStruct = svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);

C = svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);

err_rate = sum(Y_test~= C)/size(X_test,1); % mis-classification rate

conMat = confusionmat(Y_test,C); % the confusion matrix

fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

clearall

closeall

clc;

[X_train,Y_train,X_test,Y_test]=divide_dlbcl();

Y_train(Y_train==0)=-1;

Y_test(Y_test==0)=-1;

%numberoffeatures

numF=size(X_train,2);

[ranking,w]=mutInfFS(X_train,Y_train,numF);

k=100;% select the Top 2 features

svmStruct=svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);

C=svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);

err_rate=sum(Y_test~=C)/size(X_test,1);% mis-classification rate

conMat=confusionmat(Y_test,C);% the confusion matrix

fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

mutInfFS.m

MATLAB

function [ rank , w] = mutInfFS( X,Y,numF )

rank = [];

for i = 1:size(X,2)

rank = [rank; -muteinf(X(:,i),Y) i];

end;

rank = sortrows(rank,1);

w = rank(1:numF, 1);

rank = rank(1:numF, 2);

end

function[rank,w]=mutInfFS(X,Y,numF)

rank=[];

fori=1:size(X,2)

rank=[rank;-muteinf(X(:,i),Y)i];

end;

rank=sortrows(rank,1);

w=rank(1:numF,1);

rank=rank(1:numF,2);

end

muteinf.m

MATLAB

function info = muteinf(A, Y)

n = size(A,1);%实例数量

Z = [A Y];%所有实例的维度值及标签

if(n/10 > 20)

nbins = 20;

else

nbins = max(floor(n/10),10);%设置区间的个数

end;

pA = hist(A, nbins);%min(A)到max(A)划分出nbins个区间出来，求每个区间的概率

pA = pA ./ n;%除以实例数量

i = find(pA == 0);

pA(i) = 0.00001;%不能使某一区间的概率为0

od = size(Y,2);%一个维度

cl = od;

%下面是求实例不同标签的的概率值，也就是频率

if(od == 1)

pY = [length(find(Y==+1)) length(find(Y==-1))] / n;

cl = 2;

else

pY = zeros(1,od);

for i=1:od

pY(i) = length(find(Y==+1));

end;

pY = pY / n;

end;

p = zeros(cl,nbins);

rx = abs(max(A) - min(A)) / nbins;%每个区间长度

for i = 1:cl

xl = min(A);%变量的下界

for j = 1:nbins

if(i == 2) && (od == 1)

interval = (xl <= Z(:,1)) & (Z(:,2) == -1);

else

interval = (xl <= Z(:,1)) & (Z(:,i+1) == +1);

end;

if(j < nbins)

interval = interval & (Z(:,1) < xl + rx);

end;

%find(interval)

p(i,j) = length(find(interval));

if p(i,j) == 0 % hack!

p(i,j) = 0.00001;

end

xl = xl + rx;

end;

HA = -sum(pA .* log(pA));%计算当前维度的信息熵

HY = -sum(pY .* log(pY));%计算标签的信息熵

pA = repmat(pA,cl,1);

pY = repmat(pY',1,nbins);

p = p ./ n;

info = sum(sum(p .* log(p ./ (pA .* pY))));

info = 2 * info ./ (HA + HY);%计算互信息

functioninfo=muteinf(A,Y)

n=size(A,1);%实例数量

Z=[AY];%所有实例的维度值及标签

if(n/10>20)

nbins=20;

else

nbins=max(floor(n/10),10);%设置区间的个数

end;

pA=hist(A,nbins);%min(A)到max(A)划分出nbins个区间出来，求每个区间的概率

pA=pA./n;%除以实例数量

i=find(pA==0);

pA(i)=0.00001;%不能使某一区间的概率为0

od=size(Y,2);%一个维度

cl=od;

%下面是求实例不同标签的的概率值，也就是频率

if(od==1)

pY=[length(find(Y==+1))length(find(Y==-1))]/n;

cl=2;

else

pY=zeros(1,od);

fori=1:od

pY(i)=length(find(Y==+1));

end;

pY=pY/n;

end;

p=zeros(cl,nbins);

rx=abs(max(A)-min(A))/nbins;%每个区间长度

fori=1:cl

xl=min(A);%变量的下界

forj=1:nbins

if(i==2)&&(od==1)

interval=(xl<=Z(:,1))&(Z(:,2)==-1);

else

interval=(xl<=Z(:,1))&(Z(:,i+1)==+1);

end;

if(j

interval=interval&(Z(:,1)

end;

%find(interval)

p(i,j)=length(find(interval));

ifp(i,j)==0% hack!

p(i,j)=0.00001;

end

xl=xl+rx;

end;

HA=-sum(pA.*log(pA));%计算当前维度的信息熵

HY=-sum(pY.*log(pY));%计算标签的信息熵

pA=repmat(pA,cl,1);

pY=repmat(pY',1,nbins);

p=p./n;

info=sum(sum(p.*log(p./(pA.*pY))));

info=2*info./(HA+HY);%计算互信息

前100个特征的效果：

Accuracy: 86.36%, Error-Rate: 0.14

选择前两个特征进行训练(压缩率接近100%,把上述代码中的K设为2即可)的二维图：

Accuracy: 75.00%, Error-Rate: 0.25

网站所有原创代码采用Apache 2.0授权

网站文章采用知识共享许可协议BY-NC-SA4.0授权

互信息特征选择python_基于互信息的特征选择算法MATLAB实现相关推荐

互信息特征选择python_基于互信息的特征选择方法杂谈
我们现在处于一个数据驱动的时代,但并不是所有的数据都是有意义的.只有有效的数据才能带给我们"信息",无效的数据并不能带给我们"信息". 如果我们在做一件事情之 ...
互信息特征选择python_基于互信息的特征选择算法MATLAB实现 – OmegaXYZ
在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度.不同于相关系数,互信息并不局限于实值随 ...
特征选择之基于相关性的特征选择（CFS）
此为本人学习笔记,转载请劳烦告知! 特征选择特征抽取整合原始特征,这样可能产生一些新的特征,而特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征.特征提取主要用于图像分析,信号处理和信息检索 ...
python XGBoost分类器和基于树的特征选择决策树法
目录绪论 1. 导入包和数据 2. 分割训练集和测试集 3. 不进行特征选择直接用xgb分类 3.1. xgb直接建模 3.2. 输出图片特征重要性 3.3. 模型评价 4. 进行特征选择后的分类 ...
基于正则化的特征选择
1.特征选择简述降维,有时也可称为子空间学习,可以大致分为特征选择(feature selection)和特征提取(feature extraction)两大类,我们常说的主成分分析(PCA).线性 ...
数字水印算法matlab源程序 matlab版数字水印算法 /DCT/DWT/LSB/HVS/W-SVD数字水印源码数字水印的嵌入和提取 W-SVD数字水印实现
发以下多套系统源码: 1.matlab版数字水印算法 2.MATLAB数字水印源代码+文档 3.数字水印技术matlab代码 4.数字水印 JPEG压缩 matlab代码 5.数字水印添加噪声 m ...
基于蚁群优化算法的特征选择相关文献
Dorigo等人在20世纪90年代初提出了蚁群优化算法(Ant colony optimization ,ACO).ACO是一种元启发式群智能算法,旨在解决组合优化问题.它利用了真实蚂蚁的觅食行为,由 ...
【图像配准】基于互信息的图像配准算法：MI、EMI、ECC算法
简介: 基于互信息的图像配准算法以其较高的配准精度和广泛的适用性而成为图像配准领域研究的热点之一,而基于互信息的医学图像配准方法被认为是最好的配准方法之一.基于此,本文将介绍简单的基于 ...
lasso特征选择python_转：结合Scikit-learn介绍几种常用的特征选择方法-2
4.2 平均精确率减少 Mean decrease accuracy 另一种常用的特征选择方法就是直接度量每个特征对模型精确率的影响.主要思路是打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率 ...
使用优化的基于模糊规则的特征选择技术和基于树的集成方法进行山洪敏感性建模--文献阅读
文章连接 Flash flood susceptibility modeling using an optimized fuzzy rule based feature selection techn ...

互信息特征选择python_基于互信息的特征选择算法MATLAB实现

互信息特征选择python_基于互信息的特征选择算法MATLAB实现相关推荐

最新文章

热门文章