在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。

互信息的定义

正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:

其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

在连续随机变量的情形下,求和被替换成了二重定积分:

其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底,互信息的单位是bit。

直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出:当 X 和 Y 独立时,p(x,y) = p(x) p(y),因此:

此外,互信息是非负的(即 I(X;Y) ≥ 0; 见下文),而且是对称的(即 I(X;Y) = I(Y;X))。

互信息特征选择算法的步骤

①划分数据集

②利用互信息对特征进行排序

③选择前n个特征利用SVM进行训练

④在测试集上评价特征子集计算错误率

缺点

此种特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。

代码

注意使用的数据集是dlbcl,大概五千多维,可以从UCI上下载,最终选择前100特征进行训练。

主函数代码:

MATLAB

clear all

close all

clc;

[X_train,Y_train,X_test,Y_test] = divide_dlbcl();

Y_train(Y_train==0)=-1;

Y_test(Y_test==0)=-1;

% number of features

numF = size(X_train,2);

[ ranking , w] = mutInfFS( X_train, Y_train, numF );

k = 100; % select the Top 2 features

svmStruct = svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);

C = svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);

err_rate = sum(Y_test~= C)/size(X_test,1); % mis-classification rate

conMat = confusionmat(Y_test,C); % the confusion matrix

fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

clearall

closeall

clc;

[X_train,Y_train,X_test,Y_test]=divide_dlbcl();

Y_train(Y_train==0)=-1;

Y_test(Y_test==0)=-1;

%numberoffeatures

numF=size(X_train,2);

[ranking,w]=mutInfFS(X_train,Y_train,numF);

k=100;% select the Top 2 features

svmStruct=svmtrain(X_train(:,ranking(1:k)),Y_train,'showplot',true);

C=svmclassify(svmStruct,X_test(:,ranking(1:k)),'showplot',true);

err_rate=sum(Y_test~=C)/size(X_test,1);% mis-classification rate

conMat=confusionmat(Y_test,C);% the confusion matrix

fprintf('\nAccuracy: %.2f%%, Error-Rate: %.2f \n',100*(1-err_rate),err_rate);

mutInfFS.m

MATLAB

function [ rank , w] = mutInfFS( X,Y,numF )

rank = [];

for i = 1:size(X,2)

rank = [rank; -muteinf(X(:,i),Y) i];

end;

rank = sortrows(rank,1);

w = rank(1:numF, 1);

rank = rank(1:numF, 2);

end

1

2

3

4

5

6

7

8

9

10

function[rank,w]=mutInfFS(X,Y,numF)

rank=[];

fori=1:size(X,2)

rank=[rank;-muteinf(X(:,i),Y)i];

end;

rank=sortrows(rank,1);

w=rank(1:numF,1);

rank=rank(1:numF,2);

end

muteinf.m

MATLAB

function info = muteinf(A, Y)

n = size(A,1);%实例数量

Z = [A Y];%所有实例的维度值及标签

if(n/10 > 20)

nbins = 20;

else

nbins = max(floor(n/10),10);%设置区间的个数

end;

pA = hist(A, nbins);%min(A)到max(A)划分出nbins个区间出来,求每个区间的概率

pA = pA ./ n;%除以实例数量

i = find(pA == 0);

pA(i) = 0.00001;%不能使某一区间的概率为0

od = size(Y,2);%一个维度

cl = od;

%下面是求实例不同标签的的概率值,也就是频率

if(od == 1)

pY = [length(find(Y==+1)) length(find(Y==-1))] / n;

cl = 2;

else

pY = zeros(1,od);

for i=1:od

pY(i) = length(find(Y==+1));

end;

pY = pY / n;

end;

p = zeros(cl,nbins);

rx = abs(max(A) - min(A)) / nbins;%每个区间长度

for i = 1:cl

xl = min(A);%变量的下界

for j = 1:nbins

if(i == 2) && (od == 1)

interval = (xl <= Z(:,1)) & (Z(:,2) == -1);

else

interval = (xl <= Z(:,1)) & (Z(:,i+1) == +1);

end;

if(j < nbins)

interval = interval & (Z(:,1) < xl + rx);

end;

%find(interval)

p(i,j) = length(find(interval));

if p(i,j) == 0 % hack!

p(i,j) = 0.00001;

end

xl = xl + rx;

end;

end;

HA = -sum(pA .* log(pA));%计算当前维度的信息熵

HY = -sum(pY .* log(pY));%计算标签的信息熵

pA = repmat(pA,cl,1);

pY = repmat(pY',1,nbins);

p = p ./ n;

info = sum(sum(p .* log(p ./ (pA .* pY))));

info = 2 * info ./ (HA + HY);%计算互信息

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

functioninfo=muteinf(A,Y)

n=size(A,1);%实例数量

Z=[AY];%所有实例的维度值及标签

if(n/10>20)

nbins=20;

else

nbins=max(floor(n/10),10);%设置区间的个数

end;

pA=hist(A,nbins);%min(A)到max(A)划分出nbins个区间出来,求每个区间的概率

pA=pA./n;%除以实例数量

i=find(pA==0);

pA(i)=0.00001;%不能使某一区间的概率为0

od=size(Y,2);%一个维度

cl=od;

%下面是求实例不同标签的的概率值,也就是频率

if(od==1)

pY=[length(find(Y==+1))length(find(Y==-1))]/n;

cl=2;

else

pY=zeros(1,od);

fori=1:od

pY(i)=length(find(Y==+1));

end;

pY=pY/n;

end;

p=zeros(cl,nbins);

rx=abs(max(A)-min(A))/nbins;%每个区间长度

fori=1:cl

xl=min(A);%变量的下界

forj=1:nbins

if(i==2)&&(od==1)

interval=(xl<=Z(:,1))&(Z(:,2)==-1);

else

interval=(xl<=Z(:,1))&(Z(:,i+1)==+1);

end;

if(j

interval=interval&(Z(:,1)

end;

%find(interval)

p(i,j)=length(find(interval));

ifp(i,j)==0% hack!

p(i,j)=0.00001;

end

xl=xl+rx;

end;

end;

HA=-sum(pA.*log(pA));%计算当前维度的信息熵

HY=-sum(pY.*log(pY));%计算标签的信息熵

pA=repmat(pA,cl,1);

pY=repmat(pY',1,nbins);

p=p./n;

info=sum(sum(p.*log(p./(pA.*pY))));

info=2*info./(HA+HY);%计算互信息

前100个特征的效果:

Accuracy: 86.36%, Error-Rate: 0.14

选择前两个特征进行训练(压缩率接近100%,把上述代码中的K设为2即可)的二维图:

Accuracy: 75.00%, Error-Rate: 0.25

网站所有原创代码采用Apache 2.0授权

网站文章采用知识共享许可协议BY-NC-SA4.0授权

© 2018 • OmegaXYZ–版权所有 转载请注明出处 -皖ICP备 17007601

互信息特征选择python_基于互信息的特征选择算法MATLAB实现相关推荐

  1. 互信息特征选择python_基于互信息的特征选择方法杂谈

    我们现在处于一个数据驱动的时代,但并不是所有的数据都是有意义的.只有有效的数据才能 带给我们"信息",无效的数据并不能带给我们"信息". 如果我们在做一件事情之 ...

  2. 互信息特征选择python_基于互信息的特征选择算法MATLAB实现 – OmegaXYZ

    在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度.不同于相关系数,互信息并不局限于实值随 ...

  3. 特征选择之基于相关性的特征选择(CFS)

    此为本人学习笔记,转载请劳烦告知! 特征选择 特征抽取整合原始特征,这样可能产生一些新的特征,而特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征.特征提取主要用于图像分析,信号处理和信息检索 ...

  4. python XGBoost分类器 和 基于树的特征选择 决策树法

    目录 绪论 1. 导入包和数据 2. 分割训练集和测试集 3. 不进行特征选择直接用xgb分类 3.1. xgb直接建模 3.2. 输出图片特征重要性 3.3. 模型评价 4. 进行特征选择后的分类 ...

  5. 基于正则化的特征选择

    1.特征选择简述 降维,有时也可称为子空间学习,可以大致分为特征选择(feature selection)和特征提取(feature extraction)两大类,我们常说的主成分分析(PCA).线性 ...

  6. 数字水印算法matlab源程序 matlab版数字水印算法 /DCT/DWT/LSB/HVS/W-SVD数字水印源码 数字水印的嵌入和提取 W-SVD数字水印实现

    发以下多套系统源码: 1.matlab版数字水印算法 2.MATLAB数字水印 源代码+文档 3.数字水印技术matlab代码 4.数字水印 JPEG压缩 matlab代码 5.数字水印 添加噪声 m ...

  7. 基于蚁群优化算法的特征选择相关文献

    Dorigo等人在20世纪90年代初提出了蚁群优化算法(Ant colony optimization ,ACO).ACO是一种元启发式群智能算法,旨在解决组合优化问题.它利用了真实蚂蚁的觅食行为,由 ...

  8. 【图像配准】基于互信息的图像配准算法:MI、EMI、ECC算法

    简介:         基于互信息的图像配准算法以其较高的配准精度和广泛的适用性而成为图像配准领域研究的热点之一,而基于互信息的医学图像配准方法被认为是最好的配准方法之一.基于此,本文将介绍简单的基于 ...

  9. lasso特征选择python_转:结合Scikit-learn介绍几种常用的特征选择方法-2

    4.2 平均精确率减少 Mean decrease accuracy 另一种常用的特征选择方法就是直接度量每个特征对模型精确率的影响.主要思路是打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率 ...

  10. 使用优化的基于模糊规则的特征选择技术和基于树的集成方法进行山洪敏感性建模--文献阅读

    文章连接 Flash flood susceptibility modeling using an optimized fuzzy rule based feature selection techn ...

最新文章

  1. javacore分析工具_「赵强老师」如何分析Java的内存溢出问题
  2. 吴裕雄--天生自然 PHP开发学习:数组
  3. 测试必知的150个Linux命令
  4. Saving HDU
  5. WatchOS系统开发大全(6)-WKInterfaceLabel
  6. RMAN不备份online redo log
  7. 【初探移动前端开发03】jQuery Mobile(上)
  8. 【英语学习】【English L06】U04 Adventure L2 It's worth a visit
  9. linux内核arc4算法,linux内核中与进程相关的数据结构(基于linux-mainline-rc4)
  10. 数据结构之搜索算法二:二叉搜索树
  11. 粤港澳湾区邮轮产业崛起 构建邮轮母港群尚需加强合作
  12. python之window下安装python2版的pyv8库 (window install python2 pyv8)
  13. uniapp 微信内置浏览器h5打开app
  14. Gson解析json数据
  15. 儒略日 Julian Date
  16. 开发公链社群币种钱包系统软件
  17. Win2016 安装及配置 + 存储卷管理
  18. word打开doc文件提示运行时错误‘4605‘
  19. 嗯,比较准确~~~~~~星座这东西……
  20. CNN网络模型大总结【持续更新中...】

热门文章

  1. eclipse代码加版权头插件
  2. 基于raphael 的图形变化
  3. 小菜鸟一步步打造图书馆外挂之十六:手动启动入口的实现
  4. synchronized的实现原理用法详解
  5. 软件测试工作职责,软件测试经理岗位职责
  6. MyBatis源码阅读(六) ---mapper方法具体执行流程分析
  7. 并发编程学习之ConcurrentHashMap扩容机制
  8. Jspxcms 9.5.0 发布,Java CMS
  9. ms03-026漏洞原理与复现
  10. 循序渐进的手动安装k8s笔记-1