条件信息熵的决策表约简

文章目录

  • 条件信息熵的决策表约简
    • 写在前面
    • 信息论观点描述
      • 定义1:P,Q 概率分布
      • 定义2:熵 H( P ) 定义
      • 定义3:条件熵`H(Q|P)`定义
      • 定理1:条件熵`H(Q|P)`计算
      • 定理2:不可分辨关系和熵
      • 定理3:熵和不可分辨关系
      • 定理4:不必要属性和必要属性
      • 定理5:属性约简
    • 相对约简
      • 定理6:多余属性
      • 定理7:独立
      • 定理8:约简
    • 属性重要性
      • 定义4:(属性重要性信息论观点)
      • 定义5:(属性重要性代数观点)
      • 定理9:
        • 定理9引理:
    • 条件信息熵的知识约简算法
      • CEBARKCC算法
      • CEBARKNC算法
      • MIBARK算法
      • 核值比
    • 最后

本文使用信息论的观点对Rough Set理论进行研究,并且与代数观点进行对比。

写在前面

对决策表的描述如图所示:

信息论观点描述

使用熵还衡量某些 属性 的需要程度。

U:论域
U上任一属性集合(知识、等价关系簇) 是 定义在U上的子集组成e代数上的一个随机变量
此随机变量的概率分布可通过如下方式确定:

定义1:P,Q 概率分布

P,Q在U上导出的划分分别为X,Y(X={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\}X={X1​,X2​,...,Xn​},Y={Y1​,Y2​,...,Ym​}),则P,QU的子集组成的e代数上的概率分布为
[X:p]=[X1X2⋯Xnp(X1)p(X2)⋯p(Xn)][X:p] = \begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix}[X:p]=[X1​p(X1​)​X2​p(X2​)​⋯⋯​Xn​p(Xn​)​]
[Y:p]=[Y1Y2⋯Ymp(Y1)p(Y2)⋯p(Ym)][Y:p] = \begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix}[Y:p]=[Y1​p(Y1​)​Y2​p(Y2​)​⋯⋯​Ym​p(Ym​)​]

其中:
P、Q是知识(属性集合);
p(Xi)=∣Xi∣∣U∣,i={1,2,...,n}p(X_i)=\frac{| X_i |}{ | U |},i=\{1,2,...,n\}p(Xi​)=∣U∣∣Xi​∣​,i={1,2,...,n};
p(Yj)=∣Yj∣∣U∣,j={1,2,...,m}p(Y_j)=\frac{| Y_j |}{ | U |},j=\{1,2,...,m\}p(Yj​)=∣U∣∣Yj​∣​,j={1,2,...,m}。

定义2:熵 H( P ) 定义

知识(属性集合)P 的熵 H( P ) 定义为
H(P)=−∑i=1np(Xi)log(p(Xi))H( P) = -\sum_{i=1}^n p(X_i)log( p(X_i))H(P)=−i=1∑n​p(Xi​)log(p(Xi​))

定义3:条件熵H(Q|P)定义

知识(属性集合)Q(U∣IND(Q))={Y1,Y2,...,Ym}Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\}Q(U∣IND(Q))={Y1​,Y2​,...,Ym​}
相对于
知识(属性集合)P(U∣IND(P))={X1,X2,...,Xn}P(U|IND(P)) = \{X_1,X_2,...,X_n\}P(U∣IND(P))={X1​,X2​,...,Xn​}
的条件熵H(Q|P)定义为:
H(Q∣P)=−∑i=1np(Xi)∑j=1mp(Yj∣Xi)log(p(Yj∣Xi))H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))H(Q∣P)=−i=1∑n​p(Xi​)j=1∑m​p(Yj​∣Xi​)log(p(Yj​∣Xi​))

其中 p(Yj∣Xi)=∣Yj∩Xi∣∣Xi∣;i={1,2,...,n};j={1,2,...,m}p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|};i=\{1,2,...,n\};j=\{1,2,...,m\}p(Yj​∣Xi​)=∣Xi​∣∣Yj​∩Xi​∣​;i={1,2,...,n};j={1,2,...,m} 。

机器学习中的信息论观点链接
IND( P ) 和 IND( Q ) 代表 等价关系(不可分辨关系)

设由属性集合 PD = { d }D是决策属性)导出的对论域 U = ( | U | = n) 的划分分别为:U∣IND(P)={X1,X2,...,Xn}U | IND(P) =\{X_1,X_2,...,X_n\}U∣IND(P)={X1​,X2​,...,Xn​}和 U∣IND(d)={Z1,Z2,...,Zs}U | IND({d}) =\{Z_1,Z_2,...,Z_s\}U∣IND(d)={Z1​,Z2​,...,Zs​} 则可推导以下定理:

定理1:条件熵H(Q|P)计算

H(D∣P)=H(D∪P)−H(P)H(D|P)= H(D \cup P) - H(P)H(D∣P)=H(D∪P)−H(P)

条件熵计算链接

定理2:不可分辨关系和熵

条件 :U是论域,P、QU上两个属性集合。
若IND(Q)=IND(P)IND(Q) = IND( P)IND(Q)=IND(P),则 H(Q)=H(P)H(Q)=H( P)H(Q)=H(P)。
IND(Q)=IND(P)⟹H(Q)=H(P)IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)IND(Q)=IND(P)⟹H(Q)=H(P)
Note:逆不成立

定理3:熵和不可分辨关系

条件 :U是论域,P、QU上两个属性集合,并且 P⊆QP \subseteq QP⊆Q。
若 H(Q)=H(P)H(Q)=H( P)H(Q)=H(P),则IND(Q)=IND(P)IND(Q) = IND( P)IND(Q)=IND(P)。

IND(Q)=IND(P)⟹H(Q)=H(P)IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)IND(Q)=IND(P)⟹H(Q)=H(P)

定理4:不必要属性和必要属性

条件 :U是论域,PU上一个属性集合,
P 中的属性 r不必要 的,其 充分必要 条件为:
H(r∣P−r)=0H({r}|P-{r}) = 0H(r∣P−r)=0

P 中的属性 r必要 的,其 充分必要 条件为:
H(r∣P−r)>0H({r}|P-{r}) > 0H(r∣P−r)>0

定理5:属性约简

条件 :U是论域,P、QU上一个属性集合,Q⊆PQ \subseteq PQ⊆P是P的一个约简的充分必要条件为H(Q)=H(P)H(Q)=H(P)H(Q)=H(P),且对任意的q∈Qq \in Qq∈Q都有H(q∣Q−q)>0H({q} | Q-{q}) > 0H(q∣Q−q)>0

相对约简


以上仅仅是针对一般信息表约简的问题,而对于相对约简,有如下定理:


定理6:多余属性

条件 :U是论域,P、QU上一个条件属性集合,d 为决策属性,且论域 U 是在 P上相对于 {d}一致的 (含义:POSp({d})=U)(含义:POS_p(\{d\})=U)(含义:POSp​({d})=U),则属性rP相对于决策属性d不必要的(多余的),其充分必要条件为:
H({d}∣P)=H({d}∣P−{r})H(\{d\}|P)=H(\{d\}|P-\{r\})H({d}∣P)=H({d}∣P−{r})

论域 U 是在 P上相对于 {d}一致的   ⟺  POSp({d})=U\iff POS_p(\{d\})=U⟺POSp​({d})=U
证明:下次撰写。

定理7:独立

条件 :U是论域,P、QU上一个条件属性集合,d 为决策属性,且论域 U 是在 P上相对于 {d}一致的,则属性集合P是相对于决策属性d独立的(独立的:P中任意属性都是d不可省略的),其充分必要条件为:
H({d}∣P)!=H({d}∣P−{r})H(\{d\}|P) != H(\{d\}|P-\{r\})H({d}∣P)!=H({d}∣P−{r})

就是说对于决策属性dP中任意一个属性r都不能少

论域 U 是在 P上相对于 {d}一致的   ⟺  POSp({d})=U\iff POS_p(\{d\})=U⟺POSp​({d})=U
属性集合P是相对于决策属性d独立的   ⟺  \iff⟺ P中任意属性都是决策属性d不可省略的
! = :不等于

定理8:约简

条件 :U是论域,P、QU上一个条件属性集合,d 为决策属性,且论域 U 是在 P上相对于 {d}一致的,则Q⊆PQ \subseteq PQ⊆P是P相对于决策属性d的一个 约简 的充分必要条件为:

H({d}∣Q)=H({d}∣P)H(\{d\}|Q) = H(\{d\}|P)H({d}∣Q)=H({d}∣P) 且 Q是相对于决策属性d独立的

论域 U 是在 P上相对于 {d}一致的   ⟺  POSp({d})=U\iff POS_p(\{d\})=U⟺POSp​({d})=U
属性集合Q是相对于决策属性d独立的   ⟺  \iff⟺ Q中任意属性都是决策属性d不可省略的


定理7、8的证明,根据定理6和相对独立与相对约简的定义可以得到。


属性重要性

  • 属性重要性 的知识约简中的一个重要概念,但是 属性重要性 在代数上和信息论上的定义是不一致的。
  • SGF(a,A,F)的值越大,说明在已知条件下,属性对决策D越重要。
  • 信息论定义 包含 代数定义

定义4:(属性重要性信息论观点)

:考虑的是该属性对论域中不确定分类子集的影响。

设T=(U,R,V,f)T = (U,R,V,f)T=(U,R,V,f)是一个决策表系统,其中R=C∪DR=C\cup DR=C∪D,C是条件属性集合,D={d}是决策属性集合,且A∈CA\in CA∈C,则对任意属性a∈C−Aa \in C-Aa∈C−A的重要性SGF(a,A,D)定义为:
SGF(a,A,D)=H(D∣A)−H(D∣A∪{a})SGF(a,A,D)=H(D|A) - H(D|A\cup \{a\})SGF(a,A,D)=H(D∣A)−H(D∣A∪{a})

定义5:(属性重要性代数观点)

:考虑的是该属性对论域中确定分类子集的影响。

F是属性集D导出的分类,C是条件属性集合,D={d}是决策属性集合,且A⊂CA\subset CA⊂C,则对任意属性a∈C−Aa \in C-Aa∈C−A的重要性SGF(a,A,D)定义为:
SGF(a,A,D)=rA∪a(F)−rA(F)SGF(a,A,D)=r_{A\cup a}(F) - r_A(F)SGF(a,A,D)=rA∪a​(F)−rA​(F)

公式解释:

P,Q:知识(属性集合)。

Card(U ):U中对象数目
POSP(Q)POS_P(Q)POSP​(Q):Q的P正域   ⟺  ∪P_(X)\iff\cup P\_(X)⟺∪P_(X) ;

解释:论域U中那些使用U/P所表达的知识,可以正确地划入到U/Q的等价类的对象集合中(个人理解:U/P/QU/P/QU/P/Q)

Link:依赖度详细解释链接

定理9:

如果 H(D∣A∪{a})=H(D∣A)H(D|A\cup \{a\}) = H(D|A)H(D∣A∪{a})=H(D∣A) 则 POSA∪{a}(F)=POSA(F)POS_{A\cup \{a\}}(F) =POS_A(F)POSA∪{a}​(F)=POSA​(F).

定理9引理:

论域为U,某个等价关系在U上形成的划分为A1=X1,X2,...,XnA_1={X_1,X_2,...,X_n}A1​=X1​,X2​,...,Xn​,而 A2={X1,X2,...,Xi−1,Xi+1,...,Xj−1,Xj+1,...,Xn,Xi∪Xj}A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \}A2​={X1​,X2​,...,Xi−1​,Xi+1​,...,Xj−1​,Xj+1​,...,Xn​,Xi​∪Xj​}是将划A1A_1A1​中某两个等价块XiX_iXi​、XjX_jXj​合并为Xi∪XjX_i\cup X_jXi​∪Xj​得到的新划分。B=Y1,Y2,...,YmB={Y_1,Y_2,...,Y_m}B=Y1​,Y2​,...,Ym​也是U上的一个划分,且记:
H(B∣A1)=−∑i=1np(Xi)∑j=1mp(Yj∣Xi)log(p(Yj∣Xi))H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))H(B∣A1​)=−i=1∑n​p(Xi​)j=1∑m​p(Yj​∣Xi​)log(p(Yj​∣Xi​))
H(B∣A2)=H(B∣A1)−p(Xi∪Xj)∑k=1mp(Yk∣Xi∪Xj)log(p(Yk∣Xi∪Xj))+p(Xi)∑k=1mp(Yk∣Xi)log(p(Yk∣Xi))+p(Xj)∑k=1mp(Yk∣Xj)log(p(Yk∣Xj))H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j))H(B∣A2​)=H(B∣A1​)−p(Xi​∪Xj​)k=1∑m​p(Yk​∣Xi​∪Xj​)log(p(Yk​∣Xi​∪Xj​))+p(Xi​)k=1∑m​p(Yk​∣Xi​)log(p(Yk​∣Xi​))+p(Xj​)k=1∑m​p(Yk​∣Xj​)log(p(Yk​∣Xj​))
则:H(B∣A2)≥H(B∣A1)H(B|A_2) \ge H(B|A_1)H(B∣A2​)≥H(B∣A1​)

引理证明:之后加上

如果将决策表属性的分类进行合并,将导致条件熵的单调上升,只有发生合并的两个分类对于决策类的隶属度(概率)相等的情况之下,才可能不会导致条件熵的变化。

条件信息熵的知识约简算法

若一个属性不能为另一个属性集合的分类增加任何信息,我们可以将它约简。

CEBARKCC算法:核属性为起点 ,由内到外增加属性。
CEBARKNC算法:所有属性为起点,由外到内减少属性。
MIBARK算法:条件属性和决策属性的互信息基础之上。

CEBARKCC算法

  • 以核属性为起点
  • 逐次使用H(D∣B∪{a})H(D|B\cup \{a\})H(D∣B∪{a})最小的非核属性a添加到核属性集中
  • 直到H(D∣C)=H(D∣C)H(D|C)= H(D|C)H(D∣C)=H(D∣C)

CEBARKNC算法

  • 决策参考重要度:H(D∣{a})H(D|\{a\})H(D∣{a}) ,越大参考重要度越小
  • 所有初始属性集
  • 逐步删除属性达到约简的目的

MIBARK算法

  • 以核属性为起点
  • 条件属性和决策属性的互信息作为判断条件,进行约简

核值比

决策表T=(U,C∪D,V,f)T = (U,C\cup D,V,f)T=(U,C∪D,V,f)的核值比定义为:
核值比b=核的基m1约简后的基m2核值比 b = \frac{核的基m_1}{约简后的基m_2}核值比b=约简后的基m2​核的基m1​​

基:属性数目

最后

  • 一般信息表,约简计算的代数定义 = 信息论定义
  • 一致决策表,约简计算的代数定义 = 信息论定义
  • 普通(包含矛盾、冲突)决策表,两种定义的 属性重要性 和 知识约简 不相同。(一个决策表的代数观点下的约简,不能保证约简之后的信息熵 不发生变化)。说知识约简的信息论观点包含代数观点。

想要阅读相关论文:《基于条件熵的决策表约简》 Guoyin Wang、Hong Yu、Dachun Yang

条件信息熵的决策表约简相关推荐

  1. 混合型数据的邻域条件互信息熵属性约简算法

    混合型数据的邻域条件互信息熵属性约简算法 兰海波 中国气象局公共气象服务中心 摘要:属性约简是粗糙集理论的重要研究内容之一,其主要目的是消除信息系统中不相关的属性,降低数据维度并提高数据知识发现性能. ...

  2. 基于pandas的粗糙集依赖度约简算法思路及实现

    对于粗糙集的算法这里不再过多赘述,主要讲解下实现思路和张贴代码. 实验是根据山东大学学报的基于粗糙集的协同过滤算法研究进行复现. 约简前后的对比放在下面这个链接里面,同时还有一个spyder保存下来的 ...

  3. 粗糙集 遗传matlab,一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法...

    一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 [专利摘要]本发明公开了一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法,该基于遗传算法和粗糙集完成了粗糙集属性约简方法通过设定合适的 ...

  4. 粗糙集理论中--属性约简部分相关概念

    下面的知识,只要掌握等价关系.等价类.商集就可以明白 定义(知识和概念(范畴或信息粒)) 设U是我们感兴趣的对象组成的非空有限集合,称为论域.论域U的任何一个子集X⊆U,称为论域U的一个概念或范畴.为 ...

  5. 粗糙集理论相关基本概念及属性约简

    目录 粗糙集理论和数据挖掘的关系 1.Rough集的基本概念 2.属性约简 粗糙集理论和数据挖掘的关系 Rough set理论和数据挖掘关系密切,它能为数据挖掘提供新的方法和工具,且具有以下特点: 首 ...

  6. 【机器学习】粗糙集属性约简—Attribute Reduction

    介绍 RoughSets算法是一种比较新颖的算法,粗糙集理论对于数据的挖掘方面提供了一个新的概念和研究方法.本篇文章我不会去介绍令人厌烦的学术概念,就是简单的聊聊RoughSets算法的作用,直观上做 ...

  7. 【机器学习】粗糙集属性约简算法与mRMR算法的本质区别

    1. 粗糙集属性约简算法仅仅选出属性重要度大的条件加入约减中,没有考虑约简中条件属性相互之间的冗余性,得到的约简往往不是都必要的,即含有冗余属性. 2. mRMR算法则除了考虑特征与类别之间的相关性, ...

  8. 粗糙集理解之二:属性约简

    由上一节可以知道,粗糙集是处理模糊数据的有力工具,而要达到这样的目的需要有两个重要的步骤来进行处理-属性约简和值约简,属性约简是对粗糙集合(那些不能区分的集合)进行纵向的简化,把不必要的属性去掉,即去 ...

  9. 粗糙集约简 程序 matlab,粗糙集属性约简matlab程序

    粗糙集-属性约简-matlab程序 Data2为条件属性, decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取 ...

最新文章

  1. 如何成为python 数据分析师_如何成为一名真正的数据分析师或者数据工程师
  2. 深度案例 | 纷享销客:用户需求精准洞察下的敏捷开发
  3. 【渝粤教育】国家开放大学2019年春季 1124流行病学 参考试题
  4. java resultset 映射到实例_[Java]ResultSet的用法与实例
  5. WPF自定义控件 —— 布局
  6. 复制虚拟机/vmware中linux系统
  7. vlc插件怎么用 wpf_使用Vlc.DotNet在我的WPF项目中添加vlc的问题。
  8. 认知差距决定我们的人生差距?!
  9. 2.Hadoop_入门_模板机IP地址和主机名称配置
  10. 《Python编程:从入门到实践》---项目2
  11. 老字号“张小泉”上线小程序与酷客多达成战略合作!
  12. 如何顺利通过c语言补考,大学里补考比考试难的学科,不想挂科最好认真学,尤其大一新生...
  13. Maven详解(第二节)
  14. 人工智能入门学习教程
  15. wps画流程图交叉弧形_WPS3分钟画出高逼格的流程图
  16. 掌握这些电脑知识,你可以玩的很无耻(暴强)
  17. 英语中的九大状语从句
  18. android 蓝牙4.0广播功能应用
  19. java单位转换_如何创建单位转换Java程序
  20. Ubuntu登陆不进去的一个原因

热门文章

  1. 程序—java年月日转换
  2. mysql 从库开启复制慢日志_Mysql数据库优化之开启慢查询日志
  3. Codeforces 1096F(dp + 树状数组)
  4. Pairwork2 总结
  5. 適合.net開發人員的UML自由軟件
  6. java能做三国杀的特效吗_能不能在游戏中关闭将灵攻击特效,太恶心了
  7. (38)时钟延迟约束
  8. (58)UART外设驱动用户发送模块(三)(第12天)
  9. Vivado使用ILA调试报错解决
  10. System verilog随机系统函数$urandom使用方法