条件信息熵的决策表约简

文章目录

条件信息熵的决策表约简
- 写在前面
- 信息论观点描述
- - 定义1：P，Q 概率分布
  - 定义2：熵 H( P ) 定义
  - 定义3：条件熵`H(Q|P)`定义
  - 定理1：条件熵`H(Q|P)`计算
  - 定理2：不可分辨关系和熵
  - 定理3：熵和不可分辨关系
  - 定理4：不必要属性和必要属性
  - 定理5：属性约简
- 相对约简
- - 定理6：多余属性
  - 定理7：独立
  - 定理8：约简
- 属性重要性
- - 定义4：（属性重要性信息论观点）
  - 定义5：（属性重要性代数观点）
  - 定理9：
  - - 定理9引理：
- 条件信息熵的知识约简算法
- - CEBARKCC算法
  - CEBARKNC算法
  - MIBARK算法
  - 核值比
- 最后

本文使用信息论的观点对Rough Set理论进行研究，并且与代数观点进行对比。

写在前面

对决策表的描述如图所示：

信息论观点描述

使用熵还衡量某些属性的需要程度。

U：论域
U上任一属性集合（知识、等价关系簇） 是定义在U上的子集组成e代数上的一个随机变量
此随机变量的概率分布可通过如下方式确定：

定义1：P，Q 概率分布

设P，Q在U上导出的划分分别为X，Y（X={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\}X={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}），则P，Q在U的子集组成的e代数上的概率分布为
[X:p]=[X1X2⋯Xnp(X1)p(X2)⋯p(Xn)][X:p] = \begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix}[X:p]=[X1p(X1)X2p(X2)⋯⋯Xnp(Xn)]
[Y:p]=[Y1Y2⋯Ymp(Y1)p(Y2)⋯p(Ym)][Y:p] = \begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix}[Y:p]=[Y1p(Y1)Y2p(Y2)⋯⋯Ymp(Ym)]

其中：
P、Q是知识（属性集合）；
p(Xi)=∣Xi∣∣U∣，i={1,2,...,n}p(X_i)=\frac{| X_i |}{ | U |}，i=\{1,2,...,n\}p(Xi)=∣U∣∣Xi∣，i={1,2,...,n}；
p(Yj)=∣Yj∣∣U∣，j={1,2,...,m}p(Y_j)=\frac{| Y_j |}{ | U |}，j=\{1,2,...,m\}p(Yj)=∣U∣∣Yj∣，j={1,2,...,m}。

定义2：熵 H( P ) 定义

知识（属性集合）P 的熵 H( P ) 定义为
H(P)=−∑i=1np(Xi)log(p(Xi))H( P) = -\sum_{i=1}^n p(X_i)log( p(X_i))H(P)=−i=1∑np(Xi)log(p(Xi))

定义3：条件熵`H(Q|P)`定义

知识（属性集合）Q(U∣IND(Q))={Y1,Y2,...,Ym}Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\}Q(U∣IND(Q))={Y1,Y2,...,Ym}
相对于
知识（属性集合）P(U∣IND(P))={X1,X2,...,Xn}P(U|IND(P)) = \{X_1,X_2,...,X_n\}P(U∣IND(P))={X1,X2,...,Xn}
的条件熵H(Q|P)定义为：
H(Q∣P)=−∑i=1np(Xi)∑j=1mp(Yj∣Xi)log(p(Yj∣Xi))H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))H(Q∣P)=−i=1∑np(Xi)j=1∑mp(Yj∣Xi)log(p(Yj∣Xi))

其中 p(Yj∣Xi)=∣Yj∩Xi∣∣Xi∣；i={1,2,...,n}；j={1,2,...,m}p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|}；i=\{1,2,...,n\}；j=\{1,2,...,m\}p(Yj∣Xi)=∣Xi∣∣Yj∩Xi∣；i={1,2,...,n}；j={1,2,...,m} 。

机器学习中的信息论观点链接
IND( P ) 和 IND( Q ) 代表等价关系（不可分辨关系）

设由属性集合 P 和 D = { d }（D是决策属性）导出的对论域 U = ( | U | = n) 的划分分别为：U∣IND(P)={X1,X2,...,Xn}U | IND(P) =\{X_1,X_2,...,X_n\}U∣IND(P)={X1,X2,...,Xn}和 U∣IND(d)={Z1,Z2,...,Zs}U | IND({d}) =\{Z_1,Z_2,...,Z_s\}U∣IND(d)={Z1,Z2,...,Zs} 则可推导以下定理：

定理1：条件熵`H(Q|P)`计算

H(D∣P)=H(D∪P)−H(P)H(D|P)= H(D \cup P) - H(P)H(D∣P)=H(D∪P)−H(P)

条件熵计算链接

定理2：不可分辨关系和熵

条件：U是论域，P、Q是U上两个属性集合。
若IND(Q)=IND(P)IND(Q) = IND( P)IND(Q)=IND(P)，则 H(Q)=H(P)H(Q)=H( P)H(Q)=H(P)。
IND(Q)=IND(P)⟹H(Q)=H(P)IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)IND(Q)=IND(P)⟹H(Q)=H(P)
Note：逆不成立

定理3：熵和不可分辨关系

条件：U是论域，P、Q是U上两个属性集合，并且 P⊆QP \subseteq QP⊆Q。
若 H(Q)=H(P)H(Q)=H( P)H(Q)=H(P)，则IND(Q)=IND(P)IND(Q) = IND( P)IND(Q)=IND(P)。

IND(Q)=IND(P)⟹H(Q)=H(P)IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)IND(Q)=IND(P)⟹H(Q)=H(P)

定理4：不必要属性和必要属性

条件：U是论域，P是U上一个属性集合，
P 中的属性 r 是 不必要 的，其 充分必要 条件为：
H(r∣P−r)=0H({r}|P-{r}) = 0H(r∣P−r)=0

P 中的属性 r 是必要的，其 充分必要 条件为：
H(r∣P−r)>0H({r}|P-{r}) > 0H(r∣P−r)>0

定理5：属性约简

条件：U是论域，P、Q是U上一个属性集合，Q⊆PQ \subseteq PQ⊆P是P的一个约简的充分必要条件为H(Q)=H(P)H(Q)=H(P)H(Q)=H(P)，且对任意的q∈Qq \in Qq∈Q都有H(q∣Q−q)>0H({q} | Q-{q}) > 0H(q∣Q−q)>0

相对约简

以上仅仅是针对一般信息表约简的问题，而对于相对约简，有如下定理：

定理6：多余属性

条件：U是论域，P、Q是U上一个条件属性集合，d 为决策属性，且论域 U 是在 P上相对于 {d}一致的 (含义：POSp({d})=U)(含义：POS_p(\{d\})=U)(含义：POSp({d})=U)，则属性r是P相对于决策属性d不必要的（多余的），其充分必要条件为：
H({d}∣P)=H({d}∣P−{r})H(\{d\}|P)=H(\{d\}|P-\{r\})H({d}∣P)=H({d}∣P−{r})

论域 U 是在 P上相对于 {d}一致的  ⟺ POSp({d})=U\iff POS_p(\{d\})=U⟺POSp({d})=U
证明：下次撰写。

定理7：独立

条件：U是论域，P、Q是U上一个条件属性集合，d 为决策属性，且论域 U 是在 P上相对于 {d}一致的，则属性集合P是相对于决策属性d独立的（独立的：P中任意属性都是d不可省略的），其充分必要条件为：
H({d}∣P)!=H({d}∣P−{r})H(\{d\}|P) != H(\{d\}|P-\{r\})H({d}∣P)!=H({d}∣P−{r})

就是说对于决策属性d，P中任意一个属性r都不能少

论域 U 是在 P上相对于 {d}一致的  ⟺ POSp({d})=U\iff POS_p(\{d\})=U⟺POSp({d})=U
属性集合P是相对于决策属性d独立的  ⟺ \iff⟺ P中任意属性都是决策属性d不可省略的
! = ：不等于

定理8：约简

条件：U是论域，P、Q是U上一个条件属性集合，d 为决策属性，且论域 U 是在 P上相对于 {d}一致的，则Q⊆PQ \subseteq PQ⊆P是P相对于决策属性d的一个约简的充分必要条件为：

H({d}∣Q)=H({d}∣P)H(\{d\}|Q) = H(\{d\}|P)H({d}∣Q)=H({d}∣P) 且 Q是相对于决策属性d独立的

论域 U 是在 P上相对于 {d}一致的  ⟺ POSp({d})=U\iff POS_p(\{d\})=U⟺POSp({d})=U
属性集合Q是相对于决策属性d独立的  ⟺ \iff⟺ Q中任意属性都是决策属性d不可省略的

定理7、8的证明，根据定理6和相对独立与相对约简的定义可以得到。

属性重要性

属性重要性 的知识约简中的一个重要概念，但是 属性重要性 在代数上和信息论上的定义是不一致的。
SGF(a,A,F)的值越大，说明在已知条件下，属性对决策D越重要。
信息论定义包含代数定义

定义4：（属性重要性信息论观点）

：考虑的是该属性对论域中不确定分类子集的影响。

设T=(U,R,V,f)T = (U,R,V,f)T=(U,R,V,f)是一个决策表系统，其中R=C∪DR=C\cup DR=C∪D，C是条件属性集合，D={d}是决策属性集合，且A∈CA\in CA∈C，则对任意属性a∈C−Aa \in C-Aa∈C−A的重要性SGF(a,A,D)定义为：
SGF(a,A,D)=H(D∣A)−H(D∣A∪{a})SGF(a,A,D)=H(D|A) - H(D|A\cup \{a\})SGF(a,A,D)=H(D∣A)−H(D∣A∪{a})

定义5：（属性重要性代数观点）

：考虑的是该属性对论域中确定分类子集的影响。

F是属性集D导出的分类，C是条件属性集合，D={d}是决策属性集合，且A⊂CA\subset CA⊂C，则对任意属性a∈C−Aa \in C-Aa∈C−A的重要性SGF(a,A,D)定义为：
SGF(a,A,D)=rA∪a(F)−rA(F)SGF(a,A,D)=r_{A\cup a}(F) - r_A(F)SGF(a,A,D)=rA∪a(F)−rA(F)

公式解释：

P，Q：知识（属性集合）。

Card(U )：U中对象数目
POSP(Q)POS_P(Q)POSP(Q)：Q的P正域  ⟺ ∪P_(X)\iff\cup P\_(X)⟺∪P_(X) ；

解释：论域U中那些使用U/P所表达的知识，可以正确地划入到U/Q的等价类的对象集合中（个人理解：U/P/QU/P/QU/P/Q）

Link：依赖度详细解释链接

定理9：

如果 H(D∣A∪{a})=H(D∣A)H(D|A\cup \{a\}) = H(D|A)H(D∣A∪{a})=H(D∣A) 则 POSA∪{a}(F)=POSA(F)POS_{A\cup \{a\}}(F) =POS_A(F)POSA∪{a}(F)=POSA(F).

定理9引理：

论域为U，某个等价关系在U上形成的划分为A1=X1,X2,...,XnA_1={X_1,X_2,...,X_n}A1=X1,X2,...,Xn，而 A2={X1,X2,...,Xi−1,Xi+1,...,Xj−1,Xj+1,...,Xn,Xi∪Xj}A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \}A2={X1,X2,...,Xi−1,Xi+1,...,Xj−1,Xj+1,...,Xn,Xi∪Xj}是将划A1A_1A1中某两个等价块XiX_iXi、XjX_jXj合并为Xi∪XjX_i\cup X_jXi∪Xj得到的新划分。B=Y1,Y2,...,YmB={Y_1,Y_2,...,Y_m}B=Y1,Y2,...,Ym也是U上的一个划分，且记：
H(B∣A1)=−∑i=1np(Xi)∑j=1mp(Yj∣Xi)log(p(Yj∣Xi))H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))H(B∣A1)=−i=1∑np(Xi)j=1∑mp(Yj∣Xi)log(p(Yj∣Xi))
H(B∣A2)=H(B∣A1)−p(Xi∪Xj)∑k=1mp(Yk∣Xi∪Xj)log(p(Yk∣Xi∪Xj))+p(Xi)∑k=1mp(Yk∣Xi)log(p(Yk∣Xi))+p(Xj)∑k=1mp(Yk∣Xj)log(p(Yk∣Xj))H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j))H(B∣A2)=H(B∣A1)−p(Xi∪Xj)k=1∑mp(Yk∣Xi∪Xj)log(p(Yk∣Xi∪Xj))+p(Xi)k=1∑mp(Yk∣Xi)log(p(Yk∣Xi))+p(Xj)k=1∑mp(Yk∣Xj)log(p(Yk∣Xj))
则：H(B∣A2)≥H(B∣A1)H(B|A_2) \ge H(B|A_1)H(B∣A2)≥H(B∣A1)

引理证明：之后加上

如果将决策表属性的分类进行合并，将导致条件熵的单调上升，只有发生合并的两个分类对于决策类的隶属度（概率）相等的情况之下，才可能不会导致条件熵的变化。

条件信息熵的知识约简算法

若一个属性不能为另一个属性集合的分类增加任何信息，我们可以将它约简。

CEBARKCC算法：核属性为起点，由内到外增加属性。
CEBARKNC算法：所有属性为起点，由外到内减少属性。
MIBARK算法：条件属性和决策属性的互信息基础之上。

CEBARKCC算法

以核属性为起点
逐次使用H(D∣B∪{a})H(D|B\cup \{a\})H(D∣B∪{a})最小的非核属性a添加到核属性集中
直到H(D∣C)=H(D∣C)H(D|C)= H(D|C)H(D∣C)=H(D∣C)

CEBARKNC算法

决策参考重要度：H(D∣{a})H(D|\{a\})H(D∣{a}) ,越大参考重要度越小
所有初始属性集
逐步删除属性达到约简的目的

MIBARK算法

以核属性为起点
条件属性和决策属性的互信息作为判断条件，进行约简

核值比

决策表T=(U,C∪D,V,f)T = (U,C\cup D,V,f)T=(U,C∪D,V,f)的核值比定义为：
核值比b=核的基m1约简后的基m2核值比 b = \frac{核的基m_1}{约简后的基m_2}核值比b=约简后的基m2核的基m1

基：属性数目

最后

一般信息表，约简计算的代数定义 = 信息论定义
一致决策表，约简计算的代数定义 = 信息论定义
普通（包含矛盾、冲突）决策表，两种定义的属性重要性和知识约简不相同。（一个决策表的代数观点下的约简，不能保证约简之后的信息熵不发生变化）。说知识约简的信息论观点包含代数观点。

想要阅读相关论文：《基于条件熵的决策表约简》 Guoyin Wang、Hong Yu、Dachun Yang