半监督主题模型Correlation Explanation

Correlation Explanation是一种分析变量相关性的方法，可用于包含离散变量的任意数据（作者似乎把连续数据的模型也弄出来了，详细可参考作者的Github）。Correlation Explanation的基本原理是，假设变量YYY能对变量XXX很好地进行“解释”，即变量YYY与XXX强相关，那么XXX应该具有较低的不确定性，而对解释程度的量化是使用熵来描述的。

换个思路理解这个原理，有点像使用YYY去对XXX进行聚类（对特征聚类而不是对数据聚类），假设XXX有NNN个维度，我们现在想用MMM个YYY去“解释”XXX，当XiX_iXi分配合理时，每个YjY_jYj应该包含若干个XiX_iXi，且每个YjY_jYj内的XiX_iXi达到较高相关度解释。

把这个思路对应到NLP中，就是做文本聚类/主题模型了，但也有点不一样，这里应该是对词/Token做聚类，文档的主题分布反而是副产品。

至于为什么是半监督，是因为建模的过程中引入了一个选择主题的变量αi,j\alpha_{i, j}αi,j，可以在优化时固定某些值，即事先设定一些主题的Anchor词，优化后可以把相关的其他词聚在一起。

模型使用熵去描述目标函数，使用Lagrange乘子法优化，优化的过程类似EM过程或者坐标上升法，原理上比起Bayesian相关的Gibbs采样、Variational Inference，要简单一些。但是也由于这个模型需要信息论相关的知识体系（比如信息瓶颈之类的），在当前机器学习社区里面讨论的不多，造成原文理解起来有一定难度，所以这里就作一些浅显的解读。

Discovering Structure in High-Dimensional Data Through Correlation Explanation

Agglomerative Information Bottleneck

Anchored Correlation Explanation: Topic Modeling with Minimal Domain Knowledge

Correlation Explaination 学习笔记

信息论基础

随机变量XXX的熵为：

H(X)=−∑Xp(x)⋅log(p(x))H(X) = -\sum_{X}{p(x) \cdot \text{log}(p(x))} H(X)=−X∑p(x)⋅log(p(x))

两个随机变量的互信息为：

I(X1:X2)=H(X1)+H(X2)−H(X1,X2)I(X_1: X_2) = H(X_1) + H(X_2) - H(X_1, X_2) I(X1:X2)=H(X1)+H(X2)−H(X1,X2)

定义Total Correlation：

TC(XG)=∑i∈GH(Xi)−H(XG){TC}(X_G) = \sum_{i \in G}{H(X_i)} - H(X_G) TC(XG)=i∈G∑H(Xi)−H(XG)

其中GGG是XXX的一个子集，直观来看就是子集中每一个随机变量熵之和减去子集的联合熵，当GGG中只有两个变量时，TCTCTC等价于两个变量的互信息。也就是说TCTCTC描述了集合中变量间的依赖程度。使用KL散度去理解可能会更加清晰：

TC(XG)=∑i∈GH(Xi)−H(XG)=∑i∈Glog(p(xi))(∫j≠ip(xG)dxj)dxi−H(XG)=∫xGp(xG)log(p(xG)∏i∈Gp(xi))dxG=DKL(p(xG)∥∏i∈Gp(xi))(6)\begin{array}{rcl} TC(X_G) & = & \sum\limits_{i \in G} H(X_i) - H(X_G) \\ & = & \sum\limits_{i \in G} log\big( p(x_i) \big) \big( \int\limits_{j \neq i} p(x_G)d{x_j} \big) d{x_i} - H(X_G) \\ & = & \int\limits_{x_G} p(x_G)log\big( \frac{p(x_G)}{\prod\limits_{i \in G} p(x_i)} \big) d{x_G} \\ & = & D_{KL}\bigg( p(x_G) \| \prod\limits_{i \in G}p(x_i) \bigg) \end{array} \tag{6} TC(XG)====i∈G∑H(Xi)−H(XG)i∈G∑log(p(xi))(j=i∫p(xG)dxj)dxi−H(XG)xG∫p(xG)log(i∈G∏p(xi)p(xG))dxGDKL(p(xG)∥i∈G∏p(xi))(6)

接着定义Conditional TCTCTC：

TC(X∣Y)=∑iH(Xi∣Y)−H(X∣Y){TC}(X| Y) = \sum_{i}{H(X_i| Y) - H(X| Y)} TC(X∣Y)=i∑H(Xi∣Y)−H(X∣Y)

那么我们就可以用TCTCTC与条件TCTCTC之差来衡量某一条件（变量）对于数据的 Correlation的贡献：

TC(X;Y)=TC(X)−TC(X∣Y)=∑i∈NnI(Xi:Y)−I(X:Y){TC}(X; Y) = {TC}(X) - {TC}(X| Y) = \sum_{i \in \mathbb{N}_n}{I(X_i: Y)} - I(X: Y) TC(X;Y)=TC(X)−TC(X∣Y)=i∈Nn∑I(Xi:Y)−I(X:Y)

我们把YYY看成是解释XXX的隐变量，在主题模型的上下文中YYY就是主题变量，由于与LDA等生成模型不同，CorEx并没有似然函数的概念，而是使用Correlation描述数据的分布是否合理，合起来也就是Correlation Explanation了。

有个细节需要注意理解，Correlation Explanation的原文中隐变量YYY的取值是∣Y∣=k|Y| = k∣Y∣=k，而YYY的个数是mmm，即有Y1,Y2,⋯,YmY_1, Y_2, \cdots, Y_mY1,Y2,⋯,Ym，这里面隐含的意思应该是可以解析XXX的隐变量是有多个的，比如在NLP中，Y1Y_1Y1可以是主题，Y2Y_2Y2可以是情感；也可以用YmY_mYm表示不同的主题，每个主题又有两个取值{0,1}\{0, 1\}{0,1}，表示某个主题是否有出现。

另外一个细节是I(X:Y)I(X: Y)I(X:Y)的计算：

I(X:Y)=∑x∈X,y∈Yp(x,y)log(p(x,y)p(x)p(y))=∑x∈X,y∈Yp(x)p(y∣x)log(p(y∣x)p(y))\begin{aligned} I(X: Y) =& \sum_{x \in X, y \in Y}{ p(x, y)\text{log}\bigg( \frac{p(x, y)}{p(x)p(y)} \bigg) } \\ =& \sum_{x \in X, y \in Y}{ p(x)p(y| x)\text{log}\bigg( \frac{p(y| x)}{p(y)} \bigg) } \end{aligned} I(X:Y)==x∈X,y∈Y∑p(x,y)log(p(x)p(y)p(x,y))x∈X,y∈Y∑p(x)p(y∣x)log(p(y)p(y∣x))