[2019][CVPR]Balanced Self-Paced Learning for Generative Adversarial Clustering Network 笔记

paper：paper
补充材料：supp

一篇cvpr深度聚类文章

简介

浅层模型难以捕捉非线性特征，并且应用到大数据及上有困难。深度学习方法则容易产生过拟合。本文提出方法ClusterGAN，解决问题。利用GAN解决聚类问题，同时对self-paced进行改进成balanced self-paced方法。模型分为三个部分，一个生成器G，一个判别器D和一个聚类器C。聚类器负责对xxx提取特征并返回一个具有类别信息的变量zzz。生成器负责从一个具有类别信息的变量z′z'z′产生出一个样本x′x'x′。判别器负责判别(z,x)(z,x)(z,x)对来自生成器还是聚类器。对模型进行学习就可以得到聚类信息

模型方法

聚类器C\mathcal{C}C的输出层是一个sigmoid层，可以用来表示样本间余弦相似度，

为了表示聚类关系，我们可以期望得到的样本相似度矩阵是一个对角块矩阵，每一个块是同一个类别的相似性。为了达到这个目的，让生成器GGG的输入关于同类别为平行向量，不同类别的为正交的。假设zzz的维度为mmm个样本，ccc为类别数，让zzz为一个0,1向量，其中m/cm/cm/c个为1，其余的为0。为了使样本多样性，生成同一个类别的多个样本，让zzz再加上一个均匀随机的noise。

生成器和聚类器得到的(z,x)(z,x)(z,x)对的联合分布可以拆分为
p(z,x^)=p(z)pG(x^∣z)p(z^,x)=p(x)pC(z^∣x)p(z,\hat{x})=p(z)p_{\mathcal{G}}(\hat{x}|z)\\ p(\hat{z},x) = p(x)p_{\mathcal{C}}(\hat{z}|x)p(z,x^)=p(z)pG(x^∣z)p(z^,x)=p(x)pC(z^∣x)
其中p(z)p(z)p(z)和p(x)p(x)p(x)是已知的（一个是生成的，一个是真实数据分布）
生成器和聚类器的学习目标就是学习条件分布pG(x^∣z)p_{\mathcal{G}}(\hat{x}|z)pG(x^∣z)和pC(z^∣x)p_{\mathcal{C}}(\hat{z}|x)pC(z^∣x)混淆判别器D\mathcal{D}D，因此我们得到目标
引理1：固定C，G\mathcal{C}，\mathcal{G}C，G，最大化UUU的D\mathcal{D}D为

令V(G,C)=U(D,G,C∗)V(\mathcal{G},\mathcal{C})=U(\mathcal{D},\mathcal{G},\mathcal{C}^*)V(G,C)=U(D,G,C∗),则

这说明求解这个问题得到的最优解G\mathcal{G}G 生成真实图片，C\mathcal{C}C得到聚类信息。是一个双向拟合的过程

除了对抗loss外，对聚类器加一个最小化条件熵损失（应该是说H(aij∣xi,xj)H(a_{ij} |x_i,x_j)H(aij∣xi,xj)）
这使得aija_{ij}aij趋于[0,1]。
然而在一开始进行迭代的时候，特征是不稳定的，所以引入self-paced方法，使得学习过程先学习简单样本，再过度到困难样本，也就是下面的优化目标

其中
λν\lambda_\nuλν是个超参数。当li<λνl_i < \lambda_\nuli<λν时，表示当前的简单样本，这时候可以得到νi=1\nu_i=1νi=1，否则是困难样本，νi=0\nu_i = 0νi=0
然而仍然存在一个问题，就是数据的平衡。不同的cluster选择的样本数差别可能很大，可能简单样本来源于某几个cluster。作者提出了balance self-paced 方法解决这个问题，也就是将(4)改成

γ\gammaγ为超参数
第一项旨在选取简单样本，第二项惩罚那些选择过多个样本的类别。
为了优化这个目标，采用交替迭代的方法，固定C\mathcal{C}C，优化ν\nuν的目标是

解为

为了保证稳定性，对C\mathcal{C}C再加一个损失(x~\tilde{x}x~是样本xxx经过不同的图像增强和扰动得到的样本)

总结得到算法

实验

数据集MNIST， USPS, FRGC ， CIFAR-10 ， STL-10

实现细节

结构采样Triple-GAN，对C\mathcal{C}C最后一层进行修改
将CIFAR-10 和 STL-10 数据归一化到[-1,1]其他数据归一化到[0,1]
在生成器最后一层使用tangent-hyperbolic 和 sigmoid
生成器的增加的随机noise为[0,0.5]的均匀分布，并随着训练线性减少到[0, 0.1]
学习率1e-4线性减少到1e-5，使用Adam优化器
超参数选择

γ\gammaγ和λν\lambda_\nuλν的选择根据数据集不同而不同。选择合适的γ\gammaγ和λν\lambda_\nuλν使得在一开始训练把1%1\%1%的样本包含进来。并且λν\lambda_\nuλν线性增加使得在3/4∗maxepoch3/4 * max_epoch3/4∗maxepoch的时候把所有样本包含进来。
最后使用k-means对C\mathcal{C}C的输出进行聚类，对输出进行二值化，用于hashing
实验过程用一个Titan X Pascal GPU.

图片聚类

有效性检测

图片检索

引理的证明

引理1的证明

引理2证明

定理1的证明