Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative Entropy Minimization

论文地址1：
http://openaccess.thecvf.com/content_iccv_2017/html/Dizaji_Deep_Clustering_via_ICCV_2017_paper.html
论文地址2：
https://arxiv.org/abs/1704.06327

Abstract

—————————-略—————————-

1. Introduction

—————————-略—————————-

3. Deep Embedded Regularized Clustering

3.1. DEPICT Algorithm

有N个样本
$X=\{x_1,..,x_n\}$ ，将其分为K个类别，其中每个样本
$x_i\in \mathbb{R}^{d_x}$ 。原始样本对应的映射子空间（embedding subspace）
$Z=\{z_1,...,z_n\}$ ，其中每个样本
$z_i\in \mathbb{R}^{d_z}$ 的维度要远小于原始样本（i.e.
$d_z\ll d_x$ ）。给定映射函数，我们使用多目标LR（Softmax）
$f_\theta:Z\rightarrow Y$ 来预测其属于各个簇的概率：

p i k = P (y i = k | z i, Θ) = exp ( θ T k z i ) \sum K k ' = 1 exp ( θ T k ' z i ), (1)

$p_{ik}=P(y_i=k|z_i,\Theta)=\frac{\exp(\theta^T_kz_i)}{\sum_{k'=1}^K\exp(\theta^T_{k'}z_i)},\tag{1}$
其中
$\Theta=\{\theta_1,...,\theta_k\}\in\mathbb{R}^{d_z\times K}$ 为Softmax的参数，
$p_{ik}$ 表示第
$i$ 个样本属于第 $k$

$k$ 个簇的概率。
为了定义我们的聚类目标函数，我们使用辅助目标变量Q来迭代地修正模型预测。为此，我们首先使用Kullback-Leibler（KL）散度来减小模型预测P和目标变量Q之间的距离。

ℒ = K L (Q ∥ P) = 1 N \sum i = 1 N \sum k = 1 K q i k log q i k p i k, (2)

$\mathscr{L}=KL(Q\parallel P)=\frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Kq_{ik}\log\frac{q_{ik}}{p_{ik}},\tag{2}$
为避免将大部分样本分配给其中一个或几个簇（如，90%的样本都在前三个簇中）以将离群点样本也加入到簇中，需要加入正则化项。为此，先定义Q的Label经验分布（empirical label distribution）：

f k = P (y = k) = 1 N \sum i q i k, (3)

$f_k=P(y=k)=\frac{1}{N}\sum_i q_{ik},\tag{3}$

概率分布函数
$F(x)$ 或概率密度函数
$p(x)$ 未知的情况下，依泛函空间的大数定律，可通过该未知分布函数下的样本集
${x_i}$ 构造的经验分布函数
$F_{l}(x)$ 依概率收敛去逼近
$F(x)$ .

可以将
$f_k$ 看作是聚类结果中各个样本属于第
$k$ 簇的近似概率。我们可以将该经验分布加入到KL散度公式来加强聚类性能，得到损失函数（Loss function）。

\begin{matrix} (4) & \begin{aligned} L & = K L (Q ∥ P) + K L (f ∥ u) \\ = [\frac{1}{N} \sum_{i = 1}^{N} \sum_{k = 1}^{K} q_{i k} \log \frac{q_{i k}}{p_{i k}}] + [\frac{1}{N} \sum_{k = 1}^{K} f_{k} \log \frac{f_{k}}{u_{k}}] \\ = \frac{1}{N} \sum_{i = 1}^{N} \sum_{k = 1}^{K} q_{i k} \log \frac{q_{i k}}{p_{i k}} + q_{i k} \log \frac{f_{k}}{u_{k}} \end{aligned} \end{matrix}

$\begin{equation}\begin{aligned} \mathscr{L} &=KL(Q\parallel P)+KL(f\parallel u) \\&=[\frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Kq_{ik}\log\frac{q_{ik}}{p_{ik}}]+[\frac{1}{N}\sum_{k=1}^Kf_k\log \frac{f_k}{u_k}] \\&=\frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Kq_{ik}\log\frac{q_{ik}}{p_{ik}}+q_{ik}\log\frac{f_k}{u_k} \end{aligned}\end{equation}\tag{4}$

其中
$u$ 是 Label 经验分布的先验。
可以看出，式（4）的第一项使目标变量Q和模型预测P之间的相似度尽可能的高，而第二项则是起到平衡簇中样本数量的作用。最终我们可间接的得到分布更均衡的预测(cluster assignments) P 。另外，可以根据任意分布的样本很方便的来更改目标函数的经验分布的先验 $u$

$u$

这里没有理解透，翻译的不太准确。原文是 “It is also simple to change the prior from the uniform distribution to any arbitrary distribution in the objective function if there is any extra knowledge about the frequency of clusters.”

使用交替学习步骤来优化目标函数。期望步骤 (expectation step)：固定参数，估计目标变量Q。最大化步骤 (maximization step)：假设目标变量Q已知，同时更新参数。即：

min Q 1 N \sum i = 1 N \sum k = 1 K q i k log q i k p i k + q i k log f k u k, (5)

$\min_Q \frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Kq_{ik}\log\frac{q_{ik}}{p_ik}+q_{ik}\log\frac{f_k}{u_k},\tag{5}$
其中目标变量被约束到
$\sum_k q_{ik}=1$ 中。可使用梯度进行求解，偏导如下：

\partial ℒ \partial q i k \propto log (q i k f k p i k) + q i k \sum N i ' = 1 q i ' k + 1, (6)

$\frac{\partial\mathscr{L}}{\partial q_{ik}}\propto \log(\frac{q_{ik}f_k}{p_{ik}})+\frac{q_{ik}}{\sum_{i'=1}^Nq_{i'k}}+1,\tag{6}$
因为样本的数量足够大，所以可以忽略式（6）中的第二项，把这项去掉得到近似梯度。令偏导等于0，得到闭式解：

q i k = p i k \sum i ' p i ' k \sqrt \sum k ' p i k ' \sum i ' p i ' k ' \sqrt, (7)

$q_{ik}=\frac{\frac{p_{ik}}{\sqrt{\sum_{i'}p_{i'k}}}}{\frac{{\sum_{k'}p_{ik'}}}{\sqrt{\sum_{i'}p_{i'k'}}}},\tag{7}$
对于最大化步骤 (maximization step) 我们使用如下目标函数的目标估计变量来更新网络参数
$\psi =\{\Theta,\mathrm{W}\}$ :

min ψ - 1 N \sum i = 1 N \sum k = 1 K q i k log p i k, (8)

$\min_\psi -\frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Kq_{ik}\log p_{ik},\tag{8}$
这也是分类任务的标准交叉熵损失函数，并且可以通过反向传播来更新参数
$\psi =\{\Theta,\mathrm{W}\}$ ，因吹斯汀。

3.2. DEPICT Architecture

在本节中，我们使用去噪自动编码器来 (denoising autoencoder) 扩展我们的聚类损失函数。深度映射函数 (deep embedding function) 对于捕捉输入数据的非线性特征非常有用; 然而，它可能会伪造数据相关性，产生过拟合情况，并在训练过程中陷入局部最小值。为了避免这种情况，我们采用自动编码器结构 (autoencoder structures)，并重构损失函数加入数据相关正则化来训练参数。因此，我们将堆叠多层卷积自动编码器顶部的 softmax 层组成 DEPICT。由于卷积具有良好的提取特征性能，所以我们在编码器 (encoder) 中采用卷积，在解码器 (decoder) 通道中采用反卷积 (strided convolutional)，并避免空间池化层（如 maxpooling）。反卷积层允许网络学习它自己的上采样空间，提供更好的重构样本能力。

反卷积本质上还是卷积，只不过把步骤反过来而已。

学习方法去不同于传统的去噪自编码器（其中包含分层预训练，然后微调），我们同时学习所有的自动编码器和softmax层。如图所示，DEPICT 包含以下组件：

论文中这一段在堆公式，我自己讲一下吧。

Noisy Encoder 作为 Inference 与 Decoder 相连进行数据的重构。
Clean Encoder 与 Noisy Encoder 共享参数。如图所示，其作用是用于 Decoder 重构数据以及结合式 (1) 得到最终的聚类分配结果。
Clean Encoder 第
$l$ 层的输出为 $z^{l}$
Decoder 第
$l$ 层的输出为 ${\hat{z}}^{l}$

DEPICT 的算法过程如下：

Algorithm 1: DEPICT Algorithm

Input: data set
$X=\{x_1,..,x_n\}$
Output: Cluster result
$C_1,…,C_k$

Initialize Q using a clustering algorithm
while not converged do
$\phantom{1234}\min_\psi -\frac{1}{N}\sum_{i,k}q_{ik}\log \tilde{p}_{ik}+\frac{1}{N}\sum_{i,l}\frac{1}{|z_i^l|}\left \| z_i^l|-\hat z_i^l| \right \| _2^2$
$\phantom{1234}p_{ik}^{(t)}\propto \exp(\theta_k^Tz_i^L)$
$\phantom{1234}q_{ik}^{(t)}\propto \frac{p_{ik}}{\sqrt{\sum_{i'}p_{i'k}}}$
end

4. Experiments

只贴出 DEPICT 的打靶效果表，详情请阅读论文。

对我个人来说整篇论文只有 Clean Encoder 与 Noisy Encoder 结合这里有帮助。
对于比较熟悉 AutoEncoder 的同学来说，闪光点也就在这了。

（论文翻译）AutoEncoder 聚类算法 - DEPICT相关推荐

【论文翻译】聚类算法研究
论文题目:聚类算法研究论文来源:聚类算法研究翻译人:BDML@CQUT实验室聚类算法研究孙吉贵 , 刘杰 , 赵连宇 Clustering Algorithms Research SUN J ...
论文翻译：ViBe+算法（ViBe算法的改进版本）
论文翻译:ViBe+算法(ViBe算法的改进版本) 原文地址: <Background Subtraction: Experiments and Improvements for ViBe> ...
论文翻译—3D NDT算法论文（节选6.1-6.2）
文章目录第6章正态分布变换 6.1 用于表面表达的NDT 6.2 NDT 扫描配准 6.2.1 2D NDT 6.2.2 3D NDT 参考文献第6章正态分布变换本章详细描述了正态分布变换以 ...
聚类算法距离矩阵_论文阅读9——AP聚类算法
Affinity Learning for Mixed Data Clustering 论文提出了基于混合对数据进行聚类的学习框架,具体研究内容包括:1)如何处理具有混合类型属性的数据.2)如何学习数 ...
CW聚类算法原理 -- 译自《Chinese Whispers》论文
Chinese Whispers-一个有效的图聚类算法及其在自然语言处理问题中的应用克里斯.比曼莱比锡大学,自然语言处理学院注:由于这里不好复制图片和公式,展示并不理想,可在我的github:h ...
【点云论文速读】点云分层聚类算法
点云PCL免费知识星球,点云论文速读. 标题:PAIRWISE LINKAGE FOR POINT CLOUD SEGMENTATION 作者:Lu, Xiaohu and Yao, Jian and ...
ML之Clustering之普聚类算法：普聚类算法的相关论文、主要思路、关键步骤、代码实现等相关配图之详细攻略
ML之Clustering之普聚类算法:普聚类算法的相关论文.主要思路.关键步骤.代码实现等相关配图之详细攻略目录普聚类算法的相关论文普聚类算法的主要思路普聚类算法的关键步骤普聚类算法的代码 ...
【转】分布式一致性算法：Raft 算法（Raft 论文翻译）
编者按:这篇文章来自简书的一个位博主Jeffbond,读了好几遍,翻译的质量比较高,原文链接:分布式一致性算法:Raft 算法(Raft 论文翻译),版权一切归原译者. 同时,第6部分的集群成员变更读 ...
巩膜：论文翻译《一种改进的眼角检测算法》An Improved Algorithm for Eye Corner Detection
1509.04887.pdf论文翻译 An Improved Algorithm for Eye Corner Detection Anirban Dasgupta, Anshit Mandloi, ...

（论文翻译）AutoEncoder 聚类算法 - DEPICT

Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative Entropy Minimization

Abstract

1. Introduction

3. Deep Embedded Regularized Clustering

3.1. DEPICT Algorithm

3.2. DEPICT Architecture

4. Experiments

（论文翻译）AutoEncoder 聚类算法 - DEPICT相关推荐

最新文章

热门文章

（论文翻译）AutoEncoder 聚类算法 - DEPICT

Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative Entropy Minimization

Abstract

1. Introduction

2. Related Works

3. Deep Embedded Regularized Clustering

3.1. DEPICT Algorithm

3.2. DEPICT Architecture

4. Experiments

（论文翻译）AutoEncoder 聚类算法 - DEPICT相关推荐

最新文章

热门文章