Deep Embedded Clustering with Data Augmentation

1 摘要
2 介绍
3 相关工作
- 3.1 Denoising Autoencoder
- 3.2 Deep Embedded Clustering
4 DEC_DA
- 4.1 Autoencoder with Data Augmentation
- 4.2 Finetuning with Data Augmentation
- 4.3 Instantiation and Implementation
5 实验测试
6 参考文献

1 摘要

DEC忽视了关键成分：数据增量，它被广泛应用于监督深度学习模型中，以提高泛化能力。因此，本文提出带有数据增量的深度嵌入聚类（DEC_DA）。我们首先训练一个具有增强数据的自动编码器来构造初始特征空间。然后用聚类损失约束嵌入特征，进一步学习面向聚类的特征。聚类损失由目标标签（伪标签）和特征学习模型的真实输出组成。其中，目标是通过使用干净的（非增强的）数据来计算的，输出是通过增强的数据来计算的。这类似于具有数据增强的监督训练，并且期望也有助于无监督的聚类。最后，我们实例化了五种基于DEC-DA的算法。广泛的实验证明，结合数据增强可以大大提高聚类性能。我们的DEC-DA算法成为各种数据集的新技术。

2 介绍

深度嵌入聚类(DEC)是指对自动编码器的嵌入特征进行聚类的一系列算法。它有两部分组成：预训练和精调。首先在预训练阶段引入数据增量，它鼓励自动编码器学习更平滑的流形，即更有代表性的特性。然后，精细调整阶段可以进一步分为两个步骤：集群分配和特征学习。我们建议只在特征学习阶段使用数据增强。因为对给定样本的分配是我们所关心的，它们用于计算特征的“目标”学习应该是相对可信的。设定“目标”后，特征学习将受到监督，因此预计将受益于数据增强。

3 相关工作

然而，作者认为去噪自动编码器虽然被广泛应用于深度聚类算法，但是它并不适合聚类任务，因此，给出了一种替代的自动编码器，它直接使用增强数据（例如，应用随机仿射变换）作为训练数据。

3.1 Denoising Autoencoder

3.2 Deep Embedded Clustering

目标函数：

不同的聚类损失函数L_c：

4 DEC_DA

DEC算法包括两个阶段：通过重建对自动编码器进行预训练，并通过（添加）聚类损失对网络进行细化。我们建议将数据增强纳入这两个阶段，称为DEC-DA。

4.1 Autoencoder with Data Augmentation

数据增强，如随机旋转、移位和裁剪，被用作监督神经网络中的正则化，以提高泛化能力。将数据增强引入无监督学习模型，如自动编码器，是很简单的。

理想情况下，使用增广样本学习的流形应该比使用原始样本学习的流形更连续和平滑。结合数据增强可以帮助自动编码器学习更有代表性的特性。我们也不通过添加随机噪声来增加输入样本，因为被噪声破坏的样本本质上远离流形。从这些带有噪声的样本中学习真实的流形将是一项挑战。

4.2 Finetuning with Data Augmentation

因此，提出了DEC-DA的框架，用于细化阶段，如图所示。

目标t是通过clean sample x得到的，输出y是通过augmented sample x。
目标函数：

对自动编码器进行预训练后，可以从嵌入层中提取所有样本的初始特征。然后，我们需要计算聚类损失L_c，用于聚类和特征学习。当我们对L_c进行网络参数优化时，目标t将固定为常数。这可以被视为监督学习，这应该受益于数据增强。
此外，在聚类中，我们只关心给定样本的聚类分配。在特征学习期间部署数据增强也是为了方便集群分配。
算法流程：

4.3 Instantiation and Implementation

5 实验测试

6 参考文献

DEC_DA代码

DEC-DA：Deep Embedded Clustering with Data Augmentation相关推荐

论文阅读笔记（15）：Deep Subspace Clustering with Data Augmentation，深度子空间聚类+数据增强
论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强摘要 1 介绍 2 相关工作带增强的聚类方法具有一致 ...
论文笔记-DEC (Deep Embedded Clustering)
论文笔记-DEC (Deep Embedded Clustering) 知识点1.将聚类的度量参考T-SNE中的t-分布,将聚类的度量转换成一个概率值(软分配,qij 表示将样本 i 分配给 j 簇的 ...
论文笔记：Improved Deep Embedded Clustering with Local Structure Preservation
前言 DEC 忽略了至关重要的因素,即定义的聚类损失可能会破坏特征空间(聚类损失不能保证局部结构的保存),从而导致无代表性的无意义特征,进而损害聚类性能. 文章提出的Improved Deep Emb ...
论文阅读：Regularizing Deep Networks with Semantic Data Augmentation
论文阅读:Regularizing Deep Networks with Semantic Data Augmentation 动机特征空间的语义变换 Implicit semantic data ...
Deep Embedded Clustering with Asymmetric Residual Autoencoder
出于为了解决AE中的梯度消失,是否可以使用残差网络或者dense net解决的心态,我搜到了这篇文章Deep Embedded Clustering with Asymmetric Residual ...
Data Mining 论文翻译：Deep Learning for Spatio-Temporal Data Mining: A Survey
原文链接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org) IEEE Transacti ...
论文解读：《Linguistically Motivated Parallel Data Augmentation for Code-switch Language Model》
<语言驱动的用于语码转换语言模型的并行数据增强> 论文地址:Linguistically Motivated Parallel Data Augmentation for Code-swi ...
【神经网络】自编码聚类算法--DEC (Deep Embedded Clustering)
1.算法描述最近在做AutoEncoder的一些探索,看到2016年的一篇论文,虽然不是最新的,但是思路和方法值得学习.论文原文链接 http://proceedings.mlr.press/v48 ...
DCC：Deep continuous clustering
文章:NIPS'17 代码:TensorFlow实现:Pytorch实现经典的聚类算法具有离散结构:需要重新计算质心和数据点之间的关联,或者需要合并假定的聚类. 在任何一种情况下,优化过程都会被离散 ...

DEC-DA：Deep Embedded Clustering with Data Augmentation