paper:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8590804
supplement meterial:https://ieeexplore.ieee.org/ielx7/34/4359286/8590804/dsec_supp.pdf?tp=&arnumber=8590804

code:https://github.com/vector-1127/DSEC
这是一篇深度聚类的文章

简介和相关工作

  现存的方法忽略了特征表示和聚类的组合。传统的方法将特征提取过程和聚类过程分开,聚类过程将不再修改特征表示使得特征表示不能继续学习以达到更好的效果。作者提出了一个联合学习聚类和表示的方法。Deep Self-Evolution Clustering(DSEC)

模型和方法

  假设我们已经有了样本间的相似度rij∈{0,1}r_{ij} \in \{0,1\}rij​∈{0,1},rij=1r_{ij}=1rij​=1表示样本iii和jjj是相似的,也就是同类别。我们就可以用一个模型ggg来学习相似度,www是要学习的参数

其中损失为
为了学习more informative representations来聚类,引入指示特征I={Ii}i=1n\mathcal{I} = \{I_i\}_{i = 1}^nI={Ii​}i=1n​,IiI_iIi​是一个kkk维的向量用于聚类(可以看成样本分到哪个类别的一个指标,总共k个cluster)。引入约束
使用一个网络,来学习这个III

让样本的相似度等于

综合上面,得到模型(C(Ii)=True\mathcal{C}(I_i)= TrueC(Ii​)=True表示IiI_iIi​满足约束(3))

基于上面的模型有定义定理
定义说明理想状态下,学习到的I是一个One-hot表示(*好像不是这样,因为一个加上一个正交变换也是可以的。而且附录中的证明假设的是EEE能够取到0的情况,不然的话,后面证明都是错的,作者没有显式说明。不过没有关系,大致是这个思路能work就行 *)

为了降低搜索空间,让结果更可靠,再加一个约束pnormp\, normpnorm,让∥Ii∥p=1\|I_i\|_p = 1∥Ii​∥p​=1,即

说了这么多,最重要的rijr_{ij}rij​又没有,怎么办?作者采用以自进化算法(体现文章题目),设定u,lu,lu,l(逐步更新),令(其中S是相似度,这里就是内积)

由于大部分情况下,样本间的是不同类别的(见下面定理2和推论)。也就是说,大部分的标签会是对的,可以学习到一些有用的信息,说明了方法的合理性。

利用得到的标签rrr进行学习,最后我得到优化目标,其中vvv是将那些没有打标签的i,ji,ji,j对给屏蔽掉(计算出的相似度在l和u之间的),不进行loss的计算。

学习后更新u,lu,lu,l,迭代进行

当算法收敛后,利用指标III就可以得到聚类结果

为了使得算法能够满足约束(7),将III进行如下的变换(11a里面减去一个max项只是为了数值稳定性,不会影响结果)

总结就是如下算法(n是样本数,m是batch size,χq\chi_qχq​是第qqq个batch)

流程如下图

实验

数据集包括了图像数据集,文本数据集和语音数据集共12个。使用NMI(Normalized
Mutual Information)和ACC(Accuracy)作为结果的度量。
一些比较结果如下
可视化



参数设置和具体的细节见论文实验部分和代码

消融实验,有效性测试

作者验证了①进化算法的有效性(就是交替优化u,l和模型的部分)②label inference tactic 有效性((15)式和其他聚类策略比较)③类别数的影响 ④Number of Patterns的影响 ⑤不平衡数据 ⑥特征提取策略的影响 ⑦ 模型约束效益 ⑧pre-train收益 ⑨ 网络设置 ⑩ l,ul,ul,u初始化敏感性 ⑪ 模型约束敏感性 ⑫半监督任务效果增益 ⑬滤波器可视化(卷积核可视化)


[2018][PAMI]Deep Self-Evolution Clustering 笔记相关推荐

  1. 【论文笔记】Unsupervised Deep Embedding for Clustering Analysis(DEC)

    [论文笔记]Unsupervised Deep Embedding for Clustering Analysis(DEC) 文章题目:Unsupervised Deep Embedding for ...

  2. 8.Deep Interest Evolution Network for Click-Through Rate Prediction论文详解

    一.背景总述 2017年6月阿里妈妈的精准定向检索及基础算法团队放出了论文Deep Interest Network(DIN),用于解决电子商务的CTR预估,再次基础上,最近又放出了改进版本Deep ...

  3. 阿里的CTR预测(二):Deep Interest Evolution Network

    这篇文章发布于2018年9月,是之前的DIN的改进版.我们在阿里的CTR预测(一):Deep Interest Network中提到过,他们尝试使用LSTM来学习序列化数据的特征,但是对DIN的结果没 ...

  4. Deep Multimodal Subspace Clustering Networks

    Deep Multimodal Subspace Clustering Networks 作者:Mahdi Abavisani , Student Member, IEEE, and Vishal M ...

  5. Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记

    Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记 0. 概述 如今一些深度 ...

  6. CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例

    本文介绍阿里提出的兴趣进化网络(Deep Interest Evolution Network,以下简称DIEN. 前一篇文章介绍的 DIN 模型如下图所示: DIN 直接把用户的某个行为作为用户的兴 ...

  7. 【论文阅读】Deep Adversarial Subspace Clustering

    导读: 本文为CVPR2018论文<Deep Adversarial Subspace Clustering>的阅读总结.目的是做聚类,方法是DASC=DSC(Deep Subspace ...

  8. Yoshua Bengio——《Deep Learning》学习笔记1

    版权声明:此为Yoshua Bengio的新书<Deep Learning>学习笔记,本文为博主在研究工作中经验分享,包括学习笔记.摘录.研究成果,以便以后工作参考之用,欢迎交流和批评:其 ...

  9. Ranked List Loss for Deep Metric Learning | 阅读笔记

    Ranked List Loss for Deep Metric Learning | 阅读笔记 这是CVPR2019上一篇度量学习的论文. 摘要 深度度量学习(DML)的目的是学习可以捕获数据点之间 ...

最新文章

  1. 机器学习(7)--VC维数
  2. Spring Boot 发起 HTTP 请求
  3. git安装和使用---本地仓库
  4. Leetcode 100. 相同的树 解题思路及C++实现
  5. JAVA.NET.SOCKETEXCEPTION: TOO MANY OPEN FILES
  6. apply_async进程不执行_c/c++面试精选题(八)简单回答,进程和线程关系及区别...
  7. java 检测硬盘原理_深入Java核心 Java内存分配原理精讲
  8. ajax参数是json数据类型,如何保护$ .ajax数据类型:json Post参数
  9. 图像分类 数据准备(将文件夹中所有图片路径写到TXT文件中)
  10. 机器学习难?那是你没看过这张路线图!
  11. 2021-2025年中国住宅安全行业市场供需与战略研究报告
  12. 如何更改 Safari 浏览器文件下载位置?
  13. 【FPGA入门一】一个简单的LED流水灯
  14. golang unshift
  15. 软件架构设计-大型网站技术架构于业务架构融合之道——部分知识点总结【未完】
  16. 怎么用计算机批改试卷,试卷弄横线_在电脑上出试卷时答题的横线怎么打_淘题吧...
  17. 技术使用总结-旷视人脸识别-(APP中H5接入)
  18. postgresSQL的FDE加密
  19. driftingblues4靶机(zbarimg二维码破解)
  20. 关于517编程的11月月赛

热门文章

  1. WinRAR突现骇人漏洞,官方:没必要修复
  2. linux下最好用的安卓模拟器!
  3. Ubuntu测试使用速腾RS-Lidar-16
  4. 如何固化zynq程序
  5. js给html设置背景音乐,最简单最快的方法给H5页面添加背景音乐播放(css样式美化)...
  6. Gaussdb 存储过程
  7. CSS齿轮转动加载动画
  8. 记住这三个方法,让你的钱越花越多
  9. 【动手学树莓派】成为时代的弄潮儿,不做局外人
  10. :is()伪类选择器 :where()伪类选择器