作者 | 张泽宇

编辑 | 臧晨宇

校对 | 李仲深

今天给大家介绍天津大学张长青老师等人在CVPR2017上发表的文章“Latent Multi-view Subspace Clustering”。与直接使用原始特征进行单视图的子空间聚类不同,本文提出了一种潜在多视图子空间的聚类方法(LMSC),用数据点的潜在表示进行聚类,同时在多个视角中发掘互补信息。该方法在多视图中寻找数据的潜在表示,并在此基础上对数据进行重构,建立了数据的完备表示,提高了子空间表示的准确性和鲁棒性。该方法同时采用了ALM-ADM算法进行优化,使效果得到了提高。

一、研究背景

1.1 背景

子空间聚类在许多领域都有广泛应用,尤其对于具有高维特征的数据而言,具有十分重要的作用。一般来讲,子空间聚类假设数据点是从多个子空间中提取的,并都能够对应到不同的簇中。一种基于自我表示的子空间聚类方法曾被提出,该方法用数据点本身的线性组合来对数据点进行表示,并使用损失函数和正则化项来作为目标函数。除此之外,稀疏子空间聚类(Sparse Subspace Clustering, SSC)、低秩表示聚类(Low-Rank Representation clustering, LRR)、平滑表示聚类(Smooth Representation clustering, SMR)等方法也使子空间聚类的效果得到了一定的提升。

虽然上述的子空间聚类方法取得了较好的效果,但通常对原始数据特征的质量有较高要求,在特征缺失等情况下会受到较大影响。因此,一些多视图子空间的聚类方法被提出,用于改善上述缺点。

在多视图子空间聚类中,数据点由多源特征进行描述,这些多视图的数据表示有着更丰富的信息,使聚类取得更好的效果。通常,这些方法可以在原始数据的各个视角中进行数据重建,并在各视角下生成子空间表示。然而,分别使用单个视角进行数据重建往往不能对数据点有很好的整体把握,而且可能存在较大的噪声,这都可能影响聚类效果。

为了解决上述问题,本文提出了一种数据的潜在表示,来充分发掘数据之间的关系,并能够有效处理噪声。本文假设各个视图都由一个潜在的表示空间产生,并且这个空间能够在本质上描述数据,且能够揭示不同视角下所蕴含潜在结构的共同特征。

基于上述假设,本文提出了潜在多视图子空间聚类方法(Latent Multi-view Subspace Clustering, LMSC)。该方法学习了多视角特征下的潜在表示,并生成了多视角共同子空间下的表示,而不再仅限于单个视角。本文还将潜在表示学习和多视图子空间聚类整合为统一框架,并使用交替方向最小化的增广拉格朗日乘子法(Augmented Lagrangian Multiplier with Alternating Direction Minimization, ALM-ADM)进行优化,使效果得到了提高。

1.2 相关工作

此前,多数的多视图聚类方法都基于图模型,有一些方法基于矩阵因子分解或基于数据集在原始视图上的自我表示,有一些方法对一致性进行了优化。除此之外,有一些方法基于K-means来解决大规模多视图聚类。另外,多核学习、潜在空间的稀疏子空间聚类(Latent Space Sparse Subspace Clustering, LS3C)和潜在低秩表示(Latent Low-Rank Representation, LatLRR)等方法也被提出。

二、模型与方法

2.1 模型与概述

考虑V个视图下的N个数据点集X,我们的目标是对于每一个数据点xi获得一个潜在表示hi,所有N个潜在表示hi构成H。我们考虑重构函数P(v),该函数能够将统一的潜在表示hi还原为单一视角v下的数据点xi,考虑噪声ei,则可用图1表示其关系。

图1.重构函数、潜在表示、单一视角下数据点与噪声的关系

因此,需要优化的目标函数如图2所示。

图2.目标函数

进一步,可以结合自表示方法,并引入相应的正则项,优化的目标函数如图3所示。其中Z是重构系数矩阵。

图3.目标函数

其中,λ1与λ2用于平衡三项之间的影响权重。考虑鲁棒性等因素,最终的目标函数如图4所示。

图4.最终的目标函数

目标中使用了矩阵的核范数,能够使最终子空间表示尽可能低秩。

目标函数中的第一项使所得的潜在表示h能够在P的变换下,还原回单个空间的数据表示,从而保证有用信息得到保留;第二项则表示多视图子空间下潜在表示的重构损失;第三项使得到的潜在表示尽可能低秩。

通过建立上述模型,我们得到的潜在表示具有较为显著的优点。

首先,由于综合了多视图中的互补信息,相对于单视图而言,所得的潜在表示能够更为全面地对数据进行表述,进而能够提高聚类的效果;另外,使用的矩阵块范数能够使使模型更具鲁棒性。

最后,我们将两项矩阵E进行拼接,得到图5的目标函数。

图5.拼接处理后的目标函数

2.2  模型优化

虽然模型中的参数较多,但我们可以分别固定一些参数来优化其它参数,从而将问题分解成几个迭代的子问题求解。使用ALM-ADM方法可以解决我们的问题。为了使用该方法,我们引入变量J,并将目标函数改写为图6形式。

图6.引入J后的目标函数

运用ALM方法,函数如图7所示。

图7.运用ALM方法的函数

随后,我们分别求解P,H,Z,E,J五个参数优化的子问题,并在最后更新乘数。

具体子问题优化方法与乘数更新方法较为复杂,可详见论文原文。

最终,算法流程如图8所示。

图8.LMSC算法流程

三、实验结果

本文在真实数据集和合成数据集上进行了实验评估,其中合成数据集用于验证多视图算法的效果。

实验采用NMI,ACC,F-measure,RI等指标进行效果评价。

合成数据集实验结果如图9,真实数据集实验结果如图10,在MSRCV1数据集上使用t-SNE的对不同视角和潜在表示的可视化结果如图11。可以发现,本文提出的方法在准确率等方面相比于现有方法有较大提升,而且多视图相较于单视图的效果有显著提升。

图9.合成数据集上的鲁棒性实验

图10(a).真实数据集下各方法在聚类任务上的效果对比

图10(b).真实数据集下单视图与多视图聚类任务效果对比

图11.不同视角与潜在表示的对比

四、总结

本文提出了在多视图数据上学习多视角潜在表示的方法,并使后续的聚类任务得到了性能提升。该方法充分利用了不同视图之间的互补性,且不同于此前其它方法在单视图下进行的数据重构。除此之外,由于方法基于多视图和稀疏结构,因此具有较好的鲁棒性。此后,对于大规模数据的处理和非线性核方法的应用可能会对该模型做进一步的优化。


参考文献

C. Zhang, Q. Hu, H. Fu, P. Zhu and X. Cao, "Latent Multi-view Subspace Clustering," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, pp. 4333-4341, doi: 10.1109/CVPR.2017.461.

https://ieeexplore.ieee.org/document/8099944


欢迎关注公众号,获取更多论文解读转载或合作请联系邮箱 intbioinfo@163.com

转载时请注明出处

基于物化视图优化_CVPR2017|基于构造多视图子空间中的潜在表示解决聚类问题相关推荐

  1. 基于物化视图优化_「PostgreSQL技巧」PostgreSQL中的物化视图与汇总表比较

    多年来,物化视图一直是Postgres期待已久的功能.他们最终到达了Postgres 9.3,尽管当时很有限.在Postgres 9.3中,当刷新实例化视图时,它将在刷新时在表上保持锁定.如果您的工作 ...

  2. 基于oracle的优化 pdf,基于成本的oracle优化法则

    基于成本的oracle优化法则是世界级Oracle大师刘易斯Jonathan Lewis的最新力作,该书以专家的视角对Oracle系统的基于成本的优化模型进行了深入浅出的分析和介绍,通过学习本书,您将 ...

  3. 基于蚁群优化算法的特征选择相关文献

    Dorigo等人在20世纪90年代初提出了蚁群优化算法(Ant colony optimization ,ACO).ACO是一种元启发式群智能算法,旨在解决组合优化问题.它利用了真实蚂蚁的觅食行为,由 ...

  4. mbk文件导入到oracle,Oracle基于物化视图的远程数据复制

    物化视图简介: 远程表复制功能:可以借助数据库链接(dblink),在远程数据库中建立一个本地表的副本,用该方式实现表的定时同步.物化视图存储基于远程表的数据,也可以称为快照. 加速查询功能:物化视图 ...

  5. 基于物化视图创建分区(分区的物化视图)

    基于物化视图创建分区 物化视图是实际存在的物理表,支持触发器,因此堆表可以使用的方法,物化视图同样适用.有时候对于数据量大的物化视图而言,可以用分区的技术,减少读取数据的范围从而加速查询的速度 1:创 ...

  6. 计算机视觉中的多视图几何_基于深度学习的视觉三维重建研究总结

    三维重建意义 三维重建作为环境感知的关键技术之一,可用于自动驾驶.虚拟现实.运动目标监测.行为分析.安防监控和重点人群监护等.现在每个人都在研究识别,但识别只是计算机视觉的一部分.真正意义上的计算机视 ...

  7. 【Oracle】看懂执行计划之基于成本的优化器(CBO)

    [Oracle]看懂执行计划之基于成本的优化器(CBO) 基于代价的优化方式   Cost-Based Optimization,简称 CBO.CBO 选择目标 SQL 执行计划的判断原则是成本,从目 ...

  8. 蓝桥杯练习题:对给定整数基于斐波拉契数列构造字符串

    文章目录 一.提出问题 二.解决问题 (一)分析 (二)编程 1.构造[1, n]范围内的斐波拉契数列表 2.基于斐波拉契数列构造字符串函数 3.编写主控程序 4.运行程序,查看结果 三.优化算法 一 ...

  9. 两个mapreduce 做topn_Apache Hive 是怎样做基于代价的优化的?

    上一篇文章 Apache Calcite 为什么能这么流行 末尾提到要单独开一篇文章,聊下 Hive 怎么利用 Calcite 做基于代价查询优化,现在兑现承诺. 基于代价的优化器 通常,我们把 SQ ...

最新文章

  1. php mvc实例下载,php实现简单的MVC框架实例
  2. linux 判断网线是否插入
  3. 面试心得与总结—BAT、网易、蘑菇街
  4. python输出一个数的每一位_Python练习实例88 | 读取7个数(1—50)的整数值,每读取一个值,程序打印出该值个数的*。...
  5. ST-Link如何秒变J-link,手把手教你实现该功能
  6. php抓取动态数据,php+ajax实现无刷新动态加载数据技术
  7. 2018-3-7 色彩的一些知识
  8. 康托尔、哥德尔、图灵——永恒的金色对角线(转)
  9. 8年Android开发教你如何写简历,附超全教程文档
  10. CSS学习05:文字段落排版
  11. Java实现UTC时区转换
  12. Ubuntu修改键盘布局
  13. 一。回合制游戏 加暴击 掉落 二。柜台商品管理系统
  14. 如何监听安卓机返回键和苹果机微信的返回键事件
  15. 10分钟轻松定制网站日志分析大盘
  16. html实现展开余下全文多个,DIV+css内容太长,怎么实现点击展开余下全文?
  17. Web前端 | HTML表单form
  18. Redis和Mecahe的简介
  19. 不要瞎折腾,几张思维导图就讲清搜索引擎优化(SEO)核心点
  20. camunda如何监控流程执行

热门文章

  1. java重载与重写的区别你懂了吗
  2. vue图片宽高自适应_Echarts图标宽度变成100px,让图表宽度随着父元素自动适应,Vue实时监听宽度的变化,这可能是史上最好的解决方案!...
  3. python条件替换_python-根据其他列中的条件替换pandas列中的某些特定值
  4. CPU和内存之间——地址映射(理解很重要)
  5. OS / Linux / 主线程退出了,子线程会退出吗?
  6. TCP/IP / TCP 头
  7. ldap基本dn_2020年,手把手教你如何在CentOS7上一步一步搭建LDAP服务器的最新教程...
  8. 用c语言实现单链表的初始化,建表,查找,求长度,插入,删除等操作,【YTU+2430+C语言习题+链表建立+插入+删除+输(5)...
  9. c 5.6 mysql 配置文件_Windows系统中MySQL 5.6的配置文件(my.ini)修改方法_MySQL
  10. pyenv 让 python 版本完美切换