点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

本文旨在研究可解释聚类,现有的可解释聚类大多针对于特征可理解的表格型数据,然而大部分深度聚类模型被运用在图像,文本等特征抽象复杂的数据上。在这项工作中,我们通过引入语义标签提出了一种新的针对复杂数据的深度可解释聚类模型。具体地说,我们通过最大化互信息来进行无监督聚类,根据聚类的中间结果与语义标签我们求解一个基于整数规划的解释性目标函数来为每个簇生成简洁且正交的解释。最后我们提出一个自监督的成对样本损失函数来最大化聚类特征空间和类别解释模块的一致性。在公共图像数据集的实验结果表明我们提出的模型可以生成高质量的类别解释与优异的聚类效果。

本期AI TIME PhD直播间我们邀请到加州大学戴维斯分校博士——张洪境,为我们带来报告分享《深度描述聚类》。

张洪境:

加州大学戴维斯分校计算机系博士研究生,博士导师为Ian Davidson,主要研究方向为半监督学习,可解释AI和公平性机器学习。以第一作者在IJCAI, SDM, ECMLPKDD, DMKD等国际会议与期刊上发表多篇论文。个人主页: https://honhjingz.github.io/。

01

 背   景 

机器学习模型在很多场景下都能够替代人类进行决策,因此理解模型的决策十分重要。可解释AI致力于提高复杂机器学习模型的可解释性,尤其是深度学习相关的算法。本文工作主要关注深度聚类算法的可解释性,假设我们使用深度聚类算法对下图左边的6个动物进行聚类生成A、B两个簇(cluster),这里就会有一个问题:如何描述和概括这两个簇?

现有的工作主要分为两类,一类是Explanation by Design,即学习聚类的同时生成相应解释,这类算法不适用文本图像等特征较抽象且难以理解的数据,并且不同的聚类算法需要设计不同可解释方法;另一类是Explanation by Post-Processing,需要引入额外语义标签帮助解释,可以应用于不同聚类模型。

受到Explanation by Post-Processing的启发,我们引入语义标签作为深度聚类算法输入,帮助产生更好聚类算法的结果解释。

下面是一个深度描述聚类的例子,输入是无类别标签的图片和相应语义标签,输出是聚类结果和语义标签组成的类别表示。

现有的深度聚类算法是将需要聚类的数据输入到神经网络,然后生成聚类结果,而没有利用好相应的语义标签进行聚类解释的后处理。因此我们期望利用语义标签来提升深度聚类算法的效果和解释聚类结果。

02

 方   法 

本文提出的深度描述聚类(DDC)方法主要包括三个部分,第一个部分是基础深度聚类模型,用来对数据聚类,生成聚类结果。第二个部分根据语义标签和基础聚类模型的聚类结果求解一个带约束的类别解释目标函数,这部分输出包括生成的类别解释和一个语义解释映射函数,这个映射函数会过滤掉冗余标签来得到解释空间。

第三部分通过自监督学习生成约束对并进行优化——我们为具有相似解释但是在聚类空间中差异较大的样本对生成一致性约束,通过优化这种成对约束,我们最终使得解释空间中相似的样本对在聚类空间中也保持相似。

关于我们的基础聚类模型,它与传统的判别式聚类算法一致,我们通过最大化样本输入和类别指派的互信息来学习聚类。在我们提出的类别解释目标函数中,我们主要求解一个类别解释-整数规划问题,主目标是为每个簇求得简洁的语义解释,我们希望相同的解释在同一个簇的样本中拥有高的覆盖率,而这些解释在不同簇中尽量正交。在第三个模块中,我们通过最小化自生成的成对样本聚类结果的交叉熵来确保聚类特征空间与生成的解释空间保持高度一致。

03

 实   验 

数据集:AwA / aPY

评价指标:

实验结果:

下面是本文方法DDC与2018年Dao的聚类算法的对比,可以看出本文方法的解释拥有最高的TC值,意味着本文方法给的解释能够准确描述每个簇。此外DDC也达到了最高的ITF值,这意味着DDC给出的解释是独特的。好的聚类解释可以提升聚类效果,相比Dao的算法,DDC的聚类结果也更好,相近的动物都被聚类到一起。

当解释类别或者解释标签过多时,为了方便的验证与理解我们生成的解释。本文提出了另一种基于图形ontology的解释,我们分别为aPY和AwA生产了相对应的图形化解释。

下图中的节点名称是基于簇中的大多数类而决定的,当两个簇共享一定数量的语义标签时,我们会为两个簇生成一条边,表示这两类具有一定的相似性。我们可以从左边apy数据集对应的ontology图看出,我们生成的聚类结果大致被分为了四个群体,分别是动物,家具,小的物件和交通工具。同样的,右图是awa数据集对应的图解释,相同科属的动物因为分享了一些类似的语义标签从而被连接到了一起,比如狮子、老虎以及猫科动物。

论文链接:

https://www.ijcai.org/proceedings/2021/0460.pdf。

点击“阅读原文”,即可观看本场回放

整理:爱   国

审核:张洪境

直播预告

1月26日 19:30  青年科学家-16

《青光眼估计和预测的深度学习模型》——香港理工大学电子计算学系研究助理教授许林川

往期精彩文章推荐

记得关注我们呀!每天都有新知识!

关于AI TIME

2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!

干货!深度描述聚类——加州大学戴维斯分校计算机系博士生张洪境相关推荐

  1. 加州大学戴维斯分校 计算机科学,加州大学戴维斯分校的计算机专业如何?

    加州大学戴维斯分校的计算机专业如何?请咨询立思辰留学360美国专家团队. 立思辰留学360介绍,加利福尼亚大学戴维斯分校(也称为 UCD. UC Davis 或 Davis),是设在加利福尼亚州的戴维 ...

  2. ucdavis计算机科学专业,UCDavis的CS「加州大学戴维斯分校计算机科学专业」

    加州大学戴维斯分校计算机科学专业研究生阶段开设有以下学位项目,分别是: 计算机科学理学硕士(MS in Computer Science):为期2年,共需修读36个学分(unit),要求申请者本科毕业 ...

  3. 戴维斯计算机科学值得读吗,UCDavis的CS「加州大学戴维斯分校计算机科学专业」...

    加州大学戴维斯分校计算机科学专业研究生阶段开设有以下学位项目,分别是: 计算机科学理学硕士(MS in Computer Science):为期2年,共需修读36个学分(unit),要求申请者本科毕业 ...

  4. 庆大学校计算机系,张丽霞(加州大学洛杉矶分校计算机系教授)_百度百科

    "Simple Virtual Aggregation (S-VA)"(简单的虚拟聚合(S-VA)) Robert Raszuk, J. Heitz, A. Lo, Lixia Z ...

  5. 低成本,大用处——极弱监督的海量文本知识挖掘 | 加州大学圣地亚哥分校商静波...

    导读:大数据时代,我们每天都沉浸在海量的自然语言数据中,比如新闻.社交网络.学术论文等等.如何根据用户需求高效地.自动地消化这些海量文本数据.将其结构化,并最终能被人理解.让机器可以运算,自然而然地成 ...

  6. uci2019计算机录取,最新 | 加州大学各分校2019年申请数据公开,录取率再降低,凉到心底!...

    原标题:最新 | 加州大学各分校2019年申请数据公开,录取率再降低,凉到心底! 一旦进入 8 月,美国最大的 Common Application 网申系统一上线,意味着 2020年秋季申请季的高潮 ...

  7. 活动报名 | 加州大学圣地亚哥分校商静波:如何通过极弱监督来完成海量文本的结构化?...

    活动议程 日期:8月25日(周四) 时间 主题 10:00-10:05 开场简介 张伟楠 上海交通大学长聘教轨副教授,博士生导师,青源会会员 10:05-10:50 如何通过极弱监督来完成海量文本的结 ...

  8. 李沐亲授加州大学伯克利分校深度学习课程移师中国,现场资料新鲜出炉

    2019 年 9 月 5 日,AI ProCon 2019 在北京长城饭店正式拉开帷幕.大会的第一天,以亚马逊首席科学家李沐面对面亲自授课完美开启! "大神",是很多人对李沐的印象 ...

  9. 美国三院院士、加州大学伯克利分校统计系主任Michael I. Jordan介绍[推荐的机器学习书单等] (公号可下载PDF)

    美国三院院士.加州大学伯克利分校统计系主任Michael I. Jordan介绍[推荐的机器学习书单等] (公号可下载PDF) 原创: 秦陇纪 科学Sciences 今天 科学Sciences导读:论 ...

  10. Nature子刊:加州大学伯克利分校Banfield组发现某些淡水湖泊中的大噬菌体或能加速好氧甲烷氧化...

    某些淡水湖泊中的大噬菌体或能加速好氧甲烷氧化 Large Freshwater Phages with the Potential to Augment Aerobic Methane Oxidati ...

最新文章

  1. java下载网络中的文件,java下载网络文件解决思路
  2. 直线段检测算法(LSD:a Line Segment Detector)
  3. Py之qrcode:Python包之qrcode的简介、安装、使用方法之详细攻略
  4. 去除有序数组/链表的重复元素--双指针原地修改
  5. 最短路dijkstra算法详解_最短路径问题---Dijkstra算法详解
  6. c语言指针化简带分数,c语言带分数四则运算问题!!!要求被调函数,化简.
  7. 使用PowerShell SQL Server DBATools的IDENTITY列阈值
  8. 揭开伟大架构师的秘密
  9. jsf ajax循环调用,每次JSF ajax回发后执行JavaScript
  10. iOS Json解析框架之MJExtension使用详解
  11. excel随机抽取_Python自制班级点名器让Excel表格用起来
  12. 【IPM2020】一种处理多标签文本分类的新颖推理机制
  13. c语言程序设计教程pdf下载,C语言程序设计教程PDF合集-中国科技大学.pdf
  14. java面试之简述一下 Java 垃圾回收机制?
  15. 不得不学的统计学基础知识(二)
  16. html5 excel网页版,一种网页版EXCEL的实现方法与流程
  17. LOTO示波器---1G采样率的USB示波器OSCH02的优势
  18. 交换两个数组的内容555555555
  19. 神舟微型计算机系统重装步骤,神舟笔记本电脑重装系统步骤介绍【图解】
  20. html怎么给图片加倒影,用CSS3实现图片倒影效果,同时给出兼容早期版本IE的方案...

热门文章

  1. 基于Android的公交线路查询系统设计与实现
  2. Google商店应用上架注意事项
  3. Flutter TV应用的开发尝试
  4. apple tv 开发_如何将蓝牙耳机连接到Apple TV
  5. 2023秋招大厂经典面试题及答案整理归纳(221-240)校招必看
  6. other|钱海物流接口上传运单号开发
  7. Python中的*和**
  8. 千帆竞发待东风――乱弹网络游戏广告
  9. Blue Coat:打击移动领域的坏人
  10. 寻租——乞丐没有白拿施舍