摘要:网络图像数据包含的元数据包含文本,标题,拍摄位置,拍摄器材等信息。这些信息可能具有噪声,可能残全不全,这篇文章主要是利用多模态的信息,如果没有监督信息就对样本进行聚类,如果有少量的监督信息,就可以对样本进行标注。这篇文章提出了一个隐的CRF模型,把样本看成是CRF模型的nodes,一元项是依赖于选定的模态特征的K-means损失,二元项是其他模态特征的相似度损失,在相似度中使用到了ITML(Information Theoretic Metric Learning)衡量相似度,对于二元项中多种模态的权重,采取结构SVM学习。如果没有二元项就是简单的对单模态数据的K-means聚类。

方法:Constrained clustering framework

由于这篇文章的方法可以看成是K-means在多模态情况下的扩展,in retrospect,我们来看一下k-means的formulation。

其中y_i是类索引,u_k是类中心,x_i是样本。空心大写1()是指示函数。下面这个函数是在k-means的基础上添加一个损失项,是这篇文章的总的损失函数

第一项就是kmeans同样的表达,只不过alpha函数是二次函数的一般形式,这一项表达的含义就是用其中一个模态的特征进行kmeans聚类,文中把这个模态的特征叫做primary feature。 第二项是用两个样本的其他模态特征的相似度来衡量是否应该把他们分为一类。这两项就相当于CRF模型的一元项和二元项,而样本的类别是隐变量,是需要求解的。

文中二元项的定义如上式,其中1()这一项表明没有丢失的模态数据才对损失函数有贡献,而d_m表明两样本的第m个模态的特征的距离,用ITML表示,

而w_m和b采用structural svm学习得到

delta函数是不正确分类的数据对数量,也就是两个数据是同类的分为不同类,或者是不同类分为同类的样本数量。预测标签的损失函数应该比真值标签的损失函数大,最小化松弛变量就能够得到函数参数。文中说这种损失叫做Rank Index,是一个很popular的度量。

评价:这就是整个方法,要是对于CRF,Structural-SVM, ITML很熟悉的人应该很容易理解。恰好我对这几方面都挺熟悉的,而且多模态的数据我也在研究,不过还是觉得虽然使用的都是我们很熟悉的机器学习方法,但是把他们巧妙的结合起来,使用在合适的场景之下,还是很赞的。这个框架可以解决很多问题,在文章的实验部分也有所体现,待我仔细看。

阅读笔记之:Multimodal learning in Loosely-organized web images-CVPR2014相关推荐

  1. 论文阅读笔记:SCAN: Learning to Classify Images without Labels

    论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要 简介和相关工作 方法 表征学习 语义聚类损失 2.3 通过自标记进行微调 3 实验 ...

  2. 阅读笔记(Communication-Efficient Learning of Deep Networks from Decentralized Data)

    阅读笔记(Communication-Efficient Learning of Deep Networks from Decentralized Data) 动机 联邦平均 实验结果 MINIST优 ...

  3. 论文阅读笔记:ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关工作 神经投影网络(Neural Projection Networks) Pro ...

  4. 【阅读笔记】Federated Learning for Privacy-Preserving AI

    Federated Learning for Privacy-Preserving AI 前言 一.论文解析 Definition Categorization Architecture Applic ...

  5. ZH奶酪:【阅读笔记】Deep Learning, NLP, and Representations

    中文译文:深度学习.自然语言处理和表征方法 http://blog.jobbole.com/77709/ 英文原文:Deep Learning, NLP, and Representations ht ...

  6. 论文阅读笔记--Federated Continual Learning with Weighted Inter-client Transfer

    本文提出了一种新的场景,联邦学习(FL)的每个client各自执行一系列的持续学习(Continual Learning)任务,为了说明这个场景的实际意义,文章给出了这样一个场景: 若干个医院要通过一 ...

  7. 论文阅读笔记《Few-Shot Learning with Global Class Representations》

    小样本学习&元学习经典论文整理||持续更新 核心思想   本文提出一种基于度量学习的小样本学习算法.与其他算法将训练集分成基础类别和新类别,进行两个阶段的训练方式不同,本文将包含大量样本的基础 ...

  8. 论文阅读笔记《Meta-Transfer Learning for Few-Shot Learning》

    小样本学习&元学习经典论文整理||持续更新 核心思想   本文提出一种基于迁移学习的元学习算法(Meta-Transfer Learning,MTL)用于解决小样本学习问题,通过对深层卷积神经 ...

  9. 论文阅读笔记——[MPN]: Multi-task Learning with Coarse Priors for Robust Part-aware Person Re-identification

    论文:Multi-task Learning with Coarse Priors for Robust Part-aware Person Re-identification TPAMI 2022 ...

  10. 论文阅读笔记《Sim-to-real learning for bipedal locomotion under unsensed dynamic loads》

    Sim-to-real learning for bipedal locomotion under unsensed dynamic loads 文章目录 Sim-to-real learning f ...

最新文章

  1. TCP listen()函数内幕
  2. opencv检测矩形
  3. 2011年11月份第一周51Aspx源码发布详情
  4. bzoj4592[SHOI2015]脑洞治疗仪
  5. ORACLE OMF介绍
  6. Spring Boot整合Spring Data Redis-测试整合
  7. 带有按钮并且可以执行单击事件的WINFORM窗体,体悟C#的创建过程
  8. matlab simulnk笔记07——模块(接地模块group、终止模块terminal、信号合并mux与分解模块demux)
  9. java之for循环
  10. 微信小程序摄像头监控_微信必备黑科技小程序!
  11. mysql非主键索引_主键索引和非主键索引的区别
  12. 仿IOS应用APP下载页源码
  13. 如何制作通讯录vcf_批量信息从表格导入手机“通讯录”
  14. Typora自定义主题css文件修改
  15. echarts树形图样式_echarts的树形结构图及参数
  16. YB5212A充电IC充电芯片sop8
  17. 2021秋软工实践第一次个人编程作业
  18. springboot集成快递100实现查询快递,面单打印;面单取消
  19. java连接达梦数据库_【达梦数据库】Activiti连接达梦数据库
  20. 1分钟解决 微信小程序 iPhone 11、iPhoneX 底部安全区域(底部小黑条)适配

热门文章

  1. 使用arcgis和QGIS绘制采样点图
  2. 实战项目:设计实现一个流程编排框架(实现)
  3. 机器学习100天(三):003 数据预处理之处理缺失值
  4. 基于创建的mogodb数据库,用python分析股票的跳空缺口
  5. 论养成好习惯的重要性
  6. Word行距无法修改问题(本人亲自实测)
  7. 有奖互动 | 打工人、爱码士都看这里
  8. 福州市水利应急防汛管理泉舟创新中心【产品经理】
  9. 服务器上出现应用程序错误
  10. 关于3D可视化的几个知识点