abstract

背景:多模态匹配Cross-modal matching,在不同模型间建立对应关系,已经应用于跨模态检索(retrieval)和vision-and -language understanding
问题:以往方法都假设多模态训练数据是对齐的,但实际不是,且代价很高(这里对齐的意思应该是总有匹配的对象和label?)
提出解决方案:新方向:noisy correspondence(a new paradigm of noisy labels)noisy labels传统意义上是errors in category labels,但我们的noisy correspondence是mismatch paired samples
新方法:Noisy Correspondence Rectifier (NCR)解决learning with noisy correspondence
做法:基于神经网络的记忆功能,将数据分为clean and noisy 部分通过自适应预测模型在co-teaching的方式矫正correnspondence
测试:图文匹配,Flickr30K, MS-COCO, and Conceptual Captions
代码:www.pengxi.me

Introduction

现有方法:将不同模态应用在正跨模态对的相似性最大,负跨模态对相似性最小的common space。

  • 图中有说noisy labels和noisy correspondence,还有true/false positive negative
    传统noisy labels指类别注释的错误,而noisy correspondence指alignment errors in
    paired data 一个不同于noisy correspondence的方法:view-aligned problem (PVP)

为了解决跨模态匹配中的noisy correnpondence,提出NCR。
1.我们的方法基于DNN的记忆功能(DNN在匹配noisy samples前会学习simple patterns)。Motivated by这个观察性的发现,NCR将数据分为相对精准的数据集(relative accurate data partitions),noisy 和clean,基于它们loss的不同。
2.然后,NCR用矫正标签的自适应预测函数(an adaptive prediction function for label rectifying)让false positives and the true positives分为clean和noisy子集。(摘要里说用了co-teaching方法)
3.再然后,用新的三重损失函数提高匹配的鲁棒性,通过将矫正的标签作为软边界。
本文贡献/创新点:
1.揭示了跨模态分析的新问题noisy correspondence。
2.提出noisy correspondence下的新学习方法NCR,NCR的创新点是矫正的label被优雅的recast为三重损失的软边界–>跨模态匹配的鲁棒性增强。
3.验证了方法。

相关工作:

1.跨模态匹配:已有的方法很大程度上依赖于正确对齐的数据(the correctly aligned data)(或者说是well-matched data?),但收集这种数据昂贵又耗时。收集大量的野生数据对(dataset)能显著提升效果,但是不可避免有不匹配的pairs。因此,对于noisy correspondence有高鲁棒性的方法是很有必要的,也没被研究过。与图片和字幕间的多对多匹配(correspondence)不同,NCR解释了noisy correspondence问题,即图片文本对的对其错误,并提出消除noisy pairs对downstream tasks带来的负面影响。
2.有噪标签的学习:
问题不同:以往噪声标签研究,关注注释错误的数据点(incorrectly annotated data points),本文关注不匹配的多模态数据对。
方法上不同:noisy label learning使用model’s prediction for label rectifying(矫正),此方法用在预测correspondence of given pairs太困难,即使可以用某种方式矫正,校正后label也与已有的配对方式不兼容,因为已有的配对方式大部分使用二进制labels。为了解决这些问题,NCR提出自适应预测函数新的recast the soft labels as soft margins的三重损失

过程

一些问题:
soft的理解,soft margin,soft labels,soft similarity
recall的理解,recall on the validation set
SGR GMM

我们以图像文本匹配为例介绍跨模态匹配任务。D={(Ii, Ti, yi)}, i=1~N,N是data size,(Ii, Ti)是image-text pair,yi在0到1之间,表示是否匹配(positive or negative)。noisy correspondence指(Ii, Ti)是negative pair但是yi=1。为了解决这个问题,我们用NCR实现鲁棒性。
1.将图和文模态都投影到共同空间(shared space),图用f网络,文用g网络实现投影。
2.计算相似性S(f(I), g(T))。(在下文中表示为S(f, g) )
3.研究表明DNN先学习简单样本(simple sample),然后逐渐拟合噪声样本(noisy sample)(所以我怀疑simple sample指的是clean sample)。DNN这种记忆效应使clean sample的损失loss相对较低。基于此,我们使用 noisy sample和clean sample的不同损失分布(loss distribution)划分训练集training data(为noisy和clean)。给定一个(f, g, S)计算每个样本sample的 loss:

(I, T)是positive pair,α是给定的margin,T^是所有的negative test,I被当作query与T
^进行了take over(?)。margin是什么,求和符号和^,S是什么
4.用双成分高斯混合模型two-component Gaussian Mixture Model拟合所有训练数据的每个样本损失per-sample loss

βk是混合系数,φ(l|k) 是第k个分量的概率密度。基于DNN的记忆效应,我们将平均值较低(loss较低)的作为clean set,其他的视为noisy set。为了优化GMM,我们使用期望最大化算法。此外我们计算后验概率wi=…作为第i个sample的clean 概率,k是平均值较低的高斯分量。给 {wi} ,i=1~N设定一个threshold,将数据分为noisy和clean subset。简单起见,整个实验的threshold=0.5。
GMM是什么?

结论:

本文解决跨模态匹配的新问题(?指数据原本就不匹配),也就是noisy correspondence(其是noisy label问题的潜在新方向)。解决方法是:用自适应预测函数(adaptive prediction function)新的有软边界的三重损失(a novel triplet loss with a soft margin) 来矫正noisy correspondence,达到鲁棒的跨模态匹配。

Learning with Noisy Correspondence for Cross-modal Matching个人笔记相关推荐

  1. Learning with Noisy Correspondence for Cross-modal Matching 文献翻译 代码简析

    Learning with Noisy Correspondence for Cross-modal Matching 基于噪声对应的跨模态匹配学习 Learning with Noisy Corre ...

  2. 文献记录(part19)--Cross modal similarity learning with active queries

    学习笔记,仅供参考,有错必纠 关键词:主动学习;跨模态相似学习;度量学习 文章目录 Cross modal similarity learning with active queries 摘要 简介 ...

  3. [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

    1.题目 Learning from Noisy Labels with Deep Neural Networks: A Survey 作者团队:韩国科学技术院(KAIST) Song H , Kim ...

  4. Learning with noisy labels总结

    Learning with noisy labels总结 Deep Label Distribution Learning With Label Ambiguity Joint Optimizatio ...

  5. Learning with Noisy Label

    Learning with Noisy Label 学习记录总结 1.1 阅读背景 1.2 理论基础类 1.2.1 paper: understanding deep learning require ...

  6. ICDE2020论文简析:空间众包实时交叉在线匹配 - Real Time Cross Online Matching in Spatial Crowdsourcing

    ICDE2020论文简析:空间众包实时交叉在线匹配 - Real Time Cross Online Matching in Spatial Crowdsourcing 研究现状 作者贡献 概念定义 ...

  7. Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记

    Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-St ...

  8. 论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记

    论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记 论文arxiv链接:Learning ...

  9. Deep Multimodal Learning A survey on recent advances and trends读书笔记

    Deep Multimodal Learning A survey on recent advances and trends 读书笔记-YH Introduction 在介绍这一节中提出了本文的目的 ...

最新文章

  1. 合理规划您的硬盘分区
  2. 【HDOJ】3006 The Number of set
  3. AD在Windows Server 2003中的更新(中)
  4. 【C】——常用C时间库函数
  5. LinkedHashMap 的理解以及借助其实现LRU
  6. rz、sz 命令 安装(Xshell 安装)
  7. nginx proxy模块
  8. python百度百科-Python语言的发展简史
  9. 代码很烂,所以离职。
  10. (MATLAB源代码)SVM多分类
  11. 菩提心的修法-四无量心的具体修法
  12. ei指什么_SCI、EI、SSCI、CSSCI分别是指什么
  13. C语言基础:如何判断素数(质数)与合数
  14. 2019 计蒜之道 初赛 第三场 - 淘宝商品价格大PK
  15. 如何连接新浪sae共享数据库
  16. 英语语法之四大基本句式
  17. 中国民营500强企业爬取数据展示
  18. Vivado时钟之间的三种关系
  19. 获得Windows主机的主机序列号
  20. 关于如何使用C++读取.dbf文件

热门文章

  1. css background-size:contain与cover的区别
  2. python基础练习题:棋盘【难度:1级】--景越Python编程实例训练营,不同难度Python习题,适合自学Python的新手进阶
  3. 机器学习不神秘!手把手教你用R语言打造文本分类器
  4. 国产绘画AI杀疯了!画的小姐姐比真人还好看
  5. memcpy 函数的用法
  6. 程序设计基础第四版清华大学出版社任务4.2某地刑侦大队对涉及6个犯罪嫌疑人的一桩疑案进行分析
  7. 谈C中scanf陷阱
  8. 重积分 | 【拓展】格林公式、高斯公式、斯托克斯公式之间的联系
  9. 创建全局函数mysql_Navicat中Mysql自定义函数报错?
  10. 压缩感知doa matlab,基于压缩感知的DOA估计程序