Learning with Noisy Correspondence for Cross-modal Matching个人笔记

abstract

背景：多模态匹配Cross-modal matching，在不同模型间建立对应关系，已经应用于跨模态检索（retrieval）和vision-and -language understanding
问题：以往方法都假设多模态训练数据是对齐的，但实际不是，且代价很高（这里对齐的意思应该是总有匹配的对象和label？）
提出解决方案：新方向：noisy correspondence（a new paradigm of noisy labels）noisy labels传统意义上是errors in category labels，但我们的noisy correspondence是mismatch paired samples。
新方法：Noisy Correspondence Rectifier (NCR)解决learning with noisy correspondence
做法：基于神经网络的记忆功能，将数据分为clean and noisy 部分；通过自适应预测模型在co-teaching的方式矫正correnspondence。
测试：图文匹配，Flickr30K, MS-COCO, and Conceptual Captions
代码：www.pengxi.me

Introduction

现有方法：将不同模态应用在正跨模态对的相似性最大，负跨模态对相似性最小的common space。

图中有说noisy labels和noisy correspondence，还有true/false positive negative
传统noisy labels指类别注释的错误，而noisy correspondence指alignment errors in
paired data 一个不同于noisy correspondence的方法：view-aligned problem (PVP)

为了解决跨模态匹配中的noisy correnpondence，提出NCR。
1.我们的方法基于DNN的记忆功能（DNN在匹配noisy samples前会学习simple patterns）。Motivated by这个观察性的发现，NCR将数据分为相对精准的数据集（relative accurate data partitions），noisy 和clean，基于它们loss的不同。
2.然后，NCR用矫正标签的自适应预测函数（an adaptive prediction function for label rectifying）让false positives and the true positives分为clean和noisy子集。（摘要里说用了co-teaching方法）
3.再然后，用新的三重损失函数提高匹配的鲁棒性，通过将矫正的标签作为软边界。
本文贡献/创新点：
1.揭示了跨模态分析的新问题noisy correspondence。
2.提出noisy correspondence下的新学习方法NCR，NCR的创新点是矫正的label被优雅的recast为三重损失的软边界–>跨模态匹配的鲁棒性增强。
3.验证了方法。

过程

一些问题：
soft的理解，soft margin，soft labels，soft similarity
recall的理解，recall on the validation set
SGR GMM

我们以图像文本匹配为例介绍跨模态匹配任务。D={(Ii, Ti, yi)}, i=1~N，N是data size，（Ii, Ti）是image-text pair，yi在0到1之间，表示是否匹配（positive or negative）。noisy correspondence指（Ii, Ti）是negative pair但是yi=1。为了解决这个问题，我们用NCR实现鲁棒性。
1.将图和文模态都投影到共同空间（shared space），图用f网络，文用g网络实现投影。
2.计算相似性S(f(I), g(T))。（在下文中表示为S(f, g) ）
3.研究表明DNN先学习简单样本（simple sample），然后逐渐拟合噪声样本（noisy sample）（所以我怀疑simple sample指的是clean sample）。DNN这种记忆效应使clean sample的损失loss相对较低。基于此，我们使用 noisy sample和clean sample的不同损失分布（loss distribution）划分训练集training data（为noisy和clean）。给定一个(f, g, S)计算每个样本sample的 loss：

（I, T）是positive pair，α是给定的margin，T^是所有的negative test，I被当作query与T
^进行了take over（？）。margin是什么，求和符号和^，S是什么
4.用双成分高斯混合模型two-component Gaussian Mixture Model拟合所有训练数据的每个样本损失per-sample loss

βk是混合系数，φ(l|k) 是第k个分量的概率密度。基于DNN的记忆效应，我们将平均值较低（loss较低）的作为clean set，其他的视为noisy set。为了优化GMM，我们使用期望最大化算法。此外我们计算后验概率wi=…作为第i个sample的clean 概率，k是平均值较低的高斯分量。给 {wi} ，i=1~N设定一个threshold，将数据分为noisy和clean subset。简单起见，整个实验的threshold=0.5。
GMM是什么？

结论：

本文解决跨模态匹配的新问题（？指数据原本就不匹配），也就是noisy correspondence（其是noisy label问题的潜在新方向）。解决方法是：用自适应预测函数（adaptive prediction function） 和新的有软边界的三重损失（a novel triplet loss with a soft margin） 来矫正noisy correspondence，达到鲁棒的跨模态匹配。