Learning with Noisy Correspondence for Cross-modal Matching个人笔记
abstract
背景:多模态匹配Cross-modal matching,在不同模型间建立对应关系,已经应用于跨模态检索(retrieval)和vision-and -language understanding
问题:以往方法都假设多模态训练数据是对齐的,但实际不是,且代价很高(这里对齐的意思应该是总有匹配的对象和label?)
提出解决方案:新方向:noisy correspondence(a new paradigm of noisy labels)noisy labels传统意义上是errors in category labels,但我们的noisy correspondence是mismatch paired samples。
新方法:Noisy Correspondence Rectifier (NCR)解决learning with noisy correspondence
做法:基于神经网络的记忆功能,将数据分为clean and noisy 部分;通过自适应预测模型在co-teaching的方式矫正correnspondence。
测试:图文匹配,Flickr30K, MS-COCO, and Conceptual Captions
代码:www.pengxi.me
Introduction
现有方法:将不同模态应用在正跨模态对的相似性最大,负跨模态对相似性最小的common space。
- 图中有说noisy labels和noisy correspondence,还有true/false positive negative
传统noisy labels指类别注释的错误,而noisy correspondence指alignment errors in
paired data 一个不同于noisy correspondence的方法:view-aligned problem (PVP)
为了解决跨模态匹配中的noisy correnpondence,提出NCR。
1.我们的方法基于DNN的记忆功能(DNN在匹配noisy samples前会学习simple patterns)。Motivated by这个观察性的发现,NCR将数据分为相对精准的数据集(relative accurate data partitions),noisy 和clean,基于它们loss的不同。
2.然后,NCR用矫正标签的自适应预测函数(an adaptive prediction function for label rectifying)让false positives and the true positives分为clean和noisy子集。(摘要里说用了co-teaching方法)
3.再然后,用新的三重损失函数提高匹配的鲁棒性,通过将矫正的标签作为软边界。
本文贡献/创新点:
1.揭示了跨模态分析的新问题noisy correspondence。
2.提出noisy correspondence下的新学习方法NCR,NCR的创新点是矫正的label被优雅的recast为三重损失的软边界–>跨模态匹配的鲁棒性增强。
3.验证了方法。
相关工作:
1.跨模态匹配:已有的方法很大程度上依赖于正确对齐的数据(the correctly aligned data)(或者说是well-matched data?),但收集这种数据昂贵又耗时。收集大量的野生数据对(dataset)能显著提升效果,但是不可避免有不匹配的pairs。因此,对于noisy correspondence有高鲁棒性的方法是很有必要的,也没被研究过。与图片和字幕间的多对多匹配(correspondence)不同,NCR解释了noisy correspondence问题,即图片文本对的对其错误,并提出消除noisy pairs对downstream tasks带来的负面影响。
2.有噪标签的学习:
问题不同:以往噪声标签研究,关注注释错误的数据点(incorrectly annotated data points),本文关注不匹配的多模态数据对。
方法上不同:noisy label learning使用model’s prediction for label rectifying(矫正),此方法用在预测correspondence of given pairs太困难,即使可以用某种方式矫正,校正后label也与已有的配对方式不兼容,因为已有的配对方式大部分使用二进制labels。为了解决这些问题,NCR提出自适应预测函数和新的recast the soft labels as soft margins的三重损失。
过程
一些问题:
soft的理解,soft margin,soft labels,soft similarity
recall的理解,recall on the validation set
SGR GMM
我们以图像文本匹配为例介绍跨模态匹配任务。D={(Ii, Ti, yi)}, i=1~N,N是data size,(Ii, Ti)是image-text pair,yi在0到1之间,表示是否匹配(positive or negative)。noisy correspondence指(Ii, Ti)是negative pair但是yi=1。为了解决这个问题,我们用NCR实现鲁棒性。
1.将图和文模态都投影到共同空间(shared space),图用f网络,文用g网络实现投影。
2.计算相似性S(f(I), g(T))。(在下文中表示为S(f, g) )
3.研究表明DNN先学习简单样本(simple sample),然后逐渐拟合噪声样本(noisy sample)(所以我怀疑simple sample指的是clean sample)。DNN这种记忆效应使clean sample的损失loss相对较低。基于此,我们使用 noisy sample和clean sample的不同损失分布(loss distribution)划分训练集training data(为noisy和clean)。给定一个(f, g, S)计算每个样本sample的 loss:
(I, T)是positive pair,α是给定的margin,T^是所有的negative test,I被当作query与T
^进行了take over(?)。margin是什么,求和符号和^,S是什么
4.用双成分高斯混合模型two-component Gaussian Mixture Model拟合所有训练数据的每个样本损失per-sample loss
βk是混合系数,φ(l|k) 是第k个分量的概率密度。基于DNN的记忆效应,我们将平均值较低(loss较低)的作为clean set,其他的视为noisy set。为了优化GMM,我们使用期望最大化算法。此外我们计算后验概率wi=…作为第i个sample的clean 概率,k是平均值较低的高斯分量。给 {wi} ,i=1~N设定一个threshold,将数据分为noisy和clean subset。简单起见,整个实验的threshold=0.5。
GMM是什么?
结论:
本文解决跨模态匹配的新问题(?指数据原本就不匹配),也就是noisy correspondence(其是noisy label问题的潜在新方向)。解决方法是:用自适应预测函数(adaptive prediction function) 和新的有软边界的三重损失(a novel triplet loss with a soft margin) 来矫正noisy correspondence,达到鲁棒的跨模态匹配。
Learning with Noisy Correspondence for Cross-modal Matching个人笔记相关推荐
- Learning with Noisy Correspondence for Cross-modal Matching 文献翻译 代码简析
Learning with Noisy Correspondence for Cross-modal Matching 基于噪声对应的跨模态匹配学习 Learning with Noisy Corre ...
- 文献记录(part19)--Cross modal similarity learning with active queries
学习笔记,仅供参考,有错必纠 关键词:主动学习;跨模态相似学习;度量学习 文章目录 Cross modal similarity learning with active queries 摘要 简介 ...
- [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey
1.题目 Learning from Noisy Labels with Deep Neural Networks: A Survey 作者团队:韩国科学技术院(KAIST) Song H , Kim ...
- Learning with noisy labels总结
Learning with noisy labels总结 Deep Label Distribution Learning With Label Ambiguity Joint Optimizatio ...
- Learning with Noisy Label
Learning with Noisy Label 学习记录总结 1.1 阅读背景 1.2 理论基础类 1.2.1 paper: understanding deep learning require ...
- ICDE2020论文简析:空间众包实时交叉在线匹配 - Real Time Cross Online Matching in Spatial Crowdsourcing
ICDE2020论文简析:空间众包实时交叉在线匹配 - Real Time Cross Online Matching in Spatial Crowdsourcing 研究现状 作者贡献 概念定义 ...
- Machine Learning for Encrypted Malware Traffic Classification Accounting for...阅读笔记
Machine Learning for Encrypted Malware Traffic Classification Accounting for Noisy Lables and Non-St ...
- 论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记
论文Learning to Solve Large-Scale Security-Constrained Unit Commitment Problems阅读笔记 论文arxiv链接:Learning ...
- Deep Multimodal Learning A survey on recent advances and trends读书笔记
Deep Multimodal Learning A survey on recent advances and trends 读书笔记-YH Introduction 在介绍这一节中提出了本文的目的 ...
最新文章
- 合理规划您的硬盘分区
- 【HDOJ】3006 The Number of set
- AD在Windows Server 2003中的更新(中)
- 【C】——常用C时间库函数
- LinkedHashMap 的理解以及借助其实现LRU
- rz、sz 命令 安装(Xshell 安装)
- nginx proxy模块
- python百度百科-Python语言的发展简史
- 代码很烂,所以离职。
- (MATLAB源代码)SVM多分类
- 菩提心的修法-四无量心的具体修法
- ei指什么_SCI、EI、SSCI、CSSCI分别是指什么
- C语言基础:如何判断素数(质数)与合数
- 2019 计蒜之道 初赛 第三场 - 淘宝商品价格大PK
- 如何连接新浪sae共享数据库
- 英语语法之四大基本句式
- 中国民营500强企业爬取数据展示
- Vivado时钟之间的三种关系
- 获得Windows主机的主机序列号
- 关于如何使用C++读取.dbf文件
热门文章
- css background-size:contain与cover的区别
- python基础练习题:棋盘【难度:1级】--景越Python编程实例训练营,不同难度Python习题,适合自学Python的新手进阶
- 机器学习不神秘!手把手教你用R语言打造文本分类器
- 国产绘画AI杀疯了!画的小姐姐比真人还好看
- memcpy 函数的用法
- 程序设计基础第四版清华大学出版社任务4.2某地刑侦大队对涉及6个犯罪嫌疑人的一桩疑案进行分析
- 谈C中scanf陷阱
- 重积分 | 【拓展】格林公式、高斯公式、斯托克斯公式之间的联系
- 创建全局函数mysql_Navicat中Mysql自定义函数报错?
- 压缩感知doa matlab,基于压缩感知的DOA估计程序