Preserving Semantic Neighborhoods for RobustCross-modal Retrieval
Preserving Semantic Neighborhoods for RobustCross-modal Retrieval
1 Introduction
现存的的跨模态检索方法依赖于各种度量学习损失,这些损失规定了图像和文本在学习空间中的接近程度。然而,大多数先前的方法都集中在图像和文本传达冗余信息的情况下;相比之下,现实世界的图像-文本对传达的互补信息几乎没有重叠。此外,新闻文章和媒体中的图像以视觉上多样化的方式描绘主题;因此,需要特别注意以确保有意义的图像表示。本文提出了新的模态内损失,促使文本和图像子空间中的语义一致性,但是不一定与视觉一致性保持一致。本文的方法不仅确保配对的图像和文本接近,而且还观察到预期的图像-图像和文本-文本关系。与五个基线相比,本文的方法改进了四个数据集的跨模态检索结果。
如图所示。像COCO这样的标题数据集包含图像和文本重叠显著的样本(图像和文本都提到或显示相同的对象)。在这种情况下,跨模态检索意味着在两种模式中找到单一概念的表现(例如学习嵌入,使单词“香蕉”和“香蕉”的像素在学习空间中靠近)。
相比之下,现实世界的新闻文章包含了具有相同主题的图像和文本对,但显示了互补的信息(抗议标志vs关于特定事件的信息;枪支与权利讨论;彩虹旗vsLGBT权利)。虽然人类仍然可以猜出哪些图像与文本一致,但图像和文本之间的对齐是抽象的和象征性的。此外,新闻文章中的图像被孤立地显得模棱两可。
2 Method
设D={I,T}D=\{I,T\}D={I,T}为一个文本对,I={x1,x2,...,xn},T={y1,y2,...,,yn}I=\{x_1,x_2,...,x_n\},T=\{y_1,y_2,...,,y_n\}I={x1,x2,...,xn},T={y1,y2,...,,yn}。
在训练时,期望检索一个给定输入图像的真值对应的文本,反之亦然。一种常见的技术是Triplet Loss,它假定成对的样本应该比非成对的样本更接近彼此。设T=(xia,yip,yjn)T=(x_i^a,y_i^p,y_j^n)T=(xia,yip,yjn)表示有锚点(a)(a)(a),正对(p)(p)(p),负对(n)(n)(n):
这种损失可能是跨模态检索任务中最常见的一种,但也有一些缺陷。例如,triplet loss的梯度wrt,每一点只考虑两点,而忽略了它们与第三点的关系,如:
所以Angular Loss考虑了所有三个点的角关系:
其中Ci=(xia+yip)/2C_i=(x_i^a+y_i^p)/2Ci=(xia+yip)/2,为以锚点和正对的圆的中心。
这些损失的一个具有挑战性的方面是在三组中选择一个好的负项。如果负值离锚点太远,损失将变为0,没有学习发生。相反,如果负极选择得太近,模型可能难以收敛到一个合理的解决方案,因为它不断地试图移动样本,以避免与负极重叠。所以又有N-Pair Loss:
对称约束也可以添加来显式地解释双向检索,即文本到图像,通过交换图像和文本的作用来形成对称的三联体:
本文在上述工作的基础上,制定了两个损失函数来加强模态内语义局部性。第一个,Text Loss,用来强制文本投影的局部性:
同样的对于图像模态:
最后,再添加一个如式(4)的对称损失,给予权衡参数,得到:
3 Conclusion
由图所示,将此损失施加在PVSE模型上进行跨模态检索,效果相比之前有略微提升,如果通过调参可能能得到更好的收益。本损失可以作为一个基本模块加入框架之中,增加框架的完备性。但迁移到哈希模态的实验还没有进行,准备下周开始编写代码实验。
Preserving Semantic Neighborhoods for RobustCross-modal Retrieval相关推荐
- 【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review
Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录 管道 语义模型 1.召回 形式化 1.0 Inde ...
- Semantic Models for the First-stage Retrieval(检索召回技术综述)
Semantic Models for the First-stage Retrieval: A Comprehensive Review 今天整理一篇来自TOIS 21'的First-stage R ...
- Semantic UI 之 对话框 modal
简单对话框 <!DOCTYPE html> <html lang="en"><head><meta charset="UTF-8 ...
- 【ECCV2020】完整论文集part2
ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第二部分,第一部见链接 Paper ID Paper Title Category 2515 T ...
- 语义分割CVPR2020-Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision
Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision:基于自监督的非监督域内自 ...
- CVPR 2015 papers
CVPR 2015 CVPR 2015的文章可以下载了,如果链接无法下载,可以在Google上通过搜索paper名字下载(友情提示:可以使用filetype:pdf命令). Going Deeper ...
- AAAI-19录用论文清单
AAAI-19于1月27日在夏威夷召开,今年是33届会议. 会议录用论文清单, workshop16个,tutorials24个. 标题的词云分析: 作者单位词云(按作者人数计算/一篇文章可能有多个作 ...
- (十三:2020.08.28)CVPR 2015 追踪之论文纲要(译)
CVPR 2020 追踪之论文纲要(修正于2020.08.27) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
- 15.4 CVPR 2015 papers
本贴:http://blog.csdn.net/xuyuhua1985/article/details/46662283 From: http://www.pamitc.org/cvpr15/pro ...
最新文章
- 有关采用SMIv2 Internet协议的SNMPv2 MIB
- Intellij idea 14 创建简单的Web项目
- 记录一次postfix无法收取邮件和mysql异常不能启动
- Hybrid框架UI重构之路:一、师其长技以自强
- elementUI响应式布局@media:基于断点的隐藏类
- Kafka基础系列第1讲:Kafka的诞生背景及应用
- ttl是什么意思啊_解读:单反和微单的区别是什么?摄影新手应该如何选择?
- 以太坊POA共识机制Clique源码分析
- 乳腺癌检测_逻辑回归
- vue2.0click点击事件修饰符stop阻止单击事件冒泡prevent阻止默认事件
- Linux学习笔记:REHL AS4的上网配置,Http服务安装及配置,ftp服务的安装及配置
- 谁先看到苏神咬人? 世界杯直播背后的云
- idea 安装jrebel6.4.3及破解
- gis怎么提取水系_利用ArcGIS水文分析工具提取河网
- C语言实现99乘法表
- 电路matlab仿真,matlab电路仿真.doc
- KB、kb和MB、mb有什么区别
- pdf加页码java_Java 添加页码到PDF文档
- linux命令报错,在Linux执行命令报错”Arg list too long”的原因分析 – 运维派
- 拼多多显示服务器有点问题,拼多多为什么登录不上 登录不上解决方法