Preserving Semantic Neighborhoods for RobustCross-modal Retrieval

1 Introduction

现存的的跨模态检索方法依赖于各种度量学习损失,这些损失规定了图像和文本在学习空间中的接近程度。然而,大多数先前的方法都集中在图像和文本传达冗余信息的情况下;相比之下,现实世界的图像-文本对传达的互补信息几乎没有重叠。此外,新闻文章和媒体中的图像以视觉上多样化的方式描绘主题;因此,需要特别注意以确保有意义的图像表示。本文提出了新的模态内损失,促使文本和图像子空间中的语义一致性,但是不一定与视觉一致性保持一致。本文的方法不仅确保配对的图像和文本接近,而且还观察到预期的图像-图像和文本-文本关系。与五个基线相比,本文的方法改进了四个数据集的跨模态检索结果。

如图所示。像COCO这样的标题数据集包含图像和文本重叠显著的样本(图像和文本都提到或显示相同的对象)。在这种情况下,跨模态检索意味着在两种模式中找到单一概念的表现(例如学习嵌入,使单词“香蕉”和“香蕉”的像素在学习空间中靠近)。

相比之下,现实世界的新闻文章包含了具有相同主题的图像和文本对,但显示了互补的信息(抗议标志vs关于特定事件的信息;枪支与权利讨论;彩虹旗vsLGBT权利)。虽然人类仍然可以猜出哪些图像与文本一致,但图像和文本之间的对齐是抽象的和象征性的。此外,新闻文章中的图像被孤立地显得模棱两可。

2 Method

设D={I,T}D=\{I,T\}D={I,T}为一个文本对,I={x1,x2,...,xn},T={y1,y2,...,,yn}I=\{x_1,x_2,...,x_n\},T=\{y_1,y_2,...,,y_n\}I={x1​,x2​,...,xn​},T={y1​,y2​,...,,yn​}。

在训练时,期望检索一个给定输入图像的真值对应的文本,反之亦然。一种常见的技术是Triplet Loss,它假定成对的样本应该比非成对的样本更接近彼此。设T=(xia,yip,yjn)T=(x_i^a,y_i^p,y_j^n)T=(xia​,yip​,yjn​)表示有锚点(a)(a)(a),正对(p)(p)(p),负对(n)(n)(n):

这种损失可能是跨模态检索任务中最常见的一种,但也有一些缺陷。例如,triplet loss的梯度wrt,每一点只考虑两点,而忽略了它们与第三点的关系,如:

所以Angular Loss考虑了所有三个点的角关系:

其中Ci=(xia+yip)/2C_i=(x_i^a+y_i^p)/2Ci​=(xia​+yip​)/2,为以锚点和正对的圆的中心。

这些损失的一个具有挑战性的方面是在三组中选择一个好的负项。如果负值离锚点太远,损失将变为0,没有学习发生。相反,如果负极选择得太近,模型可能难以收敛到一个合理的解决方案,因为它不断地试图移动样本,以避免与负极重叠。所以又有N-Pair Loss:

对称约束也可以添加来显式地解释双向检索,即文本到图像,通过交换图像和文本的作用来形成对称的三联体:

本文在上述工作的基础上,制定了两个损失函数来加强模态内语义局部性。第一个,Text Loss,用来强制文本投影的局部性:

同样的对于图像模态:

最后,再添加一个如式(4)的对称损失,给予权衡参数,得到:

3 Conclusion

由图所示,将此损失施加在PVSE模型上进行跨模态检索,效果相比之前有略微提升,如果通过调参可能能得到更好的收益。本损失可以作为一个基本模块加入框架之中,增加框架的完备性。但迁移到哈希模态的实验还没有进行,准备下周开始编写代码实验。

Preserving Semantic Neighborhoods for RobustCross-modal Retrieval相关推荐

  1. 【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

    Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录 管道 语义模型 1.召回 形式化 1.0 Inde ...

  2. Semantic Models for the First-stage Retrieval(检索召回技术综述)

    Semantic Models for the First-stage Retrieval: A Comprehensive Review 今天整理一篇来自TOIS 21'的First-stage R ...

  3. Semantic UI 之 对话框 modal

    简单对话框 <!DOCTYPE html> <html lang="en"><head><meta charset="UTF-8 ...

  4. 【ECCV2020】完整论文集part2

    ECCV2020将于2020年8月23-28日在线上举行,今年共接受了1361篇论文,本文是接收论列表的第二部分,第一部见链接 Paper ID Paper Title Category 2515 T ...

  5. 语义分割CVPR2020-Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision

    Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision:基于自监督的非监督域内自 ...

  6. CVPR 2015 papers

    CVPR 2015  CVPR 2015的文章可以下载了,如果链接无法下载,可以在Google上通过搜索paper名字下载(友情提示:可以使用filetype:pdf命令). Going Deeper ...

  7. AAAI-19录用论文清单

    AAAI-19于1月27日在夏威夷召开,今年是33届会议. 会议录用论文清单, workshop16个,tutorials24个. 标题的词云分析: 作者单位词云(按作者人数计算/一篇文章可能有多个作 ...

  8. (十三:2020.08.28)CVPR 2015 追踪之论文纲要(译)

    CVPR 2020 追踪之论文纲要(修正于2020.08.27) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  9. 15.4 CVPR 2015 papers

    本贴:http://blog.csdn.net/xuyuhua1985/article/details/46662283 From:  http://www.pamitc.org/cvpr15/pro ...

最新文章

  1. 有关采用SMIv2 Internet协议的SNMPv2 MIB
  2. Intellij idea 14 创建简单的Web项目
  3. 记录一次postfix无法收取邮件和mysql异常不能启动
  4. Hybrid框架UI重构之路:一、师其长技以自强
  5. elementUI响应式布局@media:基于断点的隐藏类
  6. Kafka基础系列第1讲:Kafka的诞生背景及应用
  7. ttl是什么意思啊_解读:单反和微单的区别是什么?摄影新手应该如何选择?
  8. 以太坊POA共识机制Clique源码分析
  9. 乳腺癌检测_逻辑回归
  10. vue2.0click点击事件修饰符stop阻止单击事件冒泡prevent阻止默认事件
  11. Linux学习笔记:REHL AS4的上网配置,Http服务安装及配置,ftp服务的安装及配置
  12. 谁先看到苏神咬人? 世界杯直播背后的云
  13. idea 安装jrebel6.4.3及破解
  14. gis怎么提取水系_利用ArcGIS水文分析工具提取河网
  15. C语言实现99乘法表
  16. 电路matlab仿真,matlab电路仿真.doc
  17. KB、kb和MB、mb有什么区别
  18. pdf加页码java_Java 添加页码到PDF文档
  19. linux命令报错,在Linux执行命令报错”Arg list too long”的原因分析 – 运维派
  20. 拼多多显示服务器有点问题,拼多多为什么登录不上 登录不上解决方法

热门文章

  1. 【色彩管理】HSB色彩模式详解
  2. 规格中的OR\DR\DS\RR\IR\PB\SF\SR\AR\CR
  3. UED、UCD、UE、UI、交互设计这 5 个名词有哪些区别?
  4. 继承、super、this、抽象类
  5. C语言:goto循环语句
  6. JVM之 方法区、永久代(PermGen space)、元空间(Metaspace)三者的区别
  7. 微信公众号(注册申请)
  8. 卷积神经网络残差计算
  9. C语言——函数的声明
  10. Android模拟器的ip获取以及模拟器之间socket通信