IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

IMRAM: 基于循环注意记忆的迭代匹配跨模态图像-文本检索[Submitted on 8 Mar 2020]

概述

现有的方法利用注意力机制以细粒度的方式探索视觉和语言之间对应关系。然而,它们中的大多数都平等地考虑所有语义,从而统一地对齐它们,而不管它们的复杂性如何。事实上,语义是多样的(即涉及不同种类的语义概念),人类通常遵循一种潜在的结构将它们组合成可理解的语言。现有的方法很难以最佳方式捕获如此复杂的对应关系。

本文为了解决这一缺陷,提出了一种基于循环注意记忆网络的迭代匹配与循环注意记忆(IMRAM)方法,以渐进的方式探索图像和文本之间的细粒度对应关系,具有两个特点:(1)具有跨模态注意单元的迭代匹配方案,以对齐来自不同模态的片段,(2)记忆蒸馏单元用于将对齐知识从早期步骤细化到后续步骤。在Flickr8K、Flickr30K和MS COCO三个基准数据集以及一个用于实际商业广告场景的新数据集(即KW AI-AD)达到SOTA。

迭代匹配方案可以逐步更新跨模态注意核,积累线索以定位匹配语义,而记忆蒸馏单元可以通过增强跨模态信息的交互性来细化潜在对应。利用这两个特性,可以分布式地处理不同类型的语义,并在不同的匹配步骤中很好地捕获语义。

方法

跨模态特征表示

图片表示:本文采用了一个预训练的深度CNN,例如Faster R-CNN。具体来说,给定一个图像I,一个CNN检测图像区域并为每个图像区域ri提取一个特征向量fi。我们进一步通过线性投影将fi转化为d维的向量vi,如下所示

其中Wv和bv是待学习的参数。
为了简单起见,我们将图像表示为V = {vi|i = 1, …, m, vi ∈Rd},其中m是I中检测到的区域数量。
文本表示:基本上,文本可以用句子级或单词级来表示。为了实现视觉和语言的精细连接,我们提取文本的词级特征,这可以通过一个双向的GRU作为编码器来完成。

RAM:循环注意记忆(Recurrent Attention Memory)

循环注意记忆的目的是通过循环提炼之前片段对齐的知识,来对齐嵌入空间中的片段。它可以看作是一个块,它吸收了两组特征点,即V和T,并通过跨模态注意单元估计这两组特征点之间的相似性。使用记忆蒸馏单元对注意结果进行精化,为下一步对准提供更多的知识。
跨模态注意单元(CAU)。目的是为X中的每个特征xi总结Y中的上下文信息。为了实现这一目标,我们首先使用余弦函数计算每对(xi, yj)之间的相似性:其中relu(x)=max(0, x)

记忆蒸馏装置(MDU)。为了为下一次对齐改进对齐知识,我们采用内存蒸馏单元,通过动态地将查询特征X与相应的X-grounded对齐特征Cx聚合来更新查询特征X

实验

实验结果表明,本方法在跨模态图像文本检索中具有很好的效果。不仅能在小数据集Flickr8K和Flickr30K中始终如一地达到最先进的性能,而且在大规模数据集MS COCO中也能很好地证明其鲁棒性。

结论

本文提出了一种基于循环注意记忆网络(Recurrent Attention Memory network, IMRAM)的迭代匹配方法,用于跨模态图像-文本检索,以处理语义的复杂性。IMRAM可以以渐进的方式探索图像和文本之间的对应关系,具有两个特点:(1)具有跨模态注意单元的迭代匹配方案,以对齐来自不同模态的片段;(2)记忆蒸馏单元,将知识从早期步骤细化到后期步骤。我们在三个基准(即Flickr8K, Flickr30K和MS COCO)以及一个用于实际商业广告场景的新数据集(即KW AI-AD)上验证了我们的模型。在所有数据集上的实验结果表明,我们的IMRAM始终优于比较方法,并达到了最先进的性能。

推荐阅读:
CVPR2020跨模态检索-IMRAM
IMRAM:跨模态图像-文本检索的迭代匹配与递归注意力机制

跨模态检索论文阅读:IMRAM相关推荐

  1. 跨模态检索论文阅读:Context-Aware Attention Network for Image-Text Retrieval

    Context-Aware Attention Network for Image-Text Retrieval基于上下文感知的图文检索注意网络 Motivation: 以前的方法没有考虑到单模态中模 ...

  2. 论文笔记--跨模态检索研究综述-2018

    论文信息: 期刊论文-跨媒体检索研究综述-2018-欧卫华 文末部分参考文献附有论文下载链接,并提供了本论文下载地址 转载本文请添加以下引用: 作者:lingpy 本文链接:https://blog. ...

  3. CVPR论文 | 所见所想所找:基于生成模型的跨模态检索

    [小叽导读]:视觉-文本跨模态检索已经成为计算机视觉和自然语言处理领域结合的一个热点.对于跨模态检索而言,如何学到合适的特征表达非常关键.本文提出了一种基于生成模型的跨模态检索方法,该方法可以学习跨模 ...

  4. 文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法

    引用格式:翟一琛,顾佼佼,宗富强,姜文志.融合注意力机制的 IETM 细粒度跨模态 检索算法[J/OL].系统工程与电子技术. https://kns.cnki.net/kcms/detail/11. ...

  5. ACM MM18 | 用于跨模态检索的综合距离保持自编码器

    作者丨黄澄楷 研究方向丨多媒体信息检索/内容理解 本文是发表在 MM18 上的一篇跨模态检索文章,作者提出了一种采用综合保持距离的自编码器(CDPAE)的新颖方法,用以解决无监督的跨模态检索任务. 之 ...

  6. 破局传统算法痛点,腾讯安全首提基于跨模态检索的二进制代码-源代码匹配

    整理 | 高卫华 出品 | AI科技大本营 头图 | CSDN付费下载自视觉中国 近日,在NeurIPS 2020正式发布的论文入选名单中,腾讯安全科恩实验室聚焦解决二进制安全问题的<CodeC ...

  7. Cross-modal Retrieval(跨模态检索)

    前一篇文章整理了多模态融合Multimodal Fusion,最近看到一篇很好的跨模态检索的文章,这篇博客就来整理几篇博主认为idea还不错的跨模态检索.另,如果有其他idea很好的跨模态论文,希望你 ...

  8. 跨模态检索Triplet Fusion Network Hashing for Unpaired Cross-Modal Retrieval

    本文介绍一下我之前的一个跨模态检索的工作,Triplet Fusion Network Hashing for Unpaired Cross-Modal Retrieval,论文被ACM ICMR20 ...

  9. 淘宝视频的跨模态检索

    针对上述技术挑战,本文的算法模型设计结合图神经网络GraphSAGE[15]的双塔检索框架,该框架的优点: 通过图网络构建缓解训练样本稀疏和均衡问题.样本1和样本2有点击Pairs标签,样本3和样本2 ...

最新文章

  1. python dict遍历性能,Python:遍历list vs over dict items效率
  2. 这几个juniper巡检命令超实用
  3. 华东交通大学2017年ACM双基程序设计大赛题解
  4. Javascript 处理 JSON 数据 示例
  5. 保利管道微服务1_.netcore 3.1高性能微服务架构:webapi规范
  6. 如何在 Gitee 上使用 GPG
  7. ubuntu 13.04 web开发从零配置到全装备手记(环境搭建全攻略)
  8. 嵌入式学习二:怎么学习Linux操作系统
  9. 鹏城实验室支持建设的OpenI启智社区荣登2021“科创中国”开源创新榜
  10. sop流程图模板_SOP模板
  11. 【bzoj 4554】【Tjoi2016Heoi2016】【NOIP2016模拟7.12】游戏
  12. QNX Hypervisor —— 虚拟设备
  13. php实例-微信第三方登录
  14. 【6G】基于 Dyncast 的算力网络架构
  15. 【学习笔记】山东大学生物信息学-01 生物数据库
  16. WIFI模块接入ONENET步骤
  17. 如何成为一名优秀的程序员(一)
  18. 六顶思考帽(edward de bono)
  19. 周末乐一个,转个无节操的活动
  20. python情绪分析的意义_如何用Python和R对故事情节做情绪分析?

热门文章

  1. css 填满剩余高度
  2. 未来数据库发展方向?
  3. HttpClient设置超时时间无效
  4. 内销djyp3v计算机电缆,计算机电缆产品DJYP3V DJYP2VP2天联牌屏蔽电缆
  5. 考研计算机哪个专业好考,2021考研择校:想跨专业考研,哪些专业比如好考?...
  6. 横向领导力--成长有感
  7. 阿里开源项目LowCodeEngine低代码开发引擎
  8. 某程序员转行前的感慨nbsp;告别程序员…
  9. shell中单引号、双引号与反引号的区别(学习笔记,摘抄版)
  10. 计算机技术三大支柱,信息技术三大支柱常见七大传感器全解