IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval
分享上周组会paper的内容。

各位老师同学们大家下午好，今天分享的这篇文章是CVPR上跨模态检索领域的一篇文章，文章的题目是基于循环注意力记忆迭代匹配算法的跨模式图文检索，这篇文章的作者是清华大学博士研究生陈辉、清华大学软件学院特聘副教授丁贵广等人，可能在有些地方理解不到位欢迎大家及时批评指正。

下面主要从背景、存在挑战及主要贡献、模型架构、实验部分、总结几个方面来展开讲述。

首先来看一下第一方面背景（读ppt），左下这个图是一种粗粒度匹配方法，大致来说对输入的图像文本使用CNN分别提取图片特征和句子特征，然后将图片信息和句子信息嵌入到一个共享空间来进行相似度的度量，这种方式虽然简单有效但是只是粗略地获取视觉和文本信息，没有充分挖掘到细粒度的视觉信息和文本信息。而细粒度匹配方法能够深度挖掘细粒度视觉信息和文本信息，使得模型的学习能力更加强大，右下这个图是一种细粒度的匹配方法，它使用一个叠加交叉注意机制模型，为每个区域图像计算最相关的文本信息，来实现图像区域和单词之间的关联，但是这些方法仍有改进空间。

我们再来看第二方面存在挑战，（读ppt）在实际生活中，当人们在图像和文本之间进行匹配观察模态特征时，我们通常会在第一眼看到的一般是低级语义概念，然后，通过不断地观察图像和文本，进一步挖掘高层语义，以获得更好的理解，从观察图片角度举例，例如给一幅图片我们通常先看到人、小狗、自行车这些对象，然后再不断观察后进一步挖掘它们之间的一些属性和关系，进一步观察后我们发现人牵着小狗、人坐在自行车上，对于人们理解文本也是这样，基于这个启发本文做了以下贡献。

第四方面是模型的整体架构，这是本文的整体架构图，主要分为图像嵌入模块、文本嵌入模块和3个循环注意力记忆模块（RAM），其中，每一个循环注意力记忆模块（RAM）包括一个跨模态注意力单元（CAU）和一个记忆蒸馏单元（MDU）。本文反复使用循环注意力记忆模块（RAM）来实现跨模态图像文本检索的迭代匹配。这个图可以看出来反复使用了3次循环注意力记忆模块，下面将一一讲解每个模块详细内容。我们先看架构的第一部分。

(读ppt) 然后解释一下这部分的公式左边在第一个公式中是每个单词嵌入向量

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval相关推荐

【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval
Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval 介绍模型跨膜态特征表 ...
Recurrent Attention Network on Memory for Aspect Sentiment Analysis
文章目录前提 Motivation 方法概述方法详述 Input Embedding BLSTM for Memory Building Position-Weighted Memory Recu ...
语义分割--End-to-End Instance Segmentation with Recurrent Attention
End-to-End Instance Segmentation with Recurrent Attention CVPR2017 https://github.com/renmengye/rec- ...
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation 大致流程 1.Matching:在目 ...
STAMP: Short-Term Attention:Memory Priority Model for Session-based Recommendation简介
STAMP: Short-Term Attention/Memory Priority Model for Session-based Recommendation 介绍作者提出lstm虽然能很好的 ...
注意力机制——Recurrent Attention Model（RAM）
Recurrent Attention Model(RAM)是一种基于神经网络的注意力模型,用于处理可变大小和方向的图像.RAM旨在模仿人类视觉系统的注意力机制,即在不同的时间点将视线聚焦于图像的不同 ...
Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记
本文提出了一种视频故事问答(QA)体系结构MDAM,关键的思想是使用双重注意机制与后期融合.MDAM首先使用self - attention来学习场景帧和字幕中的潜在概念.然后根据给出的问题,使用第二 ...
Learning with Noisy Correspondence for Cross-modal Matching 文献翻译代码简析
Learning with Noisy Correspondence for Cross-modal Matching 基于噪声对应的跨模态匹配学习 Learning with Noisy Corre ...
跨模态检索论文阅读：IMRAM
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval IMRAM ...
文献阅读-用于图文检索的跨模态信息交互推理网络
DOI:10.3778/j.issn.1002-8331.2205-0056 引用格式: 魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J/OL].计算机工程与应用. https://kns. ...

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval相关推荐

最新文章

热门文章