IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval
分享上周组会paper的内容。

各位老师同学们大家下午好,今天分享的这篇文章是CVPR上跨模态检索领域的一篇文章,文章的题目是基于循环注意力记忆迭代匹配算法的跨模式图文检索,这篇文章的作者是清华大学博士研究生陈辉、清华大学软件学院特聘副教授丁贵广等人,可能在有些地方理解不到位欢迎大家及时批评指正。


下面主要从背景、存在挑战及主要贡献、模型架构、实验部分、总结几个方面来展开讲述。

首先来看一下第一方面背景(读ppt),左下这个图是一种粗粒度匹配方法,大致来说对输入的图像文本使用CNN分别提取图片特征和句子特征,然后将图片信息和句子信息嵌入到一个共享空间来进行相似度的度量,这种方式虽然简单有效但是只是粗略地获取视觉和文本信息,没有充分挖掘到细粒度的视觉信息和文本信息。而细粒度匹配方法能够深度挖掘细粒度视觉信息和文本信息,使得模型的学习能力更加强大,右下这个图是一种细粒度的匹配方法,它使用一个叠加交叉注意机制模型,为每个区域图像计算最相关的文本信息,来实现图像区域和单词之间的关联,但是这些方法仍有改进空间。


我们再来看第二方面 存在挑战,(读ppt) 在实际生活中,当人们在图像和文本之间进行匹配观察模态特征时,我们通常会在第一眼看到的一般是低级语义概念,然后,通过不断地观察图像和文本,进一步挖掘高层语义,以获得更好的理解,从观察图片角度举例,例如给一幅图片我们通常先看到人、小狗、自行车这些对象,然后再不断观察后进一步挖掘它们之间的一些属性和关系,进一步观察后我们发现人牵着小狗、人坐在自行车上,对于人们理解文本也是这样,基于这个启发本文做了以下贡献。



第四方面是模型的整体架构,这是本文的整体架构图,主要分为图像嵌入模块、文本嵌入模块和3个循环注意力记忆模块(RAM),其中,每一个循环注意力记忆模块(RAM)包括一个跨模态注意力单元(CAU)和一个记忆蒸馏单元(MDU)。本文反复使用循环注意力记忆模块(RAM)来实现跨模态图像文本检索的迭代匹配。这个图可以看出来反复使用了3次循环注意力记忆模块,下面将一一讲解每个模块详细内容。我们先看架构的第一部分。



(读ppt) 然后解释一下这部分的公式 左边在第一个公式中是每个单词嵌入向量

IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval相关推荐

  1. 【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

    Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval 介绍 模型 跨膜态特征表 ...

  2. Recurrent Attention Network on Memory for Aspect Sentiment Analysis

    文章目录 前提 Motivation 方法概述 方法详述 Input Embedding BLSTM for Memory Building Position-Weighted Memory Recu ...

  3. 语义分割--End-to-End Instance Segmentation with Recurrent Attention

    End-to-End Instance Segmentation with Recurrent Attention CVPR2017 https://github.com/renmengye/rec- ...

  4. IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation

    IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation 大致流程 1.Matching:在目 ...

  5. STAMP: Short-Term Attention:Memory Priority Model for Session-based Recommendation简介

    STAMP: Short-Term Attention/Memory Priority Model for Session-based Recommendation 介绍 作者提出lstm虽然能很好的 ...

  6. 注意力机制——Recurrent Attention Model(RAM)

    Recurrent Attention Model(RAM)是一种基于神经网络的注意力模型,用于处理可变大小和方向的图像.RAM旨在模仿人类视觉系统的注意力机制,即在不同的时间点将视线聚焦于图像的不同 ...

  7. Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记

    本文提出了一种视频故事问答(QA)体系结构MDAM,关键的思想是使用双重注意机制与后期融合.MDAM首先使用self - attention来学习场景帧和字幕中的潜在概念.然后根据给出的问题,使用第二 ...

  8. Learning with Noisy Correspondence for Cross-modal Matching 文献翻译 代码简析

    Learning with Noisy Correspondence for Cross-modal Matching 基于噪声对应的跨模态匹配学习 Learning with Noisy Corre ...

  9. 跨模态检索论文阅读:IMRAM

    IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval IMRAM ...

  10. 文献阅读-用于图文检索的跨模态信息交互推理网络

    DOI:10.3778/j.issn.1002-8331.2205-0056 引用格式: 魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J/OL].计算机工程 与应用. https://kns. ...

最新文章

  1. node--非阻塞式I/O,单线程,异步,事件驱动
  2. android跨进程读写内存,Android 跨进程内存泄露
  3. 现在要吃软饭的,都这么明目张胆了吗?
  4. 以太坊java接口_java以太坊库web3j文档
  5. Python数据分析库pandas高级接口dt和str的使用
  6. python编写接口自动化脚本_简单的python http接口自动化脚本
  7. 【安装包】apache-tomcat-8.5.45-windows-x64
  8. 《模拟电子技术基础》课程笔记(一)——绪论
  9. 新建一个grub软盘镜像
  10. 向量空间 内积空间 欧氏空间 希尔伯特空间
  11. 练习一: 提示:emp员工表(empno员工号/ename员工姓名/job工作/mgr上级编号/hiredate受雇日期/sal薪金/comm佣金/deptno所属部门编号) dept部门
  12. 使用WinDbg搭建edk2 DEBUG环境
  13. USA gov data from Bitly
  14. Topic 15. 临床预测模型之决策曲线 (DCA)
  15. 关于在多重积分以及曲线曲面积分中对称性的应用
  16. 水星路由服务器无信号,水星路由器MW326R没有WiFi信号了怎么回事?【图解】
  17. css特效实现透明渐变
  18. chrome vue 未响应_vue兼容低版本chrome
  19. Java算法---发工资
  20. 关于医学和计算机的论文,计算机医学管理论文

热门文章

  1. python画机器猫
  2. Node.js实战(Node.js in Action)书中的代码实现
  3. 有限域(3)——多项式环的商环构造有限域
  4. 只有加法也能做深度学习,北大、华为等提出AdderNet,性能不输传统CNN
  5. OC 中 覆盖属性会有提示Auto property synthesis will not synthesize property 'delegate'
  6. 使用周期一致的对抗网络进行不成对的图像到图像转换
  7. Excel中Mac和Windows对绝对和相对引用的快速切换方式
  8. 【转】韩寒:跳出棋盘的棋子
  9. java共享充电宝管理系统演示录像2021计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  10. HTML5 小组 北京站 沙龙