DOI:10.3778/j.issn.1002-8331.2205-0056
引用格式: 魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J/OL].计算机工程 与应用. https://kns.cnki.net/kcms/detail/11.2127.TP.20220713.1904.016.html

期刊:Computer Engineering and Applications 计算机工程与应用
本文选自

 摘 要:针对跨模态检索任务中图像与文本模态的语义特征复杂度不一致问题,提出了一种局部细粒度对齐 与全局特征推理相结合的图文匹配方法。首先将图像和文本特征输入自适应交叉注意网络,该网络在交叉注 意机制内设置门控单元,利用文本(图像)模态中的相关语义特征,自适应地引导图像(文本)模态的交叉 注意。突出关键的局部对齐特征的同时及时高效地过滤掉冗余的交互信息,从而实现更精准的细粒度对齐。 然后利用自适应交叉注意网络输出的包含文本(图像)引导信息的特征,在全局推理网络中逐步合成图像(文 本)全局对齐特征。不仅利用这些特征之间的长短期记忆关系灵活地将细粒度对齐特征融合为全局特征,并且在迭代更新当前全局特征时能够根据跨模态交互信息加深对整体潜在语义信息的理解。最后采用交叉熵损 失函数训练整个模型。提出的模型在公开数据集 MS COCO 和 Flickr 30k 上进行一系列实验,利用 Recall@K 指标对比实验结果,证明该模型优于目前的先进模型。

关键词:跨模态图文检索;交叉注意力;关系推理;多模态交互

创新点:

  1. 提出了一种用于图文检索的交互信息推理网络,该网络在局部特征和全局特征层面都 利用了来自另一模态的引导特征,并且进行自适应的 过滤筛选,实现了更精准的跨模态语义信息的对齐和 融合
  2. 提出了能够融合不同模态信息的自适应交叉注意模块,在用文本(图像)引导图像(文本)的 关注时灵活地选择联合语义中的关键信息,实现更高 效的交叉注意,获得融合文本(图像)关键交互信息 的图像(文本)增强特征
  3. 提出了一种结合跨模态交互信息的全局推理模块。基于更新门控和记忆机制的思想,将融合文本(图像)关键交互信息的图像 (文本)增强特征作为全局推理的输入,迭代更新全 局语义特征,使其凸显关键语义信息,在细粒度对齐 的基础上实现更精准的全局对齐

0. 引言

图像-文本检索是指根据给定的图像或文本,检 索到与之相匹配的文本或图像。在不同模态信息的理 解和匹配的应用场景中发挥着重要的作用,例如医学、 军事、教育等领域。

  • 传统跨模态检索方法

传统的跨模态检索的实值表示技术通常需要学习一个能够度量图像和文本之间距离的公共子空间,使得成对的特征之间的距离最小化,而 不匹配的特征之间的距离最大化。

文献[4]对学习到的图像和文本特征进行标签预测,结构保持和模态分类,不仅保证最小化来自不同模态的所有语义相似项的表示之间的距离,并且能够区分来自不同模态的特 征。为了弥补跨模态异质性鸿沟,将视觉语义嵌入改 进为更紧凑的表示[5],从而更有效地计算跨模态相似度。

[4]Wang B, Yang Y, Xu X, et al. Adversarial Cross-Modal Retrieval[C]//Proceedings of the the 2017 ACM, 2017.

[5]Faghri F, Fleet D J, Kiros J R, et al. Vse++: Improving visual-semantic embeddings with hard negatives[J]. arXiv preprint arXiv:05612, 2017.

但是由于不同模态之间存在巨大的异质差异,如何在公共子空间中准确度量特征之间的相似度成为了 目前研究的热点问题

传统跨模态图文检索的研究热点

  • 深度学习上的研究

近几年,深度学习在图像-文本跨模态检索上取得了很大的进展。

文献[6]提出用图像(文本)特征生成近 似真实的文本(图像),在排序损失的基础上加入了分 类损失和对抗损失

[6]Gu J, Cai J, Joty S, et al. Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

文献[7]针对车联网(IoV)中涌现 的大量不同模态数据,提出利用注意力机制和对抗网 络弥补跨模态语义特征之间的异构差距。

[7]Common Semantic Representation Method Based on Object Attention and Adversarial Learning for Cross-Modal Data in IoV

文献[8]设计了 一种双向网络结构,实现两种模态之间相互转换,并 选择中间层特征,使得相似度最高。

[8]Eisenschtat A, Wolf L. Linking Image and Text with 2-Way Nets[C]//Proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

缺点:然而这些方法没有充分地利用上下文信息,在度量两种模态相似程度时较难关注到显著特征之间的对齐。 

  • 注意力机制的研究

随着注意力机制研究的进展,基于注意力的跨模态检索技术可以根据上下文选择显著特征,进而更有效地实现模态间信息交互。

文献[11]设计两个子网络分别用来提取图像特征和文本特征,利用多头自注意力机制提取每种模态的显著特征,度量显著特征之间 的距离,避免具有歧义的潜在语义信息之间的匹配。

[11]Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval

文献[12]设计了一种互补注意力机制,包含了关注特征 和非关注特征。

[12]Cross-media search method based on complementary attention and generative adversarial network for social networks

文献[13]利用 transformer 的编码层(TE) 思想,将图像和文本通过堆叠的 TE 层独立地进行编 码,同时在 TE 层中加入两个线性投影层使得图像和 文本特征投影至相同纬度的特征空间。

[13]Fine-grained visual textual alignment for cross-modal retrieval using transformer encoders

以上论文存在的问题:虽然这些注意力机制能够有效地捕捉到不同模态中的关键语义信息, 但是独立地嵌入不同模态的特征并不能在模态间进行有效地交互。

文献[14]模仿人类交替关注图像区域和文本单词能够选择出最显著的信息,并通过融入来自另 一种模态的交互信息实现细粒度匹配。

[14]Wang Z, Liu X, Li H, et al. Camp: Cross-modal adaptive message passing for text-image retrieval [C]//Proceedings of the Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR), 2019.

上述方法已经在跨模态检索领域取得了显著成就。

缺点:然而这些方法通常在两种模态之间执行交叉注意,再对显著特征进行过滤和融合,容易过多地关注次优特征和冗余信息,产生不必要的计算代价。并且融合全局特征时缺乏跨模态深层语义信息之间的交互,对 于不同模态之间整体语义概念的理解和对齐仍然存在不足。

  • 针对以上问题,此论文提出的方法

提出了一种用于图文检索的跨 模态信息交互推理方法。

该方法首先在交叉注意机制 中加入门控单元,以自适应地筛选有意义的细粒度对齐特征,高效地实现局部特征对齐。

然后对这些显著对齐特征进行全局关系推理,相比于在模态内部对局部特征迭代更新,在全局推理时利用包含另一种模态 引导信息的特征作为输入能够弥补两种模态全局表示 之间语义鸿沟,加深对整体语义信息的理解,从而更 准确地对齐全局特征。

1. 相关工作

1.1 图像-文本匹配

图文检索任务实质上是探索图像到文本或文本到图像的潜在语义和整体概念的匹配,通常分为基于全局语义的粗粒度匹配和基于局部语义的细粒度匹配

前者学习度量两种模态相似度的嵌入空间。

后者学习两种模态局部特征的细粒度匹配,在全局匹配的基础上考虑了局部特征的对齐。

  • 基于全局语义的粗粒度匹配

文献[18]提 出一种具有多层线性投影的双分支神经网络用于嵌入 图像和文本特征,并以大边距目标进行训练。这种学 习图像和文本联合嵌入的方法在双分支嵌入的基础上 保持了深层嵌入结构,并大大减少了计算量。

[18]Wang L, Li Y, Lazebnik S. Learning deep structure-preserving image-text embeddings[C]// proceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.

后来研究人员转向用新的损失函数优化模型,如文献[19]针对 跨模态图文匹配提出了投影匹配损失和分类损失,最 小化投影的 KL 散度的同时对特征进行分类。这种针 对投影特征的匹配和分类能够学习到两种模态特征更 紧凑的表示。

[19]Zhang Y, Lu H. Deep cross-modal projection learning for image-text matching[C]//proceedings of the Proceedings of the European conference on computer vision (ECCV), 2018.

  • 基于局部语义的细粒度匹配

考虑到视觉特征的复杂性,VSRN 模型[20]提出了一种可以捕捉视觉关键对象和语义概念的推理方法,根据对 视觉区域关系推理对视觉对象进行语义理解,实现与 文本模态的细粒度匹配。证明了深入探索图像中复杂的语义关系能够挖掘更丰富的潜在语义信息。

[20]Li K, Zhang Y, Li K, et al. Visual semantic reasoning for image-text matching[C]//proceedings of the Proceedings of the IEEE/CVF International Con- ference on Computer Vision(ICCV), 2019.

同样地考虑到从多个视角描述图像并与文本对齐问题,文献 [21]提出了用一个自适应自我注意机制捕捉上下文信息增强文本和图像的特征表示,然后根据不同角度聚合图像区域特征,与文本进行多视角匹配。相比于只考虑图像的局部特征,关注图像局部特征之间潜在语义关系能够更精准地将图像与文本进行细粒度对齐

[21]Context-aware multi-view summarization network for image-text matching

进一步的考虑两种模态语义信息的不同复杂性,IMRAM 模型[17]在图像和文本的局部特征之间执行交叉注意, 并设置带门控的融合机制循环记忆和迭代匹配的方法 将图像和文本在多个步骤中对齐,以此来捕捉两种模态间的对应关系。

[17]Chen H, Ding G, Liu X, et al. Imram: Iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]//Proceedings of the Proceedings of the IEEE/CVF conference on computer vision and pattern recognition(CVPR), 2020.

与利用图像区域级别特征对齐不同 的是,文献[22]提出了一种将公共语义空间多级实例化 的方法,首先利用神经网络多级特征映射提取视觉和 文本的多个级别特征,分别映射到多个语义空间并计 算相似度,然后利用多级注意机制关注视觉区域,并取其最优和文本比较。

[22]Akbari H, Karaman S, Bhargava S, et al. Multi-level multimodal common semantic space for image-phrase grounding [C]//proceedings of the Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2019.

与早期的独立嵌入特征相比, 这些考虑不同模态的交互作用的方法[17, 21]能够更好地适应图文匹配任务。

存在问题:现有方法尚未高效利用细粒度对齐特征和全局对齐特征之间的关系,在精确度量不同模态语义特征相似 度方面仍存在不足。

本文解决:提出的方法不仅能够在局部层面自 适应地融合跨模态信息,并且能够在全局层面利用融合 后的跨模态交互信息加深对整体语义信息的理解。

1.2 交叉注意力机制

在深度学习领域,注意力机制被证明可以利用上下文信息捕获关键特征,而对于跨模态的各种任务, 如跨模态检索、视觉问答、字幕生成等,交叉注意机制可以利用不同模态的上下文信息实现关注, 从而有效地促进不同模态之间的交互

文献[26]在自注 意力机制的基础上融合了另一种模态的信息,能够有 效地捕捉不同模态之间的长期依赖关系,并且整合来 自不同模态的被关注信息用于参考图像分割。

[26]Ye L, Rochan M, Liu Z, et al. Cross-modal self- attention network for referring image segmenta- tion[C]//Proceedings of the Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2019.

文献[14] 利用图像和文本特征的亲和矩阵获取来自不同模态的 交叉关注特征,并与原始特征自适应融合。证明了交替关注不同模态的显著特征能够提升跨模态检索的准确率

[14]Wang Z, Liu X, Li H, et al. Camp: Cross-modal adaptive message passing for text-image retrieval [C]//Proceedings of the Proceedings of the IEEE/CVF International Conference on Computer Vision(CVPR), 2019.

为了交叉关注图像和文本的所有显著局部特征, 文献[27]提出了一种堆叠交叉注意用于图文匹配。首先 交叉关注图像和文本模态,得到两种模态各自被另一种模态关注的显著区域,然后确定两种模态对应局部 特征之间的相对重要性。堆叠的交叉注意机制能够学习到可对齐的完全潜在语义信息

[27]Stacked cross attention for image-text matching

/proceedings of the Proceedings of the European Conference on Computer Vision (ECCV) (2018)

K-H LeeX. ChenG. Hua

文献[28]在局部交叉 注意的基础上,学习了一种相似度的向量化表示并对 其进行推理,进一步推断全局度量和局部度量之间的关系。

[28]Diao H, Zhang Y, Ma L, et al. Similarity reasoning and filtration for image-text matching [C]// proceedings of the Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recogni- tion(CVPR), 2021.

文献[29]设计了一种新颖的交叉注意力变体,计 算两种模态中每个局部特征之间的跨模态注意分数, 得到一对可比较的简化向量。

[29]A novel attention-based aggregation function to combine vision and language

存在问题:这些方法通常利用来自另一种模态中整体上下文 信息对目标模态执行交叉注意,对于全面精确地选择 潜在语义特征仍然存在不足。

本文解决:为了提高跨模态交叉注意对显著对齐特征的选择效率,提出的方法在交叉注意机制的内部设计了一个自适应门控过滤机制,高效地剔除冗余特征,在局部层面更精准地对齐两种模态的语义特征。

1.3 全局关系推理

对于一系列彼此之间存在依赖关系的局部特征表示,如何利用这些潜在的相关语义信息作为指导推理 出全局特征成为了目前计算机视觉和自然语言处理领 域研究的热点

文献[20]在图文匹配任务中,将视觉区域作为节点,区域之间的关系作为边缘进行图卷积推理,再对增强后的节点特征通过全局推理进行整合, 得到具有关键信息的全局特征表示。

[20]Li K, Zhang Y, Li K, et al. Visual semantic reasoning for image-text matching[C]//proceedings of the Proceedings of the IEEE/CVF International Con- ference on Computer Vision(ICCV), 2019.

考虑到局部匹配 特征之间的关系,文献[30]在图像描述生成时,利用前 一时刻的注意力和全局上下文信息指导生成描述图像 语义信息的文本。

[30]基于视觉关联与上下文双 注意力的图像描述生成方法

文献[17]进一步考虑全局语义信息匹 配的重要性,使用具有循环记忆的迭代匹配网络进行 跨模态检索,并加入记忆蒸馏单元来动态聚集当前步 骤和之前步骤的所有匹配信息,使得全局特征包含了 更多潜在语义信息,从而促进相关特征之间的对齐。与之前仅考虑局部细粒度对齐相比,结合全局特征推 理能够优化图像和文本特征匹配效果。

[17]Chen H, Ding G, Liu X, et al. Imram: Iterative matching with recurrent attention memory for cross-modal image-text retrieval[C]//Proceedings of the Proceedings of the IEEE/CVF conference on computer vision and pattern recognition(CVPR), 2020.

存在问题:目前对局部特征聚合的方法通常利用交叉注意选 择的显著特征在模态内进行更新,缺乏跨模态信息之 间的交互,从而对全局语义概念的理解仍存在不足。

本文解决:针对此问题,提出利用自适应交叉注意机制输出的跨 模态交互信息,进行有记忆的全局关系推理。这不仅 能够进一步融合对整体语义起重要作用的细粒度对齐 特征,并且在对齐全局特征时进一步弥补两种模态之 间特征表示的异质性差距,增强对全局语义概念的理 解,在全局层面实现更精准的对齐。

2. 跨模态信息交互推理网络 

本章节中详细介绍了跨模态信息交互推理网络的细节部分。图像和文本局部特征的细粒度对齐能够有 效地弥补不同模态中语义特征之间的异质性鸿沟,并 且利用模态内显著特征之间长期依赖关系能够进一步 精炼全局语义特征,从而实现两种模态全局特征的对齐。所以提出利用两种模态之间的信息交互实现图像 和文本的细粒度对齐和全局语义概念匹配。

图 1 展示 了网络的整体结构,它由特定于图像模态和文本模态 的特征提取通道和两个具有相同结构的子网络构成。

这两个子网络分别用于提取融合文本信息的视觉特征 和融合视觉信息的文本特征,其体系结构包含两个模 块:(1)自适应交叉注意模块;(2)关系推理模块。

自适应交叉注意模块不仅利用模态间的上下文信息进 行交互关注,还在交叉注意的同时加入了门控机制, 在来自另一种模态的引导信息进行关注的同时减弱冗 余信息和嘈杂信息的影响。

关系推理模块中,迭代 地加入融合后的增强信息,逐步推理全局语义信息, 用最后一个隐层的输出作为全局特征表示。

最后将两 种模态全局特征匹配任务看作一个二分类问题,采用二元交叉熵损失训练整个模型。

2.1 图像和文本特征的提取及符号表示

  • 图像特征提取

  • 文本特征提取

2.2 自适应交叉注意模块

该模块使用多头交叉注意机制获得由文本(图像) 信息引导的视觉(文本)注意,然后与初始特征进行 融合获得增强视觉(文本)特征,实现跨模态信息交 互。

存在问题:由于两种模态之间可能存在不匹配的特征或者冗 余的特征,这些特征在交互时会过多地关注无意义信 息。

本文解决:所以在计算模态间的交叉注意权重时加入了门控机制,自适应地过滤掉冗余信息和嘈杂信息

为了方便叙述,下面将介绍“融合文本信息的视觉特征提取” 子网络中的自适应交叉注意模块,整体框架如图 2 所示,“融合视觉信息的文本特征提取”子网络的工作方式与之类似。

2.2.1 多头交叉注意机制

2.2.2 门控机制

图 3 详细描述了提出的门控机制,其目的是根据文本的整体信息推测出与所有图像区域的相关程度

2.2.3 模块输出

2.3 关系推理模块

问题:在跨模态全局特征匹配时,为了解决图像(文本) 全局表示缺乏与之对应的文本(图像)关键语义信息 的问题,

解决:对自适应交叉注意得到的增强后的图像(文 本)特征全局推理,利用这些特征中包含的来自另一 种模态的引导信息,在全局推理网络中动态更新当前 全局特征,凸显关键对齐信息,以此来优化用于跨模 态匹配的全局特征表示。

自适应交叉注意模块利用模态间的上下文信息进 行了细粒度对齐,关系推理模块再次利用这些细粒度 对齐特征之间的关系进行推理,建立特征之间的长期依赖关系,有记忆地筛选需要加入的信息,获得精炼 的全局特征。受视觉全局特征关系推理的启发,分别在两个模态内部对增强特征进行迭代关系推理,逐步加入交互信息整合为细化的全局特征。采用记忆单 元和忘记单元逐步建立区域特征的全局依赖关系,其 中全局特征将会在每个隐层状态中更新,最后一个隐 层状态的输出作为最终的全局特征。

2.4 损失函数

3. 实验

3.1 数据集

MS COCO:包含 123287 幅图像,每一幅图像都 带有 5 个文本注释。采用类似[20, 33]的分割方法,得到 的训练集、测试集和验证集分别含有 113287 张图像、 5000 张图像和 5000 张图像。并且采用了两种评估方 法:5 折 1K 测试图像,即取 5 次 1k 测试集的平均结 果和完整的测试集。

Flickr 30k:包含 31783 张图像,每幅图像都带有 5 条人工标注的文本。按照[20, 33]中的设置,使用含有 28000 张图像的训练集,含有 1000 张图像的验证集和 含有 1000 张图像的测试集。

3.2 评价指标

采用 recall@K 评价指标,即排名前 K 个查询结果 的正确个数与所有正确结果数的比率(召回率),其中 K取{1,5,10}。

3.3 实验细节

3.4 定量结果

表 1 展示了提出的模型(CMIIRN)在 MS COCO5k 和 1k 测试数据集上和现有先进方法的对比结果。

从整体来看CMIIRN 模型在 MS COCO 1K 数据集上的文本检索方面和与目前的先进模型效果相当,但在图像检 索方面取得了更优异的效果。

对于 SGRAF 模型,其提出了相似图推理机制,考虑了文本特征中包含的空间 信息,显著提高了文本检索效果,尤其在 R@1 达到了 79.6%。但是 CMIIRN 模型重点考虑在两种模态之间获 取共同关注的显著对齐信息,相比于 SGRAF 模型,图像检索的 R@1 结果提升了 1%。

IMRAM模型同样具有交叉注意网络和有记忆的信息融合网络,但是由于 CMIIRN 模型在交叉注意网络中设置了门控机制,能够在模态间进行信息交互时有效地过滤冗余特征,保证了在全局推理时重点关注显著对齐特征之间的潜在语义 关系。并且 IMRAM 方法在提炼用于对齐的交互信息时, 重点关注了局部特征在每一次循环中长期依赖关系。而 CMIIRN 模型采用了具有长短期记忆的全局推理网络, 能够利用每一步加入的局部特征更新全局特征表示。充分利用了所有局部特征之间的依赖关系,进而在局部对齐的基础上有效地指导全局特征匹配。所以,CMIIRN 模型在相同的基线中具有明显优势,在 MS COCO 5K 的测试结果中,与 IMRAM 相比,文本检索和图像检索 的 R@1 结果分别提升了 4.7%和 3.1%。

另外,目前图文匹配中先进的具有细粒度对齐的 CAMERA模型, 尝试从多个不同视角理解图像特征,其利用金字塔膨胀 卷积探索图像区域特征之间的相关性,显著提升了文本 检索中 R@1 的结果。但提出的 CMIIRN 模型在理解图 像潜在语义概念时加入了文本信息作为指导,并且同样 的用图像信息指导对文本语义的理解。在 MS COCO 5K 数据集中的测试结果表明,提出的模型效果相比于 CAMERA 模型,文本检索和图像检索的 R@1 结果分别 提升了 3.3%和 2.3%。

表 2 展示了 CMIIRN 模型和现有先进方法在 Flickr 30k 数据集上面的实验结果对比,该模型超过了 超过目前的基线达到了最好的性能。

与典型的具有全局推理机制的图像文本匹配的 VSRN 模型相比, CMIIRN 模型强调了对图像和文本模态中交互信息之 间的关系推理,并且通过在交叉注意机制中对冗余信 息的自适应过滤,进一步细化全局特征表示,使其突 出显著的细粒度对齐信息。结果表明,提出的 CMIIRN 模型在文本检索和图像检索的 R@1 结果中分别提升 了 9.2%和 9.8%。

SGRAF 模型同样计算的全局和局 部特征之间的对应关系,并且对相似性进行图推理和 注意过滤。与之相比,提出的 CMIIRN 模型在在文本检索和图像检索的 R@1 结果中分别提升了 1.8%和 4.3%。这是由于 CMIIRN 模型在进行跨模态交叉注意 的同时自适应的筛选显著特征和冗余特征,使获得的 交互信息更具实际意义。并且在关系推理时,不仅利 用了细粒度对齐特征与其相邻节点之间的关系,还考 虑了全局特征的依赖关系,从而能够关注到更丰富的 潜在语义信息,更有效的利用局部特征和全局特征相 互指导实现图像文本的准确匹配。

总结:以上实验结果表明,提出的方法充分并且高效地 利用跨模态交互信息以及这些信息之间的关系,更精 准地对齐显著细粒度特征与全局特征,进一步拉进查 询样本与正确结果之间的距离,在 R@1 上效果提升较 为明显。并且在全局推理中挖掘了更多可对齐的潜在 语义信息,在 R@5 和 R@10 结果中达到了较好的效果, 并且在大数据集中表现出更强的鲁棒性。 

3.5 定性结果

对于图 5 图像检索,用指定的文本查询与之相关 的图片,从左至右依次地展示了排名前五的查询结果, 其中排名第一的图片表示查询到的正确结果。对于图 6 文本检索,用指定的图像查询与之相关的文本,右 边从上到下依次地展示了排名前五的查询结果,其中 深色文本表示正确结果,浅色且带星号文本表示错误 结果。以图像检索为例,在实例一中,查询文本为“一 个女孩骑着一匹马,而一个女人似乎带领他们穿过公 园,而另外两匹马在附近的背景中行走,远处的背景 是一条街道和停放的汽车。”提出的模型准确地检索到 了关键区域(如“女孩骑着马”、“女人带领他们穿过 公园”)和背景区域(如“另外两匹行走的马”、“街道”、 “停放的汽车”)。在实例二中,虽然该模型搜索出了 与查询极度相似的前五张图片,但是对比整体语义信 息和局部关注对象,但是排名第一的查询结果显然在 与文本的细节匹配中更胜一筹。综合来看,提出的模 型能够实现细粒度匹配和整体语义关系匹配,因为其 自适应地选择了两种模态的关键信息进行交叉注意, 并且对这些局部匹配对象之间的关系进行了推理和进 一步的精准对齐。

3.6 消融实验

3.6.1 自适应交叉注意模块

为了探究提出的自适应交叉注意模块的重要性, 定义四种消融实验的方式:

(1)将自适应交叉注意模 块中的交叉注意改为模态本身的自我注意,探究跨模 态信息指导下的注意机制对实验结果的影响程度;

(2) 去除门控机制,即在不同模态之间直接执行交叉注意 和特征融合,探究自适应选择注意信息对实验结果的 影响;

(3)去除融合文本信息的视觉特征子网络中的 自适应交叉注意模块;

(4)去除融合视觉信息的文本 特征子网络中的自适应交叉注意模块。

其中(3)和(4) 用来探究自适应交叉注意模块对两个子网络做出的贡 献程度。 从表 3 中可以看出,去除交叉注意时该模型的效 果显著下降,所以融合来自不同模态中的上下文信息 相比于独立地嵌入两种模态的特征具有明显优势。并 且可以看出(3)的效果低于(4)的效果,这是因为 图像中包含更丰富的语义信息,用不同的文本特征作 为指导信息可以获得不同视角的图像语义信息,在做 匹配任务时更需要来自文本的关注来引导突出关键语 义信息。

3.6.2 关系推理模块

4. 结论

提出了一个适用于图像-文本检索任务的跨模态 信息交互推理网络,从局部细粒度对齐和全局整体对 齐两个角度进行图像和文本的匹配。使用带有门控机 制的交叉注意机制自适应地选择来自不同的模态的上下文信息进行图像和文本的细粒度匹配,即灵活地选择关注有意义的信息,忽略冗余信息,以获得两种模 态的增强特征表示。为了实现在全局语义层面的对齐, 提出在模态内部使用有指导的关系推理模块,将这些 增强特征逐步更新迭代,进一步整合为含有交互信息 的全局表征。

在公开数据集 MS COCO 和 Flickr 30k 数据集上的大量实验证明,提出的模型相对于现有方 法具有显著优越性。目前,如何将跨模态检索中的细 粒度对齐和全局对齐的有效结合以及相似度计算方面 的优化仍然是跨模态图文检索研究的热点方向。未来 将考虑在该基线模型的基础上融入多通道选择的思想, 针对不同情景灵活地进行跨模态图文检索。

文献阅读-用于图文检索的跨模态信息交互推理网络相关推荐

  1. 文献翻译和笔记--CHEF:CHEF: Cross-Modal Hierarchical Embeddings for Food Domain Retrieval(用于食物域检索的跨模态分层嵌入)

     文献下载地址:CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval| Proceedings of the AAAI ...

  2. 跨进程信息交互真个费事。

    大半夜的,把进程间通信的六种方法复习了一下 感觉..... 自定义消息,局限性比较大,而且需要一个窗口,最重要的,它是基于消息的...且回执费事 内存文件映射,很好用,但是同步上有那么一点点问题 命名 ...

  3. 文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法

    引用格式:翟一琛,顾佼佼,宗富强,姜文志.融合注意力机制的 IETM 细粒度跨模态 检索算法[J/OL].系统工程与电子技术. https://kns.cnki.net/kcms/detail/11. ...

  4. 跨模态检索论文阅读:Context-Aware Attention Network for Image-Text Retrieval

    Context-Aware Attention Network for Image-Text Retrieval基于上下文感知的图文检索注意网络 Motivation: 以前的方法没有考虑到单模态中模 ...

  5. 跨模态检索论文阅读:IMRAM

    IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval IMRAM ...

  6. 从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA

    ©作者 | 奇虎360人工智能研究院.清华大学 来源 | 机器之心 对于中文社区来说,本文提出的大规模跨模态基准数据集无疑很有价值. 视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系. ...

  7. 跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

    作者:熊兮.欢夏.章捷.临在 导读 多模态内容(例如图像.文本.语音.视频等)在互联网上的爆炸性增长推动了各种跨模态模型的研究与发展,支持了多种跨模态内容理解任务.在这些跨模态模型中,CLIP(Con ...

  8. 跨模态学习能力再升级,EasyNLP 电商文图检索效果刷新 SOTA

    导读 多模态内容(例如图像.文本.语音.视频等)在互联网上的爆炸性增长推动了各种跨模态模型的研究与发展,支持了多种跨模态内容理解任务.在这些跨模态模型中,CLIP(Contrastive Langua ...

  9. 机器推理文本+视觉,跨模态预训练新进展

    作者 | 李根.段楠.周明 来源 | 微软研究院AI头条(ID:MSRAsia) [导读]机器推理要求利用已有的知识和推断技术对未见过的输入信息作出判断,在自然语言处理领域中非常重要.本文将介绍微软亚 ...

最新文章

  1. HSV颜色空间 HSV空间各通道分离实验
  2. Android自适应屏幕大小和布局
  3. 《LeetCode力扣练习》第96题 不同的二叉搜索树 Java
  4. null在java存在的意义何在,Java并发编程——volatile关键字
  5. python是c语言写的吗-C语言和python的区别
  6. 数据结构-编程实现一个双链表的建立,双链表的打印,双链表的测长
  7. eclipse 快捷键及插件
  8. 数据结构实验之栈八:栈的基本操作
  9. 做产品经理的第1年、第5年和第10年...
  10. 【非常基础实践】 微信小程序 - 腾讯云 - PHP - DEMO - 002 - 云环境搭建和开通指引- 实践
  11. PAT甲级1007 最大连续子序列
  12. 最大似然估计_机器学习最大似然估计
  13. Azkaban流2.0
  14. 阿里云云计算 43 CDN的使用
  15. SQL Server2016的彻底删除
  16. android * 工程模式,教你认识Android的各种工程模式
  17. c语言的32位指针加1是多少,c语言中,指针加1的情况.指针变量详细介绍
  18. EfficientNet V1 V2总结
  19. 几个连接虚拟机和云服务器的软件
  20. 数字变成大写的类,把人民币转化为大写汉字

热门文章

  1. 只能选一次,30万亿房贷明年将按LPR定价
  2. 6.Oracle-安全管理
  3. UVA-10929-You can say 11(秦九昭算法+同余与模算术)
  4. Arangodb 条件查询
  5. ABAP ALV OO 自定义Toolbar 和Command及listmenu按钮
  6. 苦恼的月下老人(最长子序列)by C++
  7. 浅谈SystemInit时钟系统
  8. uView JS工具库
  9. shell基础正则表达式
  10. PS批量快速修改png图标颜色