引用格式：翟一琛，顾佼佼，宗富强，姜文志．融合注意力机制的 IETM 细粒度跨模态检索算法[J/OL]．系统工程与电子技术. https://kns.cnki.net/kcms/detail/11.2422.TN.20220823.1030.004.html

期刊：Systems Engineering and Electronics 《系统工程与电子技术》

本文选自

摘要：交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一，针对其检索模态单一的问题，以其数据中图文描述为研究对象，改进提出一种融合注意力机制的细粒度跨模态检索算法。针对数据中图像简图较多、色彩单一等特点，特征提取模块使用 Vision Transformer 模型和 Transformer 编码器分别获得图文的全局和局部特征；使用注意力机制在图文模态间及模态内部挖掘细粒度信息，加入文本对抗训练增强模型泛化能力，采用跨模态联合损失函数对模型进行约束。在 Pascal Sentence 数据集和自建数据集上进行验证，本文方法的平均精度均值分别达到了 0.964 和 0.959，较基准模型 DSCMR 分别提升了 0.248 和 0.214。

关键词：交互式电子手册；图文检索；跨模态；注意力机制

创新点：

提出一种融合注意力机制的细粒度跨模态检索算法；
使用基于注意力机制的特征提取模块抽取图文细粒度特征，在图文交互模块引入模态间整体-局部注意力机制和模态内注意力机制进行图文细粒度对齐；
同时针对数据量少的情况，使用文本对抗训练，提升模型泛化能力。

0 引言

交互式电子手册（interactive electronic technical manual，IETM）是一种对装备技术资料信息化的技术手段。

现有问题：现有 IETM 的检索功能多采用传统的关键字索引等方式，无法高效的检索庞大的图像、文本等多模态数据，且数据录入过程需要遵循严格的规范与步骤，使用存在一定的局限性。

跨模态检索是实现不同模态数据间相互检索的技术。图像和文本两种模态的数据经常同时出现，其本身蕴含的信息又能够相互补充。

跨模态检索研究的目的在于挖掘不同模态样本之间的关系，实现通过一种模态样本来检索具有近似语义的另一种模态样本。与传统的单一模态检索相比，其难点主要在于图像与文本的表示形式不同，两者分布在不同的语义空间，无法直接通过传统的余弦距离等方式直接度量二者的相似度。

目前基于深度学习的跨模态检索主要有跨模态相似性度量和公共特征空间学习等方法。

基于公共特征空间学习的方法可以离线获得文本和图像表示，是目前跨模态检索的主流研究和应用的方向，其主要思想是通过可解释的距离函数约束图文关系，优化不同模态数据之间的分布关系，将不同模态数据映射到同一公共空间内再进行相似性度量, 这类方法的缺点是特征融合不充分。

注意力机制

Bahdanau 等人[8]在 2015 年首次提出注意力机制并将其应用于机器翻译领域，注意力机制可以聚焦重要信息，并同时具备不同特征空间以及全局范围内的特征聚合能力，将其应用于跨模态检索领域，可以有效缓解模态间交互不充分的问题。

[8]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014..

在文献[9]中使用的草图数据集与本文自建数据集图像相似，图像内容均以大量线条为主，加入通道注意力机制[10]关注图像的关键信息，实现了对模型效果的大幅提升。

[9]薛静宜. 手绘草图的跨模态检索[D].北京: 北京邮电大学, 2020: 14-16.

XUE J Y. Cross-modal retrieval of hand drawn sketches[D] Beijing: Beijing University of Posts and Telecommunications, 2020.

[10]Squeeze-andexcitation networks

Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (2018)

J. HuL. Shen Sun G

文献[11]中使用目标检测模型 Faster-RCNN[12] 先对图像进行目标检测，再对检测到的目标分别进行特征提取得到细粒度特征，之后通过堆叠交叉注意力实现了良好的检索性能。

[11]Stacked cross attention for image-text matching

[12]Faster-RCNN: towards real-time object detection with region proposal networks

文献[13] 证明了同时使用注意力机制进行模态间语义对齐和模态内语义关联的有效性。

[13]Contextaware attention network for image-text retrieval

文献[14]提出在跨模态检索中单独的目标检测模型可能不是必要的，使用 ViT(Vision Transformer) [15]模型进行图像特征抽取后直接构造边界框损失的方法可以达到最先进的跨模态检索性能。

[14]ZENG Y, ZHANG X, LI H. Multi-grained vision language pre-training: aligning texts with visual concepts[J]. arXiv preprint arXiv:2111.08276, 2021.

[15]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

现有问题：本文自建数据集来自于航空行业 IETM 相关技术手册，图像数据多为飞机及相关维修设备原理图、曲线图等黑白图像，这些图像通过大量线条组合而成、与通用数据相比，具有较强的抽象性，部分实例之间十分相似，仅抽取粗粒度信息往往难以区分。

本文解决：针对此问题，本文改进提出一种融合注意力机制的细粒度跨模态检索算法，通过在特征提取与模态交互阶段引入注意力机制，实现对图文细粒度特征的提取和特征间的细粒度对齐。在 Pascal Sentence 数据集[16]及自建航空行业 IETM 相关技术手册数据集上进行跨模态检索实验，并对结果进行可视化展示，验证提出算法的有效性。

1 跨模态检索模型

本文采用深度监督跨模态检索 (deep supervised cross-modal retrieval, DSCMR) [17]为基础模型，其网络结构如图 1 所示。

[17]Deep supervised cross-modal retrieval

首先，图像和文本分别通过 Image CNN 和 Text CNN 得到图文特征表示；

然后经过全连接层进行特征抽象，并在最后一层共享权值将图文特征映射到同一公共表示空间；

最后，再连接一个线性分类器预测每个样本的类别并构造标签损失。

此外，模型使用了公共空间的辨别损失，分别约束图像和文本、图像和图像、文本和文本之间的相似性。

本文在直接使用 DSCMR 模型用于自建数据集图文跨模态检索时，平均精度均值(mean Average Precision, mAP)达到 0.745。针对数据集特点，分析可以进行改进的方向主要有两点：①改进特征提取模块以提取图文细粒度特征。②在特征交互阶段融合注意力机制进行图文间的细粒度对齐。

2 融合注意力机制

图像特征提取：本文使用基于注意力机制的图像编码器 ViT 进行特征提取，首先将图像进行分块，通过图像编码器输出每个图像块的特征表示作为图像的局部特征；

文本特征提取：文本编码模块使用基于注意力机制的 Transformer 编码器[18]得到文本的局部特征表示。

特征交互：在特征交互模块，提出模态内注意力机制和整体-局部模态间注意力机制融合图像特征和文本特征。模型整体结构如图 2 所示。

2.1 图像特征提取模块

2.2 文本特征提取模块

2.3 图文交互模块

在图文跨模态检索模型中，注意力机制用于关注并聚合图像或文本中的关键信息。本文分别设计了模态间全局-局部注意力机制模块和 模态内注意力机制模块进行图文特征对齐。

2.3.1 模态间全局-局部注意力机制模块

2.2.3 模态内注意力机制模块

在特征提取模块，本文使用了基于注意力机制的 ViT 模型和 Transformer 编码器提取图文的全局特征和局部特征。在编码器内部、进行了大量的对图像块之间与单词之间的注意力计算。此时模态内区域到区域和单词到单词注意力的计算并未考虑另一模态的影响。但在不同的情景下即使同一模态内关注的内容也应当不同，所以模态内注意力的计算也应该考虑到另一模态的内容。故在特征交互阶段，本文考虑另一模态信息的影响再次对模态内注意力进行计算。具体做法为：取出当前模态内对另一模态影响力最大的局部特征，将该局部特征与当前模态剩余的所有局部特征进行注意力计算，得到基于影响力最大特征的模态内局部特征加权向量。

3. 实验验证

3.1 数据集构建

自建数据集源自于航空行业 IETM 相关技术手册 PDF 文档，由于部分图册不包含具体的图像描述且各文档格式不统一，对于无描述文本的图像采用其所在手册名、标题名和图像自身的图名作为图像描述。通过使用 PDF 文档自动化抽取技术以及正则匹配、人工补全和修正等方式共获取 3112 幅相关数据的图像样本和相关描述，并根据所在手册不同将其分为维修、检测、零件、飞行等 10 类，如图 3 所示为数据集样例，从左到右依次为类别标签、图像和文本描述。近似按照 6:2:2 的比例划分数据集，得到 1912 对样本作为训练集，600 对样本作为验证集、600 对样本作为测试集。

Pascal Sentence 数据集源自于 Pascal VOC[20] 数据集，包含 1000 对图文数据，每张图片对应人工标注的五段文本描述，数据集共分为 20 个类别，800 对样本作为训练集，100 对样本作为验证集，100 对样本作为测试集。

3.2 数据增强

针对自建数据集学习样本少的问题，对文本样本进行数据增强处理，以减少过拟合现象的发生。

3.3 实验配置

模型使用 Adam优化器，学习率设置为 1e-4，输入图像大小统一缩放为 256×256 分辨率。采取余弦相似度并使用 mAP 和查准率—查全率曲线(Precision-Recall Curve, PR 曲线)作为特征表示评价指标。

mAP 指标综合考虑了排名信息和精度，被广泛应用在跨模态检索研究中[22]，PR 曲线以召回率(Recall)和精确率(Precision)为横纵坐标绘制，反映了不同召回率下精确率的变化。

3.4 模型对比分析

为验证本文方法的有效性，本文选取了 DCCA[23]、ACMR[24]、MAN[25]、SDML[26]等跨模态检索模型作为基准模型进行对比，所选对比方法均使用 Resnet50 [27]提取的 4096 维图像特征和训练文本 CNN 分类模型得到的 256 维文本特征，部分方法额外采取了与本文特征提取网络相同的预训练 ViT 模型和 Transformer 编码器作为特征提取器进行对比。由表 1 实验数据可得，本文提出的方法在 Pascal Sentence 数据集中相较于最好的基准方法 DSCMR(ViT, Transformer)，以图检文的 mAP 从 0.936 提升到了 0.963，以文检图的 mAP 从 0.928 提升到了0.964 ， mAP 的平均值从 0.932 提升到了 0.964。由表 2 实验数据可得，在自建数据集中相较最好的基准方法 SDML(ViT, Transformer)，以图检文的 mAP 从 0.848 提高到了 0.961，以文检图的 mAP 从 0.871 提升到了 0.958 ， mAP 的平均值从 0.860 提升到了 0.959。在这两个数据集上，本文方法的 mAP 均最高，证明了提出方法的有效性。

两个数据集指标提升的差异性主要是由于图像内容的不同以及文本长度上的差异，Pascal Sentence 数据集中多为日常生活背景下的彩色图像，五条文本描述进行拼接后，文本长度相较本文自建数据集文本也更长，所以直接采用在通用数据集上预训练的 ViT 模型及适合较长文本序列建模的 Transformer 编码器就会有较大提升。

为进一步验证本文方法的有效性，在自建数据集上绘制 PR 曲线如图 4、图 5 所示。从图中可以直观看出，在图检文和文检图任务中，本文方法都优于文中选取的所有基准方法。

3.5 消融实验

设计消融实验，在自建数据集上验证各模块对模型性能的影响，结果如表 3 所示，mAP 指标及损失变化如图 6、图 7 所示。

方法一为基准模型 DSCMR，均采用 CNN 模型对图文进行特征提取。之后分别增加文本对抗增强、改变特征提取模型、增加模态间注意力及模态内注意力，验证所提方法对检索性能的影响。方法二在增加文本对抗增强后，有助于模型性能的提升；

方法三、四显示由于自建数据集大部分文本属于短文本，在不进行后续特征交互的情况下，使用基于注意力机制的 Transformer 编码器比使用文本CNN 模型的效果要差；

方法四与方法二、方法五与方法三作对比均可以看出图像特征抽取模块使用预训练的 ViT 模型较预训练的 CNN 模型 ResNet50 大幅提升了模型检索准确率。

方法六和方法七显示抽取细粒度特征及在之后的图文交互阶段引入模态间注意力和模态内注意力，模型检索准确率都会取得显著提升。

3.6 参数分析

另外，本文对特征提取模块中隐空间图文特征的映射维度进行实验，分别设置为 128 维、256 维和 512 维进行实验，结果如表 4 所示，从表中可以看出，当映射特征维度取 256 维时，模型性能最佳。

3.7 注意力可视化分析

对模型交互阶段的图文注意力权重进行可视化分析。在图 9 中，展示了自建数据集图解零件类手册中两例图文对的注意力可视化结果。从上图中可以看出，文本对图像注意力分别关注在图像的两个主体即飞机的发动机和发动机剖视面图上，图像对文本的注意力权重主要分布在“发动机”，“剖视面”词语上，二者与图中注意力关注的区域都有很强的相关性。同时，由于文本数据在处理过程中可能会出现一定的倾向性，对于出现次数较少的词语或未登录词，使用字符代号“UNK”替代。这类结果的可视化如图 9 中下图所示，文本对图像注意力多关注在图像空白区域，而图像对文本的注意力权重则主要分布在“UNK”上。这表明模型注意力并不一定关注在人通常认为的图像或文本的关键信息部分，对于有大范围空白的图像，其注意力可能会关注在模型认为区分度较强的空白区域和文本中的“UNK”符号上。以上两种情况均表明图文之间建立了一定的联系。

4 结论

针对现有 IETM 检索功能模态单一的问题，本文以航空行业 IETM 中的 10 类图文数据为研究对象，改进提出一种融合注意力机制的细粒度跨模态检索算法。构建飞机技术手册跨模态检索数据集，并根据数据集特点，对 DSCMR 跨模态检索模型进行改进，使用基于注意力机制的特征提取模块抽取图文细粒度特征，在图文交互模块引入模态间整体-局部注意力机制和模态内注意力机制进行图文细粒度对齐；同时针对数据量少的情况，使用文本对抗训练，提升模型泛化能力。提出算法在一个公开数据集和自建数据集上进行验证，mAP 值较所选的最好基准算法分别提升了 0.032 和 0.099。最后，在自建数据集上进行消融实验和参数实验，并进行注意力可视化分析，进一步验证了提出算法的有效性。

文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法相关推荐

目标检测论文解读复现之十七：融合注意力机制的YOLOv5口罩检测算法
前言此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮 ...
跨模态检索论文阅读：IMRAM
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval IMRAM ...
跨模态检索论文阅读：Context-Aware Attention Network for Image-Text Retrieval
Context-Aware Attention Network for Image-Text Retrieval基于上下文感知的图文检索注意网络 Motivation: 以前的方法没有考虑到单模态中模 ...
论文阅读：Adversarial Cross-Modal Retrieval对抗式跨模式检索
Adversarial Cross-Modal Retrieval 对抗式跨模式检索跨模态检索研究的核心是学习一个共同的子空间,不同模态的数据可以直接相互比较.本文提出了一种新的对抗性跨模态检索(A ...
融合注意力机制和Bi-LSTM的旅游评价情感分析模型
摘要旅游评价情感分析对了解游客偏好具有重要意义,然而现有的旅游评价情感分析模型较少突出游客情感描述的核心内容.为了更加精确地分析游客评价的情感倾向,提出一种结合词性注意力机制和双向长短期记忆神经网络 ...
【论文阅读】注意力机制与二维 TSP 问题
前置知识注意力机制见这篇二维 TSP 问题给定二维平面上 n n n 个点的坐标 S = { x i } i = 1 n S=\{x_i\}_{i=1}^n S={xi}i=1n,其中 ...
文献阅读：基于浅层残差网络的视线估计算法
一.文献梳理 1.摘要针对目前的视线估计算法准确度较低的问题,提出一种基于浅层残差网络的算法.利用残差网络结构特点,对图片在不同层次提取到的特征进行融合计算.实验表明,使用基于浅层残差网络结构的算法 ...
文献阅读笔记：基于深度学习的桥梁裂缝检测算法研究
论文 | 基于深度学习的桥梁裂缝检测算法研究作者 | 李良福.马卫飞.李丽.陆铖期刊 | 自动化学报时间 | 2019年9月论文目的: 传统的图像处理算法不能很好地对桥梁裂缝进行检测 , ...
文献阅读-用于图文检索的跨模态信息交互推理网络
DOI:10.3778/j.issn.1002-8331.2205-0056 引用格式: 魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J/OL].计算机工程与应用. https://kns. ...

文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法