引用格式:翟一琛,顾佼佼,宗富强,姜文志.融合注意力机制的 IETM 细粒度跨模态 检索算法[J/OL].系统工程与电子技术. https://kns.cnki.net/kcms/detail/11.2422.TN.20220823.1030.004.html

期刊:Systems Engineering and Electronics  《系统工程与电子技术》

本文选自

摘 要:交互式电子手册是提高各类装备保障信息化、智能化的关键技术之一,针对其检索模态单一的问题,以其数据中图文描述为研究对象,改进提出一种融合注意力机制的细粒度跨模态检索算法。针对数据中图像简图较多、色彩单一等特点,特征提取模块使用 Vision Transformer 模型和 Transformer 编码器分别获得图文的全局和局部特征;使用注意力机制在图文模态间及模态内部挖掘细粒度信息,加入文本对抗训练增强模型泛化能力,采用跨模态联 合损失函数对模型进行约束。在 Pascal Sentence 数据集和自建数据集上进行验证,本文方法 的平均精度均值分别达到了 0.964 和 0.959,较基准模型 DSCMR 分别提升了 0.248 和 0.214。

关键词:交互式电子手册;图文检索;跨模态;注意力机制

创新点: 

  1. 提出一种融合注意力机制的细粒度跨模态检索算法;
  2. 使用基于注意力机制的特征提取模块抽取图文细粒度特征,在图文交互模块引入模态间整体-局部注意 力机制和模态内注意力机制进行图文细粒度对齐;
  3. 同时针对数据量少的情况,使用文本对抗训练,提升模型泛化能力。

0 引言

交互式电子手册(interactive electronic technical manual,IETM)是一种对装备技术资 料信息化的技术手段。

现有问题:现有 IETM 的检索功能多采用 传统的关键字索引等方式,无法高效的检索庞大的图像、文本等多模态数据,且数据录入过程需要遵循严格的规范与步骤,使用存在一定的局限性。

 跨模态检索是实现不同模态数据间 相互检索的技术。图像和文本两种模态的数据 经常同时出现,其本身蕴含的信息又能够相互补充。

跨模态检索研究的目的在于挖掘不同模态 样本之间的关系,实现通过一种模态样本来检索具有近似语义的另一种模态样本。与传统 的单一模态检索相比,其难点主要在于图像与 文本的表示形式不同,两者分布在不同的语义空间,无法直接通过传统的余弦距离等方式直接度量二者的相似度。

目前基于深度学习的跨模态检索主要有跨模态相似性度量和公共特征空间学习等方法。

基于公共特征空间学习的方法可以离线获得文本和图像表示,是目前跨模态检索的主流研究和应用的方向,其主要思想是通过可解释的距离函数约束图文关系,优化不同模态数据之间的分布关系,将不同模态 数据映射到同一公共空间内再进行相似性度量, 这类方法的缺点是特征融合不充分

注意力机制 

Bahdanau 等人[8]在 2015 年首次提出注意力机制并将其应用于机器翻译领域,注意力机制可以聚焦重要信息,并同时具备不同特征空间 以及全局范围内的特征聚合能力,将其应用于跨模态检索领域,可以有效缓解模态间交互不充分的问题。

[8]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014..

在文献[9]中使用的草图数据集与 本文自建数据集图像相似,图像内容均以大量线条为主,加入通道注意力机制[10]关注图像的 关键信息,实现了对模型效果的大幅提升。

[9]薛静宜. 手绘草图的跨模态检索[D].北京: 北京邮电大学, 2020: 14-16.

XUE J Y. Cross-modal retrieval of hand drawn sketches[D] Beijing: Beijing University of Posts and Telecommunications, 2020.

[10]Squeeze-andexcitation networks

Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (2018)

J. HuL. Shen Sun G

文献[11]中使用目标检测模型 Faster-RCNN[12] 先对图像进行目标检测,再对检测到的目标分 别进行特征提取得到细粒度特征,之后通过堆 叠交叉注意力实现了良好的检索性能。

[11]Stacked cross attention for image-text matching

[12]Faster-RCNN: towards real-time object detection with region proposal networks

文献[13] 证明了同时使用注意力机制进行模态间语义对齐和模态内语义关联的有效性。

[13]Contextaware attention network for image-text retrieval

文献[14]提出 在跨模态检索中单独的目标检测模型可能不是必要的,使用 ViT(Vision Transformer) [15]模型进行图像特征抽取后直接构造边界框损失的方法 可以达到最先进的跨模态检索性能。

[14]ZENG Y, ZHANG X, LI H. Multi-grained vision language pre-training: aligning texts with visual concepts[J]. arXiv preprint arXiv:2111.08276, 2021.

[15]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

现有问题:本文自建数据集来自于航空行业 IETM 相 关技术手册,图像数据多为飞机及相关维修设 备原理图、曲线图等黑白图像,这些图像通过 大量线条组合而成、与通用数据相比,具有较 强的抽象性,部分实例之间十分相似,仅抽取粗粒度信息往往难以区分。

本文解决:针对此问题,本文改进提出一种融合注意力机制的细粒度跨模态检索算法,通过在特征提取与模态交互阶段引 入注意力机制,实现对图文细粒度特征的提取 和特征间的细粒度对齐。在 Pascal Sentence 数 据集[16]及自建航空行业 IETM 相关技术手册数 据集上进行跨模态检索实验,并对结果进行可 视化展示,验证提出算法的有效性。

1 跨模态检索模型

本文采用 深 度 监 督 跨 模 态 检 索 (deep supervised cross-modal retrieval, DSCMR) [17]为基 础模型,其网络结构如图 1 所示。

[17]Deep supervised cross-modal retrieval

首先,图像和文本分别通过 Image CNN 和 Text CNN 得到图文特征表示;

然后经过全连接 层进行特征抽象,并在最后一层共享权值将图 文特征映射到同一公共表示空间;

最后,再连 接一个线性分类器预测每个样本的类别并构造 标签损失。

此外,模型使用了公共空间的辨别 损失,分别约束图像和文本、图像和图像、文本和文本之间的相似性。

本文在直接使用 DSCMR 模型用于自建数 据集图文跨模态检索时,平均精度均值(mean Average Precision, mAP)达到 0.745。针对数据集特点,分析可以进行改进的方向主要有两点:①改进特征提取模块以提取图文细粒度特征。②在特征交互阶段融合注意力机制进行图文间的细粒度对齐。 

2 融合注意力机制

图像特征提取:本文使用基于注意力机制的图像编码器 ViT 进行特征提取,首先将图像进行分块,通过图像编码 器输出每个图像块的特征表示作为图像的局部特征;

文本特征提取:文本编码模块使用基于注意力机制的 Transformer 编码器[18]得到文本的局部特征表 示。

特征交互:在特征交互模块,提出模态内注意力机制和整体-局部模态间注意力机制融合图像特征和文本特征。模型整体结构如图 2 所示。

2.1 图像特征提取模块

2.2 文本特征提取模块

2.3 图文交互模块

在图文跨模态检索模型中,注意力机制用于关注并聚合图像或文本中的关键信息。本文分别设计了模态间全局-局部注意力机制模块模态内注意力机制模块进行图文特征对齐。

2.3.1 模态间全局-局部注意力机制模块

2.2.3 模态内注意力机制模块

在特征提取模块,本文使用了基于注意力机制的 ViT 模型和 Transformer 编码器提取图文 的全局特征和局部特征。在编码器内部、进行 了大量的对图像块之间与单词之间的注意力计 算。此时模态内区域到区域和单词到单词注意 力的计算并未考虑另一模态的影响。但在不同的情景下即使同一模态内关注的内容也应当不 同,所以模态内注意力的计算也应该考虑到另 一模态的内容。故在特征交互阶段,本文考虑另一模态信息的影响再次对模态内注意力进行计算。具体做法为:取出当前模态内对另一模态影响力最大的局部特征,将该局部特征与当前模态剩余的所有局部特征进行注意力计算, 得到基于影响力最大特征的模态内局部特征加权向量。

3. 实验验证

3.1 数据集构建

自建数据集源自于航空行业 IETM 相关技 术手册 PDF 文档,由于部分图册不包含具体的 图像描述且各文档格式不统一,对于无描述文 本的图像采用其所在手册名、标题名和图像自 身的图名作为图像描述。通过使用 PDF 文档自 动化抽取技术以及正则匹配、人工补全和修正 等方式共获取 3112 幅相关数据的图像样本和相 关描述,并根据所在手册不同将其分为维修、 检测、零件、飞行等 10 类,如图 3 所示为数据 集样例,从左到右依次为类别标签、图像和文 本描述。近似按照 6:2:2 的比例划分数据集,得 到 1912 对样本作为训练集,600 对样本作为验 证集、600 对样本作为测试集。

Pascal Sentence 数据集源自于 Pascal VOC[20] 数据集,包含 1000 对图文数据,每张图片对应 人工标注的五段文本描述,数据集共分为 20 个 类别,800 对样本作为训练集,100 对样本作为 验证集,100 对样本作为测试集。

3.2 数据增强

针对自建数据集学习样本少的问题,对文本样本进行数据增强处理,以减少过拟合现象 的发生。

3.3 实验配置

模型使用 Adam优化器,学习率设置为 1e-4, 输入图像大小统一缩放为 256×256 分辨率。采取余弦相似度并使用 mAP 和查准率—查全率曲 线(Precision-Recall Curve, PR 曲线)作为特征表示评价指标。

mAP 指标综合考虑了排名信息和精度,被 广泛应用在跨模态检索研究中[22],PR 曲线以召回率(Recall)和精确率(Precision)为横纵坐标绘制,反映了不同召回率下精确率的变化。

3.4 模型对比分析

为验证本文方法的有效性,本文选取了 DCCA[23]、ACMR[24]、MAN[25]、SDML[26]等跨 模态检索模型作为基准模型进行对比,所选对 比方法均使用 Resnet50 [27]提取的 4096 维图像特 征和训练文本 CNN 分类模型得到的 256 维文本 特征,部分方法额外采取了与本文特征提取网 络相同的预训练 ViT 模型和 Transformer 编码器 作为特征提取器进行对比。由表 1 实验数据可 得,本文提出的方法在 Pascal Sentence 数据集 中 相较于 最 好 的 基 准 方 法 DSCMR(ViT, Transformer),以图检文的 mAP 从 0.936 提升到 了 0.963,以文检图的 mAP 从 0.928 提升到了0.964 , mAP 的平均 值 从 0.932 提升到了 0.964。由表 2 实验数据可得,在自建数据集中 相 较 最 好 的 基 准 方 法 SDML(ViT, Transformer),以图检文的 mAP 从 0.848 提高到 了 0.961,以文检图的 mAP 从 0.871 提升到了 0.958 , mAP 的 平 均 值 从 0.860 提升到了 0.959。在这两个数据集上,本文方法的 mAP 均最高,证明了提出方法的有效性。 

两个数据集指标提升的差异性主要是由于 图像内容的不同以及文本长度上的差异,Pascal Sentence 数据集中多为日常生活背景下的彩色 图像,五条文本描述进行拼接后,文本长度相 较本文自建数据集文本也更长,所以直接采用 在通用数据集上预训练的 ViT 模型及适合较长 文本序列建模的 Transformer 编码器就会有较大提升。

为进一步验证本文方法的有效性,在自建 数据集上绘制 PR 曲线如图 4、图 5 所示。从图 中可以直观看出,在图检文和文检图任务中, 本文方法都优于文中选取的所有基准方法。

3.5 消融实验

设计消融实验,在自建数据集上验证各模 块对模型性能的影响,结果如表 3 所示,mAP 指标及损失变化如图 6、图 7 所示。

方法一为基准模型 DSCMR,均采用 CNN 模型对图文进行特征提取。之后分别增加文本对抗增强、改变特征提取模型、增加模态间注 意力及模态内注意力,验证所提方法对检索性 能的影响。方法二在增加文本对抗 增强后,有助于模型性能的提升;

方法三、四 显示由于自建数据集大部分文本属于短文本, 在不进行后续特征交互的情况下,使用基于注 意力机制的 Transformer 编码器比使用文本CNN 模型的效果要差;

方法四与方法二、方法 五与方法三作对比均可以看出图像特征抽取模 块使用预训练的 ViT 模型较预训练的 CNN 模 型 ResNet50 大幅提升了模型检索准确率。

方法 六和方法七显示抽取细粒度特征及在之后的图 文交互阶段引入模态间注意力和模态内注意 力,模型检索准确率都会取得显著提升。

3.6 参数分析

另外,本文对特征提取模块中隐空间图文 特征的映射维度进行实验,分别设置为 128 维、256 维和 512 维进行实验,结果如表 4 所 示,从表中可以看出,当映射特征维度取 256 维时,模型性能最佳。

3.7 注意力可视化分析

对模型交互阶段的图文注意力权重进行可 视化分析。在图 9 中,展示了自建数据集图解 零件类手册中两例图文对的注意力可视化结 果。从上图中可以看出,文本对图像注意力分 别关注在图像的两个主体即飞机的发动机和发 动机剖视面图上,图像对文本的注意力权重主 要分布在“发动机”,“剖视面”词语上,二 者与图中注意力关注的区域都有很强的相关 性。 同时,由于文本数据在处理过程中可能会 出现一定的倾向性,对于出现次数较少的词语 或未登录词,使用字符代号“UNK”替代。这 类结果的可视化如图 9 中下图所示,文本对图 像注意力多关注在图像空白区域,而图像对文本的注意力权重则主要分布在“UNK”上。这 表明模型注意力并不一定关注在人通常认为的 图像或文本的关键信息部分,对于有大范围空 白的图像,其注意力可能会关注在模型认为区 分度较强的空白区域和文本中的“UNK”符号 上。以上两种情况均表明图文之间建立了一定 的联系。

4 结论

针对现有 IETM 检索功能模态单一的问 题,本文以航空行业 IETM 中的 10 类图文数据 为研究对象,改进提出一种融合注意力机制的 细粒度跨模态检索算法。构建飞机技术手册跨 模态检索数据集,并根据数据集特点,对 DSCMR 跨模态检索模型进行改进,使用基于注意力机制的特征提取模块抽取图文细粒度特 征,在图文交互模块引入模态间整体-局部注意 力机制和模态内注意力机制进行图文细粒度对 齐;同时针对数据量少的情况,使用文本对抗 训练,提升模型泛化能力。提出算法在一个公 开数据集和自建数据集上进行验证,mAP 值较所选的最好基准算法分别提升了 0.032 和 0.099。最后,在自建数据集上进行消融实验和 参数实验,并进行注意力可视化分析,进一步 验证了提出算法的有效性。

文献阅读-融合注意力机制的 IETM 细粒度跨模态检索算法相关推荐

  1. 目标检测论文解读复现之十七:融合注意力机制的YOLOv5口罩检测算法

    前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮 ...

  2. 跨模态检索论文阅读:IMRAM

    IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval IMRAM ...

  3. 跨模态检索论文阅读:Context-Aware Attention Network for Image-Text Retrieval

    Context-Aware Attention Network for Image-Text Retrieval基于上下文感知的图文检索注意网络 Motivation: 以前的方法没有考虑到单模态中模 ...

  4. 论文阅读:Adversarial Cross-Modal Retrieval对抗式跨模式检索

    Adversarial Cross-Modal Retrieval 对抗式跨模式检索 跨模态检索研究的核心是学习一个共同的子空间,不同模态的数据可以直接相互比较.本文提出了一种新的对抗性跨模态检索(A ...

  5. 融合注意力机制和Bi-LSTM的旅游评价情感分析模型

    摘要 旅游评价情感分析对了解游客偏好具有重要意义,然而现有的旅游评价情感分析模型较少突出游客情感描述的核心内容.为了更加精确地分析游客评价的情感倾向,提出一种结合词性注意力机制和双向长短期记忆神经网络 ...

  6. 【论文阅读】注意力机制与二维 TSP 问题

    前置知识 注意力机制 见 这篇 二维 TSP 问题 给定二维平面上 n n n 个点的坐标 S = { x i } i = 1 n S=\{x_i\}_{i=1}^n S={xi​}i=1n​,其中 ...

  7. 文献阅读:基于浅层残差网络的视线估计算法

    一.文献梳理 1.摘要 针对目前的视线估计算法准确度较低的问题,提出一种基于浅层残差网络的算法.利用残差网络结构特点,对图片在不同层次提取到的特征进行融合计算.实验表明,使用基于浅层残差网络结构的算法 ...

  8. 文献阅读笔记:基于深度学习的桥梁裂缝检测算法研究

    论文 | 基于深度学习的桥梁裂缝检测算法研究 作者 | 李良福.马卫飞.李 丽.陆 铖 期刊 | 自动化学报 时间 | 2019年9月 论文目的: 传统的图像处理算法不能很好地对桥梁裂缝进行检测 , ...

  9. 文献阅读-用于图文检索的跨模态信息交互推理网络

    DOI:10.3778/j.issn.1002-8331.2205-0056 引用格式: 魏钰琦,李宁.用于图文检索的跨模态信息交互推理网络[J/OL].计算机工程 与应用. https://kns. ...

最新文章

  1. Python爬虫之旅_(数据解析)_bs4
  2. char *c = abc和char c[]=abc
  3. java jee curd_Java / JEE中的有效日志记录–映射的诊断上下文
  4. 一些提高工作效率的黑科技软件
  5. 怎么打开系统服务器,Win10怎么打开系统服务管理器 Win10打开系统服务管理器操作方法...
  6. 图片太大怎么压缩变小?教你四招快捷压缩图片
  7. 读胡适先生《赠与今年的大学毕业生》和《赠与大学毕业生的话》后感
  8. Apple Compressor 4.4.4 中文特别版 Mac 电影视频后期制作工具
  9. 安卓开发——视频播放器
  10. vue实现横向时间轴组件
  11. N个苹果分给M个人,有多少种分法
  12. 易安居平安家园隐私政策
  13. 因果性与因果模型 | 中国人民大学哲学与认知科学明德讲坛
  14. 快看影视大全隐私政策
  15. 《算法笔记》4.3小节——算法初步->递归
  16. JavaScript学习(十二)原生JS写时钟
  17. 如何使用自己电脑搭建一个外网可以访问的服务器
  18. 钢铁侠马斯克,当上了美国院士
  19. rnss和rdss的应用_北斗RNSS和RDSS
  20. 今天正式告别单身生活

热门文章

  1. VMware14 虚拟机装win10 系统出现 BootManager
  2. 用队列实现的猫抓老鼠游戏
  3. GAMES101作业6-BVH完成全过程
  4. FPGA linux synplify综合工程的环境搭建
  5. 有思科账号和思科学院账号后,登陆仍然提示“Sorry, we can’t find…”.【解决Cisco Packet Tracer登陆问题】
  6. Windows安装arm64架构的麒麟V10
  7. 用STK导入段时间TLE数据
  8. (十)Java工具类StringUtils字符串拼接(join)详解
  9. 商标取名,你学会了吗?
  10. 全面剖析神秘的黑帽seo技术