目录

  • Abstract
  • Introduction
  • Method
    • Overview
    • VQA module
    • Reconstruction module
    • Loss function
  • Experiments
    • Ablation studies
    • Performance on VQA v1 and VQA v2 dataset
  • Conclusion
  • 总结

Abstract

最近,许多研究指出VQA模型容易被数据集偏差所误导,并且严重依赖问题和答案之间的浅层关系,而不是真正理解视觉内容。为了解决这一问题,本文提出了视觉校准机制(VC-VQA),它通过增加一个图像特征重建模块扩展了传统的VQA模型。该模型基于预测答案和问题重建图像特征,并测量重建后的图像特征与原始图像特征之间的相似性来指导VQA模型预测最终答案。与主流方法在VQA v1和VQA v2数据集上的结果比较发现,本文的模型可以有效地减弱数据集偏差的影响,取得了具有竞争力的性能。

Introduction

最近的研究发现,VQA系统的成功很大程度上是由于仅仅基于隐藏在文本信息中的数据集偏差和线索进行预测,缺乏对视觉内容的深入理解。如,“2”是以“How many”为开头的问题的最频繁答案(39%),“tennis”是以“What sport is”为开头的问题的最频繁答案(41%)。

为解决这一问题,VQA v2数据集被提出了。对于其中的每一个问题,该数据集都有两个相似的但答案不同的图像。

为了提高在视觉内容上的注意力,本文提出一种视觉校准机制来指导VQA模型检验预测答案是否与图像相关。如果预测答案与视觉内容矛盾,该机制将校准VQA系统,以获得正确的与视觉相关的答案。受用于视频字幕任务的RecNet启发,RecNet使用一个编码器-解码器重建器来再现视频的视觉特征,本文在训练一个普通的VQA模型时引入一个视觉特征重建模块来实现这一校准目标。

与VAE和GAN等广泛使用的具有注意机制来生成逼真图像的图像生成网络不同,本文的视觉校准模型只需要基于初始预测答案a测量原始图像特征和再生图像特征的相似性来重建图像特征。本文修改了参考文献17,它开发了一个基于字幕的图像生成模型,并采用了序列VAEs框架。具体来说,采用VAE网络的变种作为重建模块,其输入是先前的VQA模块的问题q和初始预测答案a。该模块将qa串联成向量caq,并将其传递给语言嵌入模块。语言嵌入模块由单词嵌入和一个GRU网络组成,生成潜在向量haq。在VAE模型中广泛使用的重参数化技巧的支持下,从haq 中得到z,并将其传递到一个MLP网络中来再生图像特征Vr。将重建损失反向传递到普通VQA模块中,该损失由距离损失(衡量网络重建图像特征的的准确度)和KL divergence损失(衡量潜在变量与高斯分布的匹配程度)组成。在重建模块的帮助下,提出的视觉校准机制可以有效地帮助VQA模型更专注于图像而不是数据集偏差,并纠正与视觉内容矛盾的答案。

主要贡献如下:
(1)首次为VQA系统开发了一种视觉校准机制,该机制具有视觉特征重建模块来指导预测与图像内容更加相关的答案;
(2)实验表明提出的视觉校准机制对于解决数据集偏差问题简单有效;
(3)尽管与最先进的模型相差很多,但与其他主流方法相比,在VQA v1和VQA v2数据集上都获得了有竞争力的分数。

Method

Overview

如图所示,VC-VQA由两个组件组成:
(1)normal VQA模块;
(2)从VAE网络修改而来的视觉特征重建模块。

该模型通过Faster R-CNN提取图像特征V,通过由单词嵌入和一个GRU网络组成的语言嵌入提取问题特征Q。视觉特征和文本特征都被传递到基于注意机制的VQA模块来预测初始答案。
如图,重建模块将答案和问题串联,并使用一个GRU网络将这些文本信息嵌入到一个潜在向量h。该潜在向量将被重参数化并通过一个MLP生成重建视觉特征Vr。最后,模块计算重建损失Lrecon。当预测答案与视觉内容矛盾时,模块将损失反向传播来指导VQA模块校准答案。

VQA module

UpDn:Bottom-up Top-down模型。
图像特征:Faster R-CNN with ResNet-101
问题特征:GloVe + GRU

Reconstruction module

与目的是生成真实图像的原始VAE生成网络不同,VC-VQA只需要根据初始预测答案a测量原始图像特征和再生图像特征的相似性来重建图像特征,以校准答案。为了实现VC-VQA,本文修改了参考文献17的从自然语言描述中生成图像的multimodal VAE网络。

q符号化为词向量后和a串联,然后使用单词嵌入(GloVe)得到向量caq 并将其送入一个GRU生成潜在向量haq。重建模块中的潜在变量的均值和方差依赖于文本信息先前的隐藏状态。在VAE模型中广泛使用的重参数化技巧的支持下,从haq 中得到z,并将其传递到一个MLP网络中来再生图像特征Vr

Loss function

重建损失Lrecon 被定义为两个独立的损失之和:
(1)视觉特征的距离损失Lv:是一个均方误差,度量网络重建的图像特征的准确度;
(2)KL divergence损失LKL:度量潜在变量与高斯分布的匹配度。

最后使用总损失:L = Lvqa + λLrecon 指导模型预测最终答案。其中,λ是超参数。

Experiments

Ablation studies


首先研究重建模块的MLP中线性层的层数如何影响性能。其次是λ的值如何影响模型性能。

Performance on VQA v1 and VQA v2 dataset


在VQA v1这一不平衡数据集上提高了模型的性能。


对不同的数据集保持了很好的鲁棒性和竞争力。

HieCoAtt和MCB在VQA v2上的表现都远不如它们在VQA v1上的表现,证明了这些模型严重依赖数据集偏差而不是对视觉内容的深度理解。相反,VC-VQA在两个数据集上都获得了具有竞争力的分数。仅仅简单添加了视觉校准组件就在VQA v2数据集上打败了主流的基于注意力的VQA模型,证明了本文提出的视觉校准机制可以简单而有效地解决VQA任务中的数据集偏差问题。

Conclusion

本文提出了一个全新的视觉校准机制来解决VQA任务中的数据集偏差问题,加强了VQA模型从给定图像中捕捉视觉信息的能力。在未来的工作中,希望将其扩展为通用的独立于模型的模块,使VQA系统更加无偏、可解释和可信。

总结

本文来自 2020 IEEE International Conference on Image Processing (ICIP)。

VC-VQA使用问题与初始预测答案来重建图像特征,进一步通过度量原图像特征和重建图像特征的相似性来指导模型预测最终答案。在没有对本论文及其模型深入了解的情况下,我认为作者的意思是:重建损失越大即代表初始预测答案与图像越相矛盾,优化目标是缩小重建损失和所用UpDn模型的损失。

不知道更复杂的重建方法会不会有更好的结果?还是性能的提升仅仅是类似于对UpDn模型做了一次微调?但对比模型在VQA v1和VQA v2数据集上相近的结果证明了引入视觉校准机制后的模型确实简单且有效地解决了数据集偏差问题。

未来工作是希望能够将其扩展为独立于模型的模块,那么就不能使用来自normal VQA模型的初始预测答案,要考虑通过别的方法重建图像特征。

在Github上搜索VC-VQA没有找到相关代码。

VC-VQA: Visual Calibration Mechanism for Visual Question Answering (VQA的视觉校准机制)相关推荐

  1. 【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】

    "Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering&quo ...

  2. 自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

    本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址 一.文献摘要介绍 Top-down visual attention mechanisms have been used ...

  3. 论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

    文章目录 文章简介 1.背景介绍 研究背景 概念介绍 问题描述 IC与VQA领域的主要挑战 2.相关研究 CNN+RNN体系架构 Attention mechanism Bottom-Up and T ...

  4. 论文-《Visual Question Answering as Reading Comprehension Hui》笔记

    论文下载 摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...

  5. 【Transformer论文解读】TRAR: Routing the Attention Spans in Transformer for Visual Question Answering

    TRAR: Routing the Attention Spans in Transformer for Visual Question Answering 一.Background With its ...

  6. 《Deep Modular Co-Attention Networks for Visual Question Answering》论文翻译

    论文地址:https://doi.org/10.48550/arXiv.1906.10770 代码地址:GitHub - MILVLG/mcan-vqa: Deep Modular Co-Attent ...

  7. <<视觉问答>>2021:Learning Compositional Representation for Few-shot Visual Question Answering

    目录 摘要 一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...

  8. 【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用

    一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...

  9. 【论文】VQA:Learning Conditioned Graph Structures for Interpretable Visual Question Answering

    [论文]VQA:学习可解释的可视问题解答的条件图结构 目录 [论文]VQA:学习可解释的可视问题解答的条件图结构 摘 要 一.模型结构图 二.Computing model inputs 三.Grap ...

最新文章

  1. 11月21日spring mvc的表单校验培训日记
  2. Ajax简单异步上传图片并回显
  3. Windows平台使用Gitblit搭建Git服务器图文教程
  4. 如何删除SQL Server表中的重复行
  5. 2020CCPC(秦皇岛) - Kingdom‘s Power(树形dp+贪心)
  6. 一步一步带你搭建SpringCloud微服务
  7. redis string底层数据结构
  8. Java设计模式之适配器模式详解
  9. 解构OPPO IoT:“开放生态”+“用户思维”,“智美生活”雏形已显
  10. ttl转rs232发送十六进制_TTL和RS232之间的详细对比
  11. 1362:家庭问题(family)(并查集)
  12. android 时间大小排序,android collection.sort()根据时间排序list
  13. 系统地学习打字(个人见解)
  14. 使用fswebcam报错Error selecting input 0 VIDIOC_S_INPUT: Device or resource busy或者使用metion监控,画面为灰色
  15. IC授权卡和复制卡的区别_信用卡小知识【芯片卡磁条卡的区别】
  16. 50个直击灵魂的问题_直击心灵的48个问题
  17. 了解常见的模拟器及交换机的基本配置
  18. 谁偷走了销售人员的时间
  19. centos7 mini 版虚拟机基础安装配置 (含网络)
  20. 【转】CVPR2019目标检测汇总

热门文章

  1. java 面向对象编程之二
  2. 运维体系 ------ 技术运营
  3. 手用计算机电池,MacBook 篇一:二手MacBook pro 2017上手+换电池体验
  4. 怎样用计算机看电影听音乐,如何使用Windows Media Player听歌看电影
  5. Oracle 初始化参数详解
  6. 【读书笔记->统计学】02-01 各种“平均数”-均值、中位数和众数概念简介
  7. 远程办公时意外摔伤,算工伤吗?
  8. Anaconda安装教程傻瓜教程
  9. Springboot中常见疑难杂症记录
  10. 东方财富研发岗位笔试题