一、背景

文章题目:《Visual Question Answering: which investigated applications?》

文章下载地址:https://arxiv.org/pdf/2103.02937.pdf

文章引用格式:Silvio Barraa, Carmen Bisognib, Maria De Marsicoc, Stefano Ricciardi.  "Visual Question Answering: which investigated applications?". arXiv preprint, arXiv: 2102.10575, 2021.

项目地址:暂无

二、文章摘要

Visual Question Answering (VQA) is an extremely stimulating and challenging research area where Computer Vision (CV) and Natural Language Processig (NLP) have recently met. In image captioning and video summarization, the semantic information is completely contained in still images or video dynamics, and it has only to be mined and expressed in a human-consistent way. Differently from this, in VQA semantic information in the same media must be compared with the semantics implied by a question expressed in natural language, doubling the artificial intelligence-related effort. Some recent surveys about VQA approaches have focused on methods underlying either the image-related processing or the verbal-related one, or on the way to consistently fuse the conveyed information. Possible applications are only suggested, and, in fact, most cited works rely on general-purpose datasets that are used to assess the building blocks of a VQA system. This paper rather considers the proposals that focus on real-world applications, possibly using as benchmarks suitable data bound to the application domain. The paper also reports about some recent challenges in VQA research.

VQA是一项非常具有挑战的工作,它涉及了计算机视觉和自然语言处理。在看图说话和视频摘要中,语义信息总是完全包含在图像或者动态的视频中,因此语义信息可以用和人类一致的方式进行表达和挖掘。但是在VQA中,同一种媒介中的语义信息,必须与用NLP表示出的问题所暗指的语义进行比较,这加倍了AI相关的工作。近期的一些VQA工作则关注于方法,揭示图像相关的处理或者语言相关的处理,或者是对融合信息的处理。而事实上,大部分工作依赖于使用泛化目的的数据集来评估VQA的各个构建模块。而本文则更多考虑了现实应用的建议,以及相关应用场景的合适的数据集,和VQA研究的一些挑战

三、文章介绍

一般的VQA框架和涉及到的视觉任务、文本任务如下所示:

尽管现在VQA有很多成果,但是他们都忽略了VQA的现实应用场景(generally neglecting the possible application domains),只有少量文献列举出VQA能做什么,比如帮助盲人与图像进行交互(help blind users to communicate through pictures),吸引消费者在线购物(attract customers of online shopping sites),用图像来吸引学习者进行教育服务(allow learners engaged in educational services to interact with images),帮助分析师在监管数据中概括视觉数据(help the analysts in surveillance data analysis to summarize the available visual data),自动驾驶(autonomous driving),食物图片的智能处理(smart camera processing on food images),能自动解数学题的机器人老师(implementation of robot tutors with the function of automatic math problem solvers),执行一些琐碎的任务比如“在公园中发现一张空的野餐桌”(execution of trivial tasks),在缺乏图像标注的情况下进行图像检索(advanced image retrievad without using image meta-data or tags)、

而VQA的数据集,大部分都是普通的自然图像,当然后续也有研究将VQA的数据集分为自然图像,剪贴画和合成图像。然而,现有的数据集大多会存在语言偏见,并且我们需要考虑其数据集应该更接近于VQA的应用场景。

因此本文的目的就是:

The aim of the present paper is to survey VQA proposals from a novel point of view, and to investigate at which extent different application domains inspire different kinds of questions and call for different benchmarks and/or approaches.

从新的角度理解VQA,调查不同应用领域下,可能涉及到的不同问题和相应的不同数据集、方法。本文剩下的章节主要围绕以下应用展开:medical VQA,support for blind people, video surveillance, education and cultural heritage, and advertising。这里举了一些不同场景下的应用例子:

1. 医疗VQA(Medical VQA)

VQA能够帮助诊断,给出医疗建议。目前这项工作最早是2018年的:Medical Domain Visual Question Answering pilot task, as described in Hasan et al. (2018)。其公开的med-VQA数据集包括2866张图片和6413个Q&A。之后是ImageCLEF 2019 edition (Abacha et al. (2019))数据集,4200张放射图和15992个QA。近期又有两个数据集VQA-RAD presented in Lau et al. (2018), and PathVQA described in He et al. (2020),他们提高了VQA训练和测试样本的多样性。

目前做医疗VQA的方法,大多是在多模态合成和数据集增广上做改进,一些经典的网络包括Cross Facts Network,ETM-Trans,还有一些用到协同注意力的模型等

2. 视觉受损人群的VQA(VQA for visually impaired people)

对于具有视觉障碍的人,VQA的问题应该主要是关注于日常的。从这个角度出发,目前也有相关的数据集公开 ,比如Gurari et al. (2018)公开了数据集包含31000个盲人提的问题;Bigham et al. (2010b)还做了一个叫VizWiz的iphone的app,能够快速响应用户的问题。

方法方面,Anderson et al. (2018)用了BuTd;Weiss et al. (2019)使用了强化学习来对盲人进行街景导航。

3. 视觉监管场景中的VQA(VQA in Video Surveillance scenarios)

VQA在视频监管场景中的应用可以更好的帮助操作者来理解场景,并快速做出准确的决策。Li et al., 2019提出了一个ISEE平台来解析视频监管数据,该平台包含三个模块,检测追踪模块,属性识别模块,再识别模块。Toor et al. (2019a)提出了C2VQA-BOARS。

4. 教育和文化遗产中的VQA(VQA Education and cultural heritage)

VQA与人类感受是高度相关的。He et al. (2017)设计了一个教育机器人,它使用VQA来规范化问题,并且能够进行教育对话。Bongini et al. (2020)提出用VQA在博物馆和艺术展览中进行音频交互;(Stefanini et al., 2019)提出了一个文化数据集Artpedia。

5. 广告VQA(VQA and Advertising)

广告和图像理解是密切相关的。Hussain et al. (2017)提出了两个广告数据集,一个是图像,另一个是视频,图像包含64832张广告,总计有202090个Q&A。Park et al. (2019)则关注于预测用户的偏好,以及什么能够使得用户印象深刻,因此建立Real-ad数据集,其包含3747张图片,并有超过了5亿个印象。最后还有利用VQA来做广告设计的,Zhou et al. (2020)提出了一种能够提取文本和图像相关信息的方法,并生成一个新的广告,他使用的是跨模态编码器(cross-modality encoder architecture)。

6. 未来的挑战(Emerging challenges/Misc)

这里作者提到了一些点。比如对360°的全景影像设计VQA;比如多源VQA数据的融合;比如long-video QA is unexplored;扩展听觉感知和问答;以及模型自助对错误回答的问题进行编辑;利用外部知识来回答未知问题;VQG问题等。

四、小结

【文献阅读】VQA能干啥?VQA相关现实应用和未来挑战(Silvio Barraa等人,ArXiv,2021)相关推荐

  1. 【文献阅读】用对比学习做弱监督语义分割(Sung-Hoon Yoon等人,ArXiv,2021)

    一.背景 文章题目:<Exploring Pixel-level Self-supervision for Weakly Supervised Semantic Segmentation> ...

  2. 【文献阅读】将VQA视作元学习(Damien Teney等人,ECCV,2018)

    一.背景 文章题目:<Visual Question Answering as a Meta Learning Task> ECCV2018的一篇文章.元学习和VQA的结合,非常值得关注. ...

  3. 【文献阅读】能兼顾图像理解和推理能力的VQA模型(CVPR,2019)

    一.文章概况 文章题目:<Answer Them All! Toward Universal Visual Question Answering Models> 文章下载地址:http:/ ...

  4. 【文献阅读】FloodNet——洪水灾害的VQA问答数据集(M. Rahnemoonfar等人,ArXiv,2020)

    一.背景 文章题目:<FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding& ...

  5. 文献阅读---多年生黑麦草种质中与耐热性相关的生理性状、分子标记和叶绿素分解代谢基因的自然变异

    文献阅读-多年生黑麦草种质中与耐热性相关的生理性状.分子标记和叶绿素分解代谢基因的自然变异 本文献于2020年11月发表 杂志:BMC Plant Biology 1. 研究背景 (1)多年生黑麦草简 ...

  6. 【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020)

    [预训练视觉-语言模型文献阅读]VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020) 文章目录 ...

  7. 【预训练视觉-语言模型文献阅读文献阅读】最新BERT模型——UNITER: UNiversal Image-TExt Representation Learning

    [预训练视觉-语言模型文献阅读文献阅读]最新BERT模型--UNITER: UNiversal Image-TExt Representation Learning 文章目录 [预训练视觉-语言模型文 ...

  8. 【转载】关于文献阅读和科研选题

    本文转载自程明明老师博客:https://mmcheng.net/paperreading/ ‎ 对于论文的阅读和研究脉络的梳理很清晰,特别是在于找研究方向的建议上:从开山文献开始,会到当事人的角度去 ...

  9. 基于Linux平台上的外文文献阅读软件—需求分析

    1 项目背景 Windows/MacOS平台上,可以借助知云文献阅读器等软件实现英文文献的翻译.阅读和批注,Linux平台却缺乏该类软件,因此通过Qt框架,调用百度翻译接口,实现一个围绕翻译功能展开的 ...

最新文章

  1. 黄聪:主目录安装Wordpress,根目录安装Discus,httpd.ini如何写?
  2. linux下修改MySQL 密码
  3. java与js交互,相互调用传参
  4. Bit-Z图解“推荐返佣”那些事儿
  5. 光纤收发器一定要成对使用吗?
  6. TPL Dataflow .Net 数据流组件,了解一下?
  7. 问题 D: 自动拨出电话的程序
  8. 怎么解锁blockinput锁定的键盘_电脑键盘上的三个灯分别是什么作用?虽然很简单,但是很实用...
  9. python manager_详解Python的Django框架中Manager方法的使用
  10. Cocos2dx 3.0 过渡篇(二十六)C++11多线程std::thread的简单使用(上)
  11. ryzen cpu 用啥linux,AMD Ryzen锐龙处理器配什么主板?AMD 锐龙Ryzen CPU搭配主板技巧...
  12. 近期计算机病毒爆发,最新警示!最新电脑病毒全面爆发,沉寂已久的incaseformat蠕虫病毒肆虐横行!...
  13. 你还在用分页?试试 MyBatis 流式查询,真心强大!
  14. 「ZJOI2009」多米诺骨牌
  15. 在xml中定义excel的sheet_XML和Excel
  16. Minima黑色响应式后台管理模板
  17. React+Antd 无插件 实现多个输入框验证码功能 + 倒计时(附完整代码)
  18. SiamFC:用于目标跟踪的全卷积孪生网络 fully-convolutional siamese networks for object tracking
  19. MATLAB可以使用但是使用help函数报错问题的解决
  20. Java8种Stream流相关操作——集合的筛选、归约、分组、聚合

热门文章

  1. 半导体衰落超出想象,会熊市反弹? – 25 年来 71 家公司的库存分析
  2. 解决58同城使用font-face进行字符替换
  3. 16路4-20mA转Modbus TCP网络数据采集模块 WJ89
  4. 一张图看懂IaaS, PaaS和SaaS的区别
  5. linux美元符号切换为井号,MyBatis中井号与美元符号的区别
  6. oracle11监视器,zabbix-使用orabbix来监控oracle11g
  7. 初识Android的ReactiveX
  8. 台大-林轩田老师-机器学习基石学习笔记6
  9. uniapp项目实现扫描二维码和NFC识别功能
  10. 机器学习—导论day01