目录

  • 引言
  • 选择型视频问答
  • 开放型视频问答
  • 选择型、开放型均可的视频问答
  • 结论
  • 参考文献

引言

视频问答是视觉语言领域较为新兴的一个课题,需要根据视频内容和问题进行分析,得出问题的答案。根据回答形式,可分为:一、选择型视频问答;二、开放型视频问答。根据方法的提出时间,可以构建出如下时间线:

  • 2014 MM JVTP-UEAQ[1]
  • 2015 arXiv GRU[2]
  • 2016 CVPR MovieQA[3]
  • 2017 CVPR MovieFIB[4]
  • 2017 CVPR TGIF-QA[5]
  • 2017 AAAI E4M[6]
  • 2017 IJCAI r-STAN[7]
  • 2017 ACMMM AMU[8]
  • 2017 ACMMM DLAN[9]
  • 2017 SIGIR ANL[10]
  • 2018 CVPR Co-memory[11]
  • 2018 ACMMM SVQA[12]
  • 2018 EMNLP TVQA[13]
  • 2019 AAAI PSAC[14]
  • 2019 AAAI STA[15]
  • 2019 CVPR HMEMAM[16]
  • 2019 CVPR PAMN[17]
  • 2019 IJCAI HCSA[18]
  • 2019 IJCNN MTL[19]
  • 2019 ACMMM LAD-Net[20]
  • 2019 ACMMM Multi-interaction Network[21]
  • 2019 ACMMM TSN[22]
  • 2019 TIP CAN[23]
  • 2019 TIP HMMN[24]
  • 2020 ECCV ROLL[25]
  • 2020 TIP VQA-HMAL[26]
  • 2020 WACV BERTVideoQA[27]

下面,对上述提到的方法按照其所属类别,依次进行介绍。

选择型视频问答

图1 选择型视频问答[13]

图1是选择型视频问答的一个简单示例,这类视频问答会提供用于回答问题的几个备选答案,模型需要从备选答案中选出正确答案。
       2015年,Zhu等人[2]构建了一个具有390744个填空问题的视频问答数据集,这些问题是基于其他手动创建的Video Caption数据集自动生成的。并提出了一种编码-解码的方法来回答视频中的多项选择题。2016年,Tapaswi等人[3]提出一个使用与电影相关的视频和文本资源的、基于故事理解的问答数据集MovieQA。它由408部字幕电影组成,这些电影摘要来自维基百科,剧本来自互联网电影脚本数据库 (IMSDb)。此数据集共有14944个问题,并且问题的回答很大程度上依赖于电影片段所提供的文本信息,主要侧重于对故事的理解。2018年,Lei等人[13]提出TVQA数据集,合并了已有视频问答数据集中的高质量数据,并主要关注多模态组合性。TVQA数据集包括和21793个视频片段相关的152545个QA pair,总视频时长超过460小时。2019年,Kim等人[19]通过使用多任务学习在视频问答任务中引入额外的监督信息,并结合课程学习提出了多任务比率调节方法,先学习较为容易的任务。同年,Yang等人[22]提出使用MIX模块同时联合外观和运动表示,实现了细粒度的时间对齐与外观和运动的对应,并通过SWITCH模块在每个推理步骤中,自适应地选择外观和运动信息进行指导。同年,Wang等人[24]提出整体多模态记忆网络,充分考虑不同模态(多模态上下文、问题、答案选项)之间的相互作用,以达到信息的合理利用。2020年,Garcia等人[25]提出了一种基于视频场景图生成视频描述的无监督视频表示方法,将视频场景的具体细节和弱监督的外部知识结合起来,更加深入的理解视频故事。同一年,Yang等人[27]在视频问答中引入了BERT模型,将视觉概念和字幕分别和问题、候选答案联合,再基于预训练的BERT模型分别进行处理。

开放型视频问答

图2 开放型视频问答[5]

图2是开放型视频问答的一个简单示例,这类视频问答不会提供备选答案,需要模型自行生成问题的答案。
       2014年,Tu等人[1]基于文本和视频的联合解析图构建了一个查询回答系统[1],但是在当时没有引起广泛关注。2017年,Maharaj等人[4]提出了第一个开放型视频问答数据集MovieFIB,具有有超过30万个数据样本。和MovieFIB同一年,Zeng等人[6]不依赖手工构建了一个视频问答数据集,并使用自步学习在此数据集上进行训练,以应对那些不相关的QA pair。本文提出了四种模型来解决VideoQA任务,这四种模型都是从用于其他任务(如视频字幕和ImageQA)的模型扩展而来的。同年,Zhao等人[7]提出了从目标的关键视频帧中学习联合表示的时空注意网络,并将所提出的时空注意网络的多步骤推理过程整合到一起,实现了渐进的联合表示学习,进一步提高视频问题回答的性能。2017年,Xu等人[8]提出了端到端的AMU模型,以问题作为指导,逐步细化对视频外观和运动特征的关注,问题被逐单词处理,直到模型产生最终的注意力。同一年,Zhao等人[9]从分层双层次注意力网络的视角出发,采用frame-level和segment-level的特征表示方法来获取视频中物体的外观和运动信息,并通过基于word-level和question-level注意力机制的分层dual-level注意力网络来学习基于问题的视频表示,可以有效的建模视频的动态性。2018年,针对现有视频问答数据集中缺乏逻辑结构且具有语言偏置的问题,Song等人[12]提出了新的视频问答benchmark——SVQA,专门包含一些长的、目标间具有多种关系的结构化问题。2019年,Zhang等人[18]使用层次化卷积自注意力编码器对长时视频序列进行建模,并基于多尺度注意力解码器得到答案。同年,Yu等人[23]提出组成注意力网络,基于双流机制对视频片段进行采样,为每个流提取一组视觉特征表示视频的语义信息,再通过组成注意力模块对双流特征进行聚合,在长时视频问答上具有较好的结果。2020年,Zhao等人[26]使用分层注意力编码网络学习长时视频内容和问题的联合表示,并通过多模态条件对抗网络进行解码,最终得到答案。

选择型、开放型均可的视频问答

选择型视频问答和开放型视频问答其实只有问答形式上的区别,很多方法在这两类任务上均适用,并有着不错的结果。
       2017年,Jang等人[5]将QA从图像领域拓展到了视频领域,并将VideoQA任务更加细分为三种不同的子任务:①重复计数;②重复动作;③状态转换。Jang等人构造了TGIF-QA数据集,共包含57K个GIFs和104K个QA pair,包括选择型QA pair和开放型QA pair。同年,Ye等人[10]使用frame-level注意力机制建模视频的时序内容,并提出了属性增强注意力网络学习框架,实现了视频问答的frame-level属性检测和统一的视频表示学习,在选择型视频问答和开放型视频问答中均取得了不错的结果。2018年,Gao等人[11]分析了和视觉问答相比,视频问答具有的三个特性:①视频问答需要处理序列图像信息,这包含更加丰富的信息;②运动和外观信息存在联系,并能给对方提供有用的注意力线索;③对于不同的问题,需要不同数量的帧来得到答案。基于这三个特性,Gao等人提出运动-外观共同记忆网络,使用时间卷积-反卷积架构建立多层次上下文信息,联合运动和外观信息得到注意力,并通过一种动态事实集成方法,动态地构造不同问题的时间表示。2019年,由于现有方法大多使用RNNs进行建模,降低了模型的速度,且难以建模长时依赖。Li等人[14]提出了基于联合注意力的位置自注意力模型,可以建模全局依赖且提高了模型的速度。同年,Gao等人[15]提出STA模型,使用结构化双流注意力网络共同关注视频和文本的空间和长时时间信息来得出准确的答案。同一年,Fan等人[16]提出使用异构记忆从运动特征和外观特征中学习全局上下文信息,设计了全新的问题记忆模块用于帮助模型理解问题中的复杂语义信息、突出查询对象,并设计了多模态融合层,通过将相关的视觉内容和关键问题词对齐同时处理两种模态的信息。2019年,Kim等人[17]提出渐进式注意力记忆网络用于电影故事问答任务。主要应对此任务中的两个挑战:①如何在普遍超过1小时时长的电影中找出与回答当前问题相关的时间片段;②如何合理利用视频和字幕两种模态进行回答。作者使用渐进式注意力机制,利用问题和答案中的信息逐步清楚记忆中不相关的时间片段,并提出动态模态融合机制,自适应地确定每个模态对回答当前问题的贡献。同年,Jin等人[21]提出多重交互网络Multi-interaction network,使用注意力机制学习视觉、语言两种模态的信息。其中,本文提出的注意力机制可以同时捕获element-wise和segment-wise的序列交互。并通过考虑物体的关系捕获更加细粒度的时空信息。2019年,Li等人[20]提出多路径金字塔联合注意力结构同时对两种模态的信息进行建模,并提出一种可学习的、非RNN结构的聚集方法,对视频中不同帧的特征进行聚集。

结论

从上文中可以看出,视频问答领域主要存在以下问题需要解决:

  • 如何表示视频,需要一个合理的视频建模方法,能够提取外观信息和运动信息;
  • 如何根据问题找出视频中相关的片段并对回答问题的过程进行指导;
  • 多模态信息对齐和融合问题;

虽然视觉语言领域中许多任务已经解决的很不错了,但是视频问答任务在准确率上还不尽人意,需要我们不断努力!

参考文献

  1. Tu K, Meng M, Lee M W, et al. Joint video and text parsing for understanding events and answering queries[J]. IEEE MultiMedia, 2014, 21(2): 42-70.
  2. Zhu L, Xu Z, Yang Y, et al. Uncovering the temporal context for video question answering[J]. International Journal of Computer Vision, 2017, 124(3): 409-421.
  3. Tapaswi M, Zhu Y, Stiefelhagen R, et al. Movieqa: Understanding stories in movies through question-answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4631-4640.
  4. Maharaj T, Ballas N, Rohrbach A, et al. A dataset and exploration of models for understanding video data through fill-in-the-blank question-answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6884-6893.
  5. Jang Y, Song Y, Yu Y, et al. Tgif-qa: Toward spatio-temporal reasoning in visual question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2758-2766.
  6. Zeng K H, Chen T H, Chuang C Y, et al. Leveraging video descriptions to learn video question answering[J]. arXiv preprint arXiv:1611.04021, 2016.
  7. Zhao Z, Yang Q, Cai D, et al. Video Question Answering via Hierarchical Spatio-Temporal Attention Networks[C]//IJCAI. 2017: 3518-3524.
  8. Xu D, Zhao Z, Xiao J, et al. Video question answering via gradually refined attention over appearance and motion[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1645-1653.
  9. Zhao Z, Lin J, Jiang X, et al. Video question answering via hierarchical dual-level attention network learning[C]//Proceedings of the 25th ACM international conference on Multimedia. 2017: 1050-1058.
  10. Ye Y, Zhao Z, Li Y, et al. Video question answering via attribute-augmented attention network learning[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. 2017: 829-832.
  11. Gao J, Ge R, Chen K, et al. Motion-appearance co-memory networks for video question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 6576-6585.
  12. Song X, Shi Y, Chen X, et al. Explore multi-step reasoning in video question answering[C]//Proceedings of the 26th ACM international conference on Multimedia. 2018: 239-247.
  13. Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.
  14. Li X, Song J, Gao L, et al. Beyond rnns: Positional self-attention with co-attention for video question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8658-8665.
  15. Gao L, Zeng P, Song J, et al. Structured two-stream attention network for video question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 6391-6398.
  16. Fan C, Zhang X, Zhang S, et al. Heterogeneous memory enhanced multimodal attention model for video question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 1999-2007.
  17. Kim J, Ma M, Kim K, et al. Progressive attention memory network for movie story question answering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 8337-8346.
  18. Zhao Z, Zhang Z, Xiao S, et al. Open-Ended Long-form Video Question Answering via Adaptive Hierarchical Reinforced Networks[C]//IJCAI. 2018: 3683-3689.
  19. Kim J, Ma M, Kim K, et al. Gaining extra supervision via multi-task learning for multi-modal video question answering[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.
  20. Xiangpeng Li, Lianli Gao, Xuanhan Wang, Wu Liu, Xing Xu, Heng Tao Shen, and Jingkuan Song. 2019. Learnable Aggregating Net with Diversity Learning for Video Question Answering. In Proceedings of the 27th ACM International Conference on Multimedia (MM '19). Association for Computing Machinery, New York, NY, USA, 1166–1174. DOI:https://doi.org/10.1145/3343031.3350971
  21. Jin W, Zhao Z, Gu M, et al. Multi-interaction network with object relation for video question answering[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1193-1201.
  22. Yang T, Zha Z J, Xie H, et al. Question-aware tube-switch network for video question answering[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 1184-1192.
  23. Yu T, Yu J, Yu Z, et al. Compositional attention networks with two-stream fusion for video question answering[J]. IEEE Transactions on Image Processing, 2019, 29: 1204-1218.
  24. Wang A, Luu A T, Foo C S, et al. Holistic multi-modal memory network for movie question answering[J]. IEEE Transactions on Image Processing, 2019, 29: 489-499.
  25. Garcia N, Nakashima Y. Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions[J]. arXiv preprint arXiv:2007.08751, 2020.
  26. Zhao Z, Xiao S, Song Z, et al. Open-Ended Video Question Answering via Multi-Modal Conditional Adversarial Networks[J]. IEEE Transactions on Image Processing, 2020, 29: 3859-3870.
  27. Yang Z, Garcia N, Chu C, et al. BERT Representations for Video Question Answering[C]//The IEEE Winter Conference on Applications of Computer Vision. 2020: 1556-1565.

Video Question Answering综述相关推荐

  1. 【VideoQA最新论文阅读】第一篇视频问答综述Video Question Answering: a Survey of Models and Datasets

    Video Question Answering: a Survey of Models and Datasets 长文预警!!! p.s.此篇文章于2021年1月25日新鲜出炉,在Springer需 ...

  2. 视频问答与推理(Video Question Answering and Reasoning)——论文调研

    文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言 学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...

  3. VideoQA论文阅读笔记——Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

    论文:Heterogeneous Memory Enhanced Multimodal Attention Model for VQA 来源:CVPR2019 作者:京东研究院 源码: Github ...

  4. CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

    动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...

  5. Divide and Conquer:Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering

    动机 理解问题和寻找答案的线索是视频问答的关键. VQA任务主要分为图像问答(Image QA)和视频问答(Video QA)两种,针对不同视觉材料的自然语言问题进行回答.通常,理解问题并在给定的视觉 ...

  6. AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering

    动机 视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统.机器人对话.视频检索等方面的广泛应用,近年来受到越来越多的关注.与深入研究的图像问答(Image QA)任务不同 ...

  7. AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗

    动机 视频问答(VideoQA)的推理通常涉及两个领域的异构数据,即时空视频内容和语言文字序列.现有的方法主要集中在多模态的表示和融合方面,在对齐和推理方面的研究还很少. 近年来,多模态问答技术取得了 ...

  8. 【KBQA综述-0】Complex Knowledge Base Question Answering: A Survey

    Complex Knowledge Base Question Answering: A Survey(2021年10月) 前言 这是一篇对于复杂问题KBQA领域的详细综述,其工作主要集中在以下方面: ...

  9. Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记

    本文提出了一种视频故事问答(QA)体系结构MDAM,关键的思想是使用双重注意机制与后期融合.MDAM首先使用self - attention来学习场景帧和字幕中的潜在概念.然后根据给出的问题,使用第二 ...

最新文章

  1. 10年后的计算机会是怎样的?
  2. Bellman-Ford
  3. 使用Cocoapods快速创建自己的podspec,让你的框架支持cocoapods,podspec
  4. 软件开发 thoughtworks 技术面_【软件开发】10月29日比赛详细预告
  5. android 日期时间类,Android 日期时间等转换工具类
  6. python开发mes系统_MES系统开发
  7. 95-30-070-java.util-LinkedList
  8. NEERC 2012
  9. windows环境下unicode编程总结
  10. 对C#Chart控件使用整理
  11. 使用场景法对在线购网站编写的用例示范
  12. odac oracle效率差,垃圾,奇慢 ORACLE ODAC
  13. 单片机交通灯设计实例
  14. android 微信浮窗实现_转载:Android悬浮窗的实现
  15. 【CentOS 7 】密码破解与防破解
  16. 20年前的网文:我彷徨在唯物主义和唯心主义之间
  17. 图书销售系统需求分析获取
  18. 前端实现 html 下载(保存)为 word 格式的文件
  19. html5 required修改提示信息,required修改提示文字
  20. Minimum supported Gradle version is 6.1.1. Current version is 5.6.4

热门文章

  1. 学术之问2018-04-05
  2. 编写代码的若干个基本规则(以Java为例)
  3. 简单的派生类构造函数C++
  4. 【CyberSecurityLearning 40】网络地址配置(Kali/CentOS)
  5. 新手学习DaVinci笔记一:查找资料篇
  6. 详解基于 Cortex-M3 的任务调度(上)
  7. 程序的加载和执行(四)——《x86汇编语言:从实模式到保护模式》读书笔记24
  8. Head First JSP---随笔二
  9. 随笔(一)-- Jupyter Notebook如何切换主题、更改字体大小
  10. 来自智能合约中的威胁:去中心化应用安全威胁Top10榜单