AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗

动机

视频问答（VideoQA）的推理通常涉及两个领域的异构数据，即时空视频内容和语言文字序列。现有的方法主要集中在多模态的表示和融合方面，在对齐和推理方面的研究还很少。

近年来，多模态问答技术取得了显著进展，其中最具代表性的是视觉问答(VQA)和视频问答（VideoQA），其中VideoQA将VQA扩展到视频领域，对时空理解和推理提出了更高的要求。视频问答（VideoQA）旨在自动推理视频和文本问题的正确答案，近年来受到越来越多的关注。VideoQA的推理通常涉及两个领域的异构数据，即时空视频内容和语言文字序列。Tapaswi等人采用memory网络来处理和重用问题的相关信息。Jang等人提出了利用时空attention机制。Lei等人介绍了一种multi-stream端到端网络，并使用RNN将其融合。有几个广泛使用的基准数据集。TGIF-QA数据集建立在简短的、特定动作的视频剪辑上，需要对动作进行精确的理解和推理，而其他两个数据集则具有更复杂的视频情节，需要更多的操作在场景的长时理解上。最近，应用动态memory网络的部分贡献是通过更好的表示和融合策略来增强智能。此外，薛等人提出了树状结构memory网络，Li等人利用self-attention对时间信息进行建模，介绍了几种新的视频问答方法。然而，现有的方法主要集中在多模态的表示和融合方面，在对齐和推理方面的研究还很少。
主要的视频问答方法基于细粒度表示或模型特定的attention机制。它们通常将视频和问题分开处理，然后将不同模态的表示输入后续的融合网络。虽然这些方法利用一个模态的信息来促进另一个模态，但它们都忽略于将模态间和模态内的相关性整合在一个统一的模块中。

最近对VideoQA的努力试图揭示视频内容和词汇语义之间的潜在相关性，这种相关性可以被视为模态间相关性。Li等人引入了专门的co-attention机制来关注相关的视频和语言。Kim等人提出了一种渐进attention memory来进行动态模态融合。同时，研究表明，适当地结合视频内部的相关性或词序列之间的依赖关系有助于提高VideoQA的性能可以被看作是利用了模态内的相关性。一种常见的做法是分别使用基于RNN的编码器对视频和单词序列进行编码。另一个贡献是Fan等人提出了异构memory来融合视觉特征，同时设计了另一个memory来处理问题。另一方面，在大多数情况下，将模态间和模态内的相关（也称为异构关系）以一种更易理解的方式整合起来，可能会进一步有利于VideoQA的推断，如图结构化方法。如图1上部所示。为了回答这个问题，作者首先要建立”woman”这个词与视频中的视觉区域之间的语义关系，然后对动作”put hand”进行描述。此外，作者需要模态间的对齐和语义相似度来确定时间推理后的动作”dance”。然而，目前的VideoQA方法缺乏一个统一的模型来同时进行模态间关系和模态内关系的建模和推理。本文提出了一种新的异构图对齐网络(HGA)以执行跨模态推理和VideoQA解决该问题。

方法

简介

本文提出了一种新的异构图对齐网络(HGA)以执行跨模态推理和VideoQA。作者首先建立一个统一的不同模态因子上的异构图，是一种表达和可解释的途径。通过异构图，如图1的下部所示，模态内同质边和模态间异构边是两种类型的边。作者可以在一个模态内推理，比如“S1⇌S3”和“W1⇌W2”，以及模态间，像“S1⇌W2”。特别是在图上，作者引入模块化的co-attention嵌入操作来将视觉和语言表征对齐，同时绘制进一步对齐的图卷积网络来建模多模态之间的复杂关联和推理。然而，一个难以解决的缺点是不同模态之间的语义鸿沟，阻碍了模态间的交互。近年来，跨模态attention机制作为一种折衷方法被广泛应用，作者将基于attention的融合视为交互空间中的语义对齐，这是构建图的关键先验知识。作者在三个基准数据集上评估了作者的方法，并对其有效性进行了广泛的消融研究。实验表明，该网络具有较高的质量。

作者的HGA网络的框架如图2所示。在本方法中，作者认为每个词和每个视频shots都包含相同的语义信息，并且可以集成到一个统一的模块中。准确地说，在整体上，作者设计了一个包括全局和局部融合的并行架构。为了联合建模视觉和语言因素（shots或文字），作者首先获得上下文的视觉和语言表征。注意，一个“视频shots”指的是一个小的视频片段，它可以通过一个3D卷积模块处理，并产生一个单个的运动向量。作者通过一个模块化的co-attention嵌入操作将视觉和语言向量嵌入到一个公共空间中。在异构图推理部分，首先提出了一种对齐策略，得到加权邻接矩阵，然后利用邻接矩阵构造多层图卷积网络进行多模态交叉推理。

Visual and Linguistic Contextual Representation

视频shots具有比帧级更丰富的运动表达能力，因此作者使用3D ConvNets（即C3D)来获取shots级视频运动特征，并且为了兼顾图像的感知，作者使用2D ConvNets（即ResNet)作为一个辅助视图。然后，视频被表示为两个特征视图，外观特征F_A={a_i:

AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗相关推荐

CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering
动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...
视频问答与推理(Video Question Answering and Reasoning)——论文调研
文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...
AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering
动机视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统.机器人对话.视频检索等方面的广泛应用,近年来受到越来越多的关注.与深入研究的图像问答(Image QA)任务不同 ...
QA-GNN: Reasoning with Language Models and Knowledge Graphsfor Question Answering
题目:QA-GNN:使用语言模型和知识图进行问答推理作者:Michihiro Yasunaga.Hongyu Ren.Antoine Bosselut.Percy Liang.Jure Leskov ...
VideoQA论文阅读笔记——Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering
论文:Heterogeneous Memory Enhanced Multimodal Attention Model for VQA 来源:CVPR2019 作者:京东研究院源码: Github ...
请查收！顶会AAAI 2020录用论文之自然语言处理篇
文章目录自然语言处理篇(NLP) Question Answering Sequence Labeling Semantics and Summari ...
【AAAI 2020】全部接受论文列表（三）
来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-01-22 最近武汉肺炎形势严峻,请小伙伴们带好口罩,做好防护,大家新年快乐~ ...
请查收！顶会AAAI 2020录用论文之知识图谱篇
欢迎关注语言智能技术笔记簿微信公众号导读:人工智能领域顶级会议AAAI 2020持续火爆,共收到有效论文投稿8843篇,其中7737篇论文进入评审环节,最终收录1591篇,收录率为 20.6%.较去 ...

AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗

动机

方法

简介

Visual and Linguistic Contextual Representation

AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗相关推荐

最新文章

热门文章