动机
  1. 视频问答(VideoQA)的推理通常涉及两个领域的异构数据,即时空视频内容和语言文字序列。现有的方法主要集中在多模态的表示和融合方面,在对齐和推理方面的研究还很少。

    近年来,多模态问答技术取得了显著进展,其中最具代表性的是视觉问答(VQA)和视频问答(VideoQA),其中VideoQA将VQA扩展到视频领域,对时空理解和推理提出了更高的要求。视频问答(VideoQA)旨在自动推理视频和文本问题的正确答案,近年来受到越来越多的关注。VideoQA的推理通常涉及两个领域的异构数据,即时空视频内容和语言文字序列。Tapaswi等人采用memory网络来处理和重用问题的相关信息。Jang等人提出了利用时空attention机制。Lei等人介绍了一种multi-stream端到端网络,并使用RNN将其融合。有几个广泛使用的基准数据集。TGIF-QA数据集建立在简短的、特定动作的视频剪辑上,需要对动作进行精确的理解和推理,而其他两个数据集则具有更复杂的视频情节,需要更多的操作在场景的长时理解上。最近,应用动态memory网络的部分贡献是通过更好的表示和融合策略来增强智能。此外,薛等人提出了树状结构memory网络,Li等人利用self-attention对时间信息进行建模,介绍了几种新的视频问答方法。然而,现有的方法主要集中在多模态的表示和融合方面,在对齐和推理方面的研究还很少。

  2. 主要的视频问答方法基于细粒度表示或模型特定的attention机制。它们通常将视频和问题分开处理,然后将不同模态的表示输入后续的融合网络。虽然这些方法利用一个模态的信息来促进另一个模态,但它们都忽略于将模态间和模态内的相关性整合在一个统一的模块中。

    最近对VideoQA的努力试图揭示视频内容和词汇语义之间的潜在相关性,这种相关性可以被视为模态间相关性。Li等人引入了专门的co-attention机制来关注相关的视频和语言。Kim等人提出了一种渐进attention memory来进行动态模态融合。同时,研究表明,适当地结合视频内部的相关性或词序列之间的依赖关系有助于提高VideoQA的性能可以被看作是利用了模态内的相关性。一种常见的做法是分别使用基于RNN的编码器对视频和单词序列进行编码。另一个贡献是Fan等人提出了异构memory来融合视觉特征,同时设计了另一个memory来处理问题。另一方面,在大多数情况下,将模态间和模态内的相关(也称为异构关系)以一种更易理解的方式整合起来,可能会进一步有利于VideoQA的推断,如图结构化方法。如图1上部所示。为了回答这个问题,作者首先要建立”woman”这个词与视频中的视觉区域之间的语义关系,然后对动作”put hand”进行描述。此外,作者需要模态间的对齐和语义相似度来确定时间推理后的动作”dance”。然而,目前的VideoQA方法缺乏一个统一的模型来同时进行模态间关系和模态内关系的建模和推理。本文提出了一种新的异构图对齐网络(HGA)以执行跨模态推理和VideoQA解决该问题。

方法
简介

本文提出了一种新的异构图对齐网络(HGA)以执行跨模态推理和VideoQA。作者首先建立一个统一的不同模态因子上的异构图,是一种表达和可解释的途径。通过异构图,如图1的下部所示,模态内同质边和模态间异构边是两种类型的边。作者可以在一个模态内推理,比如“S1⇌S3”和“W1⇌W2”,以及模态间,像“S1⇌W2”。特别是在图上,作者引入模块化的co-attention嵌入操作来将视觉和语言表征对齐,同时绘制进一步对齐的图卷积网络来建模多模态之间的复杂关联和推理。然而,一个难以解决的缺点是不同模态之间的语义鸿沟,阻碍了模态间的交互。近年来,跨模态attention机制作为一种折衷方法被广泛应用,作者将基于attention的融合视为交互空间中的语义对齐,这是构建图的关键先验知识。作者在三个基准数据集上评估了作者的方法,并对其有效性进行了广泛的消融研究。实验表明,该网络具有较高的质量。

作者的HGA网络的框架如图2所示。在本方法中,作者认为每个词和每个视频shots都包含相同的语义信息,并且可以集成到一个统一的模块中。准确地说,在整体上,作者设计了一个包括全局和局部融合的并行架构。为了联合建模视觉和语言因素(shots或文字),作者首先获得上下文的视觉和语言表征。注意,一个“视频shots”指的是一个小的视频片段,它可以通过一个3D卷积模块处理,并产生一个单个的运动向量。作者通过一个模块化的co-attention嵌入操作将视觉和语言向量嵌入到一个公共空间中。在异构图推理部分,首先提出了一种对齐策略,得到加权邻接矩阵,然后利用邻接矩阵构造多层图卷积网络进行多模态交叉推理。

Visual and Linguistic Contextual Representation

视频shots具有比帧级更丰富的运动表达能力,因此作者使用3D ConvNets(即C3D)来获取shots级视频运动特征,并且为了兼顾图像的感知,作者使用2D ConvNets(即ResNet)作为一个辅助视图。然后,视频被表示为两个特征视图,外观特征FA={ai:

AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗相关推荐

  1. CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

    动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...

  2. Hierarchical Graph Network for Multi-hop Question Answering 论文笔记

    Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...

  3. 视频问答与推理(Video Question Answering and Reasoning)——论文调研

    文章目录 0. 前言 1. ACM MM 2. CVPR 3. ICCV 4. AAAI 更新时间--2019.12 首稿 0. 前言 学习 VQA 的第一步--前期论文调研. 调研近几年在各大会议上 ...

  4. AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering

    动机 视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统.机器人对话.视频检索等方面的广泛应用,近年来受到越来越多的关注.与深入研究的图像问答(Image QA)任务不同 ...

  5. QA-GNN: Reasoning with Language Models and Knowledge Graphsfor Question Answering

    题目:QA-GNN:使用语言模型和知识图进行问答推理 作者:Michihiro Yasunaga.Hongyu Ren.Antoine Bosselut.Percy Liang.Jure Leskov ...

  6. VideoQA论文阅读笔记——Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

    论文:Heterogeneous Memory Enhanced Multimodal Attention Model for VQA 来源:CVPR2019 作者:京东研究院 源码: Github ...

  7. 请查收!顶会AAAI 2020录用论文之自然语言处理篇

    文章目录 自然语言处理篇(NLP)         Question Answering         Sequence Labeling         Semantics and Summari ...

  8. 【AAAI 2020】全部接受论文列表(三)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-01-22 最近武汉肺炎形势严峻,请小伙伴们带好口罩,做好防护,大家新年快乐~    ...

  9. 请查收!顶会AAAI 2020录用论文之知识图谱篇

    欢迎关注语言智能技术笔记簿微信公众号 导读:人工智能领域顶级会议AAAI 2020持续火爆,共收到有效论文投稿8843篇,其中7737篇论文进入评审环节,最终收录1591篇,收录率为 20.6%.较去 ...

最新文章

  1. 从底层剖析i++和++i的区别与相同点
  2. tar常见文件解压法
  3. 经验模式分解EMD算法原理
  4. 安卓开发面试书籍,全世界都在问Android开发凉了吗?建议收藏
  5. 泸西一中2021高考成绩查询,云南红河州四所好高中,红河州一中一本率领先,建水一中不容小觑...
  6. Maven 建立父子项目和跨项目调用内容的步骤
  7. 【实习之T100开发】Linux 学习笔记
  8. 《Ubuntu学习笔记》——如何建立软链接
  9. Java中四大代码块的执行顺序(附code)
  10. vs2013 mfc连接MySQL数据库
  11. 一加10 Pro搭载Pixelworks视觉显示技术;Microland获微软高级专业化认证 | 全球TMT
  12. vue中使用vue-waterfall2来实现瀑布流
  13. sol日历只能在android,日历本应如此优美 Sol日历For Android体验
  14. B 站,真香 ! ! !
  15. 电脑开机黑屏---只有一个鼠标箭头处理办法
  16. 关于嵌入式常用显示屏的总结
  17. 下载整个网站 有什么工具可以下载整个网站的内容吗?
  18. MOSS工作流 InfoPath+WorkFlow+Moss 开发要点
  19. 分享几个阿里云盘资源搜索平台
  20. 通过分解和增强学习恢复微光图像(CVPR2020)

热门文章

  1. nginx反向代理不显示图片
  2. 阿里大数据比赛排名获取2
  3. 作业必备:操作系统实验六【生产者消费者实验:用信号量实现PV操作】
  4. JHM | 北大孙卫玲/西湖鞠峰-含盐地下水中ARG和菌群的多样性模式和驱动机制
  5. 【CTF】加密1——滴答~滴+聪明的小羊
  6. GRANT 赋于权限
  7. 搞了半天 微信云托管 就是个docker
  8. 【CVPR 2021】剪枝篇(二):Convolutional Neural Network Pruning with Structural Redundancy Reduction
  9. luogu的第一个任务
  10. Simulink-仿真简介