动机

  1. 视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统、机器人对话、视频检索等方面的广泛应用,近年来受到越来越多的关注。与深入研究的图像问答(Image QA)任务不同,图像问答任务侧重于理解静态图像,而视频问答更加实用,因为输入的视觉信息经常动态变化。

  2. 与图像问答相比,视频问答更具有挑战性。

    (1)视频中的视觉内容更为复杂,因为它可能包含数千帧,如图1所示。更重要的是,一些框架可能被强大的背景内容所支配,而这些背景内容与问题无关。

    (2)视频中经常包含多种动作,但只有一部分动作是被关注者感兴趣的。

    (3)视频问答任务中的问题往往包含与时间线索有关的问题,这意味着在进行答案推理时,既要考虑目标的时间位置,又要考虑目标之间的复杂交互作用。例如在图1中,为了回答“人在旋转水桶之前做了什么”的问题,机器人不仅要通过理解人与不同帧中的物体(即手提电脑和水桶)之间的相互作用来识别动作“旋转笔记本电脑”和“旋转水桶”,而且还要找出动作的时间或时间(如前/后)进行沿时间轴的回答推理。

  3. 以往的研究方法试图将时空attention机制应用于视频帧特征,而没有明确地对视频中发生的目标交互间的位置和关系进行建模。然而,目标交互与位置信息之间的关系对于行为识别和问题推理都是非常重要的。

    以视频帧为输入,大多数现有方法采用帧特征上的某种时空attention机制来询问网络“去哪里看、什么时候看”。然而,由于视频中的复杂的背景内容,这些方法往往不够健壮。2018年Lei等人通过检测每帧中的目标,然后通过LSTM处理目标特征的序列来解决这个问题。然而,输入目标序列的顺序可能会影响系统的性能,很难排序。更重要的是,以递归的方式处理目标必然会忽略非相邻目标之间的直接交互作用。然而,目标交互与位置信息之间的关系对于对于视频问答至关重要。

方法
简介

本文介绍了一种简单而功能强大的网络-位置感知图卷积网络(L-GCN),用于建模与问题相关的目标之间的交互。作者提出通过将目标的位置信息纳入到图构造中,将视频中的内容表示为位置感知图,并通过图卷积来识别动作的类别和时间位置。具体地说,感兴趣的目标首先由现成的目标检测器检测。然后,构造一个全连通图,其中每个结点都是一个目标(由其外观和位置特征表示),结点之间的边表示它们之间的关系。作者进一步将空间和时间的目标位置信息结合到每个结点中,使图形能够感知目标的位置。在对目标图进行图卷积时,目标之间直接通过边传递消息进行交互。最后,将GCNs的输出和编码的问题特征一起输入到一个视觉-问题交互模块(利用attention机制)中,以预测问题的答案。大量的实验证明了所提出的位置感知图的有效性。作者在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上实现了最先进的结果。

问题定义

给定一个包含N个帧的视频,其中在每个帧检测到K个目标。 R={on,k,bn,k}n=1,k=1n=N,k=K 是检测到的目标集,其中o表示通过RoIAlign获得的目标特征,b是每个目标的空间位置。用T=N×K来表示一个视频中目标的总数。本文将图表示为G=(V,E),其中M个结点vi∈V,边eij∈E,图的邻接矩阵表示为A∈RM×M。包含k个单词的问题记为Q。

在本文中,作者关注视频QA任务,该任务要求该模型用于回答与视频相关的问题。由于视频内容复杂且具有很强的不相关背景,这一任务具有挑战性。此外,视频问答任务中的大多数问答对都与一个以上的带有时间线索的动作相关。要正确回答问题,模型是必需的,而不仅仅需要正确识别来自复杂内容的行为,也需要知道它们的时间顺序。

总体方案

作者方法的一般方案如图2所示。L-GCN由两个分支组成,即问题编码器分支和视频编码器分支,分别处理queries和视频内容。两个分支的输出与视觉-问题(VQ)交互模块相结合。建立在目标上的位置感知图既考虑了目标之间的交互作用,又考虑

AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering相关推荐

  1. CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

    动机 VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力.视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务. 与VQA或VideoQA相比,MVQA是一项更 ...

  2. 【论文解读 ICLR 2020 | DropEdge】TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION

    论文题目:DROPEDGE: TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION 论文来源:ICLR 2020 论文链接 ...

  3. 论文笔记:AAAI 2021 Beyond Low-frequency Information in Graph Convolutional Networks

    前言 现有的大部分 GNN 方法集中于对图数据中的低频信息进行处理,这也产生了一个问题:真实世界中我们需要的仅仅是图中的低频信息吗? 作者在本文中进行了实验说明了在不同的条件下仅使用低频信息是有局限性 ...

  4. 知识图谱论文阅读(二十三)【SIGIR2020】Multi-behavior Recommendation with Graph Convolutional Networks

    题目: Multi-behavior Recommendation with Graph Convolutional Networks 论文地址: 论文代码: 想法 将相同行为的交互方式进行了聚合来计 ...

  5. 论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

    文章目录 abstract 1.introduction 1.1 dense connection+GCN 1.2 效果突出 1.3 contribution 2.Attention Guided G ...

  6. 【论文笔记】Factorizable Graph Convolutional Networks

    文章目录 1. Abstract 2. Method 2.1 Disentangling Step 2.2 Aggregation Step 2.3 Merging Step 3. 总体架构 4. 超 ...

  7. [GCN] 代码解析 of GitHub:Semi-supervised classification with graph convolutional networks

    本文解析的代码是论文Semi-Supervised Classification with Graph Convolutional Networks作者提供的实现代码. 原GitHub:Graph C ...

  8. 【论文分享】小样本图片分类方法:AwGCN:Few-Shot Learning With Attention-Weighted Graph Convolutional Networks

    题目:Few-Shot Learning With Attention-Weighted Graph Convolutional Networks For Hyperspectral Image Cl ...

  9. 【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架](1)

    [论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...

最新文章

  1. 硬货 | Redis 性能问题分析
  2. Swift 3.0封装 URLSession 的GET/SET方法代替 Alamofire
  3. X5本地应用打包服务器环境搭建
  4. 中国创业者的26个陷阱
  5. MySQL 七天 学_7天玩转
  6. 文件服务器的配置与管理(1) RAID技术
  7. 高阶函数之函数作为参数使用 高阶函数之函数作为返回值使用 函数作为参数的练习
  8. mysql---mysql查看数据库操作记录
  9. idea JDK安装与配置
  10. jzoj3736-[NOI2014模拟7.11]数学题(math)【计算几何】
  11. 江西理工大学 微型计算机原理,江西理工大学-微机原理考试(wenwei)作业.docx
  12. scp免密码远程拷贝
  13. docker 容器开启ssh服务
  14. jquery-animate()动画
  15. arm开发板挂载win10和ubuntu haneWIN NFS Server
  16. 松本行弘的程序世界。
  17. The RSpec Book笔记《四》Describing Code with RSpec用RSpec描述代码
  18. 本科论文发表的难度大吗
  19. Arduino实现超声波测距
  20. Git创建新分支并提交到github

热门文章

  1. eclipse设置护眼模式,改变代码颜色,保护视力!!!
  2. 可兼容K9F1G08U0D型号的AFND1G08U3-CKAI
  3. 泛滥的“刷脸”流程,可能正在泄露你的隐私
  4. 魔兽世界怀旧服务器无限刷怪点,魔兽世界怀旧服无限刷怪点 魔兽世界怀旧服无限刷怪点介绍...
  5. Win10 steam版战地3战役无限初始化解决方案汇总
  6. 液态金属银改色膜,它真的帅炸了
  7. CentOS7 安装 PHP7 完全详细教程
  8. 关于pytorch安装之后但是没有办法导入pycharm的原因
  9. npm ERR! A complete log of this run can be found in:
  10. 智汀智能家居知识普及篇——选择智能门锁该考虑什么?