关注公众号,发现CV技术之美

本文分享一篇 ACMMM 2021论文『Discriminative Latent Semantic Graph for Video Captioning』,性能SOTA!用GNN和GAN的方式来强化Video Captioning的学习!

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2108.03662

  • 项目链接:https://github.com/baiyang4/D-LSG-Video-Caption(尚未开源)

导言:

视频字幕(Video captioning)旨在自动生成句子,来描述给定视频的视觉内容。现有的生成模型,如编码器-解码器框架,不能明确地从复杂的时空数据中探索对象级的交互和帧级的信息,以生成语义丰富的caption。本文的方法将视频字幕任务分解成了三个子任务:

1)Enhanced Object Proposal(增强对象建议) :作者提出了一种新的 Conditional Graph(条件图),可以将时空信息融合到潜在的目标proposal中。

2)Visual Knowledge(视觉知识) :作者提出了 Latent Proposal Aggregation(潜在建议聚合)模块来动态提取具有较高语义层次的视觉词。

3)Sentence Validation(句子验证):作者提出了一种 Discriminative Language Validator(判别语言验证器)来验证生成的标题,从而有效地保留关键的语义概念。

作者在两个公共数据集(MVSD和MSR-VTT)上进行的实验表明,在所有指标上,本文提出的方法都比以前的SOTA方法有显著的提升。

      01      

Motivation

随着各种在线视频平台的视频资源量的与日俱增,近年来,视频字幕的研究受到了越来越多的关注。完整的视频字幕会对其他多模态任务产生实质性的影响,例如:基于内容的视频检索和推荐。尽管计算机视觉和自然语言处理在视频分析和语言理解方面取得了显著的进展,但视频字幕仍然是一项非常具有挑战性的任务。该任务不仅需要在帧级别上探索复杂的对象交互和关系,还需要从视频序列中探索故事线。这样的任务可以看作是从识别到理解水平的一个飞跃。

视频字幕的主要挑战之一是,视频帧和caption中的文字之间没有明确的对应关系 。视频字幕模型需要在更高的语义水平上提取总结出来的视觉单词。上图展示了视频字幕的数据流。从人类理解的角度来看,可以将整个过程解释为几个子任务:

  • 检测和识别视频中的主要对象,即“woman”和“stroller”;

  • 推断给这些对象之间的交互和动作,即“showing”和“operates”;

  • 将内容组织成一个具有语法结构的句子,即“A woman is showing how stroller operates”。

早期的视频字幕研究通常采用编码器-解码器框架,将视频字幕作为机器翻译任务。为了克服基于embedding的框架的缺点,图神经网络(GNNs)被用于建模对象之间的关系。然而,以往的GNN方法主要建立在对象特征上,而没有考虑整个视频序列中基于帧的时空上下文。

另一个挑战是,输出标题需要保持与内容相关的语法结构,而不是生成一个离散概念的列表 。为了检验一个句子的表达是否自然,先前也有一些工作采用了基于GAN的方法。然而,视频字幕需要更精细的监督水平来区分基于语义内容的real/fake句子,并确保语法的正确性。

基于上面的挑战,作者将视频字幕框架分为了三个子任务,分别为:Enhanced Object Proposal(增强对象建议), Visual Knowledge(视觉知识), Sentence Validation(句子验证)

  • 首先,在增强对象建议任务中,从视频帧中提取时空上下文,并将这些信息合并到视觉对象中。

  • 第二,因为,视频中的帧和对象建议的数量远远多于生成句子中的单词。因此,视觉知识任务的目的是将这种重复和冗余的建议转换为更紧凑的视觉单词(visual word)。相比于增强对象建议任务中提出的建议,这一步产生是视觉单词更有益于生成句子。

  • 最后,句子验证任务旨在检查生成的标题的真实性和可读性。

基于上面的Motivation,作者提出了Discriminative Latent Semantic Graph (D-LSG)框架:

  • 基于多种特征融合的图模型 (Graph model)。这些特征在数据分布、维度和结构上通常是异构的。2D CNN表示帧内容,3D CNN提取时间帧变化,region-level object proposals考虑了每一帧里面的视觉对象信息。

  • 潜在语义 (Latent Semantic)是指可以从增强的对象建议中提取的高级语义知识。通过动态图将大量的增强对象建议转换为少量的高级视觉知识。

  • 鉴别模块 (Discriminative module)用于生成语言的验证。

      02      

方法

视频字幕问题本质上是一个序列到序列的过程。给定视频














,




,











,我们的目标是建立一个端到端模型来生成标题














,



,
















2.1 Architecture Design

模型结构如上图所示,LSG框架由三部分组成:1)Multiple Feature Extraction;2) Conditional Graph Operation;3) Latent Proposal Aggregation

Multiple Feature Extraction

给定输入的视频帧????,模型首先提取视觉上下文表示。作者采用2D CNNs和3D CNNs分别提取外观特征





































和运动特征

































。R-CNN提取对象建议(Object proposals),从每帧捕获的区域特征为





























,其中



















































,????表示每帧中区域特征的数量。因此,对象建议的总数表示为????=????×????。

Enhanced Object Proposal

在视频字幕中,最基本的任务之一是检测和识别实体。区域特征






























中的对象建议分别通过其外观和运动特征来分别增强,得到增强外观特征




































和增强的运动特征


































Visual Knowledge

Latent Proposal Aggregation (LPA) 模块采用了一个动态图,可以将增强的外观和运动特征转换为????个动态视觉单词:































































。(其中K<<T)

Language Decoder

然后使用由LPA提取的视觉知识来生成相应的caption。语言解码器由一个用于动态视觉单词加权的注意LSTM网络和一个用于标题生成的语言LSTM网络组成。在每个时间步中,注意LSTM以当前单词embedding和全局视觉向量作为输入,然后输出当前隐藏状态

























。然后,

























被看做是Attention操作的query,将对象和运动视觉token加权求和得到上下文特征



















&#xff0c;






























。然后语言LSTM输入当前上下文特征



















&#xff0c;






























和当前注意LSTM隐藏状态,输出当前预测单词概率分布
























,其中













为单词表的长度。

2.2 Latent Semantic Graph

在生成视频字幕中,对象和复杂内容之间的依赖关系已经有了一些研究。然而,学习时空依赖性仍然是一个具有挑战性的问题。与传统的时空卷积和递归神经网络相比,图模型为建模依赖关系提供了一种新的解决方案。

在这项工作中,作者提出了LSG模型,它可以有效地将视频的对象级特征编码为具有更高语义级的视觉单词。为了逐步生成表示视觉特征的高级概念,LSG模型被分为两个组成部分:条件图操作(conditional graph operation)和潜在建议聚合(latent proposal aggregation),如上图所示。

Conditional Graph Operation

为了将对象级信息编码为潜在语义对象和运动视觉单词,作者首先通过图操作将对象级特征分别聚合为外观和运动特征。在Multiple Feature Extraction中,我们得到了对象级别区域特征,帧级别的动作和外观特征,然后作者构建了一个GNN来进行对象级别的交互(其中每个region都可以看做GNN中的一个node)。模型不只是依赖于局部区域特征,而是考虑了全图像,因此它同时考虑了帧级运动和外观特征以及对象级区域特征。

首先,将区域特征传递给帧????处的帧级特征:















代表第t帧的增强的外观特征,其中:

用于编码两个输入特征之间的关系。这一步的目的是将从不同模态的特征投影到一个共同的特征空间,并计算相似性来表示图中区域特征和帧级特征之间的连通性程度。可以表示为:

另外,region特征和动作特征也是用上面的方法计算,得到增强的动作特征












Latent Proposal Aggregation

为了进一步总结增强的对象建议,作者提出了一种潜在建议聚合方法,基于增强特征动态来生成视觉单词。首先,用一组额外的潜在节点增强原始增强的建议节点,然后以图结构的方式将增强的建议信息聚合到潜在节点。

具体来说,作者引入了一组对象视觉单词





















































,视觉单词代表了给定视频中潜在的候选对象。????表示视觉单词的数量,因此我们可以将增强的建议转换为为动态视觉单词,方式如下:
















表示第k个对象视觉单词。LSG通过对象级交互和帧级别条件,在视频中提取高级表示,并将这些信息总结为动态视觉单词。然后这些视觉单词被送入到Decoder用于生成caption。

2.3 Discriminative Language Validation

其他视频字幕的判别模型主要集中于生成的描述的流畅性和视觉相关性,而本文的目标是从语义概念的角度生成有意义的字幕。因此,作者设计了一个判别模型作为一个语言验证过程,在LSG编码的相应真实视觉单词的条件下,通过重建基于输入句子的视觉单词,鼓励生成的标题包含信息更丰富的语义概念。

具体来说,除了基于输入视频特征编码的视觉知识























,作者还从生成的字幕中重建视觉知识,并以对抗性训练的方式将基于生成字幕重建的视觉单词与ground-truth的视觉单词进行区分,算法如下所示:

给定语言解码器的输出单词序列,判别模型旨在根据相应句子中关于语义概念,区分生成的caption和ground-truth。防止区分模型在不学习有用信息(直接用是否为one-hot形式来区分)的情况下容易区分真实样本和假样本,并稳定训练过程,作者采用了WGAN-GP的结构,因为WGAN-GP使用了 earth-mover distance来捕捉真实和假样本之间的差异。

      03      

实验

3.1 Quantitative Evaluation

Comparison with encoder-decoder models

可以看出,与encoder-decoder结构( PickNet,MARN)相比,本文的D-LSG有明显的性能优势。

Comparision with object-based models

与object-based模型(OA-BTG, RMN)相比,本文的D-LSG有明显的性能优势。

Comparision with GNN-based models

与GNN-based模型(ORG-TRL, S-T Graph, C-R Reasoning)相比,本文的D-LSG还是有明显的性能优势。

3.2 Ablation Study

Effect of Graph

通过比较仅CGO和LSG的结果,可以观察到两个数据集的性能显著下降,这表明了总结帧级特征对潜在概念或视觉单词的重要性。

Effect of latent proposal number

上图展示proposal number在两个数据集上,对于模型性能的影响。

Effect of discriminative modeling based on Graph

比较LSG和D-LSG,可以观察到METEOR和ROUGE-L有比较少的改善,但是BLEU-4和CIDER有很大的改善。

3.3 Qualitative Evaluation

与ground truth相比,我们可以观察到生成的字幕包含重要的物体(如“man”、“guitar”、“stroller”)和运动(如“playing”、“showing”)信息,甚至还有一些很罕见信息(如“peeling”和“folding”)。

      04      

总结

本文提出了第一个引入图神经网络和判别建模来联合处理视频字幕任务的时空信息的工作。条件图操作有效地模拟了详细的对象级交互和关系。此外,考虑frame-level conditions还有利于对象级的交互式表示学习。Latent Proposal Aggregation组件也成功地将来自输入视频特征总结为了高级视觉知识。此外判别模型通过视觉知识重建和判别训练,丰富了生成caption的语义信息。

作者介绍

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END,入群????备注:视频字幕

ACMMM 2021《LSG》性能SOTA!用GNN和GAN的方式来强化Video Captioning的学习!相关推荐

  1. MoCo不适用于目标检测?MSRA提出对象级对比学习的目标检测预训练方法SoCo!性能SOTA!(NeurIPS 2021)...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Aligning Pretraining for Detection via Object-Level Contrastive ...

  2. 训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN

    选自arXiv 作者:Qian Huang等 机器之心编译 机器之心编辑部 将传统标签传播方法与简单模型相结合即在某些数据集上超过了当前最优 GNN 的性能,这是康奈尔大学与 Facebook 联合提 ...

  3. 在西瓜数据集上训练_训练时间和参数量百倍降低,直接使用标签进行预测,性能竟超GNN...

    将传统标签传播方法与简单模型相结合即在某些数据集上超过了当前最优 GNN 的性能,这是康奈尔大学与 Facebook 联合提出的一项研究.这种新方法不仅能媲美当前 SOTA GNN 的性能,而且参数量 ...

  4. 步入2021,大热的GNN会在哪些应用领域大展拳脚呢?

    作者|Sergei Ivanov 来源|机器之心 由于 GNN 在图节点之间强大的建模功能,使得与图分析相关的研究领域取得了突破.本文我们将介绍关于 GNN 热门应用研究. 近年来,由于图结构的强大表 ...

  5. SimVLM:拒绝各种花里胡哨!CMUGoogle提出弱监督极简VLP模型,在多个多模态任务上性能SOTA...

    关注公众号,发现CV技术之美 本文介绍论文『SimVLM: Simple Visual Language Model Pretraining with Weak Supervision』,由 CMU& ...

  6. 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...

  7. 面向开放域密集检索多视图文档表示学习,微软提出​MVR,性能SOTA!(ACL 2022)...

    关注公众号,发现CV技术之美 本文分享 ACL 2022 论文『Multi-View Document Representation Learning for Open-Domain Dense Re ...

  8. 电子科大(申恒涛团队)京东AI(梅涛团队)提出用于视频问答的结构化双流注意网络,性能SOTA!优于基于双视频表示的方法!...

    本文分享论文『Structured Two-stream Attention Network for Video Question Answering』,由电子科大(申恒涛团队)&京东AI(梅 ...

  9. Transformer开始往动态路由的方向前进了!厦大华为提出TRAR,在VQA、REC上性能SOTA!(ICCV 2021)...

    关注公众号,发现CV技术之美 1 写在前面 由于具有优越的全局依赖建模能力,Transformer及其变体已成为许多视觉和语言任务的主要结构.然而,在视觉问答(VQA)和指向性表达理解(REC)等任务 ...

最新文章

  1. 开源贡献 计算_如何克服恐惧并为开源做贡献
  2. AI A_star算法野人渡河-实验报告
  3. 教你快速写出多线程Junit单元测试用例 - GroboUtils
  4. Collections接口下的Comparetor类和Comparable接口排序
  5. C语言程序模拟银行输入密码,模拟银行输入密码--源码
  6. 如何删除链表的最后一个节点_面试:删除链表的节点
  7. Aviator(表达式执行引擎)发布1.0.1
  8. lambada表达式
  9. python判断正数和负数教案_正数和负数 教学设计
  10. vscode生成vue模板快捷键_vs code 快速生成vue 模板
  11. android 布局颜色设置颜色设置,怎么在Android中利用view设置布局颜色
  12. Git 命令行(cygwin) + Git Extensions + Git Source Control Provider
  13. 单片机课程设计--电子密码锁(源代码+proteus仿真)
  14. mdpi Algorithms 期刊word 模板下载
  15. 26款 网络会议/视频会议开源软件
  16. html图片自适应裁剪,html 图片裁剪 图片固定高度 图片自适应。图片完美适配
  17. django中cookie模板引用
  18. java实现计算器_Java 实现简单计算器
  19. C++学习笔记——第三天运算符和表达式
  20. mysql 必知必会【沈剑——公众号架构师之路】

热门文章

  1. 关于maven导入工程pom文件报错问题及解决
  2. Markdown Pad2--公式编辑功能搭建
  3. 用Redis存储Tomcat集群的Session
  4. Hibernate框架(持久化类、缓存、事务管理)
  5. A. Computer Game(纯模拟)
  6. mysql drop 权限_MySQL procedure drop权限问题
  7. pythondev更新到3_python版本升级到3.7
  8. img解包打包工具_Python开发GUI实战:图片转换素描画工具!
  9. win10更新后开不了机_win7在线更新window10系统
  10. uniapp 统计_“uni统计”震撼来袭 - 1份报表,掌握全景数据(App及各种小程序)