Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning.CVPR,2019.

摘要

自动生成视频字幕是一项基本的计算机视觉的任务，最近使用CNN和RNN技术解决该任务。这些方法主要关注于使用RNN序列学习方法生成更好的字幕，但却忽略了使用CNN提取特征的重要性。我们精心设计了一个视觉特征编码的机制以辅助RUGs产生语义丰富的字幕。我们的方法将丰富的时空动态特征使用Short Fourier Transform短时傅里叶转换的方法为整个视频提取CNN特征，使用一个物体检测器获取高层语义信息以丰富检测物体的时序动态变化。实验结果表明使用相对简单的两层GRU层建立一个模型即可在MSVD和MSR-VTT数据集上获得sota的效果。

Related Work

Early methods：主要模型是SVO-Triplet，即Subject-Verb-Object。分别检测这三个部分然后组合到一个句子模板中。Kojima等人解决一个人做一个动作的视频描述工作，严重依赖于动作检测和状态转移模型，无法解决复杂视频描述问题。Hanckmann等人提出了自动描述多动作视频的方法。
Krishnamoorthy等人提出开放域视频描述解决方案。Guadarrama等人建模动作、物体和表演者之间关系已生成语义层次信息。Rohrbach等人使用CRF建模视觉实体和描述文本之间关系。然而这些工作都依赖于预先设定好的语言模板，将检测的实体填入模板生成句子，这样的方法不够灵活，无法描述开放域视频中的丰富语义信息。
Deep Learning：使用经典的神经机器翻译系统生成单个句子或者多个句子，CNN编码视觉上下文特征，RNN解码下一个单词的选择问题。因为生成语义正确的句子是NLP的一个长期任务，因此在视频字幕任务中更偏向解决解码问题，而对于编码问题，无非就是使用2D CNN提取视频frame-level特征，使用3D CNN提取视频clip-level特征。多使用mean pooling计算整个视频的最终表示。比如LSTM-YT使用平均池化所有视频帧的视觉信息后输入到LSTM中。LSTM-E探索了视觉上下文和句子语义之间的相关性，尽管使用2D和3DCNN提取特征，但平均池化的操作还是忽视了时间动态信息。TA使用注意力机制为每一帧分配权重解决了这个问题。S2VT基本建立了常用的基础模型。SCN-LSTM提出语义聚合网络可以检测平均池化后的视觉上下文中的语义概念信息然后输入到语言模型中生成更多相关的词语。LSTM-TSA提出了一个转换单元能够提取画面和平均池化后的片段中的语义属性作为附加信息提升生成字幕的质量。M3-VC则使用多模态记忆网络聚合长期的视觉和文本依赖指导视觉注意力机制。
而本文是第一个关注于提高编码机制以解决视频字幕任务的工作。本文提出了一个视觉编码机制，使用时空动态信息丰富表征，解释说明视频的高层语义信息。我们的视觉编码有2D和3D输入源，应用短时傅里叶转换在InceptionResNetv2和C3D上，使用Object Detector（YOLO）提取编码物体的位置和多层物体信息，丰富语义信息。然后像其他工作一样使用双层GRU作为语言模型。在MSVD和MSR-VTT数据集上分别在METEOR和ROUGE-L提高了2.64%和2.44%。

Framework

本文使用v=[α;β;γ;η]v=[α; β; γ; η]v=[α;β;γ;η]作为视频的最终表征。
首先定义转换 Tf(F)−>αT_f(F) -> αTf(F)−>α 和 Tf(C)−>βT_f(C) -> βTf(C)−>β，其中FFF是视频帧2D特征的激活向量，CCC是视频片段3D特征的激活向量，是使用层次短时序转换后得到视频的动态编码特征α和βα和βα和β。
其中，2D特征是InceptionResnetV2InceptionResnetV2InceptionResnetV2的平均池化特征计算得到，3D特征使用C3D的fc6C3D的fc6C3D的fc6层得到的。使用层次形式的傅里叶转换已经在动作识别中使用，这是第一次迁移到视频字幕任务中。
之后使用如全连接层等作为激活视觉特征的方法，可以区分高层视频特征的转换信息，因此我们的特征更能作为判别式编码信息使用，其输出标签可以看作是提取特征的另一种映射，输出层的语义信息也可在视频字幕中作为输出层的一种属性。
使用YOLOYOLOYOLO作为物体检测，使用C3DC3DC3D的作为3D CNN提取视频中记录的物体和动作高层语义信息，其核心思想就是将出现的频率和所处区域重要程度体现在编码信息中。而物体检测的多物体标签和在不同帧中的位置信息也可以作为细节嵌入到视觉编码中，辅助细粒度分类。对于物体的动作信息的检测，也可以使用3D CNN获取并丰富之前的视频编码信息，作为新的3D CNN特征。这些物体的细节信息作为相关高层语义信息γγγ输入到视频字幕系统的序列学习中。
将这些信息使用全连接层和tanh激活函数嵌入到2k维空间。

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning相关推荐

论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表 ...
【论文阅读】RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving
文章:RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving 作者:Tong Q ...
超分之Robust VSR with Learned Temporal Dynamics
这篇文章是2017年的ICCV.基于经典的VSR框架,作者在对齐网络和时间融合超分网络上都做了一定的该进.其中对齐网络采用了STN的一个变体:对齐后的SR网络使用了结合注意力机制的,可自动选择时间尺度 ...
论文阅读：RoadMap: A Light-Weight Semantic Map for Visual Localizationtowards Autonomous Driving轻量语义自动驾驶
题目:A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving 中文:用于自动驾驶的视觉定位的轻量级 ...
视觉编码（Visual Encoding）
视觉编码(Visual Encoding) There are two types of visual encoding variables: planar and retinal. 数据类型: 数量 ...
【森林隐喻】VideoForest: Interactive Visual Summarization of Video StreamsBased on Danmu Data
题目:VideoForest: Interactive Visual Summarization of Video Streams Based on Danmu Data 作者:Zhida Sun等, ...
T3D—《Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification》概述
<Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification>概述引言: ...
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...
RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving
华为秦通本文贡献: 提出了一种用于自动驾驶的轻量化定位框架,包括车端建图,云端维护.融合.压缩,以及用户端定位. 使用传感器丰富的地图采集车或者robotaxi来收集更新地图,使用户车收益实车验 ...

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

摘要

Related Work

Framework

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning相关推荐

最新文章

热门文章