论文学习-Exploiting Long-Term Dependencies for Generating Dynamic Scene GraphsExploiting Long-Term Depe

中文标题：利用长时间依赖关系生成动态场景图

论文地址：https://arxiv.org/abs/2112.09828

引言：

最近看了一下这篇生成动态场景图的论文，希望自己整理一下论文的思路，以便后续回顾以及大家讨论学习，这是我第一次写论文笔记，不足之处可以交流讨论学习，本文主要用于学习用途，我主要是看了STTran和AG的论文后来看这篇，背景就不做介绍了。

摘要

1.获取长期依赖关系是有效生成动态场景图的关键

2.提出检测-跟踪-识别范式，从视频中构建一致的长期对象轨迹，用transformers捕捉对象的动态和视觉关系

1.介绍

Each edge represents an inter-object relationship, also known as a predicate 边->谓词

SSG：scene graph generation 场景图生成

实现时空一致性的主要方法在时空图的构建上

STTran将模型建立在相邻的关键帧上，只能实现短期的一致性，没有办法获取长期的依赖关系

上图是论文里佐证的一个例子，遮挡和快速移动使得任何基于静态图像的对象检测器很难识别三个最右边的视频帧中的扫把(由粉色边框包围)。任何只依赖于捕获短期依赖关系的模型都无法在像本例这样的场景中正确地检测对象

想到在物体可能被遮挡的帧中，可以通过利用从易于检测和识别的帧中进行正确的预测来改进预测

为此，论文通过使用匈牙利匹配算法跟踪每个对象实例来构造时间序列，并应用变压器编码器来利用所有此类序列的时间一致性，还通过使用另一个变压器网络的谓词主-对象类序列来建模关系转换

提出framework-DSG-DETR(Dynamic Scene Graph Detection Transformer/动态场景图检测变压器)

2.相关工作

介绍了一些方法但这些方法都局限于静态图像，没有考虑到视频的动态性

Transformer在自然语言上取得巨大成功在视频理解任务中也是有效的，而且人-物关系转换器已经有成功应用

使用STTran作为基线，在上面建立模型

3.问题陈述和符号

更多的定义可以查看论文

3.2Transformer

只使用一个Transformer encoder 每层编码器由多头自注意（MSA）模块，层归一化以及前馈网络组成

MSA的公式如下：

对于每一层的transformer encoder层，他的结构可以通过下面的公式来表示（都是使用了残差连接）：

第L层的transformer的输出可以定义为：

这里如果序列的顺序重要，还会在输入X的基础上添加额外的位置编码（正弦编码）PE(X)

Encoder(X+PE(X))

4.方法

作者表明将预测建立在一个长期的时间背景上，并使其在时间上保持一致-即，避免物体表征的突然出现或消失会导致视频中更加准确和一致的物体预测

4.2时态对象的一致性

4.2.1构建跟踪序列

不以滑动窗口的方式连接相邻帧，只在连接那些在视觉特征和空间位置上表现出明显相似性的对象提出了一个粗跟踪算法

在构建跟踪序列之前，将视频的所有帧传递给Faster R-CNN，以获取对象的边界框、对象类分布以及对象特征

DSG-DETR模型的可视化

若过去的m帧没有任何新的检测添加，则认为tracklet不活动，m对应于AG数据集中场景图标注的原Charades视频的时间间隔

匈牙利算法根据候选轨迹的类分布、特征和位置将检测分配给候选轨迹，尽管匈牙利匹配算法总是将一个检测分配给一个tracklet，尽管如此，也不保证检测确实有一个匹配的tracket在T‘i-1

作者提出的方法会创建一个新的tracklet给那些没有匹配的物体，但是对于那些特征和类分布余弦相似度小于阈值t，这种情况会忽略匹配，会在填充的轨迹集中将相应的轨迹标记为空，以此检测创建一个新的轨迹

粗跟踪算法

4.3时间关系转变

类似于STTran，作者将关系表示为三种嵌入的组合：视觉嵌入、空间嵌入以及语义嵌入

与STTran相同的地方

5.实验

主要回答三个问题：1. 与以前的视频SGG方法相比，提出的方法如何通过跟踪利用长期依赖关系 2. 如何最大限度地利用动态SGG任务的长期依赖关系? 3. 方法中的每个模块对动态SGG任务的性能有何贡献

评价指标还是那三个（1）PredCls：任务是在给定视频帧、地面真相边界框和对象标签的情况下预测关系元组的谓词。(2)场景图分类(scene graph classification, SGCls):提供视频帧和包围盒，任务是预测谓词和主客体类。(3)场景图检测(scene graph detection, SGDet):任务是检测对象并预测对象对的谓词，其中只提供视频帧。

按照对象检测的惯例，对于SGDet，如果预测边界框与地面真实边界框的IOU (Intersection-Over-Union)大于0.5，且预测类标签与地面真实类标签相匹配，则认为该实体(主体或对象)检测成功。

回答问题二：

首先使用基于ground truth构造序列，这样的序列可以被视为利用长期依赖关系的最佳假设情况

下表中可以看到利用长期依赖关系的最佳情况在很大程度上提高了性能

回答问题三：

消融实验

5.5定性结果

图三展现了一些时间DSG-DETR从时间顺序关键帧（从上到下）成功构建蓝碗序列以及正确预测的例子，但是Faster R-CNN和STTran会产生误分类

图四图五都是在展现DSG-DETR比其他方法好，论文中有详细的解释

6.局限性以及未来的工作

总结