中文标题:利用长时间依赖关系生成动态场景图

论文地址:https://arxiv.org/abs/2112.09828

引言:

最近看了一下这篇生成动态场景图的论文,希望自己整理一下论文的思路,以便后续回顾以及大家讨论学习,这是我第一次写论文笔记,不足之处可以交流讨论学习,本文主要用于学习用途,我主要是看了STTran和AG的论文后来看这篇,背景就不做介绍了。

摘要

1.获取长期依赖关系是有效生成动态场景图的关键

2.提出检测-跟踪-识别范式,从视频中构建一致的长期对象轨迹,用transformers捕捉对象的动态和视觉关系

1.介绍

Each edge represents an inter-object relationship, also known as a predicate 边->谓词

SSG:scene graph generation 场景图生成

实现时空一致性的主要方法在时空图的构建上

STTran将模型建立在相邻的关键帧上,只能实现短期的一致性,没有办法获取长期的依赖关系

上图是论文里佐证的一个例子,遮挡和快速移动使得任何基于静态图像的对象检测器很难识别三个最右边的视频帧中的扫把(由粉色边框包围)。任何只依赖于捕获短期依赖关系的模型都无法在像本例这样的场景中正确地检测对象

想到在物体可能被遮挡的帧中,可以通过利用从易于检测和识别的帧中进行正确的预测来改进预测

为此,论文通过使用匈牙利匹配算法跟踪每个对象实例来构造时间序列,并应用变压器编码器来利用所有此类序列的时间一致性,还通过使用另一个变压器网络的谓词主-对象类序列来建模关系转换

提出framework-DSG-DETR(Dynamic Scene Graph Detection Transformer/动态场景图检测变压器)

2.相关工作

介绍了一些方法 但这些方法都局限于静态图像,没有考虑到视频的动态性

Transformer在自然语言上取得巨大成功 在视频理解任务中也是有效的,而且人-物关系转换器已经有成功应用

使用STTran作为基线,在上面建立模型

3.问题陈述和符号

更多的定义可以查看论文

3.2Transformer

只使用一个Transformer encoder 每层编码器由多头自注意(MSA)模块,层归一化以及前馈网络组成

MSA的公式如下:

对于每一层的transformer encoder层,他的结构可以通过下面的公式来表示(都是使用了残差连接):

第L层的transformer的输出可以定义为:

这里如果序列的顺序重要,还会在输入X的基础上添加额外的位置编码(正弦编码)PE(X)

Encoder(X+PE(X))

4.方法

作者表明 将预测建立在一个长期的时间背景上,并使其在时间上保持一致-即,避免物体表征的突然出现或消失会导致视频中更加准确和一致的物体预测

4.2时态对象的一致性

4.2.1构建跟踪序列

不以滑动窗口的方式连接相邻帧,只在连接那些在视觉特征和空间位置上表现出明显相似性的对象提出了一个粗跟踪算法

在构建跟踪序列之前,将视频的所有帧传递给Faster R-CNN,以获取对象的边界框、对象类分布以及对象特征

DSG-DETR模型的可视化

若过去的m帧没有任何新的检测添加,则认为tracklet不活动,m对应于AG数据集中场景图标注的原Charades视频的时间间隔

匈牙利算法根据候选轨迹的类分布、特征和位置将检测分配给候选轨迹,尽管匈牙利匹配算法总是将一个检测分配给一个tracklet,尽管如此,也不保证检测确实有一个匹配的tracket在T‘i-1

作者提出的方法会创建一个新的tracklet给那些没有匹配的物体,但是对于那些特征和类分布余弦相似度小于阈值t,这种情况会忽略匹配,会在填充的轨迹集中将相应的轨迹标记为空,以此检测创建一个新的轨迹

粗跟踪算法

4.3时间关系转变

类似于STTran,作者将关系表示为三种嵌入的组合:视觉嵌入、空间嵌入以及语义嵌入

与STTran相同的地方

5.实验

主要回答三个问题:1. 与以前的视频SGG方法相比,提出的方法如何通过跟踪利用长期依赖关系 2. 如何最大限度地利用动态SGG任务的长期依赖关系? 3. 方法中的每个模块对动态SGG任务的性能有何贡献

评价指标还是那三个(1)PredCls:任务是在给定视频帧、地面真相边界框和对象标签的情况下预测关系元组的谓词。(2)场景图分类(scene graph classification, SGCls):提供视频帧和包围盒,任务是预测谓词和主客体类。(3)场景图检测(scene graph detection, SGDet):任务是检测对象并预测对象对的谓词,其中只提供视频帧。

按照对象检测的惯例,对于SGDet,如果预测边界框与地面真实边界框的IOU (Intersection-Over-Union)大于0.5,且预测类标签与地面真实类标签相匹配,则认为该实体(主体或对象)检测成功。

回答问题二:

首先使用基于ground truth构造序列,这样的序列可以被视为利用长期依赖关系的最佳假设情况

下表中可以看到利用长期依赖关系的最佳情况在很大程度上提高了性能

回答问题三:

消融实验

5.5定性结果

图三展现了一些时间DSG-DETR从时间顺序关键帧(从上到下)成功构建蓝碗序列以及正确预测的例子,但是Faster R-CNN和STTran会产生误分类

图四图五都是在展现DSG-DETR比其他方法好,论文中有详细的解释

6.局限性以及未来的工作

总结

论文学习-Exploiting Long-Term Dependencies for Generating Dynamic Scene GraphsExploiting Long-Term Depe相关推荐

  1. 【论文学习】UPHDR-GAN: Generative Adversarial Network forHigh Dynamic Range Imaging with Unpaired Data

    UPHDR-GAN:基于非配对数据的高动态范围成像生成对抗网络 摘要 introduction 主要贡献 proposed method 网络框图 网络详介 1.输入 2.生成器输出 3.生成器 4. ...

  2. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  3. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  4. 【论文学习】《Practical Attacks on Voice Spoofing Countermeasures》

    <Practical Attacks on Voice Spoofing Countermeasures>论文学习 文章目录 <Practical Attacks on Voice ...

  5. 【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》

    <Tacotron: Towards End-to-End Speech Synthesis>论文学习 文章目录 <Tacotron: Towards End-to-End Spee ...

  6. 论文学习:Good practice for conducting and reporting MEG research

    文章目录 论文学习:Good practice for conducting and reporting MEG research 1 数据获取 (Data acquisition) 1.1 考虑事项 ...

  7. 动态环境下的SLAM:DynaSLAM 论文学习笔记

    动态环境下的SLAM:DynaSLAM 论文学习笔记 这篇文章 论文摘要 系统流程 相关环节的实现方法 神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...

  8. 单目相机 svd 从图像恢复3维位置_论文学习——VINSMono:一种鲁棒且通用的单目视觉惯性系统...

    点击上方"视觉部落",选择"星标"公众号 精选作品,第一时间送达 文章同步首发于知乎用户yikang专栏 Part 1. 基本信息 本文提出了一种基于紧耦合滑动 ...

  9. 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...

最新文章

  1. mysql+keepalived搭建高可用环境
  2. Caused by SSLError(“Can‘t connect to HTTPS URL because the SSL module is not available)
  3. 顶级程序员的10条最佳实践
  4. 保持SVN仓库结构只checkout部分子目录
  5. 卷积神经网络VGG16权重数量的计算和理解(转载)
  6. 文件CRC和MD5校验
  7. 超链接跳转到action使用哪个方法_管道疏通剂哪个牌子好 管道疏通机使用方法有哪些...
  8. 全数字实时仿真平台SkyEye经典案例——空间站项目
  9. 信息学奥赛一本通 1937:【06NOIP普及组】数列 | 洛谷 P1062 [NOIP2006 普及组] 数列
  10. 矩池云通过rsync指令上传文件到服务器网盘
  11. 我的世界服务器起床地图维修,Minecraft·起床战争地图更新来了!地图“雪仗”全面解读!...
  12. C/C++语言经典、实用、趣味程序设计编程百例精解
  13. android 多媒体播放 MediaSession 框架
  14. linux shc shell脚本_用shc加密shell脚本
  15. 互联网行业定制网站需要多少钱
  16. 波特兰:特别奖金3月PADNUG与Adam Cogan会面
  17. [数据结构与算法]动态规划:扔鸡蛋问题
  18. Openairinterface从零开始搭建5G核心网——Basic版
  19. g-sync显示器到底能提升多少游戏性能?
  20. 北东地坐标系转换c语言,北东地/东北天两种导航坐标系与姿态转换

热门文章

  1. 模具设计最基础的知识, 模具人必须要掌握
  2. PLC高级编程-西门子SCL结构化控制语言官方培训.pptx
  3. 数字电路硬件设计系列(十)之RS485电路设计
  4. 【中级软考—软件设计师】2操作系统2.10 作业管理【*】:2.10.1 作业管理
  5. 服务器维护护卫神,护卫神主机重启服务器
  6. win10快捷方式出现白色图标处理方法
  7. maya阿诺德渲染失败_Maya阿诺德渲染器产品渲染教程 Product Visualization with Maya and Arnold...
  8. 安徽大学数字电路考研资料
  9. 设置pdf为护眼绿色
  10. Meta开源JavaScript内存泄漏监测工具MemLab