首先放出论文和源码的链接:论文、作者github链接(具体代码貌似作者还没放出来)

摘要

    在这项工作中,本文引入了一种能够有效节省时间和内存的结构化预测方法,可以在两个空间内同时耦合神经元决策。本文通过利用深度高斯条件随机场(GCRFs)的最新进展,证明本文方法能够在密集连接的时空图上进行精确有效的前向传播。本文被称为VideoGCRF的方法是(a)有效的,(b)具有确定的全局最小值,(c)可以与当代深度网络一起进行端到端训练,以实现视频理解。本文在时域中实验多种连接模式,并在视频的语义和实例分割任务上对较高的基准结果展现出较好的实际改进效果。

引言

    本文工作的目标在于以一种允许信息跨帧流动的方式实时结合神经网络的决策,从而得到时间和空间都一致的决策结果。为了达到这个目标,本文提出了一种结构化预测方法,将输出空间的结构利用起来使得分类器的准确率更高。本文提出的方法叫做VideoGCRF,是将最近被提出来用于单帧图像的结构化预测方法深度高斯条件随机场(DGRF)扩展至视频分割的一种方法。该算法能够用于多种视频分割任务,包括语义分割,实例追踪和与Mask-RCNN分割的目标检测结合的实例分割等等。
    本文方法继承了DGRF方法中所有优秀的特性。本方法:

  1. 通过线性系统的解决方案而不是依靠于平均场近似来获得精确的分割结果;
  2. 实现了反向传播过程的准确计算,因此缓解了基于时间的反向传播算法(BPTT)对内存的需求;
  3. 使得成对项(二元项)可以使用非参数项,而不是局限于一种固定的形式;
  4. 促进密集和稀疏两种连接图的前向传播,同时促进两种图拓扑结构的混合。

相关工作

    结构化预测经常被语义分割算法用于获取单张图像的空间约束。这些方法可以很自然的迁移到视频分割上,只要对视频的每一帧图像进行单独预测就好了。然而,这种方式忽略了时间上下文,从而忽略了连续帧之间具有相似的趋势。为了解决这个缺点,很多使用多种类型的结构化预测策略来在预测中保证时间一致性的深度学习方法被相继提出。最开始尝试去捕捉时空上下文的方式是设计一个可以隐式学习连续图像帧之间的关系的深度学习框架。许多后续方法使用循环神经网络(RNNs)来捕捉图像帧时间的相互依赖性。其它方法利用最先进方法计算得到的光流来作为网络的附加输入。最后,有一个方法在概率图形模型上通过成对项(二元项)显性地捕获时间约束,但是它是作为后处理,即不与基础网络联合训练。
    在这项工作中,文章主要集中于三个问题,语义、实例视频分割和语义实例追踪。语义实例追踪涉及到的问题是,当我们给定视频中首帧图像的真值图,目标是预测视频中后续帧的实例分割结果。第一类解决此任务的方法首先将网络在ImageNet或COCO这种大数据集上进行图像分类的预训练,然后利用视频第一帧图像的真值标注结果进行微调,同时可选地利用各种数据增强方案来增加视频后续帧中的尺寸/姿势变化和遮挡/截断的稳健性。第二类方法为将这个问题看作一个warping(扭曲)问题,其目标是使用图像和光流作为附加输入来warping第一帧的分割。
   目前大量的方式尝试去利用时间信息改进用于视频分割的静态图像分割方法,Clockwork convnets以利用特征跨时间的持久性,并根据其语义稳定性以不同的更新速率安排一些层的处理。一些方法中采用了类似的特征流传播思想。 在[28]中,使用流量和空间变换器网络对分段进行扭曲。 与其使用光流,对后续帧分割的预测也可以在时间上逐帧平滑地获得结果。 最后,最新的技术改进了PSPnet,通过warping静态分割CNN的特征图来模拟视频分割网络。

个人感觉这篇的related work写的很有用。对于本文的创新点,个人总结:

  1. 将时间信息融入到GCRF中,形成一个结合时空信息的线性系统以获得精准的分割结果;
  2. 重写了共轭梯度下降算法公式,除去了冗余计算,缓解了共轭梯度下降算法的时空复杂度;
  3. 提出了一种新的结构,可广泛的应用于多种视频处理应用中,比如视频分割、实例分割、目标追踪等。

论文导读到此结束,感兴趣的同学可以去细看论文原文。

cvpr论文阅读之Deep Spatio-Temporal Random Fields for Efficient Video Segmentation(用于视频分割的深度时空随机场)相关推荐

  1. 《Deep Spatio-Temporal Random Fields for Efficient Video Segmentation》论文阅读

    摘要 在这项工作中,我们介绍了一种时间和内存有效的结构化预测方法,可以在两个时间空间耦合神经元决策.我们表明,我们能够通过利用深度高斯条件随机场(GCRF)的最新进展在密集连接的时空图上执行精确和高效 ...

  2. 《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)

    <A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...

  3. 【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架](1)

    [论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...

  4. TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】

    目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...

  5. 论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey

    论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey 从背景介绍到未来挑战,一文综述移动和无线网络深度学习研究 近来移动通信和 5 ...

  6. 【论文阅读】DEEP GRAPH INFOMAX(DGI)

    DEEP GRAPH INFOMAX(DGI) 摘要 1 Introduction 2 相关工作 2.1 对比方法 2.2 抽样战略 2.3 预测编码 3 DGI Methodology 3.1 基于 ...

  7. 【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data

    [论文阅读]Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data ...

  8. 论文阅读 TSM: Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding Computer Vision and Pattern Recognition ...

  9. 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...

  10. 顶会论文 | 阿里云视频摘要SOTA模型:用于视频摘要的多层时空网络

    作者:白钰 阿里云高级算法专家/消费者终端智能部算法负责人 这次向大家分享的工作是笔者所负责团队在国际人工智能多媒体顶会 ACM MM 2022 (CCF-A)发表的文章 "Multi-Le ...

最新文章

  1. sklearn与pytorch模型的保存与读取
  2. 《信息安全技术健康医疗数据安全指南》国家标准
  3. 串—KMP算法(详细)
  4. 各色“独特的”数据中心安置法,藏太深了!
  5. 第22天:规划采购管理和规划干系人管理
  6. 第一节、Alex 讲解 python+mysql 交互;
  7. TP-Link无线网卡一对多的桥接
  8. C# WPF MVVM开发框架Caliburn.Micro常用功能指南②
  9. 引用是变量的别名,不是常量的别名
  10. 早该知道的7个JavaScript技巧
  11. 网线制作和交换机工作原理
  12. c语言求余的方法,c语言求余的实现方法_后端开发
  13. 机器人学中一些常用的三角函数公式
  14. 2018五大网络小说在线阅读APP推荐
  15. 自动文本摘要任务背景调研
  16. Linux学习笔记精华总结(选自鸟哥的Linux私房菜)
  17. Mac虚拟机连接局域网网线的路由配置
  18. 高情商的人都在这样表现汇报工作
  19. 威联通 php配置,威联通(qnap) NAS docker 安装 IYUU 步骤
  20. JupyterLab教程:程序员的笔记本神器v2.0

热门文章

  1. UltraEdit脱机注册免费使用版本
  2. Windows11中文用户名问题:适合于新电脑
  3. windows - 更改用户账户名称(windows10)
  4. OS51技术 GHOSTXP SP3 OEM V7.0 驱动增强纯净版(20130629)
  5. 浅析浏览器 Web 视频播放器
  6. 电力猫服务器无响应,电力猫怕什么?TP-Link电力线适配器实测
  7. Excel 常用函数和公式
  8. Markdown 学习小记--进阶技巧-数学公式篇
  9. win10系统驱动备份及还原-命令行操作
  10. 开机黑屏、自检不通过,主板检测卡代码为25问题解决