摘要

大多数基于CNN的方法,都是单一图像,在这种情况下,所提出的基于深度学习的方法都没有利用有价值的时间平滑性约束,往往导致每帧误差大于相机运动的情况。本文提出了一个循环模型,用于对视频片段进行6-DoF定位。

贡献

本文提出一个递归模型,通过使用多帧的姿势预测来减少姿势估计的误差。

1.CNN-RNN模型。

2.在网络中整合了一种获得姿势估计的瞬时协方差的方法。

3.本文对两个大型开放数据集进行了评估,并回答了一个重要的问题:我们的方法与作为后处理步骤的简单平滑姿态估计相比如何?

模型

本文的模型使用CNN处理视频图像帧,并通过一个双向的LSTM整合时间信息。

图像特征:CNN

模型的CNN部分的目标是从输入图像中提取相关的特征,VidLoc采用GoogleNet Inception的架构,只使用GoogleNet的卷积层合池化层,放弃所有的全连接层。

双向RNN

当使用具有时间连续性的图像流时,通过利用时间上的规律性可以获得大量的姿势信息。例如,相邻的图像通常包含同一物体的视图,这可以提高对某一特定位置的信心。

为了捕捉这些动态的依赖关系,我们在网络中使用了LSTM模型。

标准LSTM有一个限制是它只能利用以前的背景信息来预测当前的输出。由于这个原因,我们采用了双向结构。一个向前处理数据,一个向后处理数据。

损失函数

概率性姿态估计

为了对姿势的不确定性进行建模,我们采用了混合密度网络方法。

实验

数据集:7-Scenes和Oxford RobotCar

7-Scenes

序列长度的影响

下图描述了定位误差与所用序列长度的关系。

Oxford RobotCar

所选的图像序列对于全局重定位来说非常具有挑战性。如图所示,这些图像大部分都是道路和树木,它们没有明显和一致的外观特征。

图9显示,随着序列长度的增加,所提出的方法的结果有所改善,长度为50和100的重定位结果与道路一致。

图10表明定位结果是平滑和准确的。

总结

在未来的工作中,作者打算研究更好地利用深度信息的方法。

VidLoc:A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization用于6-DoF视频片段重新定位的深度时空模型相关推荐

  1. Zero-shot Learning零样本学习 论文阅读(五)——DeViSE:A Deep Visual-Semantic Embedding Model

    Zero-shot Learning零样本学习 论文阅读(五)--DeViSE:A Deep Visual-Semantic Embedding Model 背景 Skip-gram 算法 算法思路 ...

  2. 深度学习之Deep Image CTR Model

    DICM in AMS DICM in AMS 摘要 1 引言 2 相关工作 3 DEEP IMAGE CTR MODEL 3.1 展示广告系统 3.2 问题描述 3.3 利用图像建模 4 AMS 4 ...

  3. 推荐系列论文九-Deep Image Ctr Model

    [DICM]Image Matters: Visually modeling user behaviors using Advanced Model Server 论文地址 前言 最近工作都比较忙,一 ...

  4. DeViSE: A Deep Visual-Semantic Embedding Model

    摘要 现代视觉识别系统受限于其能力为:扩大大规模数量的目标类别. scale to large numbers of object categories text data :文本数据 这篇文章我们提 ...

  5. 2018_IJCAI_DELF: a dual-embedding based deep latent factor model for recommendation

    [论文阅读笔记]2018_IJCAI_a dual-embedding based deep latent factor model for recommendation-(IJCAI, 2018.0 ...

  6. CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

    之前的文章讲解了DIEN模型:CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例,而这篇文章要讲的是DSIN模型,它与DIEN一样都从用户历 ...

  7. 异常检测中的浅层模型与深度学习模型综述(A Unifying Review of Deep and Shallow Anomaly Detection)

    A Unifying Review of Deep and Shallow Anomaly Detection 异常检测中的浅层模型与深度学习模型综述 摘要:随着众多异常检测方法(基于生成模型,单分类 ...

  8. 深度学习模型压缩与优化加速(Model Compression and Acceleration Overview)

    1. 简介 深度学习(Deep Learning)因其计算复杂度或参数冗余,在一些场景和设备上限制了相应的模型部署,需要借助模型压缩.系统优化加速.异构计算等方法突破瓶颈,即分别在算法模型.计算图或算 ...

  9. 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...

  10. 【论文笔记】Exploring Temporal Coherence for More General Video Face Forgery Detection

    * Exploring Temporal Coherence for More General Video Face Forgery Detection 题目:探索更一般的视频人脸伪造检测的时间相干性 ...

最新文章

  1. jlinkarm目标程序和boot文件一起刷_华硕游戏手机Rog2代ROOT后wifi不能开启-刷回官方系统实用教程...
  2. fastdfs详细安装教程
  3. 如何使用定时器settimeout、setInterval执行能传递参数的函数(转)
  4. ArrayList,Vector, LinkedList的存储性能和特性?
  5. 近期值得读的10篇GAN进展论文
  6. linux文件访问权限,Linux文件权限和访问模式
  7. 【Maven学习】Maven打包生成包含所有依赖的jar包
  8. 【POJ3264】Balanced Lineup,线段树入门
  9. 华为大数据战略_任正非:华为应抓住“大数据”机遇 抢占战略制高点
  10. 交易撮合引擎原理与实现【含源码】
  11. tagwriter汉化版_【NFC TagWriter by NXP电脑版下载2020】NFC TagWriter by NXP PC端最新版「含模拟器」...
  12. 数学建模之预测模型简要分析
  13. 2022年中式烹调师(技师)考试题库及答案
  14. 主成分之综合竞争力案例分析
  15. TBS1237 1/4 扫 48 通道 LED 背光驱动芯片
  16. 七牛的管理接口不支持js端发送请求进行管理(设计到跨域问题)
  17. java设计模式总结1
  18. php自我介绍50字,自我介绍50字
  19. 干掉Session?这个跨域认证解决方案真的优雅
  20. 重磅!22张深度学习精炼图笔记总结!

热门文章

  1. python实现简单购物系统
  2. JUnit4 Note (尚学堂马士兵)
  3. ARM嵌入式系统C语言编程分析
  4. android平板改成电视盒子,安卓平板改裝成電視盒子
  5. 1060显卡用什么软件测试,参测显卡超频测试——10分
  6. java 硬盘序列号_如何使用Java获取硬盘序列号?
  7. 怒了,以后有文件保存到网上
  8. 简单理解三种工厂模式(简单工厂模式,工厂方法模式和抽象工厂模式)
  9. 解决笔记本显示器屏幕亮度无法调节情况
  10. sybase 错误码