我们知道主动对象跟踪(AOT)对于许多基于视觉的应用程序至关重要,例如移动机器人,智能监控。但是,在复杂场景中部署主动跟踪时存在许多挑战,例如,目标经常被障碍物遮挡,这篇paper描述将单摄像机AOT扩展到多摄像机设置,其中摄像机以协作方式跟踪目标。

为了实现摄像机之间的有效协作,作者提出了一种新颖的PoseAssisted多摄像机协作系统,该系统可以通过共享摄像机姿势进行主动对象跟踪,使摄像机与其他摄像机进行协作。每个摄像机都配备有两个控制器和一个切换器:基于视觉的控制器根据观察到的图像跟踪目标。基于姿势的控制器根据其他摄像机的姿势移动摄像机。在每个步骤中,切换台都会根据目标的可见性来决定从两个控制器采取哪个动作。实验结果表明,我们的系统优于所有基线,并且能够推广到看不见的环境。

图1:我们的多摄像机协作系统的概述。 当目标可见时,摄像机使用其基于视觉的控制器做出动作决定。 否则,相机将选择基于姿势的控制器。 例如,摄像机1的基于视觉的控制器无法跟踪。 因此,它改为使用基于姿势的控制器的输出操作,并将无用的视觉观察标记为灰色。

作者信息

方法

在本文设计的多摄像机协作机制下,每个摄像机都有一个基于视觉信息的控制器、一个基于姿态信息的控制器和一个转换器。基于视觉的控制器使用图片作为输入输出摄像机代理的动作。基于姿态的控制器利用所有摄像机的姿态信息,即所有摄像机的位置、视角和变换器的两类标签作为输入,输出摄像机的动作。转换器负责在两个控制器之间切换。当摄像机的视觉信息不足以跟踪时,也就是说,基于视觉信息的控制器失败,如图1中的摄像机1所示,转换器将使用基于辅助的姿态控制器执行相机行为控制,从而确保多摄像机系统的稳定的协同跟踪。

图2:我们系统的网络架构。 对于每台摄像机,基于视觉的控制器都将原始图像作为输入。

如图2所示,基于视觉信息的控制器模块使用CNN(卷积神经网络)进行特征提取,然后访问LSTM(长短期记忆神经网络)进行历史信息处理,最后访问FC(全连接网络),LSTM输出的特征将由变换器中的FC处理以输出两类概率,摄像机执行的最终动作是相应控制器以最高概率输出的动作。基于姿态的控制器采用门递归神经网络(GRU)融合多摄像机姿态信息,然后由FC网络输出各摄像机的动作。转换器由一个FC网络组成。输入为LSTM处理后的特征,输出为二值分类概率。

通过这种协同机制,当视觉信息不足以支持摄像机的决策时,摄像机可以学会利用有效的姿态信息来指导行为。

实验

  • 环境环境

首先,作者构建了许多用于学习和测试的高保真虚拟环境。

图3:从上到下是用于培训,花园,城市和测试的3D环境随机室。 请注意,我们的模型仅在随机室中训练。

这样做而不是直接在现实环境中运行,原因有以下三个:

  1. 强化学习需要经常与环境互动,并从步入错误中学习,这在现实环境中是高成本的;

  2. 在现实世界中,获取地面真相以计算用于训练和评估的奖励函数既困难又昂贵。

  3. 先前的一些论文证明在虚拟环境中通过环境增强训练的跟踪器能够推广到真实场景。我们为CMC-AOT任务构建了许多新的3D环境,其中环境中有更多的摄像头和更多的障碍,旨在模仿现实世界中的多摄像机主动跟踪场景。动作空间是离散的,包含11个候选动作(向左转,向右转,向上转,向下转,左上角,右上角,左下角,右下角,放大,缩小并保持静止) 。

  • 评估指标

    我们使用摄像机方向和目标方向之间的角度误差来评估主动对象跟踪的质量。角度误差是绝对俯仰角误差和绝对偏航角误差的平均值。运转良好的相机应在俯仰角和偏航角上均能准确跟踪目标。

  • 与两阶段方法比较

    作者的方法与传统的两阶段跟踪方法进行了比较,即控制器根据视频跟踪器的目标边界框旋转摄像机。采用三个视频跟踪器来获取边界框:TLD,BACF和DaSiamRPN。

    建立了一个启发式控制器来控制相机旋转角度。该控制策略基于相机移动其角度以及检测到的边界框的位置的规则,即,当边界框位于图像的左侧时,控制器输出向左转信号。表1显示了在花园和城市环境中平均错误和成功率评估指标的具体结果。我们可以看到,传统的跟踪方法在CMC-AOT系统中表现较差。我们分析了传统的跟踪器存在两个通常会使其失败的问题.

    1)对象外观变化很大

    2)目标经常被障碍物遮挡。由于这些方法都需要用于对象特征匹配的模板,因此当对象在相机视野之外消失时,跟踪器将无法使用有效的图像信息,从而容易导致跟踪错误。

在实验中,我们发现传统的方法在字符形状变化较大、障碍物较大等情况下容易出现跟踪失败。然而,当我们的相机失去目标时,我们可以根据姿势信息的引导来跟踪它,如图4所示。结果表明,3号摄像机图像中目标信息丢失,其行为由基于视觉的控制器转变为基于姿态的控制器。姿态控制器通过与其他摄像机目标保持一致,输出动作,使其能够找到目标,保证了长期跟踪的良好性能。实验的具体定量结果(平均角误差和成功率)如表1所示。

图4:在Garden测试环境中工作的方法的屏幕快照序列。

为了验证本文设计的协同机制的有效性,我们设计了一系列的烧蚀实验,比较了每台摄像机的个体跟踪(SV)、使用Bi GRU进行多摄像机视觉信息融合(MV)、使用FC网络进行视觉信息和姿态信息融合(SV+P)的方法。其中,我们的方法获得了最低的误差结果和最高的成功率,并证明了将视觉信息和姿态信息与转换机制相结合可以获得最佳的协同跟踪效果。

结论

作者介绍了协作式多摄像机主动对象跟踪(CMC-AOT)问题,并提出了一种有效的姿态辅助多摄像机协作系统来进一步提高跟踪性能。通过将摄像机姿势引入多摄像机协作中,作者的方法具有处理挑战性场景的能力,并且在各种多摄像机主动对象跟踪环境上均优于传统的对象跟踪方法。在不同现实环境下的结果还表明,该方法有可能推广到更多看不见的场景。

论文地址:

https://arxiv.org/pdf/2001.05161.pdf

项目地址:

https://sites.google.com/view/pose-assisted-collaboration

源码地址:

https://github.com/LilJing/pose-assisted-collaboration

更多论文地址源码地址:关注“图像算法”微信公众号

AAAI 2020:北大开源算法姿态辅助多摄像机协作以进行主动对象跟踪相关推荐

  1. 一个算法同时解决两大CV任务,让目标检测和实例分割互相帮助,地平线实习生论文被AAAI 2020收录...

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 目标检测与实例分割是计算机视觉领域重要的两个任务,近年来出现了非常多优秀的算法解决这两个问题,且都取得了优异的效果. 但是,却鲜有文章深入 ...

  2. AAAI 2020 开源论文 | 用于深度立体匹配的自适应单峰匹配代价体滤波

    ©PaperWeekly 原创 · 作者|张承灏 学校|中科院自动化所硕士生 研究方向|深度估计 本文介绍北航和深动科技在 AAAI 2020 上的论文 Adaptive Unimodal Cost ...

  3. AAAI 2020 开源论文 | 一种针对图嵌入模型的受限黑盒对抗攻击框架

    AAAI(人工智能促进协会年会)是人工智能领域的顶级国际会议之一.今年的 AAAI 2020 是第 34 届,于 2 月 7 日至 12 日在美国纽约举行.今年,第 3 次参会的腾讯 AI Lab 共 ...

  4. AAAI 2020 | 首个使用 NAS 设计的 GCN,达到动作识别SOTA,代码将开源

    点击我爱计算机视觉标星,更快获取CVML新技术 本文作者为52CV群友彭伟,现就读奥卢大学(芬兰) 博士二年级. Github:https://github.com/xiaoiker 知乎:https ...

  5. 卷积神经网络流程图_AAAI 2020 | 北大:图卷积中的多阶段自监督学习算法

    作者 | 孙科 编辑 | 唐里 本文对北京大学林宙辰团队完成,被AAAI-20录用的论文<Multi-Stage Self-Supervised Learning for Graph Convo ...

  6. AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法

    来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow 编辑 | Carol 出品 | AI科技大 ...

  7. 清华姚班“斩获”AAAI 2020最佳学生论文:首届弟子贝小辉携手本科在读李子豪,攻坚算法博弈研究...

    本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处 本文约1700字,建议阅读5分钟 江湖英雄辈出,又是姚班少年郎. 江湖英雄辈出,又是姚班少年郎. 第34届美国人工智能协会年 ...

  8. AAAI 2020 开源论文 | 可建模语义分层的知识图谱补全方法

    ©PaperWeekly · 作者|蔡健宇 学校|中国科学技术大学 研究方向|知识图谱 近些年,知识图谱(Knowledge Graph)在自然语言处理.问答系统.推荐系统等诸多领域取得了广泛且成功的 ...

  9. AAAI 2020 开源论文 | 语义感知BERT(SemBERT)

    作者丨张倬胜 学校丨上海交通大学硕士生 研究方向丨自然语言理解 本文从计算语言学角度,提出使用显性语义角色信息来改善深度语言模型的建模性能,将语义角色标注用于机器阅读理解和推理任务中,提供更加丰富和精 ...

最新文章

  1. python基础爬虫的框架以及详细的运行流程
  2. 关于web爬虫的tips
  3. 基于指定文本的百度地图poi城市检索的使用(思路最重要)
  4. Windows 聚焦的锁屏壁纸设置为桌面壁纸
  5. 测试驱动开发 测试前移_测试驱动开发:它是什么,什么不是。
  6. 干货 | 懂点儿经济学有什么用?
  7. 实时计算的最佳实践:基于表格存储和Blink的大数据实时计算
  8. Java SecurityManager checkAccess()方法与示例
  9. python2.7安装pygame_python 安装 pygame了
  10. 什么是缺陷分析?一篇文章带你了解,测试工程师必备技能
  11. linux 学习 个人总结笔录(五)
  12. Linux平台下快速搭建FTP服务器
  13. 滴滴二面:Kafka是如何读写副本消息的?
  14. vue使用element-ui 实现多套自定义主题快速切换
  15. 定时器 java qua,(翻译)Quartz官方教程——第八课:SchedulerListeners
  16. 块存储、文件存储、对象存储这三者的区别
  17. 基于浏览器的http普通请求与ajax请求
  18. django种表单post出现CSRF verification failed( CSRF验证失败 ) 的两种解决方案
  19. HtmlUnit的入门教程整理
  20. 一只特立独行的猪--当年明月,坚持的力量

热门文章

  1. Java 读取src目录下的json文件
  2. P4 程序设计语法学习
  3. MapGuide的历史
  4. tiny11安装中文
  5. 华为linux笔记本i3和i7的区别,华为MateBook 13 i3版性能如何 华为MateBook 13 i3版笔记本上手体验...
  6. OMAPL138 + SPARTAN6 DSP+ARM+FPGA开发例程
  7. locked肆虐,不少人已经中招-是否也有你
  8. 用于机器学习的 NumPy(ML)
  9. nfsd linux是什么进程,如何从NFS启动Linux及原理
  10. [云原生专题-29]:K8S - 核心概念 - 名字空间/命名空间概念详解与主要操作案例