**摘要:**因为现实环境的外观变化迥异,对基于视觉的场景识别是一个具有挑战性的难题。近年来,视觉场景识别系统有了很大的突破,原因主要包括视觉传感器环境感知能力的提高,对长期移动机器人自主性的日益关注,以及利用其他学科的最新研究的能力(特别是在计算机视觉中的识别和神经科学中的动物导航)。本文将提供(详实的)视觉场景识别调研大综述。。我们首先介绍场景识别的基本概念——场景识别在动物界中的作用,“地点”在机器人语境中是如何定义的,以及场景识别系统的主要组成部分。在机器人持久作业过程中,环境外观的改变是视觉场景识别失败的重要因素; 因此,我们讨论了场景识别如何处理环境外观变化问题。最后,我们进一步讨论了视觉场景识别的未来发展,特别是深度学习(deep learning),语义场景理解(semantic scene understanding)和视频流描述(video description)的相关领域中的快速发展。
**关键词:**视觉场景识别,场景识别
1 介绍
  视觉场景识别是一个定义明确,但极具挑战性的问题; 给定一张图像,人、动物或机器人能不能判断这个图像中的地方是否已经看到过?无论对于人类、动物、计算机还是机器人,一个场景识别系统必须具备一些基本的内容。首先,场景识别系统必须具有对环境的内部表示(地图),可以用来与输入的视觉数据进行比较。第二,场景识别系统必须判断当前视觉信息是否表示包含在地图中地点,如果是,是哪一个。由于一系列挑战,比如地点的外观可能会急剧变化(见图1),环境中的多个地方可能看起来非常相似,即感知偏差问题,观测时与地图存储时机器人的方位不同,这些都会造成基于视觉的场景识别执行起来比较困难。

图1 视觉场景识别系统必须能够(a)成功地匹配感知上差异较大的图像,还要(b)剔除不同地方的易混叠图像对之间的误匹配。
  考虑到对持久作业移动机器人自主性的日益重视,以及视觉感知能力和成本的快速提高,该研究主题在机器人学中是非常重要的。视觉是许多定位和场景识别算法的主要传感信息【1】-【19】。场景识别是一个不断扩大的研究领域,引文分析可以证明这一点,而且在机器人和计算机视觉会议上,会有专门关于场景识别的研讨会,其中包括IEEE International Conference on Robotics and Automation (2014, 2015) 和IEEE Conference on Computer Vision and Pattern Recognition (2015). 长期的场景识别问题也成了许多研讨会的常规主题,包括专门针对“长期自主性”的ICRA研讨会(2011-2014年)。
  我们写这篇综述的目的是提供一个全面的场景识别研究的现状,这也与机器人学和其他领域的研究,包括计算机视觉和神经科学相关。写这个综述的时机较好,因为相关领域的一些重大突破:比如,在计算机视觉领域内,最先进的识别系统几乎普遍使用深度学习技术,2014年诺贝尔生理学或医学奖授予了Edvard Moser,May-Britt Moser和John O’Keefe,他们发现了哺乳动物的大脑的描述方法。本文提供了场景识别问题,以及该问题与许多其他机器人研究领域的关系,包括实时定位与建图(SLAM),定位,地图构建和识别。由于研究人员越来越重视机器人在恶劣环境中的长期自主性问题,我们还特别讨论了机器人视觉场景识别的持久性问题。

2 地点在机器人学和自然界中的概念
  导航和场景识别在心理学和神经科学中就是一个经典问题。1948年Tolman在大鼠走迷宫的研究[ 20 ]中,提出了认知地图——动物逐渐学习到的不同地点之间相互关系信息,是世界信息的心理表征。对于认知地图的概念,虽然也有人批判的[ 21 ]、[ 22 ],但其影响涉及心理学和神经科学等领域,同时也包括城市规划(Lynch [ 23 ]提出认知地图的元素是路径、边缘、节点、区域和地标),和机器人学(建图方法受认知地图[ 24 ]、[ 25 ],及空间语义层次[ 26 ]的启发)领域。

[图2 神经实验显示,动物,例如大鼠,的大脑含有位置细胞和网格细胞。在特定环境中,位置细胞在一个位置激活,而网格细胞在多个,规则间隔的位置激活。该图显示了当动物在一个方形环境中行走的时候(a)位置细胞和(b)网格细胞的兴奋位置。(Annual Review of Neuroscience by Annual Reviews. Republished with permission of Annual Reviews, from 34|; permission conveyed through Copyright Clearance Center, Inc.).
  随着记录动物脑中神经活动技术的发展[27],O’Keefe和Dostrovsky [28]识别出大鼠海马中的位置细胞[28]。当大鼠在环境中的特定地方时,位置细胞会激活[见图 2(a)],这些位置细胞群覆盖整个区域[29],[30]。此外,如果大鼠从一个环境移动到另一个环境,相同的位置细胞可以用来表示多种不同的环境。O’Keefe和Conway [31]提出,这些位置细胞构成了Tolman认知地图的一部分。通过背部前下托的头向细胞[32]和在中间内嗅皮层中的网格细胞[33]的发现,神经活动和实际地点之间关系得到进一步了解。动物沿特定方向转动头部时,头向细胞会兴奋,而网格细胞在环境中的多个位置处兴奋,它们的兴奋区域形成规则网格 [见图2(b)]。
  通过位置细胞的兴奋位置,我们观察到场景识别被感官信号和自身运动激发[29]。对大鼠的研究显示,位置细胞最初基于自身运动而兴奋,但如果环境改变——例如,改变出发点和目的地之间的距离——位置细胞会根据看到的地标校正到正确的位置[35],[36]。根据不匹配的程度,校正可能是平滑的,也可能是突然的。

图3 视觉场景识别系统的框图。 输入的视觉数据由图像处理模块处理。机器人对世界的感知信息存储在地图中。置信度生成模块决定当前视觉信息是否与先前存储的地点匹配。系统中通常还包括运动信息,地图在运行过程中可以不断地更新。
  许多与上面相同的概念会出现在机器人中。大多数机器人能够获取外部观测数据,以及自身运动信息,并通过地点之间的拓扑度量关系与感官信息结合来确定最可能的位置,这类似于位置细胞的神经元兴奋。图3描述了视觉场景识别系统框图。视觉场景识别系统包含三个关键部分:图像处理模块(用于解释输入视觉数据),地图(维护机器人对世界的感知),以及置信度生成模块(通过输入的传感器数据与地图结合,来判断机器人是在一个到过的地方还是处于一个新的地点)。场景识别系统还可以将运动信息或图像处理后的信息提供给置信度生成模块。大多数场景识别系统为在线操作,并实时更新地图。
这篇文章讨论了在机器人导航中“地点”的概念。它着眼于组成地方识别系统的三个关键模块:图像处理模块,地图框架,和置信度生成模块。接着,本文讨论环境变化的问题。然后论文重新讨论每个模块——图像处理模块,地图框架,和置信度生成模块,并且研究位置识别系统的每个模块如何适应环境的外观变化的。

【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【一】相关推荐

  1. 【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【四】

    7 动态环境中的视觉场景识别 早期识别系统通常假定每个地方的外观在实验过程中不会改变.然而,机器人系统在不受控制的大环境中长时间运行时,这种假定不成立.近年来,机器人持久性导航系统越来越受关注,包括持 ...

  2. 【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【三】

    5 记录地点:建图模块 在场景识别或导航中,当前观测信息需要与系统参考地图(机器人对世界感知的表示)不断地进行比较.地图根据可用数据和场景识别的类型,选择不同的框架.表I列出了建图方法的分类,分类方法 ...

  3. 【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【二】

    3 什么是地点? 机器人学中地点的概念出自机器人导航和建图.实际的机器人传感器和致动器是会出错的,所以构建一个度量准确的世界地图,并用来自定位是具有挑战性的.而这两个目标的结合,称为SLAM [37] ...

  4. A Survey: Visual Place Recognition 视觉场景识别的一篇调研

    I.INTRODUCTION 一个位置识别系统需要满足和完成一些条件.其一,有一个场景的内部表示也就是地图:其二,能够得出当前视觉信息是否来自于现有地图中,如果是的那来自于哪里.目前视觉场景识别面临一 ...

  5. 提升90%!利用结构线索增强视觉场景识别(VPR)能力

    标题:提升90%!利用结构线索增强视觉地点识别(VPR)能力 标题:Augmenting Visual Place Recognition with Structural Cues 作者:Amadeu ...

  6. 【ACM 2020 - Text Recognition in the Wild:A Survey】OCR识别综述

    Introduction 1. 推动基于深度学习的STR发展三要素: (1)先进的硬件系统:高性能计算支持训练大规模识别网络 (2)基于深度学习的STR算法能自动进行特征学习 (3)STR应用需求旺盛 ...

  7. 论文翻译及笔记 --Visual Place Recognition: A Survey

    论文笔记--"Visual Place Recognition: A Survey" Abstract I. INTRODUCTION II. CONCEPT OF PLACE I ...

  8. 表情识别综述论文《Deep Facial Expression Recognition: A Survey》中文翻译

    本篇博客为论文<Deep Facial Expression Recognition: A Survey>的中文翻译,如有翻译错误请见谅,同时希望您能为我提出改正建议,谢谢! 论文链接:h ...

  9. Deep visual domain adaptation: A survey

    参考 Deep visual domain adaptation: A survey - 云+社区 - 腾讯云 摘要 深度视觉域适配作为一个解决大量标注数据缺失的新的学习技巧而出现.与传统的学习共享特 ...

最新文章

  1. Oracle定时执行存储过程
  2. 他,跳槽季用这样的方法复习进了阿里
  3. SqliteHelper整理
  4. mysql不属于nosql_哪个数据库不属于nosql的范畴
  5. 多址接入技术TDMA CDMA FDMA Aloha等
  6. Yii中设置时间分区
  7. Linux引出环境变量的关键字,学习记录008-linux常用命令/设置系统and用户环境变量two(示例代码)...
  8. Excel 2007中,列标1234 修改为 ABCD
  9. c#和python_C#学习笔记(与Java、C、C++和Python对比)
  10. python 修改图片_Python实现批量修改图片格式和大小的方法【opencv库与PIL库】
  11. 有人问你后端面试考哪些?把这篇扔给他!
  12. 3DMark03 测试显卡
  13. Dubbo配置加载问题
  14. 微信公众号网页授权记录
  15. Settings 笔记整理
  16. 【Ambari】Build and install Ambari 2.7.5
  17. 使用openssl制作https的证书
  18. 你不曾见过的酷炫地图可视化作品(二)
  19. 数字IC验证:Hands-on Coding之Harness Interface与内部的Interfaces
  20. 解决ORA-00020错误

热门文章

  1. 机器学习算法——集成学习1(个体与集成)
  2. 成交量、持仓量与价格运动的关系
  3. NI Multisim元件库:在Multisim中创建自定义元器件
  4. 我的世界服务器聊天微信互通,我的世界跨平台联机 PC、手机等平台数据互通
  5. 还在用电脑多控手机?你out了,手机多控手机,全新神器
  6. 卡券、直充订单列表(post 表单提交)接口
  7. 【Linux】创建新用户 sudo配置,添加信任
  8. Unity如何将fbx格式模型的材质拆分、编辑模型
  9. 解决宝塔面板开启HTTS后,Edge不能访问的问题
  10. TikTok全球下载突破超20亿人次,它做对了什么?