深度学习在机器人视觉中的局限与优势（综述）

作者丨脱贫钉子户@知乎

来源丨https://zhuanlan.zhihu.com/p/354728113

编辑丨3D视觉工坊

序言

本文来自于《The Limits and Potentials of Deep Learning for Robotics》，该论文是从2016年的机器人技术大会（RSS）上的特邀演讲者和 "The Limits and Potentials of Deep Learning for Robotics "研讨会的组织者提供的想法和观点中整理的。

论文地址：在公众号「3D视觉工坊」，后台回复「Deep Learning」，即可直接下载。

论文中的主要观点提出时间在16年，该论文与18年发布在arxiv上，19年被IJRR期刊收录，现在来看论文中提到的一些挑战依旧没有被完全解决，值得大家继续思考，也给大家指明了前进的方向。

背景

机器人是一个主动智能体，它能在物理现实世界中行动，并与之互动。它通过不同的传感器感知世界，建立一个连续的世界模型，并随着时间的推移更新这个模型，但最终机器人必须做出决策，规划行动，并执行这些行动以完成有用的任务。

从机器人本身的角度出发，那么机器人中的视觉问题与计算机视觉问题的根本不同之处就在于：对机器人而言，感知只是一个更复杂的、具身的、主动的、目标驱动的系统的一部分。因此，机器人视觉必须考虑到它的输出（比如物体检测、分割、深度估计、3D重建等），最终将变成现实世界中的行动。简而言之，计算机视觉获取图像并将其转化为信息，而机器人视觉则将图像转化为行动。

机器人视觉和计算机视觉之间的这一根本区别，可以从三个方面提出许多研究挑战：学习、具身和理解。根据这些挑战不断增加的复杂性及其依赖性对这些挑战进行分类。

A 学习挑战

这个方面的挑战主要包括：因在开放条件下部署而引起的问题，两种形式的增量学习和主动学习，具体如下：

1. 不确定性估计：为了将深度学习充分整合到机器人技术中，最重要的就是深度学习系统能够可靠地估计其预测的不确定性。这样将使机器人能够像对待任何其他传感器一样对待深度神经网络，并使用成熟的贝叶斯技术将网络的预测与先前的知识或其他传感器测量融合在一起，或者随着时间的推移积累信息。深度学习系统，例如用于分类或检测，通常从其softmax层返回的分数与系统的置信度成正比，但不是准确的概率，因此不能用于贝叶斯传感器融合框架中。如果只是单纯的融合各个模态的信息，已经有了一些工作，将贝叶斯滤波估计如卡尔曼滤波、非线性卡尔曼滤波、粒子滤波等思想融合到了深度学习框架中。目前主要的一些方法包括：神经网络系统标定矫正、贝叶斯深度学习，近似方法包括：Dropout、模型集成等。

2. 未知识别：深度学习中一个常见的假设是：训练好的模型将在闭集条件下进行部署，即部署过程中遇到的类是已知的，与训练时完全相同。然而，机器人往往要在不断变化的、不受控制的真实环境中运行，不可避免地会遇到训练数据没有覆盖的类、场景、纹理或环境条件的实例。在开放场景下，未知类别的识别非常重要，感知系统不得为未知物体分配高可信度分数，也不能将其错误地识别为已知类别之一。这个方向，CVPR2021上面已经提出了OWOD，即面向开放世界的目标检测，可以沿着这个思路继续思考。

3. 增量学习：对于许多机器人应用来说，与训练数据相比，部署场景中物体的特征和外观可能会有很大的不同。为了解决这个域适应问题，机器人视觉系统应该能够在部署过程中从已知类的新训练样本中学习，并相应地采用其内部表示。

4. 类增量学习：在开放条件下运行时，部署方案可能包含在训练期间不可用的新类别。因此，机器人需要有能力扩展其知识并有效地学习新的类，而又不会忘记先前学习的表示形式。这种类增量学习最好采用one-shot或few-shot学习技术，以提高数据效率。能够利用未标记数据的半监督方法尤其令人感兴趣。目前的类增量学习技术依旧依赖于监督方法，要求用户必须特别告诉系统哪些样本是新数据，应该被纳入学习过程。

5. 主动学习：机器人应该能够自行选择信息量最大的样本进行增量学习技术。由于它必须向人类用户询问这些选定样本的真实标签，因此数据效率是最大限度地减少这种与用户互动的关键。主动学习还可以包括从其他来源（如网络）检索注释。目前的方法是利用基于近似贝叶斯推理的不确定性估计技术来选择信息量最大的样本。

B 具身性挑战

具身性是机器人视觉的基本特征，也是机器人视觉与计算机视觉的本质区别。这个方向的挑战主要包括：理解和利用时间和空间具身性有助于改善感知，同时也能让机器人视觉进行主动视觉，甚至对环境进行有针对性的操作，进一步改善感知。

1. 视觉具身性：与将每个图像视为独立的典型计算机视觉系统不同，机器人视觉系统感知连续的图像流，因此具有高度相关性。虽然目前关于动作识别、从演示中学习以及计算机视觉中类似方向的工作都是在视频数据上进行的，但目前很少利用时间具身的潜力来提高物体检测或语义分割的感知过程的质量：例如，使用其时间具体化的机器人视觉系统可以例如随着时间的推移而积累证据（如前所述，如果不确定性估计可用，则最好使用贝叶斯技术）或利用动态场景中随时间变化的微小视点变化。

时间具身性的一个具有挑战性的问题是：场景的外观会随着时间而改变。环境可以包括动态物体，如汽车或行人在摄像机的视场中移动。环境也可以由不同的照明条件（白天/夜晚）、物体的结构变化（夏季/冬季）或物体的存在和姿势的差异（例如，工作时间和下班时间的办公室）引起的外观变化。机器人视觉系统必须应对所有这些影响。

2.空间的具身性：在机器人视觉中，观察世界的摄像头是在世界活动和移动的更大的机器人系统的一部分。当机器人在环境中移动时，摄像头会从不同的视点观察场景，这对机器人视觉系统来说既是挑战也是机遇。从不同的视角观察一个物体可以帮助识别它的语义属性，改善深度感知，或者在杂乱的场景中把一个物体与其他物体或背景隔开。另一方面，遮挡和由此产生的剧烈的外观变化使视觉感知复杂化，需要物体统一性和物体持久性等能力，而人类视觉系统天然就具备这些能力。

3. 主动视觉：机器人视觉在具身性中的最大优势之一就是可以控制摄像机，移动摄像机并更改其视点，以改善其感知能力或收集有关场景的其他信息。这与大多数计算机视觉场景形成鲜明对比，在大多数计算机视觉场景中，相机是被动传感器，可以从放置位置观察周围环境，而无需控制其姿势。

在下一个最佳视角预测可以提高物体检测或辅助移动机器人探索路径规划，但目前的研究还缺少一种更全面的主动场景理解方法。这样的主动式机器人视觉系统系统可以控制摄像机在整个世界范围内的移动，从而提高系统的感知置信度，解决歧义，减轻遮挡或反射的影响。

4. 操纵感知作为主动视觉的延伸，机器人系统可以有目的地操纵场景以帮助其感知。例如，机器人可以移动被遮挡的物体以获得隐藏在下面的物体的信息。规划这样的动作需要了解场景的几何形状，有能力推理出某些操作动作将如何改变场景，以及这些改变是否会对感知过程产生积极影响。

C 理解挑战

赫尔曼-冯-赫尔姆霍兹提出了人类在处理视觉信息时，大多使用无意识理解、推理或结论的观点。此后，心理学家们设计了各种实验来研究这些无意识机制，将赫尔姆霍兹的原始观点赋予现代的手段，并在贝叶斯推理的框架下重新表示。基于此，可以将理解分为三个挑战，解决关于场景及其中对象的语义和几何的单独和联合的理解。

1. 关于对象和场景语义的理解：人类周围的世界包含了许多语义规律性，人类利用这些规律性来帮助自己的感知，比如：物体往往在某一情境中出现的频率比在其他情境中出现的频率要高（如在厨房或餐桌上更容易找到一把叉子，但在浴室中找到它的可能性较小），有些物体往往成群出现，有些物体在一个场景中很少一起出现等等。语义规律性还包括物体在场景中的绝对姿态，或物体相对于其他物体的相对姿态。

尽管语义规律和上下文信息对于人类感知过程的重要性在心理学中是众所周知的，但是当前的对象检测系统并未利用这种丰富的信息源。如果现实世界中存在的许多语义规律可以以先验知识的形式被学习或以其他方式提供给视觉系统，那么可以期待一种改进且更强大的感知性能：上下文可以帮助消除歧义或纠正预测和检测。

目前一些工作包括：方法使用条件随机场明确地建模和利用对象和整体场景之间的几种语义和几何关系来理解场景。依旧有工作证明了利用学习的场景-对象先验来进行地方分类和改进的对象检测的组合。也有一些工作，通过设计一种使用深度神经网络进行整体场景理解的方法，该网络可以学习利用来自训练数据的上下文信息。

2. 关于对象和场景几何的理解：机器人技术中的许多应用都需要了解单个物体或整个场景的几何形状。从单张图像估计场景的深度已经成为一个广泛研究的课题。同样，目前有很多工作是在没有深度信息的情况下，从单个或多个视图中估计物体的三维结构。这些方法通常是在只有一个或几个突出且清晰分离的物体的图像上进行评估。然而对于机器人应用来说，杂乱的场景是非常常见的。

先前讨论的不确定性估计和处理未知对象的问题也适用于此：例如，使用推断的几何形状来抓取对象的机器人视觉系统在计划抓取点时需要能够在推断的对象形状中表达不确定性。类似地，它应该能够利用其具身性优势将摄像机移至更好的视点，以有效地收集新信息，从而能够更准确地估计物体的几何形状。

作为对单个物体推理的延伸，对整个场景的几何推理对机器人视觉来说非常重要，与基于对象的地图或基于对象的SLAM问题密切相关。利用语义和先验知识可以帮助机器人视觉系统更好地推理场景结构，例如物体的绝对和相对姿态、支撑面以及物体在遮挡情况下的连续性。

3. 语义与几何的联合理解：在现实的开放场景条件下，提取复杂环境中物体、环境结构及其各种复杂关系和场景几何的信息的能力对于机器人来说越来越重要。因此，对机器人视觉系统的最后一个推理挑战是对场景和其中的物体的语义和几何共同理解的能力。由于语义和几何可以相互联合推理，紧耦合的理解方法比松耦合的方法更有优势，松耦合的方法是分别对语义和几何进行推理。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~