论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第一、二章）

本文是翻译自CVPR2017上的一篇论文《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》，该文系统的介绍了计算机视觉在无人驾驶领域的应用情况。文章很长，我和实验室的小伙伴用了约一周的时间翻译完成，基本上是机翻为主，人工校对为辅，所以不免有误翻，错翻的情况，希望大家能够多多包涵，并提出宝贵意见，我们会根据大家的建议进一步修改文章。

自动驾驶计算机视觉研究综述：难题、数据集与前沿成果

文章目录

自动驾驶计算机视觉研究综述：难题、数据集与前沿成果
- 摘要：
- 前言：
- 1. 自动驾驶的历史
- - 1.1 自动驾驶项目
  - 1.2 自动驾驶竞赛
- 2.数据集和基准
- - 2.1 真实数据集
  - 2.2 合成类数据集

摘要：

近年来计算机视觉、机器学习和自动驾驶等人工智能相关领域发生了惊人的进展。然而，和每一个飞速发展的领域一样，人工智能领域也出现了业内人员难以跟上行业节奏或者业外人员难入行的问题。虽然已经有人发表了几篇关于这方面的专题调查论文，但是到目前为止，还没有关于自动驾驶计算机视觉（computer vision for autonomous vehicle）难题、数据集和方法的综合性调查。本文通过提供有关自动驾驶计算机视觉这一主题的最新调查以填补这一空白。我们的调查既包括最为相关的历史资料，也包括识别、重建、运动估测、追踪、场景理解以及端到端学习等当前最先进的专业主题。为了完成这一目标，我们首先通过分类学对每个方法进行分类，接着在 KITTI、ISPRS、MOT 和 Cityscapes 等若干个挑战性的基准数据集上分析每个方法的最佳性能。此外，我们还讨论了一些开放问题和当前的研究挑战。考虑到访问的轻松性和缺失的引用，我们还提供了一个具有主题和方法导航功能的互动平台，提供额外信息和每篇论文的项目链接。

前言：

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz(1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两点：第一，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。
在此论文中，我们聚焦于第二个问题，也就是自动驾驶视觉（autonomous vision)，并调查了目前自动驾驶汽车中感知系统的表现。面向此目标，我们首先给出了问题分类，归类了已有的数据集，以及在这些类别中可使用的技术（论文成果），描述了每种方法的优缺点。第二，我们在数个流行数据集上分析了一些顶尖成果的表现。特别是我们给出了 KITTI 基准的全新深度质量分析，这些分析展示了那些用提交到评估服务器上的方法运行出来的最容易与最困难的例子。基于这些分析，我们讨论了开放的研究问题和挑战。为了更轻松的阅读，我们还给出了一个交互式在线工具，使用图像可视化了我们的分类，并提供了额外的信息与项目主页链接。通过提供详尽的综述，希望我们的成果能够成为自动驾驶视觉领域研究人员进行研究的有用工具，也能降低新人进入该领域的门槛。
目前也有其他相关的研究。Winner et al. (2015) 详细解释了主动安全性与驾驶辅助系统，考虑到了它们的结构与功能。他们的研究注重覆盖到辅助驾驶系统的所有方面，但关于机器视觉的章节只覆盖到了自动驾驶视觉问题中最基础的概念。Klette (2015) 给出了基于视觉的驾驶辅助系统的概述。他们描述了高层次的感知问题的大部分方面，但并不像我们一样提供了在各种任务上顶级成果的深度评测。Zhu et al. (2017) 提供了智能汽车环境感知的概述，聚焦于车道检测、交通信号／灯识别以及汽车追踪问题，该论文可与我们的研究互补。但相较之下，我们的目标是通过提供广泛的综述和对比（包括所有领域的成果），在机器人、智能汽车、摄影测绘学和计算机视觉社区之间架起一座桥梁。

1. 自动驾驶的历史

1.1 自动驾驶项目

世界各地的许多政府机构启动各式各样的项目来开发智能交通系统（ITS）。PROMETHEUS这个项目1986年在欧洲立项并且包括超过13个交通工具生产商，当中的许多研究成员来自19个欧洲国家的政府和高校。美国的第一个项目就是1988年由卡耐基梅隆大学的Navlab Thorpe等人创建的.由于这个项目完成了第一次从Pittsburgh，PA, Sand Diego和CA的自动驾驶，在1995年是一个重要的里程碑。在许多大学，研究中心和自动驾驶公司的倡议下，美国政府在1995年成立了自动化公路系统联盟（NAHSC）。和美国一样，日本于1996年在各大自动驾驶高斯和研究中心成立了高级巡航公路系统研究协会来促进自动驾驶导航的研究。Bertozzi等人（2000）对自主道路后续开发的挑战性任务进行了多方面的探讨。他们得出结论，算法计算能力越来越好，但像反射，湿面潮湿，阳光直射，隧道和阴影这样的困难仍然使数据解释具有挑战性。因此，他们建议提高传感器性能，同时也指出应该重点并且认真的考虑自动驾驶对行人法律方面的责任和影响。总之，无人驾驶可能会限制仅仅用在特殊的基础设施上，然后慢慢的普及开来。
项目PROMETHEUS可以实现在高速公路上自动驾驶，在这个成功的案例推动下，Franke等人描述了在复杂的城市交通场景下的自动驾驶的实时视觉系统。虽然在此之前公路场景情况已经有很多深入的研究，但城市场景却从未得到解决。他们的系统包括基于深度的障碍检测和立体追踪，以及针对相关物体（比如：交通信号）的单目检测和识别框架。
Vis-Lab3提出的多种传感系统的融合把几款原型车包括ARGO Broggi等（1999），TerraMax Braid 等人（2006）和BRAiVE Grisleri＆Fedriga（2010）带到了人的视野中。 BRAiVE是目前VisLab开发的整合所有系统的最新车型。 Bertozzi等人（2011）在VisLab洲际自动驾驶挑战赛（意大利到中国的半自主驾驶）展示了其系统的稳健性。车载系统允许检测障碍物，车道标记，沟渠，护堤，并识别前方是否存在车辆和车辆位置。感应系统提供的信息用于执行不同的任务，如引导跟随和前进&停止。
PROUD项目Broggi等人（2015年）略微修改了BRAiVE原型Grisleri＆Fedriga（2010）使得汽车可以在帕尔马城市道路和高速公路的常规交通情况下开车。为了实现这一目标，他们丰富了一份公开授权的地图，其中包含有待完成的机动信息（比如行人过路，交通信号灯等）。该车辆能够在没有人为干涉的情况下处理复杂的场景，例如回旋处，交叉口，优先道路，站点，隧道，人行横道，交通信号灯，高速公路和城市道路。
V-Charge项目Furgale等人（2013年）提供配备了接近产品级的（close-to-market）传感器的电动自动车。提出了一个完全可控的系统，包括视觉定位，映射，导航和控制。该项目解决了诸多困难比如，Heng et al. (2013, 2015)的校准calibration问题, H¨ane 等人(2014)的立体匹配问题,Haene等人的 (2012, 2013, 2014)重建问题, Grimmett等人(2015)的SLAM问题和 H¨ane等人的(2015)空白区于检测的问题。除了这些研究目标，该项目还非常重视在现实环境中部署和评估系统。
Google于2009年开始了自驾车项目，直到2016年3月4日完成了超过1,498,000英里的驾驶距离，在美国加利福尼亚州奥斯汀市的Mountain View，WA和柯克兰。不同的传感器（例如摄像机，雷达，LiDAR，车轮编码器，GPS）可以全方位的检测行人，骑自行车的人，车辆，道路工作等等。据他们的事故报道，Google的自驾车只涉及14次碰撞，13次是由别人造成的。在2016年，这个项目分引入到了一家独立的自动驾驶技术公司Waymo5。
Tesla Autopilot是由特斯拉开发的高级驾驶员辅助系统，该系统于2015年第一次推出其第七版的软件。系统的自动化级别满足完全自动化要求，但是需要驾驶员充分注意，如果有必要的话需要驾驶员接管控制。从2016年10月起，特斯拉生产的所有车辆配备了8台摄像机，12台超声波传感器和一个前置雷达，以实现全自动驾驶。
长距离测试演示：1995年，PROMETHEUS项目里Dickmanns等人（1990）;弗兰卡等人（1994）; Dickmanns等人（1994年）的团队演示了从德国慕尼黑到丹麦欧登塞以高达175公里/小时的速度进行的第一次自动长途驾驶，其中约95％为自主驾驶。同样，在美国Pomerleau和Jochem（1996年）在“不用双手横穿美国”旅程中从华盛顿特区驶向圣地亚哥，整个行程中有98％的自动驾驶和偶尔的手动纵向控制。
2014年，Zieglar等人（2014年）以近乎完全自动的方式，展示了从曼海姆（Mannheim）到德国普福尔茨海姆（Pforzheim Germany）的103km的骑行，也就是众人所熟知的Bertha Benz纪念路线。他们展示了一种装配有接近产品级的传感器硬件的自动驾驶车辆。由雷达和立体视觉来进行物体检测和空白区域分析。单目视觉用来检测交通信号灯和物体分类。两种互补的算法，基于点特征和基于场景标记，允许相对于手动注释的数字路线图进行精确定位。他们得出结论，即使认为自动驾驶虽然成功完成了，但是整体行为远远达不到细心的驾驶司机的水平。
最近，Bojarski等人（2016年）从霍尔姆德尔（Holmdel）到新泽西州蒙茅斯县的大西洋高原，以及在花园州立大道没有任何干扰的自动行驶了10英里，也不是说100%，其中98%是在自动驾驶。为了实现这一目标，在NVIDIA DRIVETM PX自动驾驶车中使用了一种从图像直接预测车辆控制的卷积神经网络。该系统在第11节中有更详细的讨论。
虽然所有上述表现令人印象深刻，但通常采取精确注释路线图以及预录用于本定位的地图证明了自主性系统仍然不及人的能力。最重要的是，不仅需要视觉信息的强大的感知，也需要普遍的人工智能才能达到人的可靠性水平，那样即使在复杂的城市情况下也能安全地做出反应。

1.2 自动驾驶竞赛

European Land Robot Trial （ELROB）是现实场景和地形中无人系统的示范与竞赛，主要集中在军事方面，如侦察监视，自主航行和车队运输。与自主驾驶挑战相反，ELROB场景通常包括崎岖地形的导航。2004年，美国国防高级研究计划署（DARPA）发起了第一个专注于道路场景（主要是泥土路）的自动驾驶比赛。DARPA 2004年大挑战赛为首先完成从加利福尼亚州内华达州过境的150英里的路线的队伍提供100万美元的奖金。然而，机器人车辆都没有完成路线。
一年后，也就是2005年，DARPA公布了第二版的挑战，5辆车顺利完成了路线（Buehler等人（2007））。DARPA大挑战赛的第三场比赛，被称为城市挑战赛（Buehler等人（2009）），于2007年11月3日在乔治航空加利福尼亚州的基地举办。这个挑战涉及到一个96公里的城市地区航线，在这段路程中车辆在与其他车辆进行协调并汇合到一起时，必须遵守交通法规。
2011年首次和2016年第二版的专注于自动合作驾驶行为的大型合作驾驶挑战（GCDC8，见Geiger（2012a））在荷兰赫尔蒙德举行。在比赛中，队伍必须与护航队协调，加入护航队和引导护航队。获胜者是依靠为随机混合队伍打分的系统选出来的。

2.数据集和基准

数据集在许多研究领域进展方面发挥了关键作用，通过提供带有真实值（ground truth）的问题实例。它们允许对方法进行定量评估，提供关于其能力和局限性的关键见解。特别地，这些数据集中的几个比如Geiger等人（2012b）;Scharstein＆Szeliski（2002）;Baker等人（2011）;Everinghamet （2010）; Cordts等人（2016）也提供在线评估服务器允许在给定的测试中进行公平的比较，而且为该领域的研究人员提供目前最好的算法的概况。这种方式可以让研究人员很容易地确定目前的进展和剩下的挑战。在自主车辆的环境中，KITTI数据集Geiger等人（2012b）和Cityscapes数据集Cordts等人（2016）为重建、运动估计和识别任务引入了挑战性的基准，因此缩小了实验室设置与挑战现实世界的情况之间的差距。仅仅几年前，大家认为有数百个注释的例子的数据集对于解决很多问题是足够的。然而，随着有数百到数千个有标签的例子的数据集的引入，通过以监督的方式训练大容量深度模型，已经使得许多计算机视觉学科的重大突破。然而，收集大量的注释数据不是一个容易的事情，特别是对于诸如光流或者语义分割的任务。这就发起了一项集体努力，通过搜索尽可能多的自动化过程的方法(如通过半监督学习或合成)，在几个领域生成这类数据。

2.1 真实数据集

虽然某些算法领域可以使用合成数据检验，但实际数据集对于确保算法在实际情况下的表现是必要的。例如，在实践中使用的算法需要处理复杂的对象和环境，同时面对挑战性的环境条件，例如直接照明，镜面反射，雾或雨。获取真实值通常是劳动密集型的，因为这种信息通常不能用传感器直接获得，而是需要繁琐的手动注释。例如，（Scharstein＆Szeliski（2002），Baker等人（2011））在受控实验室环境中获得了密集的像素级注释，而Geiger等人（2012B）;Kondermann等人（2016）使用LiDAR激光扫描仪提供实际街景场景的稀疏像素级注解。
最近，亚马逊的Mechanical Turk众包业务常用于为大型数据集创建注释，例如Deng等人(2009);Lin等人（2014）; Leal-Taix’e等人（2015）; Milan等人（2016）。然而，通过Mechanical Turk获得的注释质量通常不太合适作为参考，并且通常需要在后处理和清理获得的标签方面作出重大努力。在下文中，我们将首先讨论最流行的计算机视觉数据集和基准，以解决与自主视觉相关的任务。此后，我们将专注于那些致力于自动驾驶车辆的应用的数据集。
立体与 3D 重建类数据集：由Scharstein＆Szeliski（2002）引入的Middlebury立体测试基准提供了多个立体图像数据集，用于比较立体匹配算法的性能。通过手工标注并在分段平面场景中重构平面分量，得到像素级的真实值。Scharstein和Szeliski（2002）进一步提供立体匹配算法的分类法，允许通过比较设计决策和测试台来进行定量评估。使用均方误差以及估计值和真实视差图之间误匹配像素的百分比来评估提交给其基准网站的方法。
Scharstein & Szeliski (2003) 和 Scharstein et al. (2014)为Middlebury基准引入了一种新颖的数据集，这个数据集包含更多复杂的场景和普通的物体，比如椅子、桌子、植物等对象。在这两个工作中，均使用一个结构化的照明系统来创造真实值。对于最新版本的Middlebury v3，Scharstein等人(2014)提出了一种用于摄像机和投影仪的二维亚像素对应搜索和自校准的新技术，为高分辨率立体图像生成高度精确的真实值。与现有数据集相比，该新版本的差异和整改精度明显提高，可以进行更精确的评估。图1是来自数据集的示例深度图。

图1:Scharstein等人(2014)的结构光系统提供了高度精确的深度真实值，以颜色和阴影显示(顶部)。(a)、(b)提供了近距离观察，(c )显示了圆角差异，(d)中使用基线法得到的表面。改编自Scharstein et al.(2014)。
Seitz等人的Middlebury多视角立体（MVS）测试基准（2006）是一种校准过的带有真实3D模型的用于比较MVS方法图像数据集。基准测试在MVS方法的进步中发挥了关键作用，但只有两个场景，尺寸相对较小。相比之下，Jensen等人的TUDMVS数据集（2014年）提供了124个不同的场景，这些场景也是受控实验室环境中采集得到。参考数据通过组合来自每个摄像机位置的结构光扫描获得，并且所得到的扫描图非常密集，平均每个图包含13.4million个点。对于44个场景，通过以90度的间隔旋转和扫描四次获得完整的360度模型。与迄今为止的数据集相比，Sch¨ops等人（2017年）提供了在受控实验室环境中未仔细分级的场景，从而代表了现实世界的挑战。Sch¨ops et al. (2017) 录制了高分辨率DSLR单反相机图像以及各种室内和室外场景中同步的低分辨率立体视频。高精度激光扫描仪允许以强大的方法记录所有图像。高分辨率图像可以评估详细的3D重建，同时提供低分辨率立体图像来比较移动设备的方法。
光流类数据集：Baker等人的“Middlebury基准” （2011）提供了具有非刚性运动序列，合成序列和Middlebury立体基准序列（静态场景）的子集的序列，用于评估光流方法。对于所有非刚性序列，通过使用toothbrush牙刷追踪在物体上喷洒的隐藏的荧光纹理来获得真实流。
数据集包含八个不同的序列，每个序列具有八个帧。每个序列提供一对帧的真实值。除了有限的大小之外，由于数据集需要实验室条件，允许在各个捕获之间操纵光源，所以缺少像复杂结构，照明变化和阴影这样的真实世界挑战。此外，它只包含最多十二个像素的非常小的运动，不能提供对快速运动的验证。然而，与其他数据集相比，Middlebury数据集可以评估亚像素精度，因为它提供了非常精确和密集的真实值。使用角度误差（AEE）和估计流与真实值之间的绝对终点误差（EPE）来测量性能。
Janai等人（2017）提出了一个新颖的光流数据集，其中包括复杂的现实世界场景，与Middlebury的实验室设置相反。高速视频摄像机用于通过密集采样的时空容量跟踪像素来创建精确的参考数据。该方法允许以自动方式在挑战性的日常场景中获取光流场地真相，并且增加诸如运动模糊的现实效果以在不同条件下比较方法。Janai等人（2017年）提供了160个不同的现实世界动态场景序列，具有比以前的光学数据集显着更大的分辨率（1280x1024像素），并比较了这些数据的几种最先进的光学技术。
对象识别与分割类数据集：大量的公开数据集，如ImageNet（Deng等人（2009）），PASCAL VOC（Everingham等（2010）），Microsoft COCO（Lin等人（2014）），Cityscapes（Cordts （2016））和TorontoCity（Wang等人（2016年））对物体分类，目标检测和语义分割任务中深入学习的成功产生了重大影响。
由Everingham等人（2010）提供的PASCAL视觉对象类（VOC）挑战是对象分类，物体检测，物体分割和动作识别的基准。它由具有高质量标注的Flickr收集的有挑战性的消费者照片组成，并且包含姿势，照明和遮挡的大变化。自其面世以来，VOC的挑战一直很受欢迎并且逐年更新以适应社区的需求，直到2012年计划结束。而2005年的第一个挑战只有4个不同的类，2007年引入了20个不同的对象类。多年来，基准规模在2012年达到总共11,530张图像当中共有27,450张ROI注释物体。
2014年，Lin等（2014）介绍了Microsoft COCO数据集，用于物体检测，实例分割和上下文推理。它们在自然环境中提供包含常见对象的复杂日常场景的图像。数据集总共包括91个对象类，250万个注释实例和328k个图像。 Microsoft COCO在PASCAL VOC对象分割基准测试中每个类的实例数显著增加。所有物体都在广泛的人群工作人员的努力下对每个实例进行标注。与PASCAL VOC类似，IOU度量用于评估。
追踪类数据集：Leal-Taixe等(2015);Milan等(2016)提出的MOTChallenge解决了多目标跟踪缺乏集中基准的问题。该基准测试包含了14个在无约束环境下用静态和动态摄像机拍摄的具有挑战性的视频序列，并包含了许多现有的多目标跟踪基准测试，如PETS(Ferryman & Shahrokni(2009))和KITTI (Geiger et al. (2012b))。提供了三个对象类的注释:移动或站着的行人、不在直立位置的人和其他人。他们使用Stiefelhagen等人(2007)引入的两种流行的跟踪方法:多目标跟踪准确度(MOTA)和多目标跟踪精度(MOTP)来评估这些方法。由作者提供的检测真实值能够在不依赖检测系统的情况下分析跟踪系统的性能。使用检测器的方法和使用检测真实值的方法可以在其网站上进行比较。
航空图像数据集：航空图像数据集:ISPRS benchmark (Rottensteiner et al. 2013, 2014)提供机载传感器获取的数据，用于城市目标检测和三维建筑重建和分割。它包含两个数据集:Vaihingen和多伦多市中心。在对象检测任务中考虑的对象类包括建筑、道路、树、地面和汽车。Vaihingen数据集提供了三个领域的各种对象类和一个大型的道路检测算法测试站点。多伦多市中心数据集位于加拿大多伦多市中心，面积约1.45平方公里。与Vaihingen类似，有两个较小的区域用于对象提取和建筑重建，以及一个较大的区域用于道路检测。对于每个测试区域，提供具有方位参数的航空图像、数字表面模型(DSM)、正射影像拼接和机载激光扫描。这些方法的质量是通过检测和重建的几个指标来评估的。在这两种情况下，完整性、正确性和质量都是在每个区域级别和每个对象级别上进行评估的。
自动驾驶数据集：2012年，Geiger等人(2012b、2013)介绍了KITTI视觉测评基准为立体匹配、光流,视觉测距/SLAM和3D对象检测(图2)。数据集是从一个自主驾驶平台上采集,包括6个小时的录像，采用的是高分辨率彩色和灰度立体相机,一个三维激光扫描仪和高精度GPS / IMU惯性导航系统。来自这个数据集立体图像和光流基准组成194训练和195测试图像对，图像的分辨率为1280×376像素，和通过将三维激光点云积累投射到图像获得的稀疏的真实值。由于旋转激光扫描仪作为参考传感器的局限性，立体图像和光流基准仅适用于有摄像机运动的静态场景。

图2:Geiger等人(2012b)提出的KITTI基准测试中带有传感器(左上)、轨迹(上中心)、视差和光流(右上)以及3D对象标签(下)的记录平台。改编自Geiger等人(2012b)。
为了为动态场景提供真实值运动场，Menze& Geiger(2015)对400个动态场景进行了标注，将精确的3D CAD模型拟合到所有运动中的车辆上，以获得这些物体的流和立体图像的真实值。KITTI的流和立体匹配基准测试使用错误(坏)像素的百分比来评估提交的方法的性能。另外，Menze &Geiger(2015)将立体匹配和流的真实值相结合，形成了一个新的3D场景流基准。为了评估场景流，他们结合了经典的立体匹配和光流测量的方式。
视觉测距/SLAM挑战由22个立体序列组成，总长度为39.2公里。利用带有RTK校正信号的GPS/IMU定位单元，得到真实值位姿。考虑了某一特定轨迹长度上的平均平移误差和旋转误差。
针对KITTI对象检测挑战，开发了一种特殊的3D标记工具，可以用3D边框标注所有的3D对象，用于7481个训练和7518个测试图像。目标检测任务的基准被分为车辆检测任务、行人检测任务和自行车检测任务，允许重点分析自动车辆环境中最重要的问题。继PASCAL VOC Everingham等人(2010)之后，我们使用交叉-联合(IOU)度量来进行评估。为了进行额外的评估，这个度量被扩展到捕获2D检测和3D方向估计性能。一个真正的3D评估计划即将发布。
Fritsch等人(2013)将KITTI基准扩展到道路/车道检测任务。总共挑选了600幅不同的训练和测试图像，用于人工标注道路和车道区域。Mattyus et al.(2016)利用航拍图像对KITTI数据集进行了增强，使用了细粒度的细分类别，如停车位和人行道，以及道路车道的数量和位置。KITTI数据集已经成为所有上述任务的标准基准之一，特别是在自动驾驶应用程序的环境中。
作为对其他数据集的补充，Kondermann等人(2016)提出的HCI基准包含了现实的、系统的不同辐射测量和几何挑战。总体上，提供了28,504对立体图像和流真实值。与以前的数据集相比，所有静态区域的真实值不确定度已被估计。不确定度估计是由基于蒙特卡罗抽样的每个帧的像素级误差分布得到的。动态区域被手动屏蔽，并以近似真值注释3500对图像。
该数据集的主要局限性在于所有序列都记录在单一街道段，缺乏多样性。另一方面，这可以更好地控制内容和环境条件。与KITTI的移动式激光扫描方案相比，静态场景仅使用高精度激光扫描仪扫描一次，以获得所有静态部件的密集且高度精确的真实值。除了KITTI和Middlebury所使用的指标外，他们在评估Honauer等人(2015)时还使用了语义上有意义的性能指标，比如边缘畸变和表面平滑度。HCI基准是一个相当新的但尚未建立完整的数据集，受控的环境能够模拟很少发生的事件，如事故，这评估自动驾驶系统很有意义。
由Dollar et al.(2009)提出的加州理工学院行人检测基准提供了25万帧由车辆在城市环境中正常行驶时记录的序列。35万个边界框和2300个独特的行人进行了注释，包括边界框之间的时间对应和详细的遮挡标签。通过绘制误报漏检率和改变检测置信度的阈值来评估方法。
Cordts et al.(2016)的Cityscapes数据集为像素级和实例级语义标注提供了一个基准和大规模数据集，可以捕捉现实世界城市场景的复杂性。它由大量的、多样的立体视频序列组成，这些序列记录在不同城市的街道上。为5000张图片提供了高质量的像素级注释，而另外20000张图片则使用了新的众包平台获得的粗糙标签进行注释。对于两个语义粒度，即他们报告平均性能得分，并在实例级别上评估IoU度量，以评估个别实例在标签中的表现如何。
Wang等人(2016)提出的多伦多城市基准覆盖了大多伦多地区，面积712平方公里，道路8439公里，建筑面积约40万幢。该基准涵盖了大量的任务，包括建筑高度估计(重建)，道路中心线和路缘提取，建筑实例分割，建筑轮廓提取，语义标记和场景类型分类。该数据集是通过飞机、无人机和在城市中行驶的汽车获取的，以提供不同的视角。
长期自动驾驶（Long-Term Autonomy）类数据集：像KITTI或Cityscapes这样的数据集关注的是自动驾驶的算法能力的发展，但没有解决长期自动驾驶的挑战，比如环境随时间的变化。为了解决这个问题，Maddern等人(2016)提出了一种新的自动驾驶数据集。他们在英国牛津中部1000公里的路程中收集了图像、激光雷达和GPS数据。这使得他们能够捕捉到由于光照、天气和季节变化、动态物体和建筑而产生的场景外观的巨大变化。这样的长期数据集允许深入调查阻碍实现自动驾驶的问题，如在一年内的不同时间进行定位。

2.2 合成类数据集

对于真实的例子，产生真实值是非常劳动密集型的，并且在需要像素级注释时通常甚至不可能大规模地实现。另一方面，可以容易地获取大规模合成数据集的像素级基础真值。然而，创造现实的虚拟世界是耗时的。电影和视频游戏的普及导致了行业创造非常现实的3D内容，这些内容丰富了使用合成数据集完全替代实际数据的希望。因此，最近已经提出了几个合成数据集，但是现实主义和多样性是否足以替代现实世界的数据集仍然是一个悬而未决的问题。此外，创造现实的虚拟内容是一个耗时和昂贵的过程，实际数据和合成（或增强）数据之间权衡还不清楚。
MPI Sintel: Butler等人(2012)提出的MPI Sintel流基准，利用开源动画短片Sintel，利用光流真实值渲染不同复杂的场景。Sintel总共有1628帧。使用呈现管道的不同通道，获得的数据集在复杂性上有所不同，如图3所示

图3:这个图改编自Butler等人(2012)，展示了渲染管道不同通道得到的Sintel基准的不同复杂度:反射版、纯净版和最终效果(从上到下)。
反射版有大致分段不变的颜色，没有照度效果，而纯净版则引入了各种照度。最后通过添加大气效果，模糊，颜色校正和晕渲。除了平均终端误差之外，测评基准网站还根据速度、遮挡边界和违抗提供不同的方法排名。
Flying Chairs and Flying Things:光流数据集有限的大小阻碍了深度大容量模型的训练。为了训练卷积神经网络，Dosovitskiy等人(2015)因此引入了一个简单的合成2D数据集，这些数据集是在Flickr的随机背景图像上呈现的。由于该数据集有限的真实性和规模证明不足以学习高度精确的模型，Mayer等人(2016)提出了另一个大型数据集，包含三个合成立体视频数据集:FlyingThings3D、Monkaa、Driving。FlyingThings3D提供了日常的3D物体在随机创建的场景中沿随机的3D轨迹飞行。受到KITTI数据集的启发，一个驾驶数据集已经被创建，它使用来自于FlyingThings3D相同池的汽车模型，另外高度详细的树和从3D仓库建立模型。Monkaa是一部动画短片，类似于MPI Sintel基准测试中使用的Sintel。
游戏引擎:不幸的是，来自动画电影的数据非常有限，因为内容很难更改，而且此类电影很少是开源的。相比之下，游戏引擎允许创建无限数量的数据。Gaidon等人(2016)提出了一种使用游戏引擎创建虚拟世界的方法，该方法引入了虚拟KITTI数据集。他们提出了一种有效的从现实世界到虚拟世界的克隆方法来创建真实的代理世界。一个克隆的虚拟世界允许不同的条件，如天气或照明和使用不同的相机设置。通过这种方式，可以利用代理世界进行虚拟数据增强来训练深度网络。虚拟KITTI包含35个逼真的合成视频，共17000帧高分辨率。它们为目标检测、跟踪、场景和实例分割、深度和光流提供真实值。
Ros等人(2016)在并行工作中创建了SYNTHIA，这是一种综合收集了城市场景的图像和注释，用于进行语义分割。他们用Unity引擎渲染了一个虚拟城市。该数据集由从城市中随机采集的13400张虚拟图像和总共20万帧的4个视频序列组成。为13个类提供了像素级语义注释。
Richter et al.(2016)从商业视频游戏《侠盗飞车5》中提取图像像素精确语义标签映射，为了实现这一目标，他们开发了一种在游戏和图形硬件之间运行的包装器，以跨时间和实例获取像素精确的对象标签。这个包装器可以让他们在不需要人工监督的情况下，为2.5万张图片合成出密集的语义注释。然而，由于法律原因，提取的三维几何图形不能公开。同样地，邱与余乐(2016)通过访问和修改虚幻引擎的内部数据结构，提供了一个开源工具来创建虚拟世界。他们展示了如何通过将虚拟世界与Caffe Jia等人(2014)的深度学习框架链接起来来测试深度学习算法。