麻省理工学院，人工智能实验室，生物与计算学习中心，美国马萨诸塞州剑桥

摘要

本文提出了一种通用的、可训练的、在无约束的、杂乱的场景中的目标检测系统。该系统的功能很大程度上来自于一种表示，该表示用一个过完整的、面向的、多尺度强度差异的字典来描述一个对象类区域，可有效地计算作为一个哈尔小波变换。这种基于示例的学习方法通过使用大量的正、负的示例来训练一个支持向量机分类器，从而隐式地推导出一个对象类的模型。我们使用相同的架构来展示关于人脸、人和汽车检测任务的结果。此外，我们通过考虑几个替代方案来量化表示法如何影响检测性能表示法，包括像素和主成分。我们还描述了我们的人员检测系统的实时应用，作为驾驶员辅助系统的一部分。
关键词：计算机视觉、机器学习、模式识别、人的检测、人脸检测、耳朵检测

1. 介绍

随着可用的图像和视频信息数量的增加，用于管理这些数据的健壮的、可配置的对象检测系统将变得不可或缺。上午发生了爆炸在互联网上呈现的信息，因为它是从基于文本的媒体快速过渡到图像和视频内容；目标检测系统将用于通过增长进行搜索图像和视频数据库的数量。这项技术也将被用于监控应用程序、驾驶员辅助系统，以及作为识别系统的前端。
本文研究了无约束、杂乱场景的静态图像中的目标和模式检测问题。我们将检测与识别问题进行对比，其中的目标是被识别验证一个类的特定实例。人脸检测系统知道如何区分人脸和“其他一切”，而人脸识别系统则知道我的人脸和其他人脸之间的区别。检测现实世界中感兴趣的物体，如面孔、人和汽车，带来了具有挑战性的问题：这些物体很难以颜色和纹理的显著变化来建模物体所在的背景往往是复杂和杂乱的，而像光线、大小和物体数量这样的特征，除了在最精巧的情况下，都无法解释。
我们的技术使用了一个对象类的描述性模型，该模型足够丰富，可以有效地建模一个对象的任何可能的形状、姿态、颜色和纹理。与此同时，技术上的进步足够通用，它可以很容易地转移到一个新的对象类。
该系统的大部分功能来自于一种新的表示，这种表示用相邻区域之间存在的大量局部定向强度差异来描述一个对象类；这表示作为哈尔小波变换是有效的。图像从像素空间映射到像素的字典，提供了丰富的描述的模式。这种表示方式能够捕捉到我们想要检测到的对象类的结构，同时忽略图像中的噪声。过度完整字典的使用是受到图像重建技术的启发；我们的目标是进行分类，为此，过度完整词典为我们提供了更丰富的表达语言，我们可以比较复杂的模式。
我们将使用一种基于示例的学习方法，其中对象类的模型是从示例训练集隐式派生出来的。通过这种方式，专门化这个通用系统到一个特定的领域涉及到插入一组新的训练数据，而不需要修改核心系统或手工制作一个新的模型。我们使用的特定学习引擎是一个支持向量机(SVM)分类器。这种分类技术有许多特性，使它特别吸引人，最近在机器学习社区受到了广泛的关注。
以前在目标检测方面有大量的工作；与本文特别相关的是静态图像中的人脸检测工作。最近，实例基方法已经取得了较高的进展在该领域的成功程度(宋和Poggio，1994年；莫加达姆和彭特兰，1995年；罗利等人，1998；瓦兰特等人，1994；Osuna等人，1997b)。这些基于视图的方法可以处理杂乱场景中的检测人脸，并且在扩展到处理非正面视图时显示出了合理程度的成功。与面部检测相比，det 到目前为止，在静态图像中提取人还没有得到成功的解决。目前的人员检测系统(Wren等人，1995年；哈里塔格鲁等人，1998年；海塞尔和沃勒，1998年；麦肯纳和龚，1997年；肖和斯克兰斯基，1991年；罗尔，1993年；霍格，1983年)通常假设任何o f有几个限制性的假设，即人在移动，有一个有固定的相机的静态背景，实现跟踪而不是真正的检测，使用手工制作的模型，或者他们做出假设他们在现场的人数。在福赛斯和弗莱克（1997,1998）中，他们描述了一个系统，它使用颜色、纹理和几何图形在静态图像中定位马和裸体人的位置。该系统主要用于检索具有单一感兴趣对象的图像。在Fors中描述了学习这些手工编码的零件层次结构的“身体计划”的方法年和Fleck（1997）。我们的系统没有做出这些假设，但结果导致了对静态图像的高度鲁棒的人检测技术。汽车检测也是一个受到广泛关注的领域；(br雷格勒和Malik，1996)描述了一个使用二阶高斯特征的专家混合来识别不同类别的系统汽车（检测已被纳入）和(Lipson，1996；Lipson等人，1997)描述了一个使用可变形模板进行侧视图汽车检测的系统。在Beymer等人（1997）中，他们提出了一种特殊的监控系统，该系统有一个汽车检测模块，可以定位高速公路序列中的拐角特征，并将单车的特征组合在一起随着时间的推移，我们可以获取信息。Betke等人（1997）和Betke和Nguyen（1998）的系统使用拐角特征和边缘地图结合模板匹配来检测高速公路视频场景中的车辆。
本文描述了我们在人脸、人和汽车检测的背景下的物体检测的一般框架。我们在第2节中提供了对我们的核心系统的深入描述，以及详细说明关于小波上（第2.1节），我们的小波特征字典（第2.2节），以及支持向量机分类技术(第2.3节）。在第3节中，我们将比较和对比小波与其他可能的表示形式，包括像素和主成分。一个实时实现我们的人的检测系统作为一个d的一部分在第4节中描述了河流辅助系统。最后，我们总结了我们目前正在追求的相关领域和未来的工作方向。

2. 架构和表示法

图1提供了我们的系统的架构概述，它应用于人员检测的任务，并显示了训练和测试阶段。在训练步骤中，系统以1作为输入1) 一组对象类的图像，它们已经被对齐和缩放，使它们都处于大致相同的位置和相同的大小；2)一组不在我们的对象群中的模式 ss.为每个模式计算封装对象类的重要信息的中间表示，从而产生一组正和负特征向量。这是 e特征向量用于训练模式分类器来区分类内模式和类外模式。
在测试阶段，我们感兴趣的是检测样本外图像中的对象。该系统在图像上滑动一个固定大小的窗口，并使用训练过的分类器来决定显示哪些模式感兴趣的对象。在每个窗口位置，我们提取与训练步骤相同的特征集，并将它们输入我们的分类器；分类器的输出决定了我们是否提高将该模式作为类内对象进行处理。为了实现多尺度检测，我们迭代地调整图像的大小，并使用相同的固定大小窗口处理每个图像的大小。一种可训练的物体检测系统17

图1我们系统的培训和测试阶段。
本节讨论了我们训练的模式分类器开发中的关键问题：表示和学习引擎。

2.1. 小波

为对象检测系统选择表示的最终目标是找到一个产生高类间可变性的表示，同时实现低类内可变性的表示。司像人这样的Nce对象类可能非常复杂，这是一项非常重要的任务。为了编码对象类的视觉结构，我们的表示必须在一个分辨率上识别特征将在整个对象类中保持一些一致性，同时忽略噪声。我们使用的表示，Haar小波，识别局部，定向的强度差异特征虽然规模庞大，且可有效计算。哈尔小波可能是最简单的具有有限支持的特征。我们将图像从像素空间转换到小波系数空间在一个过于完整的特征字典中被污染，然后被用作一个分类器的训练。
本节描述了我们用于提取对象特征的底层表示，即Haar小波。我们还描述了一个更密集（冗余）转换，我们使用它来提供更丰富的壮举为了实现空间分辨率，我们需要完成检测。
2.1.1.哈尔小波.
小波为描述我们的模式提供了一个自然的数学结构；更详细的处理方法可以在Mallat（1989）中找到。这些向量空间构成了多分辨率分析的概念。我们将多分辨率分析的概念形式化为近似子空间的序列V0⊂V1⊂V2⊂…Vj⊂Vj+1…；向量空间 Vj+1可以描述比空间Vj更精细的细节，但Vj的每个元素也是Vj+1的一个元素。多分辨率分析还假设一个近似于Vj的函数是特征被化为它在向量空间上的正交投影V j 。
作为向量空间Vj的基础，我们使用缩放函数，

，（1）
对于我们的哈尔小波的例子，

（2）
接下来我们定义向量空间wj，它是两个连续的近似值的正交补。Haar小波框架；(a)的Haar标度函数和小波，(b)的三种类型对于二维非标准Haar小波：垂直、水平和对角线，以及©，与我们的四层密集位移相比，标准变换中的位移导致了一个过完全的指示小波的问题。ting subspaces, V j+1 = V j ⊕ W j .Wj被称为小波子空间，可以解释为“细节”的子空间。小波空间wj为sp 通过一个功能的基础，

（3）
其中Haar小波，

（4）

图2 Haar小波框架；(a)表示Haar标度函数和小波，(b)表示三种二维非标准Haar小波：垂直、水平和对角线，©表示位移在标准变换中，与我们的四层密集位移导致一个过完整的小波字典。
小波函数的和构成了L2®的一个标准正交基。它可以证明（在多分辨率分析的标准条件下），所有的缩放函数都可以从中生成一个缩放函数的扩展和转换。同样，所有的小波函数都是母小波函数的展开和平移。图2(a)显示了目标检测的可训练系统19和小波函数。发现在空间Vj中的某个函数f(x)的近似值为：

（5）
其中，我们让内积用λj，k表示，以供将来使用。类似地，f(x)在Wj上的投影为：
（6）
其中，在本例中，内积用γj，k表示。
近似和小波子空间的结构导致了一种有效的级联算法来计算尺度系数λj，k和小波系数γj，k：

其中，hi}是尺度函数和小波函数对应的滤波系数。利用这种构造，空间Vj中的一个函数f(x)的近似值为：

（9）
类似地，f(x)在空间Wj中的近似值为：

（10）
由于我们使用Haar小波，相应的滤波器是：h={…，0、1/2 、1/2 、0,0，…}和g={…，0，−1/2 、1/2 、0,0，…}。比例系数只是成对的平均值相邻系数在粗层，小波系数为差。
重要的是要观察到，离散小波变换(DWT)在更小的尺度上对系数进行降采样或抽取，因为滤波器h和g的步长为每增加一个k，则为2。
2.1.2.二维小波变换。
利用两个一维小波变换的张量积，得到了小波对二维信号的自然扩展。结果是三种小波基函数，如图2所示。fi 第一类小波是小波通过尺度函数的张量积，ψ(x，y)=ψ(x)⊗φ(y)；这个小波编码了沿垂直边界的平均强度的差异，我们将参考到它作为垂直系数的值。类似地，小波的缩放函数的张量积ψ(x，y)=φ(x)⊗ψ(y)是水平系数，小波的小波ψ(x，y)=ψ(x)⊗ ψ(y)是一个对角线系数，因为这个小波对对角线边界的响应很强。
由于标准变换产生的小波有不规则的支持，我们使用非标准二维DWT，在给定的尺度上，变换之前按顺序应用于每个维继续进行下一个规模(Stollnitz等人，1994年)。结果为在所有水平上都有平方支持的Haar小波，如图2(b).所示
2.1.3.四重体密度变换。
对于一维Haar变换，两个相邻小波在n级(支持大小为2n)的小波之间的距离为2n。获得更密集的基函数集，提供更丰富的模型和更精细的sp 对于最终的分辨率，我们需要一组冗余的基函数，或一个过完全的字典，其中小波在n级之间的距离为1 4 2n(图2c)。shi的直接方法输入信号并重新计算DWT将不会产生所需的密集采样。相反，这可以通过修改DWT来实现。为了生成具有双密度的小波，其中n级的小波每1 2 2n像素定位一次，我们只是不在等式中进行降采样 (8).若要生成删除四重密度字典，首先，我们不在等式中进行降采样（7），给出了我们双密度尺度系数。接下来，我们计算了这两组数据上的双密度小波系数分别用偶数和偶数进行缩放系数。通过交织这两个变换的结果，我们得到了四倍密度小波系数。对于下一层(n+1)，我们只保留前一层和重复的均匀缩放系数只有这个集合上的四倍变换；奇数尺度系数被删除。由于只有偶数系数，我们避免了系数数的“爆炸”，但得到了密集而均匀的采样我的水平。与常规DWT一样的时间复杂度为O(n)。将四重密度变换扩展到二维是很简单的。

2.2. 小波表示

Haar变换提供了具有不同尺度小波特征的图像的多分辨率表示，捕获不同的细节层次；粗尺度小波编码大区域而细尺度小波描述了更小的局部区域。小波系数保留了原始图像中的所有信息，但视觉信息的编码与基于像素的表示有两个重要的不同。
首先，小波在多尺度框架下，对不同方向的局部区域之间的平均强度差异进行编码。对小波值的约束可以表示对象类的视觉特征；来自特定小波的强响应表明存在强度差或边界图像中的位置，而小波的弱响应表示均匀区域。
其次，使用一个过完整的Haar基，允许我们在相邻区域之间传播约束，并描述复杂的模式。四重密度小波变换提供了较高的空间分辨率，并得到了一个丰富的、过完整的特征字典。代替四密度小波，可以只使用重叠50%的双密度小波；我们期望四密度版本会给我们更好的性能，你 h这是一个未经检验的假设。
我们使用小波的主要动机是，它们捕捉到了物体的形状和内部结构的视觉上可信的特征，这些特征对某些变换是不变的。对某些变换不变的对象。结果是一个紧凑的表示，其中来自相同对象类的不同示例图像映射到相似的特征向量。
使用像素表示，我们要编码的是模式的不同部分的实际强度——一个简单的例子清楚地表明，这种编码并没有捕捉到重要的部分功能检测。例如，我们以同一类的两个数据点为例，其中一个是白色背景上的深色物体，另一个是黑色背景上的白色物体。通过基于强度的表示（如像素），这些例子中的每个都映射到完全不同的特征向量。一种编码局部的、定向的、强度的差异(如H aar小波)会产生类似的特征向量，其中均匀区域对应的特征为零，边界对应的特征非零。事实上，由于在我们的表示中，我们只编码了强度差异的大小，因此在这个简单的两种例子情况下的特征向量将是相同的。
我们没有使用所有非常精细的小波尺度作为学习的特征，因为这些尺度捕捉的高频细节不能很好地描述这个类；例如，在peo的情况下首先，最好的尺度小波可以对检查、条纹和其他细节模式做出反应，所有这些都不是整个类的特征。类似地，非常粗糙的尺度小波并不被用作学习的特征，因为它们的支持度将和对象一样大，因此不会编码有用的信息。因此，对于我们开发的目标检测系统，我们剔除了非常非常细、非常粗的小波，只使用2个中等尺度的小波作为学习特征。这些比例取决于对象类和训练图像的大小，并被先验选择。
在下面的章节中，我们将展示我们的小波表示如何应用于人脸、人和汽车；这种对多个尺度上的局部强度差异的编码提供了一个灵活和表达的可以描述每个这些复杂对象类的表示法。此外，小波表示对于目标检测任务是计算效率高的，因为我们不需要计算每个图像区域的变换，而只计算然后在小波空间中对图像进行处理。
2.2.1. 分析面部类。
对于人脸类，我们有一个2429张灰度图像的训练集——这一组核心人脸，通过一些小的角度旋转来提高泛化——以及24730张非fac e模式。这些图像都被缩放到尺寸19×19，并显示了从眉毛上方到嘴唇下方的人脸；数据库中的典型图像如图3所示。这个大小的数据库和com 位置已被广泛应用于人脸检测(Sung，1995；Rowley等人，1998年；Osuna等人，1997a)。对于我们的人脸系统使用的模式的大小，我们有大小为2×2,4×4,8×8，和16×16的小波。我们不是使用整个小波集，而是先验地限制了双小波不包含尺度为2×2和4×4的小波，因为较粗的特征不包含用于检测目的的重要信息。在4×4像素的尺度下，每个小波类有17个×17个特征，在2×2像素下有17个×17每个类的双密度特征，共计1,734个系数。

图3 来自用于训练的人脸数据库的示例图像和相应的集合平均特征。训练图像为灰度水平，大小为19×19像素。平均特征v alues以灰色级别编码，并以其适当的空间配置显示。其值接近于1的平均值的特征被编码为灰色，其系数高于av 平均水平的颜色较深，低于平均水平的则较浅。我们可以观察到眼睛区域和鼻子的强烈特征。脸颊区域是一个几乎均匀强度的区域，即系数在脸颊区域有低于平均值的值。
一个系数的原始值可能不一定表示一个边界——在一个相对较暗的图像中，一个较弱的系数可能仍然表明存在一个明显的强度差异不能用于分类的目的。为了减少这些对用于分类的特征的影响，我们将一个系数的值与同一区域内的其他系数进行了归一化处理。因为没有规则化步骤，我们计算每个小波类（{垂直，水平，对角线}×{2,4}）在当前模式上的平均值，并将某个空间位置的小波响应除以它 s对应的类平均值。我们分别计算每个类别的平均值，因为不同类别之间的功率分布可能会有所不同。
归一化后，对随机模式的有效系数的平均值应该为1。将出现三类特征大小：集合平均值远远大于1表示强强度差异的特征，它们在所有的例子中都是一致的，值为m uch小于1表示一致的统一区域，接近于1的值与不一致的特征或随机模式相关联。
为了可视化检测到的人脸特征，我们使用灰度对小波系数的集合平均值进行编码，并在图3中绘制出适当的空间布局。具有值的系数 e到1用灰色表示，值大于1的颜色较暗，值小于1的颜色较浅。观察面部特征中出现的模式是很有趣的。垂直小波捕捉鼻子的两侧，而水平小波捕捉眼窝、眉毛和ti 鼻子的p。有趣的是，与其他特征相比，嘴的特征相对较弱。对角线小波对面部特征的端点有强烈的响应。
2.2.2 分析人员类。
为了学习人类，我们收集了一组1800张不同姿势的人的彩色图像（图4），并使用了1800张镜像和16726个非人模式。所有的我年龄被归一化到尺寸128×64，人的图像被对齐，使身体的中心和大致相同的大小(从肩膀到脚的距离约为80 像素）。
就像人脸的情况一样，为了在适当的尺度上对特征进行检测——我们期望出现相关特征的尺度——我们将系统限制在尺度上的小波上 32×32像素（每个方向15×5个特征）和16×16像素（每个方向29×13）。
在我们的人检测系统中，我们的训练数据库是彩色图像。对于一个给定的模式，我们计算每个颜色通道中的四重密度Haar变换(RGB)分别以三个通道中绝对值最大的特定位置和方向的系数值，为系统提供最直观的信号虚构的信息。这种技术将原始彩色图像映射到一个伪彩色通道，该通道给了我们1326个小波系数，与我们使用灰度图像的数字相同。

图4 来自用于训练的人的数据库的示例图像和相应的集成平均特征。训练图像为128张×64张彩色图像。就像脸一样，殿 Rage特征值以灰色级别编码，并显示在其适当的空间配置中。小波识别了人图像中重要的视觉边界信息垂直小波响应身体的两侧，水平小波响应头部和肩膀的顶部，对角线小波响应头部、肩膀、手和脚。
为了可视化使用这个小波表示出现的模式，我们可以将系数的平均值编码为灰度，并在适当的空间布局中显示为w e为脸做了。图4显示了每个平均小波显示为一个小正方形，其中接近于1的特征是灰色的，较强的特征较暗，较弱的特征较浅。与人脸一样，我们观察到每一类小波系数都符合不同类型的结构信息。垂直的小波捕捉到了人的侧面。水平小波对肩带和较弱的带线做出响应。对角线小波被调整为“拐角特征”，即肩膀、手和脚。16×16尺度小波提供了身体整体形状的精细空间分辨率和较小的尺度细节 Ls，如头部和四肢，是很明显的。
2.2.3分析汽车类。
该汽车检测系统使用516张汽车前后彩色图像数据库，标准化为128×128，前后保险杠直径为64像素。在训练中，我们使用镜像总共1032个正模式和5166个消极模式。我们用于检测的两个小波尺度分别是16×16和32×32。就像公关一样对于人来说，我们利用最大小波响应将三个颜色通道特征分解成一个单一通道每个通道在一个特定的位置、方向和尺度上。这给了我们总共3030个用于训练SVM的小波特征。
平均小波特征值在图5中以灰度进行编码。就像人脸和汽车一样，汽车的大部分特征结构在这些平均值中是明显的。

图5 来自用于训练的汽车数据库的示例图像和相应的集成平均特征。训练图像为128张×，128张彩色图像。该平均值的灰度编码 e特征值表明，小波对汽车的显著视觉特征有响应：垂直小波响应汽车的侧面，水平小波响应车顶，u 侧，格栅顶部和保险杠区域，和对角小波响应汽车的身体的角落。在16×16，我们甚至可以看到证据似乎是车牌和他平均响应中的附着光结构。
2.2.4.讨论
将人数据库（图4）与人脸数据库（图3）进行比较，可以了两个类的一个重要的根本区别。就面部而言，面部内有清晰的图案，包括眼睛、鼻子和嘴；这些模式对所有的例子都是共同的。但对于人的全身形象却不是这样。这些人没有任何共同的颜色或纹理。此外，人物的图片上有很多虚假的细节，比如夹克、领带和包。另一方面，我们认为人们可以以相当好的整体体型相似，或“轮廓”。我们的方法以统一的方式处理对象类中存在不同的底层信息内容的这两种情况。汽车的前后景观都有一定数量的公共内部结构（格栅顶部，牌照，前灯）以及相当统一的外部边界；我们也会看到ca 在这个框架中处理得同样好。
在我们对小波的选择中存在着一定的先验知识。使用该系数的绝对值，在人的情况下可能是必要的，因为某一特征的方向的强度差异的方向并不重要；一个黑暗的身体光背景的y和暗背景的光体应该表示为具有相同的信息内容。此外，我们计算了三个颜色通道中给定模式的小波变换，然后，对于在特定位置和方向上的小波，我们使用中最大的小波在这三个通道中的大小。这是基于观察到，不同的人之间几乎没有颜色的一致性，并允许系统关闭视觉上最重要的特征。同样的先决条件离子也被用于我们的汽车检测系统。
一旦我们为一个对象类生成了特征向量，并对一组不在我们的对象类中的图像做了同样的事情，我们就会使用一个学习算法来学习如何区分两个类。我们使用的特殊学习引擎是一个支持向量机，如下所述。

2.3. 支持矢量机分类

我们系统的第二个关键组件是使用一个可训练的模式分类器，它学习区分对象类中的模式和所有其他模式。一般来说，这些监督学习技术依赖于有一组标记的例子模式，从那里它们推导出感兴趣领域的隐式模型。我们使用的特殊学习引擎是一个支持向量机(SVM)分类器。
支持向量机(SVM)是一种训练分类器的技术，在统计学习理论中有充分的基础；详情请参见Vapnik（1995）、Burges（1998）和Vapnik（1998）。其中一个主要的使用支持向量机的吸引力在于，它们能够在很少的训练例子的高维空间中学习。他们通过最小化经验误差和c的界限来实现这一点同时，分类器的复杂性。
这一概念在概率均匀收敛理论中形式化：

（11）
概率1−η。这里，R（α）是预期风险，Remp（α）是实证风险，是训练示例的数量，h是正在使用的分类器的VC维度，和（·）是分类器的VC置信度。直观地说，这意味着预期风险和经验风险之间的均匀偏差随着训练数据量的量的增加而减小，而随着VC维数h的增加而增加。这直接使我们引出了结构风险最小化的原则，即我们可以尝试同时最小化训练集的实际误差和分支的复杂性过滤器；这将限制在等式中的泛化误差 (11).正是这种技术支持向量机的近似。
这种对训练集误差和分类器复杂性的控制使得支持向量机能够成功地应用于非常高维的学习任务；(Joachims，1997) 给出了将支持向量机应用于10,000维文本分类问题的结果，并且(Osunaetal.，1997b)显示了一个283维的人脸检测系统。
支持向量机算法将训练问题定义为在所有可能的分离曲面中找到最大的最近元素之间的距离的问题两个类。在实践中，这是通过求解一个二次规划问题来确定的。
使用SVM公式，点x的决策函数的一般形式为：

（12）
其中，为训练数据点的个数，αi为优化步骤中得到的拉格朗日参数，θ（·）为阈值函数。核K（·，·）定义了某些特征空间中参数投影之间的点积；正是在这个（通常是高维的）特征空间中，我们发现了一个分离的超平面。不同的内核诱导不同类型的分类器。例如，对于K(x，y)=x·y，分离面是x，K(x，y)=(x·y+1)空间中的超平面，得到一个n次多项式分类器，K(x，y)=exp（−−2）给出一个G 澳大利亚径向基函数。
一旦优化问题得到解决，通常大多数参数αi都为零。因此，决策面只依赖于较少数量的具有非零αi的数据点；这些数据点被称为支持向量。
对于我们的检测问题，其中我们使用一个二次分类器，决策面是：

（13）
其中我现在是Ns支持向量的索引。

3. 实验

在无花果中。6-8我们给出了我们的可训练目标检测系统分别应用于人脸、人和汽车检测领域的例子。我们重申，系统对场景结构或物体的数量没有先验假设，也不使用任何运动或其他动态信息。通过使用更多的训练数据，可以很容易地提高这些检测系统的每个特定实例的性能。我们并没有试图推动特定领域的性能极限；相反，我们的目标是表明这种用于目标检测的统一架构导致在几个高性能范围。

图6 我们的人脸检测系统在一组样本外图像上的结果。A、C、E、F、G、H、I、J、K、L、M、N来自Sung&Poggio；B的测试数据库，D来自www.starwars.com；O为f rom www.corbis.com.缺失的面孔(B、F、I、J、K、M)是由于训练数据中没有明显的头部旋转。假阳性（D、E、F、N）是由于训练数据不足所致并且可以通过使用更多的负性训练数据来消除。

图7 人对样本外图像的检测结果。A、I、K来自www.starwars.com；B、D、E、F、H、J、N来自www.corbis.com；C、G来自www.cnn.com；L、O、P来自波士顿和剑桥；M是由戴姆勒-克莱斯勒公司提供的。错过的检测是由于这个人太接近图像(B)的边缘，或者当这个人的身体形状在训练中没有被表示出来时 Ng数据(I)。假阳性通常看起来与人的(A)非常相似，或者是由于存在强烈的强度差异(D、E、K、L、M、O)。

图8 对样本外图像的汽车检测结果。A来自www.lewistonpd.com；B、C、D、E、F、G、H、J、K、L、M、O来自www.corbis.com；I来自www.enn.com；N来自www.foxglove.com .错过的积极的例子是由于遮挡(A、F、O)或汽车太接近图像(A).的边缘假阳性(C、J、I、N)是由于训练不足，可以消除有更多的消极的训练模式。
密集的Haar变换捕获了一组丰富的特征，使SVM分类器能够获得一个强大的类模型；这些小波会对显著的视觉效果作出反应特征，同时平滑消除噪声。然而，这种特征的选择是先验的；本节介绍了比较目标检测的不同特征的许多测试的结果。在文献中使用了许多可能的替代表示，包括像素和PCA，并在我们的检测框架中进行了比较。另一个我们的决定是忽略小波的符号，使用它们的绝对值；这是根据有符号的值进行测试的。此外，对于人的检测，我们的训练集是有颜色的；我们使用颜色数据来量化性能的改善锥形数据。在本节展示的结果中，我们的人检测系统对1848种阳性模式（924种前后人像及其镜像）和11361种非人模式进行了训练并对123张包含人的图片和794,906张非人的模式进行了测试。该人脸检测系统对2429张人脸图像和13229张非人脸模式进行训练，并在105张图像上进行测试面部和3909200种非面部图案。汽车检测系统对1032张汽车前后彩色图像（516张例子及其后视镜）和5166张非汽车模式进行训练，并在90i上进行测试包含汽车和600,272种非汽车图案的法师。

3.1. 像素，小波，PCA

我们选择基于小波的表示的主要前提是，局部相邻区域之间的强度差异包含比目标检测更高质量的信息其他传统的表示形式。像素表示捕获了“最局部”的特征。这些已经被广泛用于人脸检测，但由于人的模式的可变性，我们期望像素表示无法用于人的检测。在局部性谱的另一端是全局表示，比如PCA，它用基函数来编码一个类，以解释数据集的方差。我们可以更改特性的类别，看看哪些特性会产生最佳的性能。对于人和汽车检测系统，我们使用1769个重叠的8×8平均值，而不是像素来进行更公平的比较，使用相似数量的特征；此外，这些平均值是直方图等式与像素表示相同的方式。对于人脸，我们使用像素。

3.2. 签署vs.无符号小波

我们的系统所使用的特征并不包含在强度梯度上的符号信息，而是小波响应的绝对值。利用这些特征，我们只描述强度差异的强度。对于像人这样的物体类，在暗背景下的暗物体和暗背景下的光物体有相同的信息，并且在强度上几乎没有一致性，这个符号梯度应该不重要。另一方面，如果我们考虑人脸模式，在强度差异的梯度的符号中有一致的信息。例如，眼睛比脸颊深，前额和嘴比脸颊和下巴深；这些类型的关系已经在辛哈（1994）进行了探索。在这种情况下，我们可能期望使用符号信息（+或−）会增强结果。

3.3. 完成vs.过完备

使用过完备的Haar小波表示的动机是为了提供更丰富的特征集，系统将学习这些特征，并最终对一个人进行更准确的描述。我们用标准的完全Haar表示法进行测试。

3.4. 颜色vs.灰度

对于人检测的彩色图像，我们将三个颜色通道中的信息折叠成一个单一的伪通道，以保持最强的局部强度差异。它在从直观上看，彩色图像包含的信息比相应的灰度版本要丰富得多。我们提出了实验，量化使用固有信息内容的颜色ima 而不是目标检测的灰色级别。

3.5. 人脸、人脸和汽车

我们的ROC曲线突出了检测系统的性能，即对样本外数据的准确性和假阳性率，以每个模式检测的假阳性数来衡量。比较人脸检测系统不同表示的ROC曲线如图9所示。用于人脸检测的表示法是原始像素(361特征)、直方图均衡像素（361个特征）、直方图均衡像素（361个特征）、灰色有符号小波（1740个特征）和和灰色的无符号小波（1740个特征）。灰度无符号小波的性能最好，而灰度有符号小波和直方图均衡的灰度像素的性能水平相同，略低于灰度无符号小波 ;使用主成分的版本不如直方图均衡像素的准确性。无符号小波比有符号小波表现得更好，这有点违反直觉；我们假设小波的符号包含了人脸检测的重要信息人的脸都有一致的模式。使用小波的绝对大小可能会导致比有符号版本更小的表示，同时仍然编码重要信息进行检测，允许使用激光器来找到一个更好的决策曲面。为了衡量系统的性能，我们可以在ROC曲线上取一个点，并将其性能转化为真实的图像项。例如，对于90%的检出率，我们必须容忍每处理100,000个模式有1个假阳性，或者每张图像大约有1个假阳性。

图9 以像素特征为基准，比较不同特征的人脸检测的ROC曲线。
人检测系统的ROC曲线如图10所示。在这里，使用所有的颜色特征表现最好，例如，每10000个模式会导致1个假阳性(每张图像大约有3个假阳性 )。灰度小波的表现明显优于相应的灰度平均值；这里，不像在人脸检测的情况下，原始像素值不能很好地描述对象类。当我们使用8个×8平均值中的1769个pca时，性能明显更差。图10也支持我们关于过完整表示的假设；从完整表示（120个颜色小波）开始的系统表现不佳的基于过完全表示的系统。颜色和灰度小波的有符号版本都比无符号版本差。我们假设其原因与面孔的情况相同，无符号版本会导致更紧凑的表示，这更容易学习（参见第2.2节中给出的直觉）。

图10 以像素类型特征为基准，比较不同特征的人检测的ROC曲线。
我们在彩色图像上使用无符号小波特征的汽车检测系统的初步ROC曲线如图11所示。

图11 利用彩色图像上的小波特征进行汽车检测的初步ROC曲线。

4. 实时应用程序

这种技术有许多可能的应用，从汽车辅助系统到监视。唯一的因素是抑制我们的系统被使用在这样的地方茎干是相对较慢的处理速度。值得注意的是，我们的完整系统在很大程度上是一个未经优化的研究工具；我们并没有投入大量的精力来提高核心速度。
我们已经开发了一个改进版本的静态人员检测系统，可以实现实时检测表演。本节描述了我们的技术作为驾驶员辅助更大系统的一部分的实时应用；组合系统，包括我们的人员检测模块，是当前的 y在戴姆勒克莱斯勒S级演示车上部署了“现场”。本节的其余部分描述了这个集成的系统。

4.1. 速度优化

我们最初的未优化的静态人检测系统使用彩色图像处理序列，以每20分钟1帧的速度；这显然不足以满足任何实时汽车应用 .我们已经实现了优化，这已经产生了几个数量级的加速。
4.1.1. 灰色水平图像。
我们使用彩色图像来检测人是基于这样一个事实：对于人们来说，三种不同的颜色通道(RGB)包含大量的信息在g中被冲走的信息同一场景的射线级图像。这种颜色信息的使用导致了巨大的计算成本；调整大小和Haar变换操作分别在每个颜色通道上执行。为了提高系统速度，我们对系统进行了处理强度图像。
4.1.2. 使用特征的一个子集。
该系统没有使用整个1326个小波特征集经历一个特征选择步骤，我们在训练集中只选择29个更重要的特征来编码身体的结构。这就改变了1326维的内积在等式中（13）变成了一个29维的内积。这些小波目前被手动选择为最强和最弱的小波，它们在整个集成中保持一致，作为一个指标强度边界或均匀区域。在32×32的尺度上有6个垂直系数和1个水平系数，在16×16的尺度上有14个垂直系数和8个水平系数。图12显示了这些系数在它们适当的空间位置上，覆盖在训练数据库中的一幅图像上。当然，这种稀疏的表示不会产生相同的性能；图13显示了我们的29灰色符号 d小波版本与其他小波特征和特征集的大小进行了比较。

图12 用于快速人检测的29个小波特征的简化集覆盖在一个人的示例图像上。

图13 比较不同小波特征和不同特征集大小的ROC曲线；在戴姆勒-克莱斯勒汽车运行的版本中，我们使用29个灰色无符号版本。

4.1.3. 减少设置向量。
从等式网站开始（13），我们可以看到，计算时间也依赖于支持向量的数量，Ns；在我们的系统中，这通常是在1000的量级上。我们使用来自(Burges，1996)的结果来获得一个基于少量合成向量的等效决策曲面。这种方法产生了一个新的决策曲面，它与原来的决策曲面相当，但只使用了29个向量。
4.1.4. 关注的焦点。
为了进一步提高系统的处理速度，我们可以使用注意力焦点模块，将处理只集中在可能包含人的图像区域。这种注意力可以避开不同的特征，包括运动、距离、局部图像的复杂性、形状和颜色(Ittietal.，1998；Itti和Koch，1999)。
4.2. 与戴姆勒-克莱斯勒城市交通助理公司的集成
为此，我们与戴姆勒-克莱斯勒公司合作，将我们的人员检测系统与基于立体声的障碍检测系统集成起来。戴姆勒-克莱斯勒显然激发了人们对汽车应用中的障碍检测算法的兴趣，它作为一种辅助驾驶的手段，并最终允许自动驾驶。该系统的一个重要要求是，它能够同时处理高速公路和城市场景，后者比前者要复杂得多。
戴姆勒-克莱斯勒城市交通助理(UTA)是一个针对障碍检测、识别和跟踪的实时视觉系统(Frankeetal.，1998)。UTA依赖于使用双眼立体视觉系统获得的三维位置和深度信息。为了克服昂贵的对应问题，他们开发了一种基于特征的立体声分析方法，该方法在200MHz的PowerPC604上以25Hz运行。系统将对应于同一对象的特征点进行集群，并在场景中的每个障碍周围提供一个矩形边界框。
使用这个边界框，它紧密地勾勒出障碍物的形状，我们扩展了这个区域，提供一个更大的感兴趣区域，我们将运行我们的人员检测系统；这样做是为了减轻由立体声系统提供的边界框中可能出现的错位。此外，立体系统提供了对每个物体距离的准确估计；利用这些信息，我们可以将我们寻找的人的大小限制在一个小数目，通常在三个尺度下。
在这些感兴趣的区域内，我们使用我们的29个灰度特征系统和简化集方法，将支持向量的数量减少到29个。在现实世界的测试序列处理，而驱动器通过德国的埃斯林根/斯图加特，我们能够在人检测模块中达到超过10Hz的速率，每个障碍的花费低于15ms。

5. 结论

我们描述了一个通用的、可训练的静态图像目标检测系统；在本文中，对人脸、人和汽车检测的结果都非常好。该系统使用了一个基于过完整的Haar小波字典的表示，该字典捕获了关于对象类的元素的重要信息。当结合一个强大的分类-阳离子引擎，支持向量机，我们获得了一个检测系统，实现了我们的目标的高精度和低假阳性率。对于面部诊断，典型的样本外性能是检测率为90%，每100,000个处理模式和人检测有1个假阳性我们可以达到90%的准确率，每10,000个模式处理1个假阳性。据我们所知，这是文献中描述的第一个纯粹的模式分类系统，不依赖于运动、跟踪、背景检测系统打开，或对场景结构的任何假设。
我们使用这种可训练的架构进行静态图像中的汽车检测的结果也是新颖的。由于不同视点下汽车的二维图像信息的显著变化，发展了一种一个姿势不变的汽车检测系统可能比一个姿势不变（直立）的人检测系统要困难得多，因为一个人的特征模式不会改变主要是从不同的观点出发。在适当的配置中，一种基于组件的汽车检测方法可以识别汽车的不同部分——前照灯、车轮、挡风玻璃等，而不是采用m型的全模式方法矿石成功。Mohan（1999年）描述了这种基于组件的人员检测系统的初步工作。
虽然我们所描述的核心系统在整个图像中实现了蛮力搜索，但探测器将更适合作为一个更大的系统的一部分。例如，如果我们合并一个焦点在保留模块如戴姆勒克莱斯勒集成的情况，系统将能够针对场景中的特定区域。这导致了更快的处理时间和更健壮的性能。
当我们处理视频序列时，通过合并动态信息可以提高该系统的性能。我们正在研究的一些技术已经提高了性能，使我们的假阳性率接近于零。

参考文献

[1]Betke, M., Haritaoglu, E., and Davis, L. 1997. Highway scene analysis in hard real-time. In Proceedings of Intelligent Transportation
Systems.
[2]Betke, M. and Nguyen, H. 1998. Highway scene analysis form a moving vehicle under reduced visibility conditions. In Proceedings of Intelligent Vehicles, pp. 131–136.
[3]Beymer, D., McLauchlan, P., Coifman, B., and Malik, J. 1997. A real-time computer vision system for measuring traffic parameters.In Proceedings of Computer Vision and Pattern Recognition, pp.495–501.
[4]Bregler, C. and Malik, J. 1996. Learning appearance based models:Mixtures of second moment experts. In Advances in Neural Information Processing Systems.
[5]Burges, C. 1996. Simplified support vector decision rules. In Proceedings of 13th International Conference on Machine Learning.
[6]Burges, C. 1998. A tutorial on support vector machines for pattern recognition. In Proceedings of Data Mining and Knowledge Discovery, U. Fayyad (Ed.), pp. 1–43.
[7]Forsyth, D. and Fleck, M. 1997. Body plans. In Proceedings of Computer Vision and Pattern Recognition, pp. 678–683.
[8]Forsyth, D. and Fleck, M. 1999. Automatic detection of human nudes, International Journal of Computer Vision, 32(1):63–77.
[9]Franke, U., Gavrila, D., Goerzig, S., Lindner, F., Paetzold, F., and Woehler, C. 1998. Autonomous driving goes downtown. IEEE
Intelligent Systems, pp. 32–40.
[10]Haritaoglu, I., Harwood, D., and Davis, L. 1998. W4: Who? When? Where? What? A real time system for detecting and tracking
people. In Face and Gesture Recognition, pp. 222–227.
[11]Heisele, B. and Wohler, C. 1998.Motion-based recognition of pedestrians. In Proceedings of International Conference on Pattern
Recognition, pp. 1325–1330.
[12]Hogg, D. 1983. Model-based vision: A program to see a walking person. Image and Vision Computing, 1(1):5–20.
[13]Itti, L. and Koch, C. 1999. A comparison of feature combination strategies for saliency-based visual attention systems. In Human Vision and Electronic Imaging, vol. 3644, pp. 473–482.
[14]Itti, L., Koch, C., and Niebur, E. 1998. A model of saliencybased visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254–1259.
[15]Joachims, T. 1997. Text categorization with support vector machines.
[16]Technical Report LS-8 Report 23, University of Dortmund.
[17]Lipson, P. 1996. Context and configuration based scene classification.
[18]Ph.D. thesis, Massachusetts Institute of Technology.
[19]Lipson, P., Grimson, W., and Sinha, P. 1997. Configuration based scene classification and image indexing. In Proceedings of Computer Vision and Pattern Recognition, pp. 1007–1013.
[20]Mallat, S. 1989. A theory for multiresolution signal decomposition: The wavelet representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 11(7):674–693.
[21]McKenna, S. and Gong, S. 1997. Non-intrusive person authentication for access control by visual tracking and face recognition. In Audio- and Video-based Biometric Person Authentication,
J. Bigun, G. Chollet, and G. Borgefors (Eds.), pp. 177–183.
[22]Moghaddam, B. and Pentland, A. 1995. Probabilistic visual learning for object detection. In Proceedings of 6th International Conference on Computer Vision.
[23]Mohan, A. 1999. Robust object detection in images by components.
[24]Master’s Thesis, Massachusetts Institute of Technology.
[25]Osuna, E., Freund, R., and Girosi, F. 1997a. Support vector machines: Training and applications. A.I. Memo 1602, MIT Artificial Intelligence Laboratory.
[26]Osuna, E., Freund, R., and Girosi, F. 1997b. Training support vector machines: An application to face detection. In Proceedings of Computer Vision and Pattern Recognition, pp. 130–136.
[27]Rohr, K. 1993. Incremental recognition of pedestrians from image sequences. In Proceedings of Computer Vision and Pattern Recognition, pp. 8–13.
[28]Rowley, H., Baluja, S., and Kanade, T. 1998. Neural network-based face detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(1):23–38.
[29]Shio, A. and Sklansky, J. 1991. Segmentation of people in motion. In IEEE Workshop on Visual Motion, pp. 325–332.
[30]Sinha, P. 1994. Qualitative image-based representations for object recognition. A.I. Memo 1505, MIT Artificial Intelligence Laboratory.
[31]Stollnitz, E., DeRose, T., and Salesin, D. 1994. Wavelets for computer graphics: A primer. Technical Report 94-09-11, Department of
Computer Science and Engineering, University of Washington.
[32]Sung, K.-K. 1995. Learning and example selection for object and pattern detection. Ph.D. Thesis, MIT Artificial Intelligence Laboratory.
[33]Sung, K.-K. and Poggio, T. 1994. Example-based learning for viewbased human face detection. A.I. Memo 1521, MIT Artificial Intelligence Laboratory.
[34]Vaillant, R., Monrocq, C., and Cun, Y.L. 1994. Original approach for the localisation of objects in images. IEE Proceedings Vision
Image Signal Processing, 141(4):245–250.
[35]Vapnik, V. 1995. The Nature of Statistical Learning Theory. Springer Verlag.
[36]Vapnik, V. 1998. Statistical Learning Theory. John Wiley and Sons: New York.
[37]Wren, C., Azarbayejani, A., Darrell, T., and Pentland, A. 1995. Pfinder: Real-time tracking of the human body. Technical Report 353, MIT Media Laboratory.
欢迎大家加我微信交流讨论（请备注csdn上添加）

一种可训练的目标检测系统相关推荐

基于YOLOv4的目标检测系统（附MATLAB代码+GUI实现）
摘要:本文介绍了一种MATLAB实现的目标检测系统代码,采用 YOLOv4 检测网络作为核心模型,用于训练和检测各种任务下的目标,并在GUI界面中对各种目标检测结果可视化.文章详细介绍了YOLOv4的 ...
基于YOLOv5的目标检测系统详解（附MATLAB GUI版代码）
摘要:本文重点介绍了基于YOLOv5目标检测系统的MATLAB实现,用于智能检测物体种类并记录和保存结果,对各种物体检测结果可视化,提高目标识别的便捷性和准确性.本文详细阐述了目标检测系统的原理,并给 ...
一文详解 YOLO 2 与 YOLO 9000 目标检测系统
一文详解 YOLO 2 与 YOLO 9000 目标检测系统 from 雷锋网雷锋网 AI 科技评论按:YOLO 是 Joseph Redmon 和 Ali Farhadi 等人于 2015 年提出 ...
LVC | 一种简单的小样本目标检测方法
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享大家好,我是极智视界,本文解读一下 Label, Verify, Correct (LVC):一种简单的小样本目标检测方法. 本文的 ...
DAC 2018目标检测系统挑战赛落幕：中科院清华分获GPU与FPGA冠军(解决小物体检测的问题)
本文由机器之心发布,作者:机器之心编辑部. 2018 年 6 月 28 日,由电子自动化设计顶级会议 DAC' 2018 主办的「低功耗目标检测系统设计挑战赛」于加州旧金山于落下帷幕.来自中科院计算所 ...
使用 SKIL 和 YOLO 构建产品级目标检测系统
01.使用 SKIL 和 YOLO 构建产品级目标检测系统在本文中,我们采用最新的神经网络实现目标检测,使用SKIL平台构建产品级目标检测系统. 建立一个产品级的计算机视觉系统很难,因为有很多因素需 ...
ibm db2获取目标时间与当前时间的差值_高帧频视觉实时目标检测系统
基于机器视觉的智能目标检测系统应用非常广泛,尤其在航天军工等领域中,经常涉及高速目标的实时检测和控制,对目标检测的智能性和实时性提出了更严格的要求.在这种应用中,视觉系统相对雷达.声纳具有信息量大.抗 ...
ibm db2获取目标时间与当前时间的差值_【学术论文】高帧频视觉实时目标检测系统...
摘要为了实现高速场景下的智能实时目标检测,设计了一种基于ZYNQ7000系列FPGA的高速相机平台,并利用该平台进行目标检测算法实现,形成了一套高帧频实时目标检测系统样机. 该系统将高速CMOS图像 ...
基于飞桨实现的“太空保卫战士”——地球同步静止轨道空间目标检测系统
项目背景及赛题介绍卫星的应用十分广泛,许多行业每天都依赖其运作.我们通常会根据高度把人造地球卫星运行的轨道简单地分类为低轨道(200千米-2000千米).中轨道(2000千米-20000千米)和高轨 ...

一种可训练的目标检测系统

摘要