论文阅读笔记（三）——从老虎到熊猫:动物头部检测

论文阅读笔记（三）——从老虎到熊猫：动物头部检测

论文简介

论文中文翻译：《从老虎到熊猫：动物头部检测》
论文名称：《From Tiger to Panda: Animal Head Detection》

期刊情况

期刊：《IEEE TRANSACTIONS ON IMAGE PROCESSING》
期刊情况：

中科院/1区/2区
影响因子9.340
Q1分区
平均审稿速度：平均8.1个月

摘要

鲁棒的对象检测在现实世界的在线照片处理中有许多重要的应用。例如，谷歌图像搜索和MSN实时图像搜索都集成了人脸检测器来检索人脸或人像照片。受这种人脸过滤方法的成功启发，本文重点关注另一个流行的在线照片类别——动物，它是MSN实时图像搜索查询日志中的五大类别之一。作为第一次尝试，我们重点研究了一组在互联网上流行的相对较大的陆地动物的动物头部检测问题，如猫、老虎、熊猫、狐狸和猎豹。首先，我们提出了一组新的梯度方向特征，即方向梯度哈尔，以有效地捕捉动物头部的形状和纹理特征。然后，为了有效地同时利用形状特征和纹理特征，提出了两种检测算法，即边缘检测和变形检测。在14 379幅标记良好的动物图像上的实验结果验证了该方法的优越性。此外，我们应用动物头部检测器，通过基于文本的在线照片搜索结果过滤来改善图像搜索结果。
索引术语—特征、融合、对象检测。

介绍

对一般场景中所有一般物体的自动目标检测是图像理解中的一个长期目标，并且由于大的组内变化、变化的姿态、照明变化、部分遮挡和混乱的背景，仍然是一个极具挑战性的问题。然而，研究人员最近在对象检测问题的一个特别有趣的子集上取得了重大进展，即人脸检测[21]、[26]、[28]和人体检测[3]，使用基于增强的方法实时实现了正面人脸近90%的检测率[26]。同时，随着鲁棒目标检测的最新进展，一些主要的图像搜索引擎开始使用高级图像特征来过滤基于文本的图像搜索结果[1]。比如Google和MSN图像搜索引擎已经集成了人脸检测作为高级过滤器。然而，为人脸以外的对象设计高级过滤器仍然是一个具有挑战性的问题。
受人脸检测的成功和现实世界在线照片搜索挑战的启发，我们有兴趣研究人脸检测的成功是否可以扩展到更广泛的在线照片对象检测应用加工上。显然，很难将人脸检测方法用于一般的对象检测，例如树、山、建筑物和天空检测，因为它们不像人脸那样具有相对固定的类内结构。为了一次进行一个step，我们需要将对象限制在与人脸有相似属性的对象上。如果我们能在这些目标上取得成功，我们就可以考虑更进一步。
根据MSN图像搜索统计，互联网上排名前五的图像搜索类别是成人、名人、新闻、旅行和动物。人脸过滤显然是针对名人搜索过滤的。对于其他类别，已经有成人图像检测[8]、[12]、新闻图像分类[11]、场景图像分类[25]的研究。不幸的是，由于新闻和旅行并不局限于特定的场景或主题，因此很难开发出实用的过滤器。另一方面，“动物”类别似乎没有图像中明确定义的对象那么具有挑战性。如果我们可以检测到图像中的一些动物，那么检测器可以用作动物过滤器。除了在线图像过滤，动物检测对于在线照片共享和离线相册管理中的照片标记也很有用[2]。因此，在本文中，我们重点关注这个流行的图像类别——动物。
由于动物种类繁多，不可能同时为所有动物开发检测器。作为第一次尝试，我们把重点放在互联网上流行的相对较大的陆地动物上，如猫、老虎、熊猫、狐狸和猎豹。我们观察到这些动物大多有独特的耳朵和额眼。本文选取了十种具有代表性的动物进行研究，包括:猫、老虎、熊猫、美洲狮、豹子、狼、狐狸、猎豹、浣熊和小熊猫。这些动物的样本图像如图1所示。而且变异大，不容易检测出整个动物体。在本文中，我们重点检测所选动物的动物头。鉴于这个话题的难度很大，我们不打算涵盖大量的动物。相反，作为第一次尝试，我们希望这项工作将激发未来对更多动物类型的研究。
首先，一个自然的方法是研究人脸检测算法[26]，因为人脸和动物的头部确实有一些相似的结构。不幸的是，直接应用现有的人脸检测方法来检测动物头部有明显的困难。首先，如图1所示，与人脸相比，动物脸具有更大的外观变化。动物脸上的纹理比人类脸上的纹理更复杂。第二，动物的头部有一个全局相似，但局部不同的形状或轮廓。如何有效地利用纹理和形状信息来训练鲁棒的动物头部检测器是一个具有挑战性的新课题。
为了解决上述困难，我们提出了一种联合学习的方法来联合捕获动物头部的形状和纹理特征。我们的基本想法是分解动物的头部在第一步中，根据动物耳朵将形状特征和纹理特征转换成形状特征和纹理特征，然后在第二步中共同捕获这些形状和纹理特征。我们的方法的新颖之处在于发现我们需要首先分离形状和纹理特征用于特征提取，然后通过联合检测器将它们组合用于检测。
首先，为了有效地捕捉形状和纹理特征，我们提出了一组新的方向梯度特征:方向梯度的哈尔(Haar)，以处理动物头部的形状和纹理变化。之后，我们提出了两种联合检测算法:1)快速检测，直接结合形状和纹理特征。2)可变形检测，将形状和纹理特征与错位惩罚成本相结合。随后的实验清晰地验证了新提出的HOOG特征和两种联合检测算法的有效性。此外，我们将变形检测算法扩展到多个动物类别，即，为选定的10个动物类别训练单个二进制分类器。同样，我们的可变形检测显示出比单独的面部检测器或单独的头部检测器好得多的性能。最后，我们展示了动物头部检测器在搜索结果过滤方面的在线图像搜索应用。
本文组织如下：我们在第二节回顾了相关的工作。第三节介绍了新提出的定向梯度特征集HOOG。第四章介绍了两种联合检测算法。第五节显示了实验结果。最后，我们在第六节总结了建议的方法并讨论了未来的工作。

正文

定向梯度的哈尔

为了有效地捕捉动物头部的形状和纹理特征，我们提出了一组新的基于方向梯度的特征。
相关计算公式未进行细致解读。

A.定向梯度特征

使用积分成像技术，可以在恒定时间内非常有效地计算它[26]。由于单个像素的梯度信息是有限的，并且对噪声敏感，大多数以前的工作将梯度信息聚集在一个矩形区域中，以形成信息量更大的中级特征。在这里，我们回顾两个最成功的功能:HOG和EOH。HOG-cell。HOG描述符中的基本单位是“单元”的加权方向直方图，该“单元”是一个小的空间区域，例如8×8像素。
重叠的单元(例如，4×4)被分组和归一化以形成称为“块”的更大的空间区域级联直方图形成HOG描述符。在Dalal和Triggs的人体检测系统[3]中，使用线性SVM对由多个重叠的16×16块组成的64×128检测窗进行分类。为了实现接近实时的性能，朱等人[30]在boosting框架中使用了可变大小块的HOGs。EOH。Levi和Weiss [14]在定向梯度上提出了三种特征。
其中是相对于检测窗口的垂直中心的对称区域，并且是用于平滑的小值。前两个特征捕捉一个方向是否占主导地位，最后一个特征用于发现对称性或缺乏对称性。请注意，仅使用EOH功能可能不够。在[14]中，通过在图像强度上结合EOH特征和哈尔特征，获得了良好的结果。

B.我们的特征——方向梯度的哈尔

在人脸检测中，哈尔特征显示了它们发现局部模式的强大能力——两个子区域之间的强度差异。但是很难在动物头部找到有区别的局部图案，这些图案具有更复杂和微妙的精细尺度纹理。相反，上述定向梯度特征主要考虑单一区域梯度的边缘统计。该算法通过像素级边缘检测算子有效捕捉精细尺度纹理方向分布。然而，它无法捕捉到像哈尔特征那样的局部空间模式。相邻区域之间的相对梯度强度也不会被捕获。
为了捕捉精细尺度纹理和局部模式，我们开发了一组新的特征，结合了哈尔和梯度特征的优点。仔细观察图2，我们注意到每个定向梯度通道中的许多局部模式比原始图像更稀疏和更清晰。我们可以认为梯度过滤器将不同方向的纹理和图案边缘分成几个通道，从而大大简化了每个通道中的图案结构。因此，可以从每个通道中提取哈尔特征来捕获局部模式。例如，在图2的水平梯度图中，我们看到两只眼睛之间的垂直纹理被有效地过滤掉，因此我们可以使用哈尔特征容易地捕捉两只眼睛的模式。当然，除了捕获一个通道内的局部模式，我们还可以使用类似哈尔的操作捕获两个不同通道上的更多局部模式。在本文中，我们提出了以下两种特征:

通道内特性:

这些特征测量两个区域之间和同一取向通道中的相对梯度强度。分母起着正常化的作用，因为我们不正常化。
正交通道特征:

这些功能类似于通道内功能，但在两个正交通道上运行。理论上，我们可以在任何两个方向上定义这些特征。但是我们决定仅基于两个考虑来计算正交信道特征:1)正交信道通常包含大多数互补信息。方位相近的两个通道的信息大多是冗余的；2)我们想为特征选择使用“贪婪”算法。如果功能池包含太多无信息功能，整体性能可能会受到影响。实际上，所有的功能都必须加载到主存储器中，以便进行有效的训练。我们必须注意特征的大小。
考虑和的所有组合将是棘手的。基于哈尔特征的成功，我们将哈尔模式用于和，如图3所示。我们称(5)和(6)中定义的特征为方向梯度的哈尔(HOOG)。

联合检测

众所周知，动物头部的面部结构与人脸相似。同时，动物的头部有一个全球相似，但局部不同的形状或轮廓。如何有效地利用纹理和形状特征来进一步提高检测性能是一个具有挑战性的新课题。本文提出了两种联合检测方法来解决这个问题。

A.动物头部的形状和纹理

众所周知，通过首先将对象转换成规范的摆好姿势以减少可变性。例如，在人脸检测中，所有训练样本都通过旋转和缩放变换进行归一化。通过扫描所有不同方向和尺度的子窗口来检测人脸。不幸的是，与人脸不同，动物的头部不能通过旋转和缩放变换很好地标准化，因为类内变化很大。
在图4中，我们通过三种归一化方法显示了超过5000个训练图像的三个平均猫头图像。在图4(a)中，我们旋转并缩放猫的头部，使两只耳朵出现在一条水平线上，两只耳朵之间的距离为36像素。正如我们所看到的，耳朵的形状或轮廓在视觉上是清晰的，但是面部区域的纹理是模糊的。以类似的方式，我们计算眼睛对齐的平均图像，如图4©所示。面部区域的纹理是可见的，但是头部的形状是模糊的。在图4(b)中，我们采用折衷的方法来计算训练数据上的耳朵和眼睛的最佳旋转尺度变换，在最小二乘法的意义上。不出所料，耳朵和眼睛都有些模糊。
直观地说，使用最佳旋转+比例变换可能会产生最佳结果，因为用这种方法归一化的图像包含两种信息。然而，以这种方式训练的检测器在我们的实验中并没有显示出优越的性能。形状和纹理信息都有一定程度的丢失。形状特征或纹理特征的辨别能力受到这种折衷归一化的损害。显然，使用单一的归一化方法不能充分利用动物头部的形状和纹理信息。同时，用两种归一化方法联合扩展传统的检测方法是不容易的。为此，我们提出了两种联合形状和纹理检测方法。第一种方法是训练两个检测器，一个用于形状，另一个用于纹理，基于这两个检测器的输出训练一个融合分类器，我们称这种方法为Bruteforce Detection。为了进一步考虑两个检测器之间的未对准成本，提出了第二种方法来考虑未对准成本和形状/纹理检测器的输出，我们将这种方法称为可变形检测。我们给这两种联合检测方法的细节将在下一小节中介绍。请注意，我们将训练有耳尖对齐图像的检测器称为“形状检测器”，以强调动物头部的轮廓。相反，我们将经过眼睛中心对齐图像训练的检测器称为“纹理检测器”，以强调动物面部的纹理。

B.暴力检测

首先，我们提出了一种联合捕捉形状和纹理特征的边缘检测方法。该算法分为训练和检测两个阶段。
1)训练:在训练阶段，我们训练两个单独的检测器和一个融合分类器:
1)训练一个形状检测器，使用对齐的训练图像，主要保持形状信息，如图4(a)所示；如图4©所示，通过主要保留纹理信息，使用对准的训练图像来训练纹理检测器。因此，每个检测器可以分别捕获大多数有区别的形状或纹理特征。
2)训练联合形状和纹理融合分类器，以融合形状和纹理检测器的输出。为了训练融合分类器，验证集中的动物头部图像被用作阳性样本。关键是阴性样本的构造，阴性样本由非动物图像中的形状检测器或纹理检测器错误检测的所有样本组成。通过使用形状和纹理信息，学习的融合分类器能够有效地拒绝许多假警报。我们使用支持向量机(SVM)作为我们的融合分类器和HOG描述符作为特征和。
2)检测:在检测阶段，我们首先独立运行形状和纹理检测器。然后，应用联合形状和纹理融合分类器进行最终决策。具体来说，我们将两个检测器的输出分数或置信度表示为两个检测子窗口中的提取特征。融合分类器在连接的特征上训练。
使用两个检测器，有三种检测结果:两个检测器在大致相同的位置、旋转和比例上报告阳性；只有形状检测器报告阳性；并且只有纹理检测器报告阳性。对于第一种情况，我们直接为联合融合分类器构造特征。在第二种情况下，我们没有。为了解决这个问题，我们通过纹理检测器扫描周围的位置来选择一个得分最高的子窗口。具体来说，我们将探测器报告的子窗口表示为，w、h、e、r、e是窗口的中心，是宽度和高度，是比例和旋转水平。我们在这个范围内搜索纹理/形状检测器的子窗口。我们使用纹理检测器的真实值分数，不做0-1的决定。选取的子窗口的分数和特征用于特征。对于最后一种情况，我们以类似的方式进行计算。

C.可变形检测

暴力检测的一个问题是它们没有考虑两个检测器之间的空间错位(变形)成本，需要设计一种同时考虑空间错位成本和外观可能性的检测方法。受[5]、[6]在人体检测方面的出色工作的启发，我们引入了一种距离变换和动态规划方法来处理错位成本，并将这种方法命名为可变形检测。变形检测包括两个步骤:训练和检测。在训练步骤中，我们分别为形状和纹理训练两个检测器，就像在Bruteforce检测方法中一样。检测程序如下所述。1)检测:希望使一个检测器围绕另一个检测器变形，以找到两个检测器之间的最佳匹配，并惩罚它们之间的未对准。在不失一般性的前提下，本文固定了纹理检测器，并围绕纹理检测器对形状检测器进行了变形。设分别是检测器和的响应。具体来说，我们将探测器在给定位置的响应表示为，根据[5]，[6]，我们可以将探测器的响应变换计算为

实验

A.绩效评估

1)数据集和评价方法论:我们的评价数据集包括两部分，第一部分是我们自己的数据，包含10个动物类别和13 700张图片。动物图片来自Flickr.com和图片搜索引擎。大多数动物图像都有近正面视图。每个动物头都手工标注九个点，眼睛两个，嘴巴一个，耳朵六个，如图5所示。我们随机选择了50%的图像用于训练，20%用于验证，30%用于测试。图1显示了我们数据库中的一些样本图像。第二部分来自PASCAL 2007年的猫数据，其中包括679张猫图片。我们遵循PASCAL 2007对卡特彼勒数据进行培训、验证和测试的原始分离设置。表一总结了动物种类和统计数据。数据可以在http://mmlab.ie.cuhk.edu.hk下载。我们使用类似PASCAL挑战的评估方法来进行目标检测。假设地面真实矩形和检测到的矩形是和，这些矩形的一个ndtheareao是和。我们说，只有当和的重叠大于50%时，我们才能正确检测到动物的头部。

2)实现细节:本小节我们讨论几个实现细节。
HOOG特色。我们使用六个无符号方向来计算HOOG特征。我们发现当使用更精细的取向时，改善是微不足道的。水平和垂直过滤器是和。对计算的梯度不应用阈值。对于形状和纹理检测器，我们通过量化哈尔模板的大小和位置来构建具有200,000个特征的特征池。同时，利用灰度图像提取HOOG特征。
联合检测。我们研究了两种联合检测算法的性能。1)对于变形检测，我们使用HOOG特征和增强分类器训练了两个形状和纹理检测器，最终的分类器是基于这两个检测器的输出来训练的，如第四章。2)对于变形检测，我们训练了两个检测器，如变形检测，我们固定了纹理检测器并使形状检测器变形。对于这两种方法，头部窗口的移动范围是，w h e r e是面部窗口的中心，是头部窗口的宽度和高度。我们使用20%的动物图像作为验证集来调整两种方法的最终分类器的参数。在检测过程中，我们使用四个像素作为头部窗口的移动步长。对于可变形的，我们选择基于我们的验证集的直接方法。首先，我们从0到0.2统一选择20个值，然后计算检测ROC性能。我们发现0.05是我们验证集的最佳值，因此，我们在所有实验中使用该值。越大，对两个检测器未对准的惩罚越多，反之亦然。
训练样本。我们为两种联合检测算法中的每一种选择最佳裁剪尺寸。我们将所有动物头部图像与耳朵对齐，以训练形状检测器。我们旋转并缩放图像，使耳朵的两个尖端出现在一条水平线上，两个尖端之间的距离为36像素。然后，我们提取一个48×48像素的区域，中心在两个尖端下面20个像素。对于纹理检测器，提取32×32像素的区域。两只眼睛之间的距离是20像素。该区域位于两只眼睛下方六个像素的中心。3)特征比较:首先，我们使用我们自己的cat数据，在形状检测器和纹理检测器上比较建议的HOOG特征和Haar、、、和HOG特征。原因是:1)我们有足够的cat数据来训练一个健壮的boosting检测器。2)猫比其他动物有更大的形状和纹理变化，这可以测试功能的性能更广泛。对于哈尔特征，我们使用所有四种哈尔模板。对于EOH的特色，我们使用[14]中建议的默认参数。对于HOG特征，我们使用4×4单元大小，这在我们的实验中产生了最好的结果。
图6显示了四种特征在cat数据上的表现。强度上的哈尔特征表现最差，因为猫头的形状和纹理变化很大。这在某种程度上说明了传统的人脸检测算法不适合猫头检测。借助定向渐变功能，提高性能。正如预期的那样，HOG特征在形状检测器上比在纹理检测器上表现更好。使用通道内和正交通道信息，基于我们的特征的检测器产生最佳结果。

在图7中，我们在(b)和(e)中示出了最佳信道内特征，在©和(f)中示出了最佳正交信道特征，由两个检测器学习。我们还在图7(a)和(d)中显示了图像强度的最佳哈尔特征。在这两个检测器中，最佳的通道内特征捕捉具有最强水平梯度的区域与其相邻区域之间的强度差异。最佳正交通道特征捕捉两个正交方向上的强度差异。

在下一个实验中，我们研究了通道内特征和正交通道特征的作用。图8示出了仅使用通道内特征、仅使用正交通道特征以及两种特征的检测器的性能。不足为奇的是，这两个特性是重要且互补的。

4)联合检测:在本小节中，我们评估了所提出的两种联合检测算法在三个数据集上的性能:猫、狐狸和猎豹。图9示出了在cat数据集上的七条精度-回忆曲线:增强形状检测器、SVM形状检测器、增强纹理检测器、SVM纹理检测器、使用最佳变换的头部检测器、布鲁特斯检测器和可变形检测器。最佳变换检测器使用通过最佳旋转+比例变换对齐的训练样本来训练。
从图9中，可以得出几个重要的观察结果:1)联合检测器的性能大幅提升！对于给定的精度0.95，召回率从0.74/0.75/0.78(增强形状/增强纹理/增强最佳对齐)到0.92/0.925。或者精度从0.92/0.94/0.955(增强形状/增强纹理/增强最佳对齐)提高到0.995/0.998，Bruteforce检测器/可变形检测器的混合召回率为0.76。在图像检索和搜索应用中，这是一个非常好的属性，因为高精度是首选；2)使用最佳变换的头部检测器没有表现出优越的性能。最优变换降低了形状和纹理特征的区分能力；Bruteforce检测器/可变形检测器的最大召回值(0.92/0.935)大于三个单独的增强检测器的最大召回值(0.77/0.82/0.85)。这显示了两个探测器的互补能力——一个探测器可以发现许多动物的头部，这是其他探测器难以发现的；4)注意融合检测器的曲线在高召回率区域非常陡峭，这意味着融合检测器可以在保持非常高的召回率的同时有效地拒绝许多误报。5)可变形检测器的检测性能略好于布鲁特斯检测器。在某些情况下，它有明显的改进。例如，对于给定的精度0.85，召回率从0.92提高到0.935。

图10分别显示了福克斯和猎豹数据集上的查准率-查全率曲线。从这两个图中我们可以观察到以下现象:1)在两个数据集上，两个联合检测器都比单独的形状检测器和头部检测器具有更好的性能。例如，在图10中，在固定精度0.9下，最佳召回率从0.5/0.6提高到0.6/0.66。Bruteforce检测器和可变形检测器在两个数据集上具有可比较的性能。在固定精度0.9下，福克斯数据的召回率为0.58/0.60，猎豹数据的召回率为0.66/0.66。3)形状和质地对不同的动物类别有不同的表现。例如，形状检测器在福克斯数据上的性能优于纹理检测器，纹理检测器在猎豹数据上的性能优于形状检测器。这很容易理解，因为狐狸头上的形状更多与狐狸头上的纹理相比更具辨别力，因为:a)狐狸头上的耳尖非常尖而且大。b)由于狐狸脸深度大，狐狸头的姿势对狐狸脸的影响往往大于狐狸头的形状。相反，猎豹纹理检测器比猎豹形状检测器性能更好，因为:a)猎豹耳尖圆而小。b)猎豹头部的姿势对猎豹面部的影响较小，因为猎豹面部的深度较小。然而，通过结合这两种不同的特征，我们获得了比任一单独检测器更好的性能。这些观察再次验证了我们对形状和纹理的分离。
图9和图10中的另一个有趣的观察结果是，布鲁特福尔检测算法和可变形检测算法具有总体上可比较的性能。然而，可变形检测的计算速度更快，更容易训练。在实践中，我们建议使用可变形检测作为第一选择。
5)在Pascal 2007猫数据上的实验:我们还评估了在PASCAL 2007猫数据上提出的联合检测算法[4]。检测任务有两种竞赛:1)竞赛3——使用训练和测试PASCAL 2007年的数据；2)比赛4——使用任意训练数据。图11(a)显示了我们的方法的精度-召回率曲线和竞赛3的最佳报告方法[4]。我们计算平均精度(AP)，如[4]中方便比较。我们的方法和最佳报告方法的APs分别为0.364和0.24。

图11(b)显示了比赛4的精确度-召回率曲线。由于比赛4没有报道结果，我们将我们的方法与分别使用哈尔、EOH和HoG的检测器进行了比较。所有检测器都在相同的训练数据上进行训练。四个探测器(我们的，HOG，哈尔+EOH，哈勒)的APs分别是0.632，0.427，0.401和0.357。使用更大的训练数据，检测性能显著提高。例如，对于0.4的固定召回率，精度从0.40提高到0.91。请注意，PASCAL 2007猫数据将整个猫体视为对象，只有一小部分数据包含近正面的猫脸。然而，我们的方法仍然在这个非常具有挑战性的数据上取得了良好的结果(最好的报告方法)。
而且运行时间对于在线图像处理非常重要。实际上，这是我们基于整体图像和级联结构的系统的优点之一。例如，要在没有额外旋转处理的情况下计算3 2 0 240图像，我们在英特尔(Due Core) 2.66 GHz PC上使用未优化的c++代码平均只需要0.25秒，这对于在线图像处理是可以接受的。为了进行旋转，我们将图像旋转八次，从到PI/2，合并所有的检测结果，得到最终的检测结果。

B.延伸到多个动物类别

有趣的是，我们的联合检测算法可以很容易地扩展到检测多个动物类别，即，为多个动物类别训练单个二进制分类器。当运行多个动物检测器不经济时，这非常有用。为此，我们建立了一个动物数据库，其中包括2000张猫的图片和所有其他动物的图片。像以前一样，我们随机选择50%的图像作为训练集，20%作为验证集，其余30%作为测试集。我们如第四章C节所述裁剪动物面部和动物头部。我们训练了一个二元可变形检测器，并将该检测器表示为动物关节检测器(请注意，我们可以以类似的方式训练一个Bruteforce检测器，但为了节省空间，这里省略了它)。我们还使用HOOG特征和增强分类器为动物面部和动物头部训练了两个单独的二元检测器。我们将单个检测器表示为动物形状检测器和动物纹理检测器。图13报告了三个检测器的精度-召回率曲线。从图13中可以看出，与两个单独的检测器相比，我们的联合检测器具有更好的性能。具体来说，我们在固定精度0.8的情况下，将单个检测器的召回率从不到25%提高到约40%。

C.动物照片搜索过滤

正如开始所讨论的，我们的动物头部检测器可以作为一个高级过滤器，用于过滤基于文本的动物照片搜索结果。我们从谷歌图像搜索引擎下载了前200张选定的10只动物的图像，并对这些图像运行我们的动物头部检测器。表二显示了动物过滤结果。在表二中，第一列是本实验中使用的十种动物的总图像数。第二列和第三列分别是人类标记的真实动物图像和噪声动物图像的数量，第四列和第五列是经过我们的动物头部检测器过滤后的动物图像和噪声图像的数量。从表中可以看出，大部分噪声图像都被滤除了。

D.失败案例

在这一小节中，我们讨论了所提出算法的失败案例。有几种情况可能会导致建议的算法失败。1)姿态变化大。2)对比度低。3)极端的面部表情。4)部分闭塞。这些因素会扭曲形状并导致故障情况。我们将在今后的工作中解决这些问题。图14显示了一些故障图像。

结论

本文介绍了一种动物头部检测系统。首先对纹理和形状特征进行分解，取得了较好的效果，然后基于形状和纹理特征进行联合检测，提高了检测结果。然后纹理和形状检测器也被一组新的定向梯度特征所改进。在14 379个标记良好的动物图像数据库上的实验验证了我们的联合学习方法的有效性。最后，我们展示了动物头部检测在在线图像搜索中的应用。将来，我们计划在两个方向上扩展提议的动物检测。首先，我们计划覆盖更多的动物类型，并进一步提高检测性能，例如，探索更多的信息，如动物身体的纹理，设计更多的区别特征。第二，我们希望将动物头部检测扩展到更多的应用，如基于检测结果的动物图像分类。