模式物种中个体的自动检测和识别

  • 论文简介
    • 标题
    • 期刊情况
  • 论文内容
    • 摘要
    • 介绍
    • 相关工作
      • 动物检测
      • 个体动物识别
    • 背景
      • 快速RCNN
      • AlexNet
    • 方法论
      • 日期增加
      • 基于快速RCNN的检测
      • 鉴定
    • 实验
      • 数据集
      • 检测
      • 个体识别
    • 总结

论文简介

标题

  • 英文:《Automatic Detection and Recognition of Individuals in Patterned Species》
  • 翻译:《模式物种中个体的自动检测和识别》

期刊情况

  • 期刊:《Conference on Computer Vision and Pattern Recognition》

论文内容

摘要

视觉动物生物识别技术正在迅速普及,因为它为野生动物监测应用提供了一种非侵入性且经济高效的方法。相机陷阱的广泛使用导致了大量收集的图像,使得视觉内容的手动处理难以管理。在这项工作中,我们开发了一个框架,用于自动检测识别不同模式物种中的个体,如老虎、斑马和美洲虎。大多数现有系统主要依靠人工输入来定位动物,这不能很好地扩展到大数据集。为了使检测过程自动化,同时保持对模糊、部分遮挡、光照和姿态变化的鲁棒性,我们使用最近提出的快速RCNN目标检测框架来有效地检测图像中的动物。我们进一步从动物侧面的AlexNet中提取特征,并训练逻辑回归(或线性SVM)分类器来识别个体。我们主要在相机捕捉老虎图像数据集上测试和评估我们的框架,该数据集包含在整体图像质量、动物姿势、比例和光照方面有所不同的图像。我们还在斑马和美洲豹图像上评估了我们的识别系统,以显示对其他模式物种的概括。与最先进的识别技术相比,我们的框架在相机捕捉的老虎图像中提供了完美的检测结果,以及类似或更好的个人识别性能。


介绍

  • 在过去的二十年里,视觉模式识别的进步已经导致了许多有效的视觉生物识别系统,用于通过各种形式识别人类个体,如*虹膜图像,面部图像和指纹 。由于识别过程依赖于视觉模式匹配,因此它方便且侵入性最小,这反过来又使得它适合用于非合作对象。因此,视觉生物识别技术已经应用于野生动物,其中非侵入性技术在成本、安全性和便利性 *方面提供了巨大优势。除了确认和识别个体,视觉模式匹配也用于对物种进行分类,检测行为和形态特征的发生或变化。
  • 从历史上看,自1900年代中期以来,生态学家和进化研究人员一直使用草图收藏和照片记录来研究、记录和索引动物外貌。这是因为许多动物物种都有独特的皮毛图案,比如斑马身上的条纹和美洲豹身上的斑点。尽管早期的研究提供了形式化独特动物外貌的方法,但人工识别个体是乏味的,需要具有特定技能的人类专家,使得识别过程容易产生主观偏见。此外,随着图像量的增加,手动处理变得极其昂贵。
  • 随着计算机视觉技术的进步,如目标检测和定位,姿态估计和面部表情识别,生态学家和研究人员有机会系统地应用视觉模式匹配技术来自动化野生动物监测。与传统方法(如野外人工监控、无线电搜寻和全球定位系统跟踪)相反,这些方法最大限度地减少了主观偏差,可重复,成本效益高,对人类和动物都更安全,压力更小。然而,与人类的情况不同,在野生动物的数据采集过程中,对环境因素几乎没有控制。具体来说,在陆地动物的情况下,大部分图像数据是使用固定在感兴趣的动物可能所在的位置的照相机捕捉器来收集的。由于这些原因,识别系统必须足够健壮,以处理由于植被造成的剧烈光照变化、模糊和遮挡的图像。例如,我们的老虎数据集中的一些具有挑战性的图像可以在图1中看到。

    • 近年来,像WWF-India这样的组织和Snapshot Serengeti项目这样的项目已经通过跨越大地理区域的数百个相机陷阱站点收集和编目了数百万幅图像。随着摄像机捕捉图像数量的空前增加,需要能够在短时间内根据所需类别(物种/个体水平)自动分类和组织图像的视觉监控系统。此外,许多动物物种濒临灭绝,需要持续监测,特别是在它们容易受到偷猎、食肉动物和数量已经较少的地区。这种监测工作有助于保护动物,维持不同地理区域的种群数量,并保护当地的生态系统
  • 在这项工作中,我们开发了一个框架,用于检测和识别具有独特皮毛图案的单个图案物种,如斑马、老虎身上的条纹和美洲虎身上的斑点。最先进的系统,如Hiby等人的Extract-Compare和Crall等人的HotPotter工作良好,但需要用户为每个图像输入,因此无法扩展到大型数据集。有提出的自动检测方法检测动物身上较小的斑块,但不是完整的动物,并且对光照条件和同一图像中动物的多个实例敏感。在这项工作中,我们使用最近提出的卷积神经网络(CNN)为基础的探测器,Faster-RCNN(能够在多个尺度检测不同的目标)。使用深度基于CNN的架构的优势是对光照和姿态变化的鲁棒性以及位置不变性,这被证明对于在不受控制的环境中定位图像中的动物非常有效。我们使用 Faster-RCNN来检测动物的身体和侧面区域,并将其通过预先训练的AlexNet来提取辨别特征,该特征被逻辑回归分类器用于个体识别。

相关工作

在本节中,我们简要讨论了动物物种和个体识别的最新进展,重点是展示独特皮毛图案的陆地动物

动物检测

  • 自动动物检测的最早工作之一使用哈尔样特征和低级特征跟踪器来检测狮子的面部,并提取信息来*预测 *其活动,如静止、行走或小跑。该系统实时工作,能够检测多种比例的人脸,尽管只有轻微的姿态变化。张等检测老虎、猫、狗、猎豹等动物的头部。通过使用形状和纹理特征来改进图像检索。这种方法依赖于正面姿势中突出的“尖”耳朵形状,这使得它对头部姿势的变化很敏感。这些方法依赖于识别动物的不同部分来检测和跟踪个体,但是在遮挡或显著姿势改变的情况下可能会失败。
  • 众所周知,CNN对遮挡和姿态变化具有鲁棒性,并已被用于从数据中自动学习识别特征,以定位黑猩猩的面部。此外,最近Norouzzadeh等人使用各种CNN架构,如Alexnet 、VGGnet和ResNet,使用Snapshot Serengeti数据集和320万个相机陷阱图像对48种动物进行分类,并达到了96%的分类精度。

个体动物识别

  • Hiby等人开发了“提取-比较”,这是第一个通过匹配老虎、猎豹、长颈鹿、青蛙等物种的皮毛图案来识别个体的交互式软件工具。该工具在一个检索框架 中工作,其中用户输入一个查询图像,并且从数据库中检索具有相似外衣图案的个体,以供用户进行最终验证。在模式匹配之前,粗略参数化的3D表面模型被适配在动物的身体上,例如,围绕老虎的侧面或犰狳的头部。这种表面模型拟合使得模式匹配对动物和相机姿态鲁棒。然而,为了适合3D表面模型,用户必须仔细标记几个关键点,如头部、尾部、肘部、膝盖等。虽然这种方法在准确性方面效果很好,但它不适用于大量图像,因为图像的手动处理时间可能高达30秒
  • Lahiri等人介绍了StripeSpotter,它从斑马的侧翼提取特征,作为二进制值的2D阵列。这个2D阵列描绘了黑白条纹图案,可以用来唯一地识别斑马。该算法使用动态编程方法来计算类似于编辑两个字符串之间距离的值。再次,手动提取侧面区域,并将每个查询图像与数据库中的每一个其他图像进行匹配。
  • hot Potter和Wild-ID使用SIFT特征将动物的查询图像与现有动物的数据库进行匹配。这两种工具都需要手动输入来选择感兴趣的区域,这样SIFT特征就不会受到图像中背景混乱的影响。除了将每个查询图像描述符分别与每个数据库图像进行匹配之外,Hotspotter还通过将每个查询图像描述符与所有数据库描述符进行匹配来使用一对多的方法。它使用高效的数据结构,如kd树的森林和不同的评分标准来有效地找到近似最近邻。Hotspotter还通过使用RANSAC解决方案来执行空间重新排序,以过滤掉任何空间不一致的描述符匹配。然而,空间重新排序并不比简单的一对多匹配更好。

背景

在本节中,我们简要描述了我们在动物检测和个体识别框架中使用的深层神经网络架构。

快速RCNN

  • Fast-RCNN是最近提出的一种目标检测技术,它由单个统一网络中的两个模块组成。第一个模块是一个深度CNN,它作为一个区域建议网络(RPN)工作,并提出感兴趣的区域(ROI),而第二个模块是一个快速的R-CNN检测器,对每个提出的感兴趣的区域进行分类。RPN与检测器的这种统一降低了测试时间计算,而没有明显的检测性能损失。
  • RPN接受任何大小的输入图像,并输出一组矩形对象建议,每个都有一个对象(对象对背景)分数。除了共享卷积层之外,RPN还有一个额外的小型网络,其中有一个n×n卷积层和两个兄弟全连接层(一个用于盒回归,一个用于盒分类)。在n×n卷积层的每个滑动窗口位置,以不同的比例和纵横比预测多个区域方案(称为锚)。然后,每个输出被映射到低维特征,低维特征被馈送到两个兄弟层。
  • 另一方面,快速R-CNN检测网络可以是ZF或VGG网络,该网络除了共享卷积层之外,还具有两个全连接的层(fc6和fc7)和两个兄弟类分数和边界框预测全连接的层。

AlexNet

AlexNet有五个卷积层和三个全连接层。使用6000万个参数,使用来自ImageNet数据集的约120万个图像的子集来训练网络,以将约150000个图像分类为1000个不同的类别。AlexNet在大规模图像分类问题上的成功导致了一些使用预先训练的网络进行特征表示的工作,这些特征表示被馈送到应用特定的分类器。我们遵循相似的方法来识别模式物种中的个体,修改输入大小,从而修改特征图维度。


方法论

在这项工作中,我们解决了动物监测中的两个问题:

  • 第一是检测和定位相机陷阱图像中的模式物种
  • 第二是根据现有的同一物种的数据库唯一地识别检测到的动物
    在图2中可以看到所提出的框架。

日期增加

为了增加训练阶段的图像数量并避免过度拟合,我们增加了给定的检测和个体识别训练数据。为了检测,我们通过*水平翻转 *(镜像)每个图像来加倍训练图像的数量,同时训练更快的RCNN。

  • 在识别个体的情况下,训练样本的数量非常少,因为每只老虎捕捉的侧面姿态相对较少。因此,为了学会对单个动物进行分类,我们需要更强的数据增强技术。我们对每个训练图像使用对比度增强和随机滤波(高斯或中值),将我们的训练集增加到最初训练图像数量的三倍。

基于快速RCNN的检测

  • 我们检测老虎和侧翼区域使用Fast-RCNN。在训练期间,图像和边界框(老虎和侧翼)都被输入到网络中。侧面的边界框只给那些侧面没有因为老虎的姿势而被遮挡和扭曲的图像。该网络被训练检测3类:老虎,侧翼和背景。用于训练的所有参数都与原始实现中使用的一样。
  • 对于训练,整个网络用4步交替训练进行训练。我们在我们的框架中使用ZF网,它有五个可共享的卷积层在第一步中,通过使用ImageNet预训练模型初始化网络,为区域建议任务对RPN进行端到端训练。然后,在第二步中,使用由ImageNet预训练模型初始化的权重并通过使用由步骤1 RPN生成的建议来训练快速R-CNN。权重共享在第三和第四步中执行,其中RPN训练用检测器网络初始化,并且通过固定共享的卷积层,只有RPN独有的层被微调。类似地,在第四步中,通过固定共享层和仅微调检测器的唯一层来训练快速R-CNN。此外,我们还在老虎检测训练的前两个步骤中固定前两个卷积层,因为初始层已经被微调以检测像边缘这样的低级特征。
  • 在测试过程中,只有一个图像被输入到网络,它输出边界框和相应的对象分数。由于Faster-RCNN每个类别输出多个包围盒,其中一些高度重叠,非最大值抑制(NMS)适用于减少冗余盒。因为卷积层是共享的,所以我们可以在非常短的时间内一次性测试图像(0.3-0.6秒/图形GPU上的图像)

鉴定

  • 为了识别,我们只使用侧面区域,因为它们包含识别信息来唯一地识别有图案的动物。图像中的老虎被检测到,但侧翼没有被检测到,这些图像被分离出来,由专家进行分析。像提取-比较这样的工具可以用于极端姿势或遮挡的困难情况
  • 我们使用ImageNet-预先训练的AlexNet从侧翼区域提取特征,并训练逻辑回归分类器来识别个体。虽然这偏离了典型的深度网络的端到端框架,但我们选择这种方法是为了解决用于识别个体的训练数据非常少的问题。我们试图用我们的数据微调AlexNet,然而,模型过度适应了训练集。对于特征表示,我们使用不同的卷积层和全连通层来训练我们的分类器,并使用第三卷积层(conv3)获得最佳结果。由于ImageNet是一个大规模的数据集,AlexNet在较高层的预训练权重不是为细粒度的任务(如个体动物识别)而优化的。另一方面,中间层(如conv3)捕捉边缘之间的相互作用,并具有足够的辨别力,可以为我们的问题提供良好的结果。
  • 为了最小化通过将检测到的侧翼区域调整到AlexNet的单位纵横比(227×227)而引入的失真,我们修改AlexNet的输入大小,从而修改后续的特征映射。由于conv3特征映射是高维的,我们应用基于主成分分析的降维,并使用解释99%能量的主成分。

实验

所有实验都是在运行于i74720HQ 3.6GHz处理器和英伟达GTX-950M GPU上的Python(和PyCaffe)上进行的。对于更快的RCNN 训练,我们使用带有英伟达GTX 980 GPU的服务器。我们使用python实现的Speeter-Rcnn 1和labelimg2标注工具来标注老虎和美洲虎的图像。我们还使用python的sklearn库进行逻辑回归分类器。在三个不同的数据集上,我们将我们的结果与HotSpotter进行了比较,HotSpotter显示出了优于野生型和带状型的性能。

数据集

  • 老虎数据集:该数据集由印度野生动物研究所(WII)提供,包含大约770幅从相机陷阱捕获的图像。由于严重的视点和照明变化、运动模糊和遮挡,图1所示的图片非常具有挑战性。我们将此用于检测和个人识别
  • 平原斑马数据集被用于带状摄像机。条纹图案的辨别能力不如老虎,但是,该数据集中的图像几乎没有视点和外观变化,因为大多数图像是在几秒钟内拍摄的。我们使用数据集中提供的裁剪侧翼区域与hotspotter进行比较。
  • 捷豹数据集是一个较小的数据集,也是从相机陷阱获得的,但图像质量较差(主要是夜间图像),视点变化适中。
    我们在表1中总结了个人识别任务的三个数据集和模型参数。

检测

  • 我们使用687张老虎图像来训练和测试检测系统,在去除老虎几乎不可见的图像(只有尾巴)和一些非常质量差的图像(由于闪光/太阳光线造成的非常高的对比度)。我们将用于训练和测试的数据以75%/25%的比例分成一组不相交的老虎。通过数据扩充,我们在训练集中总共有1032 (516x2)幅图像,在测试集中有171幅图像。
  • 为了训练更快的RCNN,我们通过从标准偏差为0.01的零均值高斯分布中提取权重来随机初始化所有新层。对于12000次迭代,我们在第1步和第3步中对RPN进行了微调,对于10000次迭代,我们在第2步和第4步中对快速RCNN进行了微调。我们对10k和8k小批量分别使用0.001的学习率,对接下来的2k小批量使用0.0001的学习率。我们使用1号(RPN)和2号(Fast-RCNN)图像的小批量,动量为0.9,重量衰减为0.0005。为了应用非最大抑制(NMS),我们将对象分数大于0.8的预测框的NMS阈值固定为0.3(最佳),使得IoU大于阈值的所有框都被抑制
  • 我们报告了老虎和侧翼检测的平均精度(AP)和平均AP,这是一种用于目标检测的流行度量。表2中报告了具有不同NMS阈值的老虎和侧翼检测的结果。随着NMS阈值的增加,输出包围盒的数量也增加,导致检测结果不佳。我们还展示了一些定性的结果在从因特网上拍摄的老虎图像,与图4所示的照相机陷阱图像相比,在质量和背景上有很大不同。 The CMC curves表明CNN在条带模式的情况下,体系结构显然比HotSpotter工作得更好,即使我们比较的是低阶精度。在捷豹数据集中,Hotspotter的1级准确率要高得多,但我们观察到,当我们比较较低级别的准确率时,基于深度学习的方法呈上升趋势。我们推测,预先训练的AlexNet特征表示对美洲虎身上的斑点的辨别能力不如对老虎或斑马身上的条纹的辨别能力

个体识别

  • 我们使用AlexNet的conv3特征来训练一个逻辑回归分类器来对个体进行分类。对于每个数据集,我们生成五个随机分割,其中75%用于训练,25%用于测试。对于我们的框架,老虎和美洲虎的侧翼被调整到256 x 192,斑马的侧翼被调整到256 x 128,这相当于相应数据集的侧翼图像的平均大小。我们学习一个具有l1正则化的逻辑回归模型,并执行网格搜索来找到参数C。具体的数据统计和模型参数在表1中报告。我们将我们的结果与HotSpotter进行比较,并在表3中报告了所有数据集的平均1级精度。在图5中,我们显示了我们的方法在所有数据集上与Hotspotter相比的从等级1到等级5的累积匹配特征(CMC)曲线。



总结

在这篇文章中,我们提出了一个模式化动物物种的自动检测和个体识别框架。我们使用了基于CNN的最先进的物体检测器fast-RCNN,并对其进行了微调,以检测老虎的全身和侧面。然后,我们使用检测到的侧翼,并从预先训练的AlexNet 中提取特征,以训练逻辑回归分类器来对个体老虎进行分类。我们还对斑马和美洲虎进行了个体识别任务。我们获得了完美的老虎检测结果,并且在比较老虎和斑马图像的个体识别的1级准确率时,表现优于hot Potter。尽管用于个人识别的AlexNet特征是在Imagenet数据上训练的,但它们似乎与我们的定量结果显示的SIFT特征一样鲁棒。我们计划在未来与更大的数据集进行彻底的比较,以获得更深刻的见解。对于捷豹图像,Hotspotter在1级精度下工作得更好,但是当我们比较较低等级的精度时,所提出的方法显示出改进的趋势。

论文阅读笔记——模式物种中个体的自动检测和识别相关推荐

  1. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  2. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

  3. 解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记

    解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记 一.Abstract 二.引言 三. ...

  4. 论文阅读笔记(一)——铁饼鱼的面部识别:使用数字模型的实验方法

    论文阅读笔记(一)--铁饼鱼的面部识别:使用数字模型的实验方法 论文简介 期刊情况 摘要 研究背景 正文 动物实验对象的制备 社交展示的描述 实验过程 实验1 实验2 道德声明 结果 商量 论文简介 ...

  5. 论文阅读笔记(二)——牛的人脸识别,能做到吗?

    论文阅读笔记(二)--牛的人脸识别,能做到吗? 论文简介 论文中文翻译:<牛的人脸识别,能做到吗?> 论文名称:<Face Recognition of Cattle: Can it ...

  6. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  7. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  8. 论文阅读笔记- Dremel

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  9. 【CCM-SLAM论文阅读笔记】

    CCM-SLAM论文阅读笔记 整体框架结构 如图所示:单智能体只负责采集图像数据,运行实时视觉里程计VO以估计当前位姿和环境地图,由于单智能体计算资源有限,负责生成的局部地图只包含当前N个最近的关键帧 ...

最新文章

  1. 我是如何做软件测试项目的?
  2. ID3、C4.5、CART树算法简介,这几个算法有什么区别?对于异常值和分类值有什么需要注意的?
  3. 部署node.js的开发环境
  4. 解决ubuntu16.E: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占用它?
  5. GROUP与HAVING的使用
  6. InfluxDB的HTTP API写入操作
  7. python多元函数求极小值_使用遗传算法求二元函数的最小值
  8. 使用ExcelPythonHiveSparkSQL进行数据分析开篇-环境搭建攻略!
  9. C++ zip压缩库使用
  10. 计算机管理 没有适当的权限,提示没有合适的权限访问怎么办
  11. 计算机科学与技术综述文献,计算机科学与技术专业文献综述应该写些什么
  12. Jupyter Notebook——夏侯南溪常用的快捷键
  13. slickedit 设置
  14. 服务发现框架 —————— 开开开山怪
  15. html导航条背景颜色代码,div+css实现鼠标经过背景高亮的导航菜单代码
  16. 计算机无法识别苹果6手机,苹果手机连接电脑没反应,小编教你苹果手机连接电脑没反应怎么办...
  17. 魑、魅、魍、魉、妖、精、鬼、怪的区别
  18. 今日头条自动开宝箱脚本
  19. 校招----青颖飞帆二面面经
  20. MSF图形化界面Viper(炫彩蛇)下载与使用

热门文章

  1. 狂神说——SpringBoot学习
  2. python读取grib文件_Windows下Python读取GRIB数据
  3. 怎样将 excel 里的日期保留到年月
  4. 优质女性为什么没有男朋友
  5. C#委托事件小实例 闹钟
  6. java泛型方法的结构及使用
  7. Windows内使用Tomcat新建虚拟主机,并使用telnet访问
  8. Java接口继承和使用接口
  9. apk回编译问题汇总(阶段)
  10. 编一个程序,打入月份号,输出该月的英文月名,要求用指针数组处理。(C语言)