论文阅读笔记(十五)——黑猩猩在野外的脸:用于预测灵长类身份和属性的对数欧几里得CNN

论文简介

论文中文翻译:《黑猩猩在野外的脸:用于预测灵长类身份和属性的对数欧几里得CNN》
论文名称:《Chimpanzee Faces in the Wild: Log-Euclidean CNNs for Predicting Identities and Attributes of Primates》

会议情况

会议:《German Conference for Pattern Recognition》

摘要

在本文中,我们研究如何预测黑猩猩的属性,如身份、年龄、年龄组和性别。我们建立在卷积神经网络的基础上,与之前最先进的手工识别方法相比,卷积神经网络的结果显著优越。此外,我们还展示了如何通过双线性池化的对数-欧几里得框架进一步提高CNN激活的辨别能力。最后,我们引入两个由黑猩猩面孔组成的数据集,并提供详细的元信息,以促进进一步的研究。我们的研究结果为自动化的大规模动物监测和分析奠定了基础。

研究背景

2009年,一份详细的报告得出结论,全球生物多样性受到严重威胁,。虽然这份报告非常详细,但评估仅代表了一个日期的快照。但是,关于长期发展生物多样性的密集资料将非常有价值,例如可以评估是否需要新的政治行动或以前的行动是否成功。一个主要的困难是需要分析大量的记录数据,这通常需要手工完成。因此,对生态系统和动物种群状况的可靠定量分析很难获得,而且代价昂贵。直接的后果是,保持生物多样性评估的最新进展几乎是不可能的,尽管这是非常需要的。

虽然人工分析大量数据是不可行的,但记录这样的大数据集是很容易的,例如,使用相机捕获。因此,数据记录和数据分析之间的差距只能通过使用可靠的自动化技术来消除。幸运的是,计算机视觉研究人员在过去几年里为这些场景开发了多种算法。细粒度识别技术可以从视觉上区分高度相似的物体类别,例如不同的鸟类、鲨鱼或鲜花

因此,我们处于一个绝佳的位置,可以把我们的解决方案转移给生物学家,以扩大他们的研究。
我们的第一个贡献是提供了这样一个过渡到哺乳动物的研究领域。更准确地说,我们对如何将深度神经网络应用于黑猩猩需要分析的场景进行了深入研究。我们的分析表明,深度神经网络的激活大大提高了黑猩猩识别的准确性。此外,它们对额外的属性预测非常有用,这允许详细分析和大规模的动物监测。我们学习的属性预测模型的结果如图1所示。

此外,我们还介绍了矩阵对数变换如何在最先进的卷积神经网络的双线性池的基础上进一步提高辨别能力。我们的技术受到了的启发,作者在使用手工制作的特性时展示了它的进步。识别性能方面的好处不仅可以在我们的真实应用程序中看到,还可以在一个直接的合成实验中看到,这个实验揭示了这种转换的好处,尤其是对于细粒度场景。由于低质量图像中的噪声信号也因此被放大,我们发现在高质量的图像数据中,该操作尤其有用。

相关工作

  • 细粒度的识别 在过去的十年中,由于任务的挑战性,细粒度识别在计算机视觉领域受到了越来越多的关注。与粗粒度对象类别的分类不同,细粒度识别需要识别局部模式,例如,条纹翅膀或点状颈部。最近的一项技术是Lin等人提出的基于CNN激活的双线性池。此外,Tuzel et al.以及后来的carira et al.提出logm操作作为双线性混合手工特征的后处理。我们将这两种想法结合起来,来处理区分单个物种个体的任务,这与细粒度识别有关,但仍然不同
  • 人脸识别 特征脸,最早的,也许是最著名的人脸识别方法之一,是由Turk和Pentland提出的,是基于PCA投影的裁剪的人脸图像。他等人提出了拉普拉斯面,它依赖于一个更复杂的投影。随后,Wright等人报道了使用稀疏表示模型进行人脸识别的好处。在此基础上,Yang和Zhang通过使用gaborf滤波器的响应作为表示,提高了稀疏表示的效率。Simonyan等人将Fisher向量编码的思想转移到人脸识别。然而,所有这些方法都依赖于手工制作的图像表示,这些图像表示需要独立优化。最近,深度神经网络通过直接从数据中学习适当的表示和度量,对数百万张人脸图像进行了训练,显著提高了人脸的识别精度。第一个网络是Deepface,由Taigman等人从4M张人脸图像训练而来。更强大的是由Parkhi et al.从260万张人脸图像中训练出来的VGG-faces网络。因此,我们的第一个贡献是使这些模型适用于黑猩猩识别的任务。一个主要的区别是我们的应用领域的训练数据量相对较小
  • 黑猩猩的识别据我们所知,Loos等人提出了迄今为止发表的唯一一种受人脸识别结果启发的黑猩猩识别方法,其核心部分是对人脸进行对齐,以保证提取的视觉描述符在语义上具有可比性。为此,一个仿射变换应用的面部特征,如眼睛和嘴,并产生的图像被裁剪和缩放到标准大小。将对齐后的人脸输入特征提取、特征空间转换和分类的三步流管道。在图像描述方面,在空间分割的Gabor星等图像(GMPs)上提取扩展的局部三元模式。最后,利用局部保持投影进行降维,稀疏表示分类作为分类模型。由于实现了对齐步骤,整个管道被限制在近正面面部记录。在这项工作中,我们展示了如何通过使用学习的图像表示来提高准确性,而不需要对齐的人脸图像

贡献

本文的研究重点可以总结如下:

  1. 我们表明,深度学习的图像表示明显优于目前最先进的黑猩猩识别管道,
  2. 我们将logm操作作为CNN激活的双线性池的后处理,并对由此产生的好处进行了深入的研究。
  3. 我们发布了在中显示的黑猩猩脸部数据集的管理版本,并提供了详细的元信息供公众使用。

正文

Convolutional Neural Networks in a Nutshell

深度(卷积)神经网络:过去几十年的计算机视觉系统通常是设计良好的管道,包括特征提取、后处理和分类。由于所有阶段都是单独开发和指定的,这种即插即用原则允许轻松交换各个模块。相比之下,最近的架构是端到端设计的,没有特征提取和分类的明确分离,允许联合优化所有涉及的参数。深度神经网络就是一个例子,它是由几个处理阶段fi, i = 1,…, L连接紧密。这些阶段称为层,用θi参数化:

在对图像数据进行操作时,应将可学习模式的位置不变性明确地纳入网络布局,如卷积神经网络(CNNs)[16]所做的那样。因此,一些层被评估为可学习滤波器掩码和前一层输出之间的卷积。

优化器:根据收集到的训练数据D=(xi,yi)i=1ND = (x_i, y_i)^N_{i=1}D=(xi​,yi​)i=1N​,通过联合优化单个损失函数,可估计各层参数值:

其中ω(·)服务器作为正则化。由此产生的优化问题通常是困难的,最常用的优化技术是随机梯度下降(SGD)小批量:

SGD是一种迭代技术,其中参数γ控制单个步骤的影响。此外,
表示损失函数相对于当前估计θ t和当前绘制的小批量SsgdtS^t_{sgd}Ssgdt​的近似梯度:

利用反向传播可以计算中间层的梯度.
微调Fine-tuning:如果标记数据很少,训练数百万个参数是一个不适定问题。幸运的是,在其他应用领域中也存在大型标记数据集(例如,ImageNet)。微调的过程是指使用预先训练的网络权值作为一个新任务的初始化。在实践中,在小数据集上只运行有限数量的优化步骤就足够了。

Log-Euclidean Convolutional Neural Networks

Lin等人的是目前最先进的细粒度识别方法之一,它使用双线性池化来转换CNN中卷积层的输出。双线性池化由Tuzel等人和carira等人开发,计算空间区域内特征的二阶统计量。我们简要回顾了这种方法,并介绍了CNN双线性池的矩阵对数如何进一步提高识别能力。

Second-order Statistics:给定具有1≤k≤k个滤波器的CNN层的输出张量gi,j,kg_{i,j,k}gi,j,k​,二阶变换作为每个空间场的信道响应外积的池化结果:

这里,后缀·表示各个分量的向量化。我们在式(5)中将空间响应的池化操作指定为求和池化,然而,其他池化操作同样可能为.
Matrix Logarithm of Second-order Statistics矩阵M是一个任意对称正半定(PSD)矩阵,因此嵌入在黎曼流形上,而不是(欧几里得)向量空间。这意味着将流形分成两个区域的函数(二元分类)不只是一个简单的超平面,就像在欧几里得的情况。然而这在中被忽略了,Tuzel等人[30]和carira等人已经讨论过双线性池化矩阵应该首先转化为具有适当的欧几里得度量和标量积的向量空间进行进一步处理。这个变换的一个简单的选择是在的log - euclid框架中使用的矩阵对数,它直接将PSD矩阵映射到一个向量空间。
利用特征分解M=UDUTM=UDU^TM=UDUT,并对特征值D=diag(λ1,…λK)D = diag(λ_1,…λ_K)D=diag(λ1​,…λK​)。因此,我们的log - euclid层执行如下操作:

请注意,该信息不会导致任何信息损失。我们跟着加一个常数所有特征值,以确保其正性。
Understanding the Effectiveness of the Matrix Logarithm正如我们将在我们的实验中看到的,对数转换可以提高动物识别任务的准确性。拓扑学领域已经提供了一个明确的数学动机。下面,让我们从纯机器学习的角度再分析一下logm的有效性。
由式(6)可以看出,矩阵对数对局部描述子fi,j,·所张成的椭球轴长度进行变换。α≈0.567下的小轴(特征值)得到较大的绝对值。类似地,α上方的长轴相对于它们的绝对值收缩。但是,的绝对值轴影响轴对矩阵的影响,也影响生成的特征向量。因此,可以将对数变换看作是数据中方差较小的放大轴。直观地说,这是理想的识别任务,其中图像的小部分应该是有区别的。为了验证这一直觉,我们进行了一个小型的合成实验,我们对矩阵M进行如下抽样:第一类从二元正态分布φ1= N(0,diag(10−2,10))中抽样30个特征描述符gi,j,·生成矩阵。第二类是由抽样特征向量从φ1的概率1−p和φ2 = N([0, ?],诊断接头(10−2、10))的概率p。建立一个对应的场景具有挑战性的识别任务,我们使用p = 0.1(也就是说,只有10%的特征描述符有识别力的双线性池之前)。然后我们用25个采样矩阵训练一个线性支持向量机,并在25个保留样本上评估精度。

不同的距离值重复50次后的结果,见图2。可以看出,与标准双线性池相比,对数变换在很大范围内具有更高的精度。值(x轴以对数尺度表示)。下面,我们将研究其对真实数据的影响。

Datasets for Chimpanzee Identification and Beyond

在我们的实验中,我们组装了两个猿类的裁剪面部数据集(记为C-Zoo和C-Tai)。这些数据集是基于鲁斯和恩斯特之前发布的黑猩猩数据集,经过了扩展,专门用于黑猩猩面部属性预测的任务。我们在上发布了所有数据和火车测试的分段。下面,我们将简要描述关于内容和质量的两个数据集。补充材料第S1节对此作了详细分析。

The C-Zoo Dataset:鲁斯和恩斯特在中引入了一个黑猩猩数据集,这是他们与莱比锡动物研究人员合作建立的。我们扩展了他们的数据集,涵盖了24个由专家手工标记的个体。提供的图像是高质量的,是良好的曝光,并没有强烈的模糊伪影。最终的C-Zoo数据集包含了2109张脸,这些脸由具有生物学意义的关键点(眼睛中心、嘴巴和耳垂)补充。每个人被分到四个年龄组中的一个。此外,每个人的性别和当前年龄作为元信息提供。包含面的视觉变化见图3第一行

The C-Tai Dataset 卢斯和恩斯特提供了第二个数据集,其中包括生活在科特迪瓦Cˆote d '科特迪瓦国家公园的黑猩猩的记录。图像质量差异很大,例如,由于照明和距离记录的物体的强烈变化。再次,我们扩展了他们的数据收集,获得了5078张黑猩猩的脸,形成了我们的第二个数据集。我们将其称为C-Tai,并在图3的下部显示视觉变化。共记录了来自5个年龄组的78只。遗憾的是,附加信息的标注质量不像第一个数据集那么高(也就是说,不是每个人脸都被所有属性补齐)。因此,在我们的评估中,我们只使用了4377张提供身份、年龄、年龄组和性别的脸,结果得到了62个不同的人

Experiments

黑猩猩识别实验

Setup – Data

对于每个数据集,我们使用分层抽样生成5个随机分割,其中80%用于训练,20%用于测试。使用平均类识别率来评估训练过的模型,以反映潜在的不平衡数据集(参见数据集统计的补充材料)。

Setup – Face Recognition Baselines

卢斯和恩斯特的方法类似于目前最先进的黑猩猩识别技术。此外,我们还邀请了Parkhi等人,他们提出了一种最先进的人脸识别网络。由于在野生(LFW)数据集上训练了权值的网络是公开可用的,我们使用激活的网络来完成黑猩猩识别任务(用VGGFaces表示)。

Setup – Investigated Approaches

我们的第一个问题是,用于人脸识别的cnn网络是否比其他网络更适合于黑猩猩识别的任务。因此,我们应用Caffe BVLC参考模型(表示为BVLC AlexNet),该模型最初是为了从ImageNet挑战ILSVRC中区分对象类别而训练的。对于BVLC AlexNet和VGGFaces,我们从被切的face区域(表示为CNN代码)的pool5层(全连接层之前的最后一层)和fc7层(ImageNet或LFW得分之前的最后一层)中提取激活。正如中所建议的,我们在将激活传递给最终的分类器之前对它们进行l2标准化。

另外,我们感兴趣的是CNN激活后处理的效果。因此,我们应用双线性池和可选的logm-operation。我们进一步通过标准化二阶矩阵来增加数值稳定性,这与中的建议类似(用“+范数”表示,见补充材料中的S3节)。在提取的表示的基础上,我们使用线性训练线性支持向量机。正则化参数C通过10 - 5. .105的十倍交叉验证得到。

评估黑猩猩的性别估计

Setup – Data

对于每个数据集,我们通过选择每个性别的80%进行训练和所有剩余数据进行模型评估来分割2109和4377张人脸图像。结果平均五次随机分割。

Setup – Baselines, Approaches, and Generalization

由于Loos等人没有处理属性预测,因此该任务没有明显的基线。然而,通过预测数据中所有性别的大多数,出现了天真基线(“天真基线”)。此外,我们可以依靠第6.1节的识别模型,并使用在训练期间所有记录中预测个体的平均年龄(“识别+属性查询”)。此外,我们按照6.1节相同的实验设置,应用两个网络的CNN代码。此外,我们评估双线性池化和对数运算在性别预测任务中的效果。我们最终对跨数据集的泛化能力感兴趣。因此,我们使用来自一个数据集的所有图像对模型进行logmtransformed feature训练,并在另一个数据集的五个分片上评估这些模型。

Results

结果如表2所示。同样,我们得到了较差的结果相对于对象分类网络。尽管如此,我们观察到CNN编码本身已经很适合于性别估计(2c到2-f)。强大的结果部分是由于复杂的识别能力(2-a)。然而,双线性池化和logm操作可以进一步改善结果(2-g到2-i)。我们最后观察到,跨数据集的泛化是部分可能的。精度的明显下降可以归因于不同的数据集特征(见补充材料)。

Conclusions

在本文中,我们调查了几个任务,出现在动物监测的生物研究。更准确地说,我们研究了黑猩猩的识别、性别预测、年龄估计和年龄组分类,并对最近流行的深度神经网络结构的适用性进行了深入研究。此外,我们将对数运算作为双线性CNN激活的后处理步骤,在训练数据具有足够代表性时进一步提高了准确性。我们的结果清楚地展示了最新的视觉算法在动物学应用中的有效性,例如,识别精度为~ 92%的ARR或~ 98%的AUC的性别估计精度

论文阅读笔记(十五)——黑猩猩在野外的脸:用于预测灵长类身份和属性的对数欧几里得CNN相关推荐

  1. 知识图谱论文阅读(十五)【arxiv】A Survey on Knowledge Graph-Based Recommender Systems

    论文题目: A Survey on Knowledge Graph-Based Recommender Systems 论文链接: 论文代码: 想法 出现Refine就是用某些方法更好的优化特征表示 ...

  2. 论文阅读笔记(五)【ACL 2021】Answering Ambiguous Questions through Generative Evidence Fusion and Round-Trip P

    通过生成性证据融合和往返预测回答模糊问题 关键词: 生成性证据融合: 往返预测: 模糊问题 摘要 一般的开放域QA问题: 在开放域问答中,问题很可能是模棱两可的,因为用户在制定问题时可能不知道相关主题 ...

  3. 论文阅读笔记(五)CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

    Abstract 本文以CLIP模型为基础,通过迁移CLIP模型学到的知识,提出了CLIP4Clip(CLIP For video Clip retrieval)模型用于视频文本检索任务.主要研究以下 ...

  4. 云时代架构阅读笔记十五——架构设计思维(一)

    对于架构设计人们已经提出了许多方法,分类为:工件驱动的方法:用例驱动的法:模式驱动的方法:领域驱动的方法.一个经典的架构设计过程模型,沿用了RUP中迭代增量的思想,由分析.描述.选择.构造和组合5个阶 ...

  5. 软件体系架构阅读笔记(十五)

    对于开发者来说,架构设计是软件研发过程中最重要的一环,所谓没有图纸,就建不了房子.在遍地App的互联网时代,架构设计有了一些比较成熟的模式,开发者和架构师也可以经常借鉴. 但是,随着应用的不断发展,最 ...

  6. 【论文阅读笔记】 基于无人机多光谱影像的水稻叶面积指数预测

    Plant Methods//Remote estimation of rice LAI based on Fourier spectrum texture from UAV image 以往的研究表 ...

  7. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

  8. Transfiguring Portraits论文阅读笔记

    Transfiguring Portraits论文阅读笔记 图1:我们系统的目标是让人们想象和探索在不同的国家,时代,发型,头发的颜色,年龄以及可以在图片搜索引擎中查询的其他内容的样子.上面的示例显示 ...

  9. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  10. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

最新文章

  1. 串口接收数据与分析处理
  2. gan只用来生成是浪费
  3. 获取客户端ip_代理IP工具能否解决反爬?
  4. Python 学习日记第二篇 -- 列表,元组
  5. 安装mysql没有提示设置密码_18.04安装mysql没有提示输入密码
  6. springmvc配置MappingJackson2HttpMessageConverter实现属性驼峰和下划线的转换
  7. 智能会议系统(18)---如何进行视频电话
  8. Python查杀Windows系统中指定进程
  9. OpenCV-通道分离cv::split
  10. jQuery Ajax请求成功后,为什么一直在error函数里
  11. 阻止电脑自动安装软件_一套连招彻底阻止流氓软件静默安装
  12. Logistic模型预测人口增长
  13. Matlab中tic和toc用法
  14. 如何实现无线网卡上外网+有线上内网=同时上网
  15. 中国象棋局面识别 -2.象棋棋子的识别
  16. 微服务 | Martin Fowler
  17. DataGrip离线安装驱动
  18. OLED12864裸屏驱动电路
  19. FPGA之FIFO详解,初识FIFO
  20. 【NOIP2013】华容道 最短路优化搜索(spfa)

热门文章

  1. Python基础篇1
  2. Java虚拟机 --- 内存区域
  3. 归并排序法计算逆序对数
  4. PHPCURL直接访问JSONRPC服务
  5. Groupon的电子邮件营销故事
  6. sphinx系列之中文分词LibMMSeg安装(三)
  7. 破解网站发布系统 ASP生成静态页面方法
  8. 如果开心,就跟着心走吧……
  9. 初识Python导图笔记
  10. 0x7c97cd12 指令引用的 0x00000014内存。该内存不能为written