论文阅读——Deep Label Distribution Learning With Label Ambiguity

版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/heruili/article/details/88595713

卷积神经网络(ConvNets)在各种视觉识别任务中都取得了优异的识别性能。一个大的标记训练集是其成功的最重要因素之一。然而,在视年龄估计、头部姿态估计、多标签分类和语义分割等领域,很难收集到足够的带有精确标签的训练图像。幸运的是,标签之间存在模糊的信息,这使得这些任务不同于传统的分类。在此基础上,我们将每幅图像的标签转换为离散的标签分布,并利用深卷积将预测的标签分布和groundtruth标签分布之间的Kullback-Leibler divergence最小化,从而学习标签分布。提出的DLDL (Deep Label Distribution Learning)方法在特征学习和分类器学习中都有效地利用了标签的模糊性,在训练集较小的情况下也能有效地防止网络过度拟合。实验结果表明,与现有的年龄估计方法和头部姿态估计方法相比,该方法的估计结果明显更好。同时,它还提高了多标签分类和语义分割任务的识别性能

INTRODUCTION
卷积神经网络(ConvNets)在图像分类[1]、目标检测[2]和语义分割[3]等多种视觉识别任务中均取得了较好的性能。大量训练图像的可用性是他们成功的最重要因素之一。然而,在年龄估计[4]、头部姿态估计[5]、多标签分类和语义分割等领域,很难收集到足够多的带有清晰标签的训练图像。因此,利用有限的样本和模糊的标签开发深度学习方法已经成为一个具有吸引力和挑战性的课题。为什么很难收集一个大而准确的训练集?首先,很难(甚至对于领域专家)为某些任务提供准确的标签。例如,在语义分割中,靠近对象边界的像素是标注器很难标注的。此外,像素标记是一项耗时的任务,可能会限制训练样本的数量。另一个例子是,人们的表观年龄和头部姿势很难用一个准确的数字来描述。其次,很难收集到完整和足够的数据。例如,很难构建一个涵盖1到85岁人群的年龄数据集,并确保这个范围内的每个年龄都有足够的相关图像。类似的困难出现在头部姿态估计,其中头部姿态通常是收集在一个小的角度设置与10度或15度增量。因此,与图像分类任务相比,公开可用的年龄、头部姿态和语义分割数据集规模较小

上述这些小数据集有一个共同的特征,即,标签歧义,即ground-truth标签之间的不确定性。一方面,标签歧义在某些应用中是不可避免的。我们通常以25岁左右的方式预测另一个人的年龄,这意味着不仅要用25岁,还要用邻近的年龄来描述脸部。而且,不同的人对同一张脸可能有不同的猜测。类似的情况也适用于其他类型的任务。由于这些像素在语义分割中存在固有的模糊性,使得目标边界上的像素标签难以标注。另一方面,如果我们对为图像提供的标签没有信心,也可能发生标签模糊。在多标签分类任务中,有些对象是清晰可见的,但是很难识别。这种类型的对象在PASCAL Visual Object Classes (VOC)分类挑战[6]中被标注为困难对象,例如,图1中第一行第三幅图像中的椅子。

标签识别方法主要有单标签识别(SLR)和多标签识别(MLR)两种。SLR假设一个图像或像素有一个标签,而MLR假设一个图像或像素可以分配多个标签。SLR和MLR都旨在回答哪些标签可以用来描述图像或像素的问题,但它们无法描述与之相关的标签模糊度。如果能够合理地利用标签模糊性,将有助于提高识别性能。为了利用标签相关性(这在某些应用中可能被认为是标签模糊的结果),耿等人提出了一种用于年龄估计[4]和头部姿态估计[7]的标签分布学习(LDL)方法。最近,有人提出了一些改善LDL的方法。Xing等人提出了LDLogitBoost和AOSO-LDLogitBoost两种算法来学习一般模型,以放松传统LDL方法[8]中的最大熵模型。此外,他等人通过输入图像的标签及其上下文邻近样本[9]的加权线性组合生成年龄标签分布。然而,由于这些方法在分类器学习中只利用相邻标签的相关性,而在视觉表征的学习中没有利用相邻标签的相关性,因此属于次优方法。

深卷积神经网络在特征学习方面具有天然的优势。现有的ConvNet框架可以看作是基于不同优化目标函数的分类和回归模型。在许多情况下,深度卷积模型中分别使用softmax损耗和L2损耗来分类[10]和回归问题[11]。软最大损失在不考虑其他类的情况下最大限度地提高了地面真实类的估计概率,而L2损失使网络估计值与地面真实值之间的平方差最小。这些方法在图像分类、人体姿态估计和目标检测等方面取得了令人满意的效果。然而,现有的深度学习方法不能充分利用标签歧义信息。此外,一个众所周知的事实是,学习一个好的ConvNet需要大量的图像。

为了解决上述问题,我们将传统的SLR和MLR问题转化为分布学习问题。每个实例都根据其基本事实分配一个离散的标签分布y。标签分布可以自然地描述所有可能标签之间的模糊信息。通过深度标签分布学习,与每个类标签关联的训练实例显著增加,但实际并不增加训练实例总数。图1直观地展示了四个不同识别任务的标签分布示例。在特征学习和分类器学习中,利用深度卷积网络学习标签分布。由于我们学习的标签分布与深卷积,我们称我们的方法DLDL:深标签分布学习。DLDL的好处总结如下

DLDL是一种端到端学习框架,在特征学习和分类学习中都利用了标签的模糊性;
•DLDL不仅比现有的分类和回归方法具有更强的鲁棒性,而且有效地降低了对大量训练图像的要求,例如,使用groundtruth label 25的训练人脸图像对于预测24岁或26岁的人脸也很有用
;•DLDL(只有一个模型,没有集成)在年龄和头部姿态估计任务上的性能优于最先进的方法。DLDL还提高了多标签分类和语义分割的性能。
本文的其余部分组织如下。我们首先回顾第二部分的相关工作。然后,第三部分提出了DLDL框架,包括DLDL问题的定义、DLDL理论、标签分发结构和培训细节。最后,第五部分进行了讨论,第六部分给出了结论。

深度标签分布学习问题
给定一个输入图像,我们感兴趣的是估计一个类别输出y(例如,年龄或头部姿态角)。对于两个带有ground-truth标签y1和y2的输入图像X1和X2,如果y1和y2的相关性很强,则X1和X2应该是相似的,反之亦然。例如,在反映年龄的面部细节(如皮肤光滑度)方面,32 - 33岁的人脸之间的相关性应该强于32 - 64岁的人脸之间的相关性。换句话说,我们期望具有相似输出的输入图像之间具有很高的相关性。标签分布学习方法[4],[7]利用了机器学习阶段的这种相关性,深度标签分布学习问题给定一个输入图像,我们感兴趣的是估计类别输出y(例如,年龄或头部姿态角度)。对于两个带有ground-truth标签y1和y2的输入图像X1和X2,如果y1和y2的相关性很强,则X1和X2应该是相似的,反之亦然。例如,在反映年龄的面部细节(如皮肤光滑度)方面,32 - 33岁的人脸之间的相关性应该强于32 - 64岁的人脸之间的相关性。换句话说,我们期望具有相似输出的输入图像之间具有很高的相关性。标签分布学习方法[4]和[7]利用了机器学习阶段的这种相关性,

为了实现这个目标,DLDL将可能的y值范围量化为几个标签,而不是输出单个值y作为输入X。例如,在年龄估计中,假设0 < y85是合理的,而且年龄的整数值估计是一种常见的做法。因此,我们可以定义集合L ={1,2,…,85}作为年龄估计的有序标签集。DLDL的任务是预测标签分布y R85,其中yi是预测X为i岁的估计概率。通过对整个标签分布的估计,深度学习机器不得不处理标签之间的模糊性。

具体来说,我们的框架的输入空间是X = Rh wd,其中h、w和d分别是输入图像的高度、宽度和通道数。DLDL预测标签分布向量y R| y |,其中y = {l1,l2,…,lC}是为特定任务(例如,上面的L)定义的标签集。我们假设Y是完备的,即。,任何可能的y值在y中都有对应的元素。然后用D = {(X1,y1),···,(XN,yN)}表示一个包含N个实例的训练数据集。我们用黑体小写字母y表示向量,y的第i个元素表示为yi。DLDL的目标是直接学习条件概率质量函数y = p (y | X;θ)从Dθ的框架中的参数。

大多数现有数据集中都没有ground-truth标签分布y,这些数据集必须在适当的假设下生成。一个理想的标签分布y = (y1,y2,…,yC)必须满足一些基本原则:(1)y应该是一个概率分布。因此,我们有yi[0,1]和。(2)概率值yi在与图像相关的所有可能标签之间应该存在差异。换句话说,一个不那么模糊的类别必须具有高概率,而那些更模糊的标签必须具有低概率。在这一节中,我们提出了构建标签分布的方法,包括年龄估计、头部姿态估计、多标签分类和语义分割。

对于年龄估计,我们假设概率应该集中在地面真实年龄y附近,因此,我们用正态分布量化y得到y。例如,一张脸的表面年龄由数百名用户标注。真实(包括均值和标准差σ)计算的选票。对于这个问题,我们求出目标y的范围

CONCLUSION

我们观察到,当没有足够的训练数据和/或标签不明确时,当前的深卷积神经网络不能成功地学习好的模型。为了解决这一问题,我们提出了一种深度标签分布学习框架DLDL。在DLDL中,每幅图像都用一个标签分布进行标记,该分布可以利用标签的模糊性进行特征学习和分类器学习。在我们的实验中,DLDL通过防止训练集过小时的过拟合,不断改善网络训练过程。实验表明,与传统的分类或回归深度模型相比,DLDL在几种常见的视觉识别任务上具有较强的鲁棒性和竞争力。然而,由于不同识别任务的标签空间的多样性,构建合理的标签分布仍然具有挑战性。通过构建不同的标签分布,将DLDL扩展到更多的识别问题是一个有趣的方向。

小计:
实验中使用了两个年龄估计数据集。第一个是Morph[22],它是最大的公开可用的年龄数据集之一。共有来自13000多名受试者的55134张脸部照片。年龄从16岁到77岁不等。由于没有提供火车/测试分割,所以变形使用10倍交叉验证。第二个数据集来自ICCV ChaLearn LAP 2015 workshop[23]的第一场比赛赛道表观年龄估算比赛。与Morph相比,该数据集(ChaLearn)由野外采集的图像组成,没有任何位置、光照或质量限制。唯一的条件是每张图片只包含一张脸。数据集有4,699张图像,分为2,476张训练(TRAIN)、1,136validation(VAL)和1,087testing(TEST)图像。表面年龄(即,这个人看起来有多大?)每幅图像都由多个个体标记。人脸图像的年龄从3岁到85岁不等。给出了每幅图像的平均年龄和相应的标准差。由于测试图像的地面真实度尚未公布,因此我们在列车分割上进行训练,并对ChaLearn图像的VAL分割进行评估。

年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity相关推荐

  1. Deep Label Distribution Learning With Label Ambiguity

    2017 年Deep Label Distribution Learning With Label Ambiguity精读 2021-06-21最近想要做关于semantic segmentation ...

  2. 【论文解读】DLDL: Deep Label Distribution Learning With Label Ambiguity(年龄估计)

    1. 介绍 论文地址:https://arxiv.org/pdf/1611.01731v2.pdf 代码:https://github.com/gaobb/DLDL 针对问题:年龄估计 (1)缺乏精确 ...

  3. 论文阅读笔记:SCAN: Learning to Classify Images without Labels

    论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要 简介和相关工作 方法 表征学习 语义聚类损失 2.3 通过自标记进行微调 3 实验 ...

  4. Zero-shot Learning零样本学习 论文阅读(一)——Learning to detect unseen object classes by between-class attribute

    Zero-shot Learning零样本学习 论文阅读(一)--Learning to detect unseen object classes by between-class attribute ...

  5. 性别年龄论文阅读(2)——CACD2000

    性别年龄论文阅读(2)--CACD2000 版权声明:本文为博主原创文章,未经博主允许不得转载 https://blog.csdn.net/heruili/article/details/880820 ...

  6. 论文阅读|node2vec: Scalable Feature Learning for Networks

    论文阅读|node2vec: Scalable Feature Learning for Networks 文章目录 论文阅读|node2vec: Scalable Feature Learning ...

  7. 【论文阅读】Neural Transformation Learning for Deep Anomaly Detection Beyond Images 异常检测,可学习变换,时间序列,表格数据

    本博客系博主阅读论文之后根据自己理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:Neural Transformation Learning for Deep Anomaly Dete ...

  8. 【论文阅读】Occupancy Networks: Learning 3D Reconstruction in Function Space

    论文题目:Occupancy Networks: Learning 3D Reconstruction in Function Space(占据网络:在函数空间内学习三维重建,简称ONet) 论文作者 ...

  9. AI顶级期刊 IEEE T-PAMI 2020最新论文解读 | Deep Partial Multi-View Learning

    点击蓝字 关注我们 <IEEE T-PAMI>全称为IEEE Transactions on Pattern Analysis and Machine Intelligence.众所周知, ...

最新文章

  1. [转载] static class 静态类(Java)
  2. livewriter写Blog 神秘失踪?
  3. eclipse配置jdk问题
  4. assign复制对象_JavaScript标准对象:assign,values,hasOwnProperty和getOwnPropertyNames方法介绍...
  5. JS数据结构与算法——插入排序
  6. Linux的vi命令
  7. 增加VirtualBox虚拟机的磁盘空间大小(Host:Win7 VirtualBox5.0.16 VM:Win10)
  8. 使用 jQuery Mobile 与 HTML5 开发 Web App (八) —— jQuery Mobile 工具栏
  9. Xcode调试项目时取消弹出框提示授权
  10. 机电传动控制大作业第一阶段
  11. POJ 2240 Arbitrage Bellman_ford 判读是否存在正环
  12. 按键精灵html代码,最新按键精灵脚本代码大全 按键精灵命令运行方法
  13. js打开新窗口并且POST传入参数
  14. vim的大小写转换方法总结
  15. C---int和指针转换注意事项
  16. 闭关的日子 好无聊。偷了半日闲去书店shopping一下
  17. 2019XUPT_ACM 寒假训练第二期
  18. 智能网联汽车激光雷达工作原理、性能比较与安全性分析
  19. linux整盘封装生成iso,一键自安装ISO封装打包脚本 | 聂扬帆博客
  20. CRFEntityExtractor文档

热门文章

  1. 小唐开始刷蓝桥(八)2013年第四届C/C++ B组蓝桥杯省赛真题
  2. 关于inpho5、inpho8软件文件中像点坐标系的说明
  3. mac外接显示器 竖屏 黑苹果_苹果Mac外接显示器的显示模式及设置教程详解
  4. 用python制作一个猫咪小秒表
  5. mac下查看安装目录用路径名打开文件夹
  6. (12/05/21) vue-element-admi介绍 后台系统基础环境搭建
  7. 机器人工程师之路——从大一到研究生,YY硕经验谈
  8. 创业基础大作业-商业计划书
  9. QC新旧七图汇总连载2——帕累托图(排列图)
  10. 一本英文书|让在华外资企业了解中国网络安全等级保护实施条例