Data Uncertainty Learning in Face Recognition

建模数据的不确定性对含噪音图像非常重要，但对于人脸识别的研究却很少。先驱者的工作【35】通过将每个人脸图像嵌入建模为高斯分布来考虑不确定性。这是相当的有效。但是，它使用现有模型的固定特征（高斯均值）。它只估计方差，并依赖于一个特别和昂贵的度量。因此，它不易使用。目前尚不清楚不确定性如何影响特征学习。

本文将数据不确定性学习应用到人脸识别中，首次将特征（均值）和不确定性（方差）同时学习。提出了两种学习方法。它们易于使用，在挑战无约束场景方面优于现有的确定性方法以及[35]。本文还对不确定性估计如何减少噪声样本的不利影响以及如何影响特征学习进行了深入的分析。

1. Introduction

数据不确定性1捕获数据中固有的“噪声”。建模这种不确定性对于计算机视觉应用（如人脸识别）非常重要，因为图像中广泛存在噪声。数据不确定性捕获了数据中固有的 “噪声”。对这种不确定性进行建模对于计算机视觉应用[22]是非常重要的，例如，人脸识别，因为噪声广泛存在于图像中。

大多数人脸识别方法将每个人脸图像表示为潜在空间中的确定性点嵌入[7，27，41，42，33]。通常，同一ID的高质量图像会被聚集。然而，对于带有噪声的人脸图像，很难估计出准确的点嵌入，这些图像通常不在聚类范围内，在嵌入空间中存在较大的不确定性。如图1（a）所示。positive样本与它的类相去甚远，接近于带噪声的negative例子，导致了不匹配。

图1:(a)确定性模型在不考虑数据不确定性的情况下给出点嵌入;(b)概率模型给出以估计均值和估计方差为参数的分布估计。PFE利用预先训练的点嵌入作为平均值μ\muμ，只学习每个样本的不确定性σ\sigmaσ。（c）我们的方法同时学习σ\sigmaσ和μ\muμ，使得μ\muμ在潜在空间具有更好的类内紧性和类间可分性。不同的类被标记为蓝色或红色。

概率人脸嵌入（PFE）[35]是在人脸识别中考虑数据不确定性的第一项工作。对于每个样本，它在潜在空间中估计高斯分布，而不是不动点。具体来说，是预先训练过的FR模型中，每个样本的高斯均值是固定的，作为FR模型产生的嵌入。在FR模型中添加一个额外的分支，训练让它估计方差。训练是由一种新的相似度量，即mutual likelihood score或MLS来驱动的，它衡量两个高斯分布之间的 “似然”。结果表明，PFE对高质量样本的方差估计较小，而对噪声样本的方差估计较大。结合MLS度量，PFE可以减少噪声样本的不匹配。如图1 (b)所示。虽然PFE是有效的，但它的局限性在于它没有学习嵌入的特征（平均值），而只是学习不确定性。因此，不确定性如何影响特征学习还不清楚。此外，不能使用传统的相似性度量，如余弦距离。需要更复杂的MLS度量，这需要更多的运行时间和内存。

本文首次将数据不确定性学习（DUL）应用到人脸识别中，实现了特征（均值）和不确定性（方差）的同时学习。如图1（c）所示，这改进了特征，使得同一类中的实例更加紧凑，不同类中的实例更加分离。在这种情况下，所学习的特征可直接用于传统的相似性度量。不再需要MLS度量。

具体来说，我们提出了两种学习方法。首先是基于分类的。它从零开始学习模型。第二种是基于回归的。它改进了现有的模型，类似于PFE。我们从图像噪声的角度出发，讨论学习的不确定性如何影响两种方法的模型训练。我们提供了深刻的分析，学习到的不确定性将通过自适应地减少噪声训练样本的不利影响来改善身份嵌入的学习。

综合实验表明，我们提出的方法在大多数公共基准上比现有的确定性模型和PFE提高了人脸识别性能。在低质量人脸图像的基准上，改进较为显著，说明数据不确定性学习的模型更适合无约束的人脸识别场景，因此对实际任务具有重要意义。

2. Related Work

不确定性在深度学习中的性质以及如何处理这些不确定性一直被广泛研究，以帮助解决可靠性评估和基于风险的决策问题[9，31，8]。近年来，不确定性在深度学习中越来越受到重视。许多技术被提出来研究不确定性在深层神经网络中的具体表现[3，10，11，22]。具体到深度不确定性学习，不确定性可以分为捕捉深度神经网络中参数噪声的模型不确定性和测量给定训练数据固有噪声的数据不确定性。最近，许多计算机视觉任务，即语义分割[19,21],对象检测[6,25]和行人重识别[50]，都将深度不确定性学习引入CNN，以提高模型的鲁棒性和可解释性。在人脸识别任务中，人们提出了一些利用模型不确定性来分析和学习人脸表示的工作[13，51，23]。其中PFE[35]是第一个在人脸识别任务中考虑数据不确定性的工作。

噪声数据训练大规模的数据集，即CASIAWebFace[47]、Vggface2[5]和MS-Celeb-1M[14]，在人脸识别的深度CNN训练中发挥了重要作用。这些在线收集的人脸数据集不可避免地有很多标签噪声–样本被错误地赋予了数据集内其他类的标签。一些作品探讨了标签噪声的影响[39]以及如何在这种情况下训练鲁棒的FR模型[17，44，29]。u等人。Yu等[50]在人Re-ID中称，由劣质图像带来的另一图像噪声也对所训练的模型产生不利影响。我们的方法并不是专门针对含噪数据训练而提出的，但是我们从图像噪声的角度对学习到的数据不确定性对模型训练的影响进行了深入的分析。此外，我们通过实验证明了所提出的方法在噪声数据集上的表现更为稳健。

图2：（a）。观察到的数据对中的目标y（红点）被x相关的噪声破坏。数据不确定性回归会给我们提供超出特定预测值（绿线）的 “噪声水平”（绿影）。(b): 每一行都有标有相同ID的样本。与其他类内样本相比，带红框的样本被认为是噪声数据。最好用彩色的方式观看。

3. Methodology

在3.1节中，我们首先揭示了连续映射空间和我们特定的人脸数据集中固有的数据不确定性。在3.2节中，我们提出DULclsDUL_{cls}DULcls来考虑标准人脸分类模型中的数据不确定性学习。接下来我们在3.3节中提出另一种基于回归的方法DULrgsDUL_{rgs}DULrgs来改进现有的确定性模型。最后，在3.4节中，我们将阐明所提出的方法与现有工作之间的一些差异。

3.1. Preliminaries

Uncertainty in Continuous Mapping Space 假设一个连续的映射空间X→Y\mathcal{X}\rightarrow\mathcal{Y}X→Y，其中yi∈Yy_i\in\mathcal{Y}yi∈Y被一些输入相关的噪声n(xi),xi∈Xn(\mathbf{x_i}),\mathbf x_i\in\mathcal Xn(xi),xi∈X干扰，然后我们说这个映射空间本身带有数据的不确定性。考虑到一个简单的情况，噪声是加性的，服从高斯分布，其平均值为零，方差与x有关。那么每个观测目标yi=f(xi)+ϵσ(xi)y_i=f(\mathbf{x_i})+\epsilon\sigma(\mathbf x_i)yi=f(xi)+ϵσ(xi)，其中$\epsilon\sim \mathcal{N}(0,1) $ 且f(⋅)f(\cdot)f(⋅)就是我们要找的嵌入函数。传统的回归模型只训练给定输入xi\mathbf{x}_ixi的f(xi)f(\mathbf x_i)f(xi)近似。然而，采用数据不确定性学习的回归模型还可以估计出σ(xi)\sigma(\mathbf x_i)σ(xi)表示预测值f(xi)的不确定性(图2，(a))。这项技术已经被许多任务使[22,4,30,12,2]。

Uncertainty in Face Datasets 与上面的继续映射空间类似，用X→Y\mathcal{X}\rightarrow\mathcal{Y}X→Y组成的人脸数据集也带有数据的不确定性。这里X是连续的图像空间，而Y是离散的标识标签。通常情况下，网上收集到的大量人脸图像在视觉上是模糊的（排列不整齐(未对齐)、严重模糊或遮挡）。很难从训练集中筛选出这些质量较差的样本(图2，(b))。在深度学习时代，每个样本都被表示为一个嵌入在潜在空间中的zi\mathbf z_izi。如果我们假设每一个xi∈X\mathbf x_i\in\mathcal Xxi∈X 有一个理想嵌入f(xi)f(\mathbf x_i)f(xi)主要表示其身份，较少受xi\mathbf x_ixi中任何身份无关信息的影响，然后DNNs预测的嵌入可以重新表示为zi=f(xi)+n(xi)\mathbf z_i=f(\mathbf x_i)+n(\mathbf x_i)zi=f(xi)+n(xi)式中，n(xi)n(\mathbf x_i)n(xi)为 xi\mathbf x_ixi在嵌入空间中的不确定性信息。

3.2. Classificationbased DUL for FR

我们提出了DULclsDUL_{cls}DULcls 首先将数据不确定性学习引入到人脸分类模型中，然后进行端到端训练。

Distributional Representation 具体来说，我们将每个样本xi\mathbf x_ixi的潜在空间中的表示zi\mathbf z_izi定义为高斯分布，

p(zi∣xi)=N(zi;μiσi2I)p(\mathbf z_i|\mathbf x_i)=\mathcal N(\mathbf z_i;\mu_i\sigma^2_i\mathbf I)p(zi∣xi)=N(zi;μiσi2I) (1)

其中高斯分布的两个参数（平均值和方差）都依赖于输入，由CNNs预测：μi=fθ1(xi),σi=fθ2(xi)\mu_i=f_{\theta_1}(\mathbf x_i),\sigma_i=f_{\theta_2}(\mathbf x_i)μi=fθ1(xi),σi=fθ2(xi)，其中θ1,θ2\theta_1,\theta_2θ1,θ2分别是与输出μi,σi\mu_i,\sigma_iμi,σi相关的参数。这里我们回顾一下，预测的高斯分布是对角多变量正态分布。μi\mu_iμi可以看作是人脸的身份特征，σi\sigma_iσi是关于μi\mu_iμi的不确定性。现在，每个样本的表征不再是确定性的点嵌入，而是从潜伏空间中由N(zi;μiσi2I)\mathcal N(\mathbf z_i;\mu_i\sigma^2_i\mathbf I)N(zi;μiσi2I) 抽样的随机嵌入。然而，在模型训练过程中，抽样操作并不是可微的，从而阻碍了梯度流的反向传播。我们使用重参数化技巧[24]，让模型仍然像往常一样采取梯度。具体来说，我们首先从一个独立于模型参数的正态分布中采样一个随机噪声，然后生成si\mathbf s_isi作为等效采样表示（见图3的概述pipeline）。

si=μi+ϵσi,ϵ∈N(0,I)\mathbf s_i=\mu_i+\epsilon\sigma_i,\epsilon\in\mathcal N(\mathbf 0,\mathbf I)si=μi+ϵσi,ϵ∈N(0,I) (2)

Classification Loss 由于si\mathbf s_isi 是每个图像xi\mathbf x_ixi 的最终表示，我们将其送进给分类器，以最小化下面的softmax损失。

Lsoftma=1NΣiN−logeWyisiΣcCewcsi\mathcal L_{softma}=\frac{1}{N}\Sigma^N_i-log\frac{e^{\mathbf W_{y_i}\mathbf s_i}}{\Sigma^C_ce^{\mathbf w_cs_i}}Lsoftma=N1ΣiN−logΣcCewcsieWyisi (3)

在实践中，我们使用的Lsoftma\mathcal L_{softma}Lsoftma不同变体，如additive margin[40]、特征l2归一化[32]和arcface [7]，来训练我们的人脸分类模型。

KL-Divergence Regularization 式2表示，在训练期间，所有的身份嵌入μi\mu_iμi 都被σi\sigma_iσi破坏了。这将促使模型对所有样本预测小σ\sigmaσ ，以抑制si\mathbf s_isi中的不稳定成分，使公式3最后仍能收敛。在这种情况下，随机表示可以重写为si=μi+c\mathbf s_i=\mathbf \mu_i+csi=μi+c，这实际上是退化到原来的确定性表示。受variationali nformation bottlenec启发，我们在优化过程中引入了一个正则化项，显式约束N(μi,σi)\mathcal N(\mu_i,\sigma_i)N(μi,σi)接近正态分布，N(0,I)\mathcal N(\mathbf 0,\mathbf I)N(0,I)由这两种分布之间的Kullback-Leibler散度(KLD)测量。KLD式子为：

注意到Lkl\mathcal L_{kl}Lkl在σi(l)∈(0,1)\sigma_i^{(l)}\in(0,1)σi(l)∈(0,1)限制条件下是单调递减的(l为嵌入的第l维)。具体来说，DULclsDUL_{cls}DULcls不鼓励预测所有样本的大方差，这可能导致μi\mu_iμi 表达能力奔溃，导致Lsoftmax\mathcal L_{softmax}Lsoftmax难以收敛。同时，DULclsDUL_{cls}DULcls也不鼓励预测所有样本的较低方差，这可能会导致较大的Lkl\mathcal L_{kl}Lkl反过来惩罚模型。

最后，我们用Lcls=Lsoftmax+λLkl\mathcal L_{cls}=\mathcal L_{softmax}+\lambda\mathcal L_{kl}Lcls=Lsoftmax+λLkl作为损失函数。λ\lambdaλ为权衡超参数，在4.6节将进一步分析。

3.3. Regressionbased DUL for FR

DULclsDUL_{cls}DULcls是一个具有数据不确定性学习的通用分类模型。接下来我们提出了另一种基于回归的方法DULrgsDUL_{rgs}DULrgs ，通过数据不确定性学习改进现有的FR模型。

Difficulty of Introducing Data Uncertainty Regression to FR

DULrgsDUL_{rgs}DULrgs的灵感来自于第3.1节所述的连续映射空间X→Y\mathcal{X}\rightarrow\mathcal{Y}X→Y的数据不确定性回归[26，22]。然而，人脸数据集中的映射空间是由连续的图像空间X\mathcal XX和离散的身份标签Y\mathcal YY 构建的，无法通过数据不确定性回归直接拟合。关键点在于，身份标签yc∈Yy_c\in\mathcal Yyc∈Y不能作为继续目标向量来近似。这个困难在PFE[35]中也有提到，但没有解决。

图4：DULrgsDUL_{rgs}DULrgs模型概述。卷积层中的所有参数都是通过确定性FR模型进行预训练，并在DULrgs的训练过程中固定下来。

Constructing New Mapping Space for FR 我们为人脸数据构建了一个新的目标空间，它是连续的。最重要的是，它几乎等同于原来的离散目标空间Y ，这鼓励了正确的映射关系。具体来说，我们预先训练一个基于分类的确定性FR模型，然后利用其分类器层中的权重W∈RD×C\mathcal W \in \mathbb{R}^{D\times C}W∈RD×C作为预期的目标向量。因为每个wi∈W\mathbf w_i\in \mathcal Wwi∈W都可以被视为具有相同类的嵌入的中心。因此{X,W}\{\mathcal X,\mathcal W\}{X,W}可以认为是新的等价映射空间。与第3.1节中描述的连续映射空间中的不确定性相似，{X,W}\{\mathcal X,\mathcal W\}{X,W}具有固有的噪声。我们可以用公式表示映射xi∈X→wi∈W，wi=f(xi)+n(xi)\mathbf x_i\in \mathcal X\rightarrow\mathbf w_i\in \mathcal W，\mathbf w_i=f(\mathbf x_i)+n(\mathbf x_i)xi∈X→wi∈W，wi=f(xi)+n(xi) 。

Distributional Representation 接下来我们可以通过数据不确定度回归来估计上面的f(xi)f(\mathbf x_i)f(xi)和n(xi)n(\mathbf x_i)n(xi) 。具体来说，假设似然为高斯分布:p(zi∣xi)=N(zi;μ,σi2I)p(\mathbf z_i|\mathbf x_i)=\mathcal N(\mathbf z_i;\mu,\sigma_i^2\mathbf I)p(zi∣xi)=N(zi;μ,σi2I)，其中μi\mathbf \mu_iμi 和σi\sigma_iσi 也是由神经网络中权重的参数化（见图4）μi≈f(xi),σi≈n(xi)\mu_i\approx f(\mathbf x_i),\sigma_i\approx n(\mathbf x_i)μi≈f(xi),σi≈n(xi)。如果我们以每个wc\mathbf w_cwc为目标，我们应该最大化每个xi\mathbf x_ixi 的下列似然:

实际上，我们用对数似然法，

假设xi,i∈1,2,...\mathbf x_i,i\in1,2,...xi,i∈1,2,...是独立同分布的，所以数据点的似然是∏c∏ilnp(xc∣xi∈c,θ)\prod_c\prod_iln p(\mathbf x_c|\mathbf x_{i\in c},\theta)∏c∏ilnp(xc∣xi∈c,θ)。实际上，我们训练网络来预测log方差，ri:=lnσi2\mathbf r_i:=ln\sigma^2_iri:=lnσi2，在随机优化过程中稳定数值。最后，将似然最大化重新表述为成本函数的最小化。

其中，D、N和l分别指嵌入维度的大小、数据点的大小和每个特征向量的第l维。在优化过程中我们省略了常数项D2ln2π\frac{D}{2}ln2\pi2Dln2π。

Loss Attenuation Mechanism 通过定性分析等式6，我们的学习方差σi\sigma_iσi实际上可以看作是测量学习身份嵌入的置信度的不确定度得分。具体来说，对于那些位于远离其类中心wc\mathbf w_cwc 的模糊μi\mu_iμi ，DULrgsDUL_{rgs}DULrgs会估计大的方差(wc−μ)22σ2\frac{(\mathbf w_c-\mu)^2}{2\sigma^2}2σ2(wc−μ)2来缓和误差项。而不是对这些有噪声的样本进行过拟合。DULrgsDUL_{rgs}DULrgs不鼓励预测所有样本的大方差，这可能会导致(wc−μ)2(\mathbf w_c-\mu)^2(wc−μ)2的拟合不足，较大的logσlog\sigmalogσ项会反过来惩罚模型。同时,DULrgsDUL_{rgs}DULrgs也不鼓励预测所有样本的极小方差,这可能会导致误差项的指数增加。因此，公式6允许DULrgsDUL_{rgs}DULrgs调整误差项的权重。这使得模型学会衰减那些由模糊的质量差的样本μi\mu_iμi 引起的影响。

3.4. Discussion of RelatedWorks

首先讨论了DULcls与variational information bottleneck[1]之间的关系。VIB[1]是在深度学习框架下对 information bottleneck（IB）原理的变分逼近。VIB寻求从输入数据X到潜在表示Z的随机映射，在使Z尽可能简洁但仍有足够的能力预测标签Y之间进行基本权衡[38]。值得注意的是，Lcls\mathcal L_{cls}Lcls与VIB中的目标函数相似。然而，我们从数据不确定性的角度分析了这种分类方法，而VIB则从信息瓶颈的角度导出了这种目标函数。

接下来我们澄清一下DULrgsDUL_{rgs}DULrgs和PFE的一些区别[35]。虽然PFE和DULrgsDUL_{rgs}DULrgs都将输入不确定度正式编码为方差表示。然而,PFE本质上是衡量每个positive对{xi,xj}\{\mathbf x_i,\mathbf x_j\}{xi,xj}共享同一潜在嵌入的似然:p(zi=zj)p(\mathbf z_i=\mathbf z_j)p(zi=zj)。而DULrgsDUL_{rgs}DULrgs将传统的最小平方回归技术解释为最大似然估计与数据不确定性回归模型。最后，DULclsDUL_{cls}DULcls和DULrgsDUL_{rgs}DULrgs都学习了身份表征μ\muμ 以及不确定性表征σ\sigmaσ ，这保证了我们的预测μ\muμ 可以直接用常用的匹配度量来评估。然而，由于PFE中没有学习身份表示，所以PFE必须使用互似性得分（MLS）作为匹配度量来提高确定性模型的性能。

4. Experiments

在本节中，我们首先在标准的人脸识别基准上评估所提出的方法。然后我们进行定性和定量分析，探讨学习到的数据不确定性的意义是什么，以及数据不确定性学习如何影响FR模型的学习。最后，我们在有噪声的MS-Celeb-1M数据集上进行实验，证明我们的方法比确定性方法表现得更加稳健。

4.1. Datasets and Implementation Details

**Datasets ** 我们使用MS-Celeb-1M数据集，其中包含79,891个id的3,648,176张图像作为训练集。2个基准包括LFW[18]和MegaFace[20]5，3个无约束基CFP[34]6、YTF[43]和IJB-C[28],都是按照标准评价协议来评价DULcls/rgsDUL_{cls/rgs}DULcls/rgs的性能。

Architecture 我们在ResNet[15]骨干上用SE-block[16]训练基线模型。基线模型的负责人是： BackBone-Flatten-FC-BN，嵌入尺寸为512，dropout 概率为0.4，以输出嵌入特征。与基线模型相比，DULclsDUL_{cls}DULcls多了一个头部分支，共享相同的架构来输出方差。DULrgsDUL_{rgs}DULrgs也增设了一个总分支机构，而其架构是： BackBone-Flatten-FC-BN-ReLU-FC-BN-exp，输出方差。

Training 所有基线模型和DULclsDUL_{cls}DULcls模型使用SGD优化器进行21万步的训练，动量为0.9，权重衰减为0.0001，批次大小为512。我们采用三角学习率策略[36]，最大lr为0.1，基数lr为0。对于大多数DULclsDUL_{cls}DULcls模型，我们设置权衡超参数为0.01。对于所提出的DULrgs，我们首先对基线模型进行21万步的训练，然后在所有卷积层中固定参数（step1）。然后我们从头开始训练均值分支以及方差分支，额外训练140,000步，批次大小为256步（步骤2）。在步骤2中，我们设置学习速率从0.01开始，然后在56,000和84,000步时降低到0.001和0.0001。

4.2. Comparing DUL with Deterministic Baselines

在这部分中，所有的基线模型都是用ResNet18主干[15]训练的，配备了不同变体的softmax损失，即AM-Softmax[40]、ArcFace[7]和L2-Softmax[32]。在训练过程中，嵌入特征和分类器中的权重都是l2归一化的.我们提出的DULclsDUL_{cls}DULcls模型是用相同的骨干和损失函数来训练的。我们提出的DULrgsDUL_{rgs}DULrgs模型是基于不同的预训练基线模型进行训练的，如4.1节所述。

表1报告了基线模型(“Original”)和建议的DUL模型所得到的测试结果，Cosine相似性用于评估。我们提出的方法在大多数基准上优于基线确定性模型7。

这表明所提出的方法在不同的最先进的损失函数上是有效的.这些结果表明，用数据不确定性（μ\muμ 在我们的方法中）训练的身份嵌入（σ\sigmaσ ）是有效的。呈现了更好的类内紧凑性和类间的分离性，比用基线模型，特别是在那些无限制的基准上。

4.4. Comparison with StateOfTheArt

为了与最先进的技术进行比较，我们使用一个更深更强的骨干，ResNet64，在MS-Celeb-1M数据集上用AM-Softmax损失训练，作为我们的基线模型。然后我们按照4.1节中描述的设置来训练所提出的DUL模型。

结果如表2所示。注意到基线模型的性能在LFW和CFP-FP上已经饱和，数据不确定性学习的优点并不明显。不过，DULcls/rgs在YTF和MegaFace9上还是略微提高了精度。表3报告了IJB-C上不同方法的结果。PFE和DUL的性能都比基线模型好得多。

4.5. Understand Uncertainty Learning

What is the meaning of the learned uncertainty? 对于DULcls和DULrgs，估计的不确定性与人脸图像的质量密切相关。这在PFE中也能观察到[35]。为了可视化，我们在图6中显示了不同数据集的学习不确定性10。

结果表明，学习的不确定性随着图像质量的下降而增加。这种学习的不确定性可以被看作是模型估计的相应身份嵌入的质量，衡量的是预测的人脸表征与其潜在空间中真实(或真实)点位置的接近程度。

因此，在数据不确定性学习的情况下，人脸识别有两个优势。首先，可以利用学到的方差作为 “风险指示器”，当估计的方差非常高时，可以提醒FR系统的输出决策是不可靠的。其次，学习到的方差也可以作为图像质量评估的衡量标准.在这种情况下，我们注意到没有必要像以前那样训练一个单独的质量评估模型，它需要明确的质量标签。

How the learned uncertainty affect the FR model?

在这部分中，我们试图对学习到的数据不确定性如何影响模型训练并帮助获得更好的特征嵌入的机制进行一些说明。

我们将MS-Celeb-1M数据集中的训练样本按照DULcls估计不确定度的高低分为三类：低方差的易样本、中方差的半难样本和大方差的难样本。我们分别计算了基线模型和我们的DULcls产生的三类错误分类样本占所有错误分类样本的比例。图 7 说明，与基线模型相比，我们的 DULcls 在简单样本和半困难样本上引起的坏例相对较少。然而，对于那些具有极端噪声的硬样本，与DULcls相比，基线模型产生的坏情况较少。这说明数据不确定性学习的FR网络更关注那些应该正确分类的训练样本，同时 "放弃 "那些不利样本，而不是过度拟合。这支持了我们之前在3.2节的讨论。

我们也对DULrgs进行类似的实验。我们分别计算基线模型和DULrgs的类中心wc\mathbf w_cwc和其类内估计身份嵌入μi∈c\mu_{i\in c}μi∈c之间的平均欧氏距离。如图8所示，DULrgs将容易和半硬的样品拉近到它们的类中心，同时将那些硬的样品推远。这也支持我们在第3.3节中的讨论，即通过自适应加权机制w.r.t σ\sigmaσ ，Eq.6有效地防止了模型在极度噪声样本上的过度拟合。

最后，我们手动构建了不同模糊度的冒牌货/真货测试对，以比较基线模型和我们的方法分别得到的余弦相似度。如图9所示，随着模糊度的增加，基线模型和DUL都迅速恶化。然而,与基线模型相比,我们提出的DUL在真品对的相似度得分较高,而在假品对的相似度得分较低,说明它的鲁棒性更强。

模型在极度噪声样本上的过度拟合。