【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

1 介绍

人脸识别，可以归结为单位长度特征向量的有监督分类或无监督聚类，其距离可以简单地通过角度计算，即余弦距离
[45、10、47、51]：对最终特征向量进行统一规范化，在简单的softmax损失之外，提供额外或增强的监督信号，以进一步实现区分学习，即压缩类内实例，同时排斥类间实例，从而提高了最终的识别精度。——理论上并不清楚
单位长度归一化特征向量是方向特征，它只保留数据特征的方向作为鉴别信息，而忽略其大小。在这种情况下，简单的角度测量，例如余弦距离，可以用作两个数据点的不相似性测量，并提供非常直观的相似性几何解释。
统计混合模型（MM）是执行概率聚类的常用方法，该聚类假设了一个生成模型，即每个观测都是概率分布有限混合的样本。我们采用MM的理论概念来表示深层特征。
本文将深度神经网络（例如基于CNN的神经网络）提供的（深度）特征建模为von Mises Fisher分布的混合，也称为vMF混合模型（vMFMM）。von Mises Fisher（vMF）是一种基本概率分布，已成功地用于无监督分类里。在将此vMFMM与深度神经网络相结合时，我们导出了一个新的损失函数，即vMF混合损失（vMFML），它能够实现区分学习。

特征表示模型

基于具有方向分布的统计有限混合模型

方向特征表示学习方法vMF-FL

将理论模型与CNN模型相结合
新的损失函数vMFML：其公式与反向传播方法表明，它可以很容易地与任何CNN模型集成。此外，vMFML能够解释不同的损失函数和归一化方法。vMFML不仅解释了参数和特征之间的关系，而且提高了CNN学习任务的效率（更快的收敛）和性能（更好的准确性）。它可以在方向特征假设下用于各种分类任务。

FR任务中好

vMF发展

[15] [2] [12]：无监督分类（2017年）

2 相关工作

混合模型MM

[28]：基于神经网络（NN）的方法对混合模型（MM）的研究相对较少

[29]：使用高斯MM（GMM）将深度NN建模为变压器的混合物

[42]：使用了对数线性模型与GMM和NN的概念

[43]：通过他们提出的GMM层学习了区别特征

本文不同之处：

使用方向（单位归一化）特征
使用vMF[25]分布，它更适合于方向特征
特征表示模型基于基于生成模型的[4]概念

具有方向分布的MM

仍然没有被探索来学习辨别特征
本文通过使用vMF分布[25,2]对任务进行建模并将其与CNN模型相结合来探索这一点

损失函数

人脸识别FR

通常，FR方法使用softmax损失来训练CNN作为身份分类器。
[47]：中心损失来增强特征识别
vMF FL仅通过身份分类学习特征，并且只需要类别标签。

3 方法

1. 统计特征表示模型（SFR）

特征是从概率分布的有限统计混合中发布的，然后，使用变换器将这些特征转换为2D图像空间，具有M类的SFR模型：

SFR⁡(xi∣ΘM)=∑j=1MπjVd(xi∣μj,κj)\operatorname{SFR}\left(\mathbf{x}_i \mid \Theta_M\right)=\sum_{j=1}^M \pi_j V_d\left(\mathbf{x}_i \mid \mu_j, \kappa_j\right) SFR(xi∣ΘM)=j=1∑MπjVd(xi∣μj,κj)

πj：第j类的混合比例\pi_j ：第j类的混合比例 πj：第j类的混合比例

μj：第j类的平均方向\mu_j ：第j类的平均方向 μj：第j类的平均方向

κj：第j类的浓度值\kappa_j ：第j类的浓度值 κj：第j类的浓度值

ΘM：一组模型参数\Theta_M：一组模型参数 ΘM：一组模型参数

Vd(.)：vMF分布的密度函数V_d(.)：vMF分布的密度函数 Vd(.)：vMF分布的密度函数

每个类j具有相同的出现概率π，并且分布有相同的浓度值κ——这个假设对于区分学习是重要的，以确保监督分类器不偏向于任何特定类别。

2. vMF特征学习（vMF FL）方法

（1）使用CNN模型将输入2D对象图像映射到vMF特征，我们将其用作变换器

（2）基于SFR模型的区分视图将特征分类到各个类别。

它通过整合SFR和CNN模型来制定优化问题，并通过最小化分类损失来学习参数。

3. vMF混合模型（vMFMM）

Vd(x∣μ,κ)=Cd(κ)exp⁡(κμTx)V_d(\mathbf{x} \mid \mu, \kappa)=C_d(\kappa) \exp \left(\kappa \mu^T \mathbf{x}\right) Vd(x∣μ,κ)=Cd(κ)exp(κμTx)

归一化常数：Cd(κ)=κd/2−1(2π)d/2Id/2−1(κ)归一化常数： C_d(\kappa)=\frac{\kappa^{d / 2-1}}{(2 \pi)^{d / 2} I_{d / 2-1}(\kappa)} 归一化常数：Cd(κ)=(2π)d/2Id/2−1(κ)κd/2−1

μ：均值方向，κ：围绕方向μ的浓度参数\mu ：均值方向，\kappa ：围绕方向\mu的浓度参数 μ：均值方向，κ：围绕方向μ的浓度参数

Iρ(.)：第一类修正贝塞尔函数，Id(k)=∑k≥01Γ(d+k+1)k!(k2)2k+dI_{\rho}(.) ：第一类修正贝塞尔函数， I_{d}(k)=\sum_{k \geq 0} \frac{1}{\Gamma(d+k+1) k !}\left(\frac{k}{2}\right)^{2 k+d} Iρ(.)：第一类修正贝塞尔函数，Id(k)=k≥0∑Γ(d+k+1)k!1(2k)2k+d

μ=∑ixi∥∑ixi∥,k=Ad−1(Rˉ)，Γ(⋅)伽马函数\mu=\frac{\sum{ }_{i} x_{i}}{\left\|\sum_{i} x_{i}\right\|,} \quad k=A_{d}^{-1}(\bar{R})， \Gamma(\cdot)伽马函数 μ=∥∑ixi∥,∑ixik=Ad−1(Rˉ)，Γ(⋅)伽马函数

Ad(k)=−cd′(k)cd(k)=Id/2(k)Id/2−1(k)=∥∑ixi∥n=RˉA_{d}(k)=\frac{-c_{d}^{\prime}(k)}{c_{d}(k)}=\frac{I_{d / 2}(k)}{I_{d / 2-1}(k)}=\frac{\left\|\sum_{i} x_{i}\right\|}{n}=\bar{R} Ad(k)=cd(k)−cd′(k)=Id/2−1(k)Id/2(k)=n∥∑ixi∥=Rˉ

X={xi}i=1,…,N一组样本，N是样本总数，有M类特征\mathbf{X}=\left\{\mathbf{x}_{i}\right\}_{i=1, \ldots, N} 一组样本， N是样本总数，有M类特征 X={xi}i=1,…,N一组样本，N是样本总数，有M类特征

对于每个样本xi：gv(xi∣ΘM)=∑j=1MπjVd(xi∣μj,κj)(前面的SFR)对于每个样本\mathbf{x}_{i} ：g_{v}\left(\mathbf{x}_{i} \mid \Theta_{M}\right)=\sum_{j=1}^{M} \pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right) (前面的SFR) 对于每个样本xi：gv(xi∣ΘM)=j=1∑MπjVd(xi∣μj,κj)(前面的SFR)

ΘM={(π1,μ1,κ1),…,(πM,μM,κM)：参数集\Theta_{M}=\left\{\left(\pi_{1}, \mu_{1}, \kappa_{1}\right), \ldots,\left(\pi_{M}, \mu_{M}, \kappa_{M}\right)\right.：参数集 ΘM={(π1,μ1,κ1),…,(πM,μM,κM)：参数集

πj：第j类的混合比例\pi_j ：第j类的混合比例 πj：第j类的混合比例

期望最大化EM已用于通过最小化负对数似然值来估计vMFMM参数

E步骤：

后验概率：pij=πjVd(xi∣μj,κj)∑l=1MπlVd(xi∣μl,κl)后验概率：p_{i j}=\frac{\pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right)}{\sum_{l=1}^{M} \pi_{l} V_{d}\left(\mathbf{x}_{i} \mid \mu_{l}, \kappa_{l}\right)} 后验概率：pij=∑l=1MπlVd(xi∣μl,κl)πjVd(xi∣μj,κj)

M步骤：

参数更新：πj=1N∑i=1Npij，μj=∑i=1Npijxi∑i=1Npij，rˉ=∥μj∥Nπj，μj=μj∥μj∥，κj=rˉd−rˉ31−rˉ2参数更新：\pi_{j}=\frac{1}{N} \sum_{i=1}^{N} p_{i j}，\mu_{j}=\frac{\sum_{i=1}^{N} p_{i j} \mathbf{x}_{i}}{\sum_{i=1}^{N} p_{i j}}，\bar{r}=\frac{\left\|\mu_{j}\right\|}{N \pi_{j}}，\mu_{j}=\frac{\mu_{j}}{\left\|\mu_{j}\right\|}，\kappa_{j}=\frac{\bar{r} d-\bar{r}^{3}}{1-\bar{r}^{2}} 参数更新：πj=N1i=1∑Npij，μj=∑i=1Npij∑i=1Npijxi，rˉ=Nπj∥μj∥，μj=∥μj∥μj，κj=1−rˉ2rˉd−rˉ3

4. vMFML损失函数和优化

vMF FL方法旨在通过最小化分类损失来学习区分特征
将目标设置为最小化由vMFMM引导的交叉熵
将基于SFR模型的等特权假设的后验概率重写为

pij=exp⁡(κμjTxi)∑l=1Mexp⁡(κμlTxi)p_{i j}=\frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)} pij=∑l=1Mexp(κμlTxi)exp(κμjTxi)

损失函数

LvMFML=−∑i=1N∑j=1Myijlog⁡(pij)=−∑i=1Nlog⁡exp⁡(κμjTxi)∑l=1Mexp⁡(κμlTxi)=−∑i=1Nlog⁡ezij∑l=1Mezil[zj=κμjTxi]\mathcal{L}_{v M F M L}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right)=-\sum_{i=1}^{N} \log \frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}=-\sum_{i=1}^{N} \log \frac{e^{z_{i j}}}{\sum_{l=1}^{M} e^{z_{i l}}}\left[z_{j}=\kappa \mu_{j}^{T} \mathbf{x}_{i}\right] LvMFML=−i=1∑Nj=1∑Myijlog(pij)=−i=1∑Nlog∑l=1Mexp(κμlTxi)exp(κμjTxi)=−i=1∑Nlog∑l=1Mezilezij[zj=κμjTxi]

yij：真实类概率，若为1，只知道真正的类标签y_{i j}：真实类概率，若为1，只知道真正的类标签 yij：真实类概率，若为1，只知道真正的类标签

Softmax函数

LSoftmax =−∑i=1Nlog⁡exp⁡(wjTfi+bj)∑l=1Mexp⁡(wlTfi+bl)\mathcal{L}_{\text {Softmax }}=-\sum_{i=1}^{N} \log \frac{\exp \left(\mathbf{w}_{j}^{T} \mathbf{f}_{i}+b_{j}\right)}{\sum_{l=1}^{M} \exp \left(\mathbf{w}_{l}^{T} \mathbf{f}_{i}+b_{l}\right)} LSoftmax =−i=1∑Nlog∑l=1Mexp(wlTfi+bl)exp(wjTfi+bj)

fi：第i个图像特征，wj:第j类的权重，bj:第j类的偏差\mathbf{f}_{i}：第i个图像特征，\mathbf{w}_{j}:第j类的权重，\mathbf{b}_{j}:第j类的偏差 fi：第i个图像特征，wj:第j类的权重，bj:第j类的偏差

两损失函数差异：

vMFML使用单位规范化特征（规范化特征向量）

x=f∥f∥\mathbf{x}=\frac{\mathbf{f}}{\|\mathbf{f}\|} x=∥f∥f

平均参数与softmax权重的关系如下（规范化权重）

μ=w∥w∥\mu=\frac{\mathbf{w}}{\|\mathbf{w}\|} μ=∥w∥w

没有偏差b
它有一个额外的参数κ（乘法标量项替换加性偏差项）

计算vMFML的梯度

∂zj∂κ=μjTx;∂zj∂μjd=κxd;∂zj∂xd=κμjd∂xd∂fd={∂xd∂fd=∥f∥2−fd2∥f∥3=1−xd2∥f∥∂xr∂fd=−fdfr∥f∥3=−xdxr∥f∥∂μd∂wd={∂μd∂wd=∥w∥2−wd2∥w∥3=1−μd2∥w∥∂μr∂wd=−wdwr∥w∥3=−μdμr∥w∥\begin{array}{c} \frac{\partial z_{j}}{\partial \kappa}=\mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial z_{j}}{\partial \mu_{j d}}=\kappa x_{d} ; \quad \frac{\partial z_{j}}{\partial x_{d}}=\kappa \mu_{j d} \\ \frac{\partial x_{d}}{\partial f_{d}}=\left\{\begin{array}{l} \frac{\partial x_{d}}{\partial f_{d}}=\frac{\|\mathbf{f}\|^{2}-f_{d}^{2}}{\|\mathbf{f}\|^{3}}=\frac{1-x_{d}^{2}}{\|\boldsymbol{f}\|} \\ \frac{\partial x_{r}}{\partial f_{d}}=\frac{-f_{d} f_{r}}{\|\mathbf{f}\|^{3}}=\frac{-x_{d} x_{r}}{\|\mathbf{f}\|} \end{array} \quad \frac{\partial \mu_{d}}{\partial w_{d}}=\left\{\begin{array}{l} \frac{\partial \mu_{d}}{\partial w_{d}}=\frac{\|\mathbf{w}\|^{2}-w_{d}^{2}}{\|\mathbf{w}\|^{3}}=\frac{1-\mu_{d}^{2}}{\|\mathbf{w}\|} \\ \frac{\partial \mu_{r}}{\partial w_{d}}=\frac{-w_{d} w_{r}}{\|\mathbf{w}\|^{3}}=\frac{-\mu_{d} \mu_{r}}{\|\mathbf{w}\|} \end{array}\right.\right. \end{array} ∂κ∂zj=μjTx;∂μjd∂zj=κxd;∂xd∂zj=κμjd∂fd∂xd={∂fd∂xd=∥f∥3∥f∥2−fd2=∥f∥1−xd2∂fd∂xr=∥f∥3−fdfr=∥f∥−xdxr∂wd∂μd={∂wd∂μd=∥w∥3∥w∥2−wd2=∥w∥1−μd2∂wd∂μr=∥w∥3−wdwr=∥w∥−μdμr

∂L∂κ=∑j=1M(pj−yj)μjTx;∂L∂μjd=(pj−yj)κxd∂L∂xd=∑j=1M(pj−yj)κμjd;∂L∂fd=1∥f∥(∂L∂xd−xd∑r∂L∂xrxr)\begin{array}{c} \frac{\partial \mathcal{L}}{\partial \kappa}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial \mathcal{L}}{\partial \mu_{j d}}=\left(p_{j}-y_{j}\right) \kappa x_{d} \\ \frac{\partial \mathcal{L}}{\partial x_{d}}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \kappa \mu_{j d} ; \quad \frac{\partial \mathcal{L}}{\partial f_{d}}=\frac{1}{\|\mathbf{f}\|}\left(\frac{\partial \mathcal{L}}{\partial x_{d}}-x_{d} \sum_{r} \frac{\partial \mathcal{L}}{\partial x_{r}} x_{r}\right) \end{array} ∂κ∂L=∑j=1M(pj−yj)μjTx;∂μjd∂L=(pj−yj)κxd∂xd∂L=∑j=1M(pj−yj)κμjd;∂fd∂L=∥f∥1(∂xd∂L−xd∑r∂xr∂Lxr)

5.解释和讨论

平均值（µ）：提供了该类的预期表示（例如，平均面部图像）
浓度（κ）：（独立计算）表示该类样本内的变化
更高的κ值将使特征更加集中在µ周围，以最小化类内变化（减少样本和平均值的角距离）并最大化类间距离

6. 验证

[47]：CNN模型，27卷积，4个池，1个全连接层FC组成。来自FC层的512维输出然后被单位归一化，我们将其视为输入2D图像的期望方向特征表示

预处理——提取特征——计算分数：计算余弦相似度作为分数，并将其与阈值进行比较

4 实验、结果和讨论

数据集

LFW：野外人脸识别

IJB-A：人脸模板匹配

Y ouTube faces：视频人脸匹配

CACD：跨年龄人脸匹配

5 总结

我们使用vMF混合模型作为理论基础，提出了统计特征表示（SFR）模型。
我们开发了一种有效的方向特征学习方法，称为vMF FL，它构造了一种新的损失函数，称为vMFML。它有几个有趣的特性，例如：（a）学习辨别特征；（b）包含不同的损失函数和归一化技术，以及（c）解释参数和对象特征之间的关系。

展望未来

（a）使用学习模型来合成保持身份的人脸并增强训练数据集；

（b）利用生成性对抗网络探索SFR模型

（c）将其应用于其他视觉任务（例如场景分析）、其他域（例如NLP、语音分析）和其他任务（例如聚类）。此外，通过忽略平等特权假设，可以进一步分析类/集群的变化，这对于无监督问题很有意义。