【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

1 介绍

  • 人脸识别,可以归结为单位长度特征向量的有监督分类或无监督聚类,其距离可以简单地通过角度计算,即余弦距离
  • [45、10、47、51]:对最终特征向量进行统一规范化,在简单的softmax损失之外,提供额外或增强的监督信号,以进一步实现区分学习,即压缩类内实例,同时排斥类间实例,从而提高了最终的识别精度。——理论上并不清楚
  • 单位长度归一化特征向量是方向特征,它只保留数据特征的方向作为鉴别信息,而忽略其大小。在这种情况下,简单的角度测量,例如余弦距离,可以用作两个数据点的不相似性测量,并提供非常直观的相似性几何解释。
  • 统计混合模型(MM)是执行概率聚类的常用方法,该聚类假设了一个生成模型,即每个观测都是概率分布有限混合的样本。我们采用MM的理论概念来表示深层特征。
  • 本文将深度神经网络(例如基于CNN的神经网络)提供的(深度)特征建模为von Mises Fisher分布的混合,也称为vMF混合模型(vMFMM)。von Mises Fisher(vMF)是一种基本概率分布,已成功地用于无监督分类里。在将此vMFMM与深度神经网络相结合时,我们导出了一个新的损失函数,即vMF混合损失(vMFML),它能够实现区分学习。
  1. 特征表示模型
  • 基于具有方向分布的统计有限混合模型
  1. 方向特征表示学习方法vMF-FL
  • 将理论模型与CNN模型相结合
  • 新的损失函数vMFML:其公式与反向传播方法表明,它可以很容易地与任何CNN模型集成。此外,vMFML能够解释不同的损失函数和归一化方法。vMFML不仅解释了参数和特征之间的关系,而且提高了CNN学习任务的效率(更快的收敛)和性能(更好的准确性)。它可以在方向特征假设下用于各种分类任务。
  1. FR任务中好
vMF发展
  • [15] [2] [12]:无监督分类(2017年)

2 相关工作

混合模型MM

[28]:基于神经网络(NN)的方法对混合模型(MM)的研究相对较少

[29]:使用高斯MM(GMM)将深度NN建模为变压器的混合物

[42]:使用了对数线性模型与GMM和NN的概念

[43]:通过他们提出的GMM层学习了区别特征

本文不同之处:

  • 使用方向(单位归一化)特征
  • 使用vMF[25]分布,它更适合于方向特征
  • 特征表示模型基于基于生成模型的[4]概念

具有方向分布的MM
  • 仍然没有被探索来学习辨别特征
  • 本文通过使用vMF分布[25,2]对任务进行建模并将其与CNN模型相结合来探索这一点

损失函数

人脸识别FR
  • 通常,FR方法使用softmax损失来训练CNN作为身份分类器。
  • [47]:中心损失来增强特征识别
  • vMF FL仅通过身份分类学习特征,并且只需要类别标签。

3 方法

1. 统计特征表示模型(SFR)

特征是从概率分布的有限统计混合中发布的,然后,使用变换器将这些特征转换为2D图像空间,具有M类的SFR模型:

SFR⁡(xi∣ΘM)=∑j=1MπjVd(xi∣μj,κj)\operatorname{SFR}\left(\mathbf{x}_i \mid \Theta_M\right)=\sum_{j=1}^M \pi_j V_d\left(\mathbf{x}_i \mid \mu_j, \kappa_j\right) SFR(xi​∣ΘM​)=j=1∑M​πj​Vd​(xi​∣μj​,κj​)

πj:第j类的混合比例\pi_j :第j类的混合比例 πj​:第j类的混合比例

μj:第j类的平均方向\mu_j :第j类的平均方向 μj​:第j类的平均方向

κj:第j类的浓度值\kappa_j :第j类的浓度值 κj​:第j类的浓度值

ΘM:一组模型参数\Theta_M:一组模型参数 ΘM​:一组模型参数

Vd(.):vMF分布的密度函数V_d(.):vMF分布的密度函数 Vd​(.):vMF分布的密度函数

  • 每个类j具有相同的出现概率π,并且分布有相同的浓度值κ——这个假设对于区分学习是重要的,以确保监督分类器不偏向于任何特定类别。

2. vMF特征学习(vMF FL)方法

(1)使用CNN模型将输入2D对象图像映射到vMF特征,我们将其用作变换器

(2)基于SFR模型的区分视图将特征分类到各个类别。

  • 它通过整合SFR和CNN模型来制定优化问题,并通过最小化分类损失来学习参数。

3. vMF混合模型(vMFMM)

Vd(x∣μ,κ)=Cd(κ)exp⁡(κμTx)V_d(\mathbf{x} \mid \mu, \kappa)=C_d(\kappa) \exp \left(\kappa \mu^T \mathbf{x}\right) Vd​(x∣μ,κ)=Cd​(κ)exp(κμTx)

归一化常数:Cd(κ)=κd/2−1(2π)d/2Id/2−1(κ)归一化常数 : C_d(\kappa)=\frac{\kappa^{d / 2-1}}{(2 \pi)^{d / 2} I_{d / 2-1}(\kappa)} 归一化常数:Cd​(κ)=(2π)d/2Id/2−1​(κ)κd/2−1​

μ:均值方向,κ:围绕方向μ的浓度参数\mu : 均值方向,\kappa :围绕方向\mu的浓度参数 μ:均值方向,κ:围绕方向μ的浓度参数

Iρ(.):第一类修正贝塞尔函数,Id(k)=∑k≥01Γ(d+k+1)k!(k2)2k+dI_{\rho}(.) :第一类修正贝塞尔函数, I_{d}(k)=\sum_{k \geq 0} \frac{1}{\Gamma(d+k+1) k !}\left(\frac{k}{2}\right)^{2 k+d} Iρ​(.):第一类修正贝塞尔函数,Id​(k)=k≥0∑​Γ(d+k+1)k!1​(2k​)2k+d

μ=∑ixi∥∑ixi∥,k=Ad−1(Rˉ),Γ(⋅)伽马函数\mu=\frac{\sum{ }_{i} x_{i}}{\left\|\sum_{i} x_{i}\right\|,} \quad k=A_{d}^{-1}(\bar{R}), \Gamma(\cdot)伽马函数 μ=∥∑i​xi​∥,∑i​xi​​k=Ad−1​(Rˉ),Γ(⋅)伽马函数

Ad(k)=−cd′(k)cd(k)=Id/2(k)Id/2−1(k)=∥∑ixi∥n=RˉA_{d}(k)=\frac{-c_{d}^{\prime}(k)}{c_{d}(k)}=\frac{I_{d / 2}(k)}{I_{d / 2-1}(k)}=\frac{\left\|\sum_{i} x_{i}\right\|}{n}=\bar{R} Ad​(k)=cd​(k)−cd′​(k)​=Id/2−1​(k)Id/2​(k)​=n∥∑i​xi​∥​=Rˉ


X={xi}i=1,…,N一组样本,N是样本总数,有M类特征\mathbf{X}=\left\{\mathbf{x}_{i}\right\}_{i=1, \ldots, N} 一组样本, N是样本总数,有M类特征 X={xi​}i=1,…,N​一组样本,N是样本总数,有M类特征

对于每个样本xi:gv(xi∣ΘM)=∑j=1MπjVd(xi∣μj,κj)(前面的SFR)对于每个样本\mathbf{x}_{i} :g_{v}\left(\mathbf{x}_{i} \mid \Theta_{M}\right)=\sum_{j=1}^{M} \pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right) (前面的SFR) 对于每个样本xi​:gv​(xi​∣ΘM​)=j=1∑M​πj​Vd​(xi​∣μj​,κj​)(前面的SFR)

ΘM={(π1,μ1,κ1),…,(πM,μM,κM):参数集\Theta_{M}=\left\{\left(\pi_{1}, \mu_{1}, \kappa_{1}\right), \ldots,\left(\pi_{M}, \mu_{M}, \kappa_{M}\right)\right.:参数集 ΘM​={(π1​,μ1​,κ1​),…,(πM​,μM​,κM​):参数集

πj:第j类的混合比例\pi_j :第j类的混合比例 πj​:第j类的混合比例


期望最大化EM已用于通过最小化负对数似然值来估计vMFMM参数

  • E步骤 :

后验概率:pij=πjVd(xi∣μj,κj)∑l=1MπlVd(xi∣μl,κl)后验概率:p_{i j}=\frac{\pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right)}{\sum_{l=1}^{M} \pi_{l} V_{d}\left(\mathbf{x}_{i} \mid \mu_{l}, \kappa_{l}\right)} 后验概率:pij​=∑l=1M​πl​Vd​(xi​∣μl​,κl​)πj​Vd​(xi​∣μj​,κj​)​

  • M步骤:

参数更新:πj=1N∑i=1Npij,μj=∑i=1Npijxi∑i=1Npij,rˉ=∥μj∥Nπj,μj=μj∥μj∥,κj=rˉd−rˉ31−rˉ2参数更新:\pi_{j}=\frac{1}{N} \sum_{i=1}^{N} p_{i j},\mu_{j}=\frac{\sum_{i=1}^{N} p_{i j} \mathbf{x}_{i}}{\sum_{i=1}^{N} p_{i j}},\bar{r}=\frac{\left\|\mu_{j}\right\|}{N \pi_{j}},\mu_{j}=\frac{\mu_{j}}{\left\|\mu_{j}\right\|},\kappa_{j}=\frac{\bar{r} d-\bar{r}^{3}}{1-\bar{r}^{2}} 参数更新:πj​=N1​i=1∑N​pij​,μj​=∑i=1N​pij​∑i=1N​pij​xi​​,rˉ=Nπj​∥μj​∥​,μj​=∥μj​∥μj​​,κj​=1−rˉ2rˉd−rˉ3​


4. vMFML损失函数和优化

  • vMF FL方法旨在通过最小化分类损失来学习区分特征
  • 将目标设置为最小化由vMFMM引导的交叉熵
  • 将基于SFR模型的等特权假设的后验概率重写为

pij=exp⁡(κμjTxi)∑l=1Mexp⁡(κμlTxi)p_{i j}=\frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)} pij​=∑l=1M​exp(κμlT​xi​)exp(κμjT​xi​)​


  • 损失函数

LvMFML=−∑i=1N∑j=1Myijlog⁡(pij)=−∑i=1Nlog⁡exp⁡(κμjTxi)∑l=1Mexp⁡(κμlTxi)=−∑i=1Nlog⁡ezij∑l=1Mezil[zj=κμjTxi]\mathcal{L}_{v M F M L}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right)=-\sum_{i=1}^{N} \log \frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}=-\sum_{i=1}^{N} \log \frac{e^{z_{i j}}}{\sum_{l=1}^{M} e^{z_{i l}}}\left[z_{j}=\kappa \mu_{j}^{T} \mathbf{x}_{i}\right] LvMFML​=−i=1∑N​j=1∑M​yij​log(pij​)=−i=1∑N​log∑l=1M​exp(κμlT​xi​)exp(κμjT​xi​)​=−i=1∑N​log∑l=1M​ezil​ezij​​[zj​=κμjT​xi​]

yij:真实类概率,若为1,只知道真正的类标签y_{i j}:真实类概率,若为1,只知道真正的类标签 yij​:真实类概率,若为1,只知道真正的类标签

  • Softmax函数

LSoftmax =−∑i=1Nlog⁡exp⁡(wjTfi+bj)∑l=1Mexp⁡(wlTfi+bl)\mathcal{L}_{\text {Softmax }}=-\sum_{i=1}^{N} \log \frac{\exp \left(\mathbf{w}_{j}^{T} \mathbf{f}_{i}+b_{j}\right)}{\sum_{l=1}^{M} \exp \left(\mathbf{w}_{l}^{T} \mathbf{f}_{i}+b_{l}\right)} LSoftmax ​=−i=1∑N​log∑l=1M​exp(wlT​fi​+bl​)exp(wjT​fi​+bj​)​

fi:第i个图像特征,wj:第j类的权重,bj:第j类的偏差\mathbf{f}_{i}:第i个图像特征,\mathbf{w}_{j}:第j类的权重,\mathbf{b}_{j}:第j类的偏差 fi​:第i个图像特征,wj​:第j类的权重,bj​:第j类的偏差

  • 两损失函数差异:
  1. vMFML使用单位规范化特征(规范化特征向量)

x=f∥f∥\mathbf{x}=\frac{\mathbf{f}}{\|\mathbf{f}\|} x=∥f∥f​

  1. 平均参数与softmax权重的关系如下(规范化权重)

μ=w∥w∥\mu=\frac{\mathbf{w}}{\|\mathbf{w}\|} μ=∥w∥w​

  1. 没有偏差b
  2. 它有一个额外的参数κ(乘法标量项替换加性偏差项)

  • 计算vMFML的梯度

∂zj∂κ=μjTx;∂zj∂μjd=κxd;∂zj∂xd=κμjd∂xd∂fd={∂xd∂fd=∥f∥2−fd2∥f∥3=1−xd2∥f∥∂xr∂fd=−fdfr∥f∥3=−xdxr∥f∥∂μd∂wd={∂μd∂wd=∥w∥2−wd2∥w∥3=1−μd2∥w∥∂μr∂wd=−wdwr∥w∥3=−μdμr∥w∥\begin{array}{c} \frac{\partial z_{j}}{\partial \kappa}=\mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial z_{j}}{\partial \mu_{j d}}=\kappa x_{d} ; \quad \frac{\partial z_{j}}{\partial x_{d}}=\kappa \mu_{j d} \\ \frac{\partial x_{d}}{\partial f_{d}}=\left\{\begin{array}{l} \frac{\partial x_{d}}{\partial f_{d}}=\frac{\|\mathbf{f}\|^{2}-f_{d}^{2}}{\|\mathbf{f}\|^{3}}=\frac{1-x_{d}^{2}}{\|\boldsymbol{f}\|} \\ \frac{\partial x_{r}}{\partial f_{d}}=\frac{-f_{d} f_{r}}{\|\mathbf{f}\|^{3}}=\frac{-x_{d} x_{r}}{\|\mathbf{f}\|} \end{array} \quad \frac{\partial \mu_{d}}{\partial w_{d}}=\left\{\begin{array}{l} \frac{\partial \mu_{d}}{\partial w_{d}}=\frac{\|\mathbf{w}\|^{2}-w_{d}^{2}}{\|\mathbf{w}\|^{3}}=\frac{1-\mu_{d}^{2}}{\|\mathbf{w}\|} \\ \frac{\partial \mu_{r}}{\partial w_{d}}=\frac{-w_{d} w_{r}}{\|\mathbf{w}\|^{3}}=\frac{-\mu_{d} \mu_{r}}{\|\mathbf{w}\|} \end{array}\right.\right. \end{array} ∂κ∂zj​​=μjT​x;∂μjd​∂zj​​=κxd​;∂xd​∂zj​​=κμjd​∂fd​∂xd​​={∂fd​∂xd​​=∥f∥3∥f∥2−fd2​​=∥f∥1−xd2​​∂fd​∂xr​​=∥f∥3−fd​fr​​=∥f∥−xd​xr​​​∂wd​∂μd​​={∂wd​∂μd​​=∥w∥3∥w∥2−wd2​​=∥w∥1−μd2​​∂wd​∂μr​​=∥w∥3−wd​wr​​=∥w∥−μd​μr​​​​

∂L∂κ=∑j=1M(pj−yj)μjTx;∂L∂μjd=(pj−yj)κxd∂L∂xd=∑j=1M(pj−yj)κμjd;∂L∂fd=1∥f∥(∂L∂xd−xd∑r∂L∂xrxr)\begin{array}{c} \frac{\partial \mathcal{L}}{\partial \kappa}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial \mathcal{L}}{\partial \mu_{j d}}=\left(p_{j}-y_{j}\right) \kappa x_{d} \\ \frac{\partial \mathcal{L}}{\partial x_{d}}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \kappa \mu_{j d} ; \quad \frac{\partial \mathcal{L}}{\partial f_{d}}=\frac{1}{\|\mathbf{f}\|}\left(\frac{\partial \mathcal{L}}{\partial x_{d}}-x_{d} \sum_{r} \frac{\partial \mathcal{L}}{\partial x_{r}} x_{r}\right) \end{array} ∂κ∂L​=∑j=1M​(pj​−yj​)μjT​x;∂μjd​∂L​=(pj​−yj​)κxd​∂xd​∂L​=∑j=1M​(pj​−yj​)κμjd​;∂fd​∂L​=∥f∥1​(∂xd​∂L​−xd​∑r​∂xr​∂L​xr​)​

5.解释和讨论

  • 平均值(µ):提供了该类的预期表示(例如,平均面部图像)
  • 浓度(κ):(独立计算)表示该类样本内的变化
  • 更高的κ值将使特征更加集中在µ周围,以最小化类内变化(减少样本和平均值的角距离)并最大化类间距离

6. 验证

  • [47]:CNN模型,27卷积,4个池,1个全连接层FC组成。来自FC层的512维输出然后被单位归一化,我们将其视为输入2D图像的期望方向特征表示

  • 预处理——提取特征——计算分数:计算余弦相似度作为分数,并将其与阈值进行比较

4 实验、结果和讨论

数据集
  • LFW:野外人脸识别
  • IJB-A:人脸模板匹配
  • Y ouTube faces:视频人脸匹配
  • CACD:跨年龄人脸匹配

5 总结

  1. 我们使用vMF混合模型作为理论基础,提出了统计特征表示(SFR)模型。
  2. 我们开发了一种有效的方向特征学习方法,称为vMF FL,它构造了一种新的损失函数,称为vMFML。它有几个有趣的特性,例如:(a)学习辨别特征;(b) 包含不同的损失函数和归一化技术,以及(c)解释参数和对象特征之间的关系。
展望未来

(a)使用学习模型来合成保持身份的人脸并增强训练数据集;

(b)利用生成性对抗网络探索SFR模型

(c)将其应用于其他视觉任务(例如场景分析)、其他域(例如NLP、语音分析)和其他任务(例如聚类)。此外,通过忽略平等特权假设,可以进一步分析类/集群的变化,这对于无监督问题很有意义。


【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification相关推荐

  1. 【论文笔记】(JSMA)The Limitations of Deep Learning in Adversarial Settings

    引流:https://www.cnblogs.com/setdong/p/16414390.html 本文是早期的对抗文章,发表于 EuroS&P 2016会议,最主要的工作是:提出了一个生成 ...

  2. 【论文笔记】Towards Privacy-Preserving Affect Recognition: A Two-Level Deep Learning Architecture

    摘要 使用图像和计算机视觉自动理解和识别人类情感状态可以改善人-机算计交互和人-机器人交互.然而,隐私已成为一个备受关注的问题,因为在此过程中可能会暴露用于训练情感模型的人的身份.例如,怀有恶意的人可 ...

  3. 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning

    论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...

  4. 李弘毅机器学习笔记:第十二章—Recipe of Deep Learning

    李弘毅机器学习笔记:第十二章-Recipe of Deep Learning 神经网络的表现 如何改进神经网络? 新的激活函数 梯度消失 怎么样去解决梯度消失? Adaptive Learning R ...

  5. 【论文笔记】Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized

    论文 论文题目:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personaliz ...

  6. 【论文笔记8】Tree-Structured Neural Topic Model (分层神经主题模型 / TSNTM)

    Tree-Structured Neural Topic Model 树结构的神经主题模型 论文概述 题目:Tree-Structured Neural Topic Model 作者:Masaru I ...

  7. 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour

    360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...

  8. 【论文笔记】(VC)《Combining Progressive Rethinking and Collaborative Learning: ... for In-Loop filtering》

    <Combining Progressive Rethinking and Collaborative Learning: A Deep Framework for In-Loop Filter ...

  9. 论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic

    前言:不知道你是否被这张实验效果图所震撼?Yes, I do. 那么他是怎么做到的呢?本文提出了一种给灰度图像自动上色的框架,结合了图像的局部和全局先验知识 (both global priors a ...

最新文章

  1. 1.怎么判断 float a 是 0?
  2. 自己抽取的柱状图MpAndroidChart
  3. BAT人脸识别功能第二步-人脸检测
  4. LeetCode 1679. K 和数对的最大数目(哈希)
  5. 表格打印没有左边线_office办公软件Excel表格的打印技巧,建议收藏
  6. C语言 strcspn函数实现
  7. React中组件间通信的方式
  8. 《深入理解 Spring Cloud 与微服务构建》第四章 Dubbo
  9. lms算法的verilog实现_数字通信同步技术的MATLAB与FPGA实现
  10. JsonConfig处理日期时间
  11. pdf转chm_PDF转Excel的小妙招!
  12. Ubuntu怎么从图形桌面切换到命令行界面
  13. 以编程会安全,以安全辅未来——2017看雪安全开发者峰会 强势来袭!
  14. 第四周项目3--单链表应用之逆置
  15. 《我是谁:没有绝对安全的系统》观影感受
  16. css中图片不清晰解决方法
  17. [solved] login to server failed: EOF
  18. 效率神器 SCons 构建工具
  19. centos7升级内核重启问题:you need to load the kernel first
  20. 82.使用vue后怎么针对搜索引擎做SEO优化?

热门文章

  1. 大数据商机VS个人隐私 车联网的攻与守
  2. 锂电池相关参数及其使用指导
  3. 途虎养车产品经理面试(魔幻)
  4. 无法启用网络发现和文件共享或共享无法访问
  5. mdx格式的词典用什么软件打开_欧路词典包资源及使用教程
  6. Oracle 的SQL*LOADER中optionally enclosed的作用
  7. 前端自动化测试基础-sinon篇章
  8. LINUX内核内存屏障
  9. JAVA idea建包的时候com.不分开
  10. 在html文字下标标记,在HTML中,下面( )标记可将所修饰的文本显示为下标。(选一项)...