【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification
【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification
1 介绍
- 人脸识别,可以归结为单位长度特征向量的有监督分类或无监督聚类,其距离可以简单地通过角度计算,即余弦距离
- [45、10、47、51]:对最终特征向量进行统一规范化,在简单的softmax损失之外,提供额外或增强的监督信号,以进一步实现区分学习,即压缩类内实例,同时排斥类间实例,从而提高了最终的识别精度。——理论上并不清楚
- 单位长度归一化特征向量是方向特征,它只保留数据特征的方向作为鉴别信息,而忽略其大小。在这种情况下,简单的角度测量,例如余弦距离,可以用作两个数据点的不相似性测量,并提供非常直观的相似性几何解释。
- 统计混合模型(MM)是执行概率聚类的常用方法,该聚类假设了一个生成模型,即每个观测都是概率分布有限混合的样本。我们采用MM的理论概念来表示深层特征。
- 本文将深度神经网络(例如基于CNN的神经网络)提供的(深度)特征建模为von Mises Fisher分布的混合,也称为vMF混合模型(vMFMM)。von Mises Fisher(vMF)是一种基本概率分布,已成功地用于无监督分类里。在将此vMFMM与深度神经网络相结合时,我们导出了一个新的损失函数,即vMF混合损失(vMFML),它能够实现区分学习。
- 特征表示模型
- 基于具有方向分布的统计有限混合模型
- 方向特征表示学习方法vMF-FL
- 将理论模型与CNN模型相结合
- 新的损失函数vMFML:其公式与反向传播方法表明,它可以很容易地与任何CNN模型集成。此外,vMFML能够解释不同的损失函数和归一化方法。vMFML不仅解释了参数和特征之间的关系,而且提高了CNN学习任务的效率(更快的收敛)和性能(更好的准确性)。它可以在方向特征假设下用于各种分类任务。
- FR任务中好
vMF发展
- [15] [2] [12]:无监督分类(2017年)
2 相关工作
混合模型MM
[28]:基于神经网络(NN)的方法对混合模型(MM)的研究相对较少
[29]:使用高斯MM(GMM)将深度NN建模为变压器的混合物
[42]:使用了对数线性模型与GMM和NN的概念
[43]:通过他们提出的GMM层学习了区别特征
本文不同之处:
- 使用方向(单位归一化)特征
- 使用vMF[25]分布,它更适合于方向特征
- 特征表示模型基于基于生成模型的[4]概念
具有方向分布的MM
- 仍然没有被探索来学习辨别特征
- 本文通过使用vMF分布[25,2]对任务进行建模并将其与CNN模型相结合来探索这一点
损失函数
人脸识别FR
- 通常,FR方法使用softmax损失来训练CNN作为身份分类器。
- [47]:中心损失来增强特征识别
- vMF FL仅通过身份分类学习特征,并且只需要类别标签。
3 方法
1. 统计特征表示模型(SFR)
特征是从概率分布的有限统计混合中发布的,然后,使用变换器将这些特征转换为2D图像空间,具有M类的SFR模型:
SFR(xi∣ΘM)=∑j=1MπjVd(xi∣μj,κj)\operatorname{SFR}\left(\mathbf{x}_i \mid \Theta_M\right)=\sum_{j=1}^M \pi_j V_d\left(\mathbf{x}_i \mid \mu_j, \kappa_j\right) SFR(xi∣ΘM)=j=1∑MπjVd(xi∣μj,κj)
πj:第j类的混合比例\pi_j :第j类的混合比例 πj:第j类的混合比例
μj:第j类的平均方向\mu_j :第j类的平均方向 μj:第j类的平均方向
κj:第j类的浓度值\kappa_j :第j类的浓度值 κj:第j类的浓度值
ΘM:一组模型参数\Theta_M:一组模型参数 ΘM:一组模型参数
Vd(.):vMF分布的密度函数V_d(.):vMF分布的密度函数 Vd(.):vMF分布的密度函数
- 每个类j具有相同的出现概率π,并且分布有相同的浓度值κ——这个假设对于区分学习是重要的,以确保监督分类器不偏向于任何特定类别。
2. vMF特征学习(vMF FL)方法
(1)使用CNN模型将输入2D对象图像映射到vMF特征,我们将其用作变换器
(2)基于SFR模型的区分视图将特征分类到各个类别。
- 它通过整合SFR和CNN模型来制定优化问题,并通过最小化分类损失来学习参数。
3. vMF混合模型(vMFMM)
Vd(x∣μ,κ)=Cd(κ)exp(κμTx)V_d(\mathbf{x} \mid \mu, \kappa)=C_d(\kappa) \exp \left(\kappa \mu^T \mathbf{x}\right) Vd(x∣μ,κ)=Cd(κ)exp(κμTx)
归一化常数:Cd(κ)=κd/2−1(2π)d/2Id/2−1(κ)归一化常数 : C_d(\kappa)=\frac{\kappa^{d / 2-1}}{(2 \pi)^{d / 2} I_{d / 2-1}(\kappa)} 归一化常数:Cd(κ)=(2π)d/2Id/2−1(κ)κd/2−1
μ:均值方向,κ:围绕方向μ的浓度参数\mu : 均值方向,\kappa :围绕方向\mu的浓度参数 μ:均值方向,κ:围绕方向μ的浓度参数
Iρ(.):第一类修正贝塞尔函数,Id(k)=∑k≥01Γ(d+k+1)k!(k2)2k+dI_{\rho}(.) :第一类修正贝塞尔函数, I_{d}(k)=\sum_{k \geq 0} \frac{1}{\Gamma(d+k+1) k !}\left(\frac{k}{2}\right)^{2 k+d} Iρ(.):第一类修正贝塞尔函数,Id(k)=k≥0∑Γ(d+k+1)k!1(2k)2k+d
μ=∑ixi∥∑ixi∥,k=Ad−1(Rˉ),Γ(⋅)伽马函数\mu=\frac{\sum{ }_{i} x_{i}}{\left\|\sum_{i} x_{i}\right\|,} \quad k=A_{d}^{-1}(\bar{R}), \Gamma(\cdot)伽马函数 μ=∥∑ixi∥,∑ixik=Ad−1(Rˉ),Γ(⋅)伽马函数
Ad(k)=−cd′(k)cd(k)=Id/2(k)Id/2−1(k)=∥∑ixi∥n=RˉA_{d}(k)=\frac{-c_{d}^{\prime}(k)}{c_{d}(k)}=\frac{I_{d / 2}(k)}{I_{d / 2-1}(k)}=\frac{\left\|\sum_{i} x_{i}\right\|}{n}=\bar{R} Ad(k)=cd(k)−cd′(k)=Id/2−1(k)Id/2(k)=n∥∑ixi∥=Rˉ
X={xi}i=1,…,N一组样本,N是样本总数,有M类特征\mathbf{X}=\left\{\mathbf{x}_{i}\right\}_{i=1, \ldots, N} 一组样本, N是样本总数,有M类特征 X={xi}i=1,…,N一组样本,N是样本总数,有M类特征
对于每个样本xi:gv(xi∣ΘM)=∑j=1MπjVd(xi∣μj,κj)(前面的SFR)对于每个样本\mathbf{x}_{i} :g_{v}\left(\mathbf{x}_{i} \mid \Theta_{M}\right)=\sum_{j=1}^{M} \pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right) (前面的SFR) 对于每个样本xi:gv(xi∣ΘM)=j=1∑MπjVd(xi∣μj,κj)(前面的SFR)
ΘM={(π1,μ1,κ1),…,(πM,μM,κM):参数集\Theta_{M}=\left\{\left(\pi_{1}, \mu_{1}, \kappa_{1}\right), \ldots,\left(\pi_{M}, \mu_{M}, \kappa_{M}\right)\right.:参数集 ΘM={(π1,μ1,κ1),…,(πM,μM,κM):参数集
πj:第j类的混合比例\pi_j :第j类的混合比例 πj:第j类的混合比例
期望最大化EM已用于通过最小化负对数似然值来估计vMFMM参数
- E步骤 :
后验概率:pij=πjVd(xi∣μj,κj)∑l=1MπlVd(xi∣μl,κl)后验概率:p_{i j}=\frac{\pi_{j} V_{d}\left(\mathbf{x}_{i} \mid \mu_{j}, \kappa_{j}\right)}{\sum_{l=1}^{M} \pi_{l} V_{d}\left(\mathbf{x}_{i} \mid \mu_{l}, \kappa_{l}\right)} 后验概率:pij=∑l=1MπlVd(xi∣μl,κl)πjVd(xi∣μj,κj)
- M步骤:
参数更新:πj=1N∑i=1Npij,μj=∑i=1Npijxi∑i=1Npij,rˉ=∥μj∥Nπj,μj=μj∥μj∥,κj=rˉd−rˉ31−rˉ2参数更新:\pi_{j}=\frac{1}{N} \sum_{i=1}^{N} p_{i j},\mu_{j}=\frac{\sum_{i=1}^{N} p_{i j} \mathbf{x}_{i}}{\sum_{i=1}^{N} p_{i j}},\bar{r}=\frac{\left\|\mu_{j}\right\|}{N \pi_{j}},\mu_{j}=\frac{\mu_{j}}{\left\|\mu_{j}\right\|},\kappa_{j}=\frac{\bar{r} d-\bar{r}^{3}}{1-\bar{r}^{2}} 参数更新:πj=N1i=1∑Npij,μj=∑i=1Npij∑i=1Npijxi,rˉ=Nπj∥μj∥,μj=∥μj∥μj,κj=1−rˉ2rˉd−rˉ3
4. vMFML损失函数和优化
- vMF FL方法旨在通过最小化分类损失来学习区分特征
- 将目标设置为最小化由vMFMM引导的交叉熵
- 将基于SFR模型的等特权假设的后验概率重写为
pij=exp(κμjTxi)∑l=1Mexp(κμlTxi)p_{i j}=\frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)} pij=∑l=1Mexp(κμlTxi)exp(κμjTxi)
- 损失函数
LvMFML=−∑i=1N∑j=1Myijlog(pij)=−∑i=1Nlogexp(κμjTxi)∑l=1Mexp(κμlTxi)=−∑i=1Nlogezij∑l=1Mezil[zj=κμjTxi]\mathcal{L}_{v M F M L}=-\sum_{i=1}^{N} \sum_{j=1}^{M} y_{i j} \log \left(p_{i j}\right)=-\sum_{i=1}^{N} \log \frac{\exp \left(\kappa \mu_{j}^{T} \mathbf{x}_{i}\right)}{\sum_{l=1}^{M} \exp \left(\kappa \mu_{l}^{T} \mathbf{x}_{i}\right)}=-\sum_{i=1}^{N} \log \frac{e^{z_{i j}}}{\sum_{l=1}^{M} e^{z_{i l}}}\left[z_{j}=\kappa \mu_{j}^{T} \mathbf{x}_{i}\right] LvMFML=−i=1∑Nj=1∑Myijlog(pij)=−i=1∑Nlog∑l=1Mexp(κμlTxi)exp(κμjTxi)=−i=1∑Nlog∑l=1Mezilezij[zj=κμjTxi]
yij:真实类概率,若为1,只知道真正的类标签y_{i j}:真实类概率,若为1,只知道真正的类标签 yij:真实类概率,若为1,只知道真正的类标签
- Softmax函数
LSoftmax =−∑i=1Nlogexp(wjTfi+bj)∑l=1Mexp(wlTfi+bl)\mathcal{L}_{\text {Softmax }}=-\sum_{i=1}^{N} \log \frac{\exp \left(\mathbf{w}_{j}^{T} \mathbf{f}_{i}+b_{j}\right)}{\sum_{l=1}^{M} \exp \left(\mathbf{w}_{l}^{T} \mathbf{f}_{i}+b_{l}\right)} LSoftmax =−i=1∑Nlog∑l=1Mexp(wlTfi+bl)exp(wjTfi+bj)
fi:第i个图像特征,wj:第j类的权重,bj:第j类的偏差\mathbf{f}_{i}:第i个图像特征,\mathbf{w}_{j}:第j类的权重,\mathbf{b}_{j}:第j类的偏差 fi:第i个图像特征,wj:第j类的权重,bj:第j类的偏差
- 两损失函数差异:
- vMFML使用单位规范化特征(规范化特征向量)
x=f∥f∥\mathbf{x}=\frac{\mathbf{f}}{\|\mathbf{f}\|} x=∥f∥f
- 平均参数与softmax权重的关系如下(规范化权重)
μ=w∥w∥\mu=\frac{\mathbf{w}}{\|\mathbf{w}\|} μ=∥w∥w
- 没有偏差b
- 它有一个额外的参数κ(乘法标量项替换加性偏差项)
- 计算vMFML的梯度
∂zj∂κ=μjTx;∂zj∂μjd=κxd;∂zj∂xd=κμjd∂xd∂fd={∂xd∂fd=∥f∥2−fd2∥f∥3=1−xd2∥f∥∂xr∂fd=−fdfr∥f∥3=−xdxr∥f∥∂μd∂wd={∂μd∂wd=∥w∥2−wd2∥w∥3=1−μd2∥w∥∂μr∂wd=−wdwr∥w∥3=−μdμr∥w∥\begin{array}{c} \frac{\partial z_{j}}{\partial \kappa}=\mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial z_{j}}{\partial \mu_{j d}}=\kappa x_{d} ; \quad \frac{\partial z_{j}}{\partial x_{d}}=\kappa \mu_{j d} \\ \frac{\partial x_{d}}{\partial f_{d}}=\left\{\begin{array}{l} \frac{\partial x_{d}}{\partial f_{d}}=\frac{\|\mathbf{f}\|^{2}-f_{d}^{2}}{\|\mathbf{f}\|^{3}}=\frac{1-x_{d}^{2}}{\|\boldsymbol{f}\|} \\ \frac{\partial x_{r}}{\partial f_{d}}=\frac{-f_{d} f_{r}}{\|\mathbf{f}\|^{3}}=\frac{-x_{d} x_{r}}{\|\mathbf{f}\|} \end{array} \quad \frac{\partial \mu_{d}}{\partial w_{d}}=\left\{\begin{array}{l} \frac{\partial \mu_{d}}{\partial w_{d}}=\frac{\|\mathbf{w}\|^{2}-w_{d}^{2}}{\|\mathbf{w}\|^{3}}=\frac{1-\mu_{d}^{2}}{\|\mathbf{w}\|} \\ \frac{\partial \mu_{r}}{\partial w_{d}}=\frac{-w_{d} w_{r}}{\|\mathbf{w}\|^{3}}=\frac{-\mu_{d} \mu_{r}}{\|\mathbf{w}\|} \end{array}\right.\right. \end{array} ∂κ∂zj=μjTx;∂μjd∂zj=κxd;∂xd∂zj=κμjd∂fd∂xd={∂fd∂xd=∥f∥3∥f∥2−fd2=∥f∥1−xd2∂fd∂xr=∥f∥3−fdfr=∥f∥−xdxr∂wd∂μd={∂wd∂μd=∥w∥3∥w∥2−wd2=∥w∥1−μd2∂wd∂μr=∥w∥3−wdwr=∥w∥−μdμr
∂L∂κ=∑j=1M(pj−yj)μjTx;∂L∂μjd=(pj−yj)κxd∂L∂xd=∑j=1M(pj−yj)κμjd;∂L∂fd=1∥f∥(∂L∂xd−xd∑r∂L∂xrxr)\begin{array}{c} \frac{\partial \mathcal{L}}{\partial \kappa}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \mu_{j}^{T} \mathbf{x} ; \quad \frac{\partial \mathcal{L}}{\partial \mu_{j d}}=\left(p_{j}-y_{j}\right) \kappa x_{d} \\ \frac{\partial \mathcal{L}}{\partial x_{d}}=\sum_{j=1}^{M}\left(p_{j}-y_{j}\right) \kappa \mu_{j d} ; \quad \frac{\partial \mathcal{L}}{\partial f_{d}}=\frac{1}{\|\mathbf{f}\|}\left(\frac{\partial \mathcal{L}}{\partial x_{d}}-x_{d} \sum_{r} \frac{\partial \mathcal{L}}{\partial x_{r}} x_{r}\right) \end{array} ∂κ∂L=∑j=1M(pj−yj)μjTx;∂μjd∂L=(pj−yj)κxd∂xd∂L=∑j=1M(pj−yj)κμjd;∂fd∂L=∥f∥1(∂xd∂L−xd∑r∂xr∂Lxr)
5.解释和讨论
- 平均值(µ):提供了该类的预期表示(例如,平均面部图像)
- 浓度(κ):(独立计算)表示该类样本内的变化
- 更高的κ值将使特征更加集中在µ周围,以最小化类内变化(减少样本和平均值的角距离)并最大化类间距离
6. 验证
- [47]:CNN模型,27卷积,4个池,1个全连接层FC组成。来自FC层的512维输出然后被单位归一化,我们将其视为输入2D图像的期望方向特征表示
- 预处理——提取特征——计算分数:计算余弦相似度作为分数,并将其与阈值进行比较
4 实验、结果和讨论
数据集
- LFW:野外人脸识别
- IJB-A:人脸模板匹配
- Y ouTube faces:视频人脸匹配
- CACD:跨年龄人脸匹配
5 总结
- 我们使用vMF混合模型作为理论基础,提出了统计特征表示(SFR)模型。
- 我们开发了一种有效的方向特征学习方法,称为vMF FL,它构造了一种新的损失函数,称为vMFML。它有几个有趣的特性,例如:(a)学习辨别特征;(b) 包含不同的损失函数和归一化技术,以及(c)解释参数和对象特征之间的关系。
展望未来
(a)使用学习模型来合成保持身份的人脸并增强训练数据集;
(b)利用生成性对抗网络探索SFR模型
(c)将其应用于其他视觉任务(例如场景分析)、其他域(例如NLP、语音分析)和其他任务(例如聚类)。此外,通过忽略平等特权假设,可以进一步分析类/集群的变化,这对于无监督问题很有意义。
【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification相关推荐
- 【论文笔记】(JSMA)The Limitations of Deep Learning in Adversarial Settings
引流:https://www.cnblogs.com/setdong/p/16414390.html 本文是早期的对抗文章,发表于 EuroS&P 2016会议,最主要的工作是:提出了一个生成 ...
- 【论文笔记】Towards Privacy-Preserving Affect Recognition: A Two-Level Deep Learning Architecture
摘要 使用图像和计算机视觉自动理解和识别人类情感状态可以改善人-机算计交互和人-机器人交互.然而,隐私已成为一个备受关注的问题,因为在此过程中可能会暴露用于训练情感模型的人的身份.例如,怀有恶意的人可 ...
- 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
- 李弘毅机器学习笔记:第十二章—Recipe of Deep Learning
李弘毅机器学习笔记:第十二章-Recipe of Deep Learning 神经网络的表现 如何改进神经网络? 新的激活函数 梯度消失 怎么样去解决梯度消失? Adaptive Learning R ...
- 【论文笔记】Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
论文 论文题目:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personaliz ...
- 【论文笔记8】Tree-Structured Neural Topic Model (分层神经主题模型 / TSNTM)
Tree-Structured Neural Topic Model 树结构的神经主题模型 论文概述 题目:Tree-Structured Neural Topic Model 作者:Masaru I ...
- 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour
360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...
- 【论文笔记】(VC)《Combining Progressive Rethinking and Collaborative Learning: ... for In-Loop filtering》
<Combining Progressive Rethinking and Collaborative Learning: A Deep Framework for In-Loop Filter ...
- 论文笔记之:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
前言:不知道你是否被这张实验效果图所震撼?Yes, I do. 那么他是怎么做到的呢?本文提出了一种给灰度图像自动上色的框架,结合了图像的局部和全局先验知识 (both global priors a ...
最新文章
- 1.怎么判断 float a 是 0?
- 自己抽取的柱状图MpAndroidChart
- BAT人脸识别功能第二步-人脸检测
- LeetCode 1679. K 和数对的最大数目(哈希)
- 表格打印没有左边线_office办公软件Excel表格的打印技巧,建议收藏
- C语言 strcspn函数实现
- React中组件间通信的方式
- 《深入理解 Spring Cloud 与微服务构建》第四章 Dubbo
- lms算法的verilog实现_数字通信同步技术的MATLAB与FPGA实现
- JsonConfig处理日期时间
- pdf转chm_PDF转Excel的小妙招!
- Ubuntu怎么从图形桌面切换到命令行界面
- 以编程会安全,以安全辅未来——2017看雪安全开发者峰会 强势来袭!
- 第四周项目3--单链表应用之逆置
- 《我是谁:没有绝对安全的系统》观影感受
- css中图片不清晰解决方法
- [solved] login to server failed: EOF
- 效率神器 SCons 构建工具
- centos7升级内核重启问题:you need to load the kernel first
- 82.使用vue后怎么针对搜索引擎做SEO优化?
热门文章
- 大数据商机VS个人隐私 车联网的攻与守
- 锂电池相关参数及其使用指导
- 途虎养车产品经理面试(魔幻)
- 无法启用网络发现和文件共享或共享无法访问
- mdx格式的词典用什么软件打开_欧路词典包资源及使用教程
- Oracle 的SQL*LOADER中optionally enclosed的作用
- 前端自动化测试基础-sinon篇章
- LINUX内核内存屏障
- JAVA idea建包的时候com.不分开
- 在html文字下标标记,在HTML中,下面( )标记可将所修饰的文本显示为下标。(选一项)...