VargFacenet简介

为了提高用于人脸识别的轻量级网络的判别和泛化能力,VargFacenet引用了可变组卷积(variable group convolution)来解决小计算量与块内计算强度不平衡之间的冲突,并通过可变组卷积设计网络。该网络在减少计算成本和参数的条件下,实现了大规模人脸识别。

作者根据具体识别任务设计了Normal block,down-sampling block,Head setting,Embedding setting。为了提高识别精度,作者采用递归知识角度蒸馏来学习teacher model训练得到的distribution。值得一提的是,LFR(2019)挑战赛,deepglintlight赛道冠军证明了本文模型和方法的有效性。

下面阐述VargFacenet几个核心创新点。

论文地址:
https://arxiv.org/abs/1910.04985v2
VarGFaceNet代码开源网址:
https://github.com/zma-c137/VarGFaceNet

variable group convolution

作者采用可变组卷积(varg)作为网络的基础block,其主要想法和原因是,以往轻量型模型采用深度可分离卷积来实现轻量化目的,但是深度可分离卷积存在块内计算强度不平衡的问题,而且它的轻量化是在舍弃空间结构的基础上实现的,这使得模型在嵌入式设备中效率低下以及模型精度下降。为此,作者在深度可分离卷积的基础上提出了可变组卷积varg。

其实varg跟深度可分离卷积思想大致一致。mobilenet中深度可分离卷积可分为depthwise separable convolution和pointwise convolution,既先将feature map按channel数分成块,再通过1×1cov连接成新的feature map。不懂的小伙伴可以点这儿查看mobilenet具体解析



而varg如同depthwise separable convolution,只是varg将feature map按groups=n分成n块,这里groups是超参。所以它的计算成本就是k2×hi×wi×ci×ci+1n\frac{k^2\times h_i \times w_i \times c_i \times c_{i+1}}{n}nk2×hi×wi×ci×ci+1, 这里k是kernel size,h,w是feature map的size,cic_ici是input channel,ci+1c_{i+1}ci+1是output的size。
varg相较于深度可分离卷积,舍弃了一定程度的计算成本的降低,而填补了卷积的空间结构。

overall architechture



VargFacenet一共设计了4个模块,Normal block,Downsampling block,Head setting, Embedding setting。这四个模块都是由varg组成,除了Embedding setting外,其他模块都存在残差。这些模块从Figure 1中可以看出并理解其结构。 The memory foot print of our VarGFaceNet is 20M and FLOPs is 1G.

angular distillation loss(ShrinkTeaNet)

针对闭集数据,很多方法已经取得了显著的效果。但是对于人脸识别这种开集数据来说,由于训练集与测试集类别不同,很难通过强调两端特种直接准确匹配来实现精度提升。所以,作者借鉴ShrinkTeaNet的Angular Distillation loss来蒸馏两端特征的方向以及来自teacher model超球面的样本分布,从而让student model获取更好的性能。

III表示输入,θt\theta^tθt指teacher model的参数,θs\theta^sθs表示student model的参数。S的学习过程通常是在T的监督下进行的,通过对T的输出进行分步比较。

Git(⋅)\mathcal{G}_i^t(\cdot)Git(),Gis(⋅)\mathcal{G}_i^s(\cdot)Gis()分别表示T和S的转换方程使得他们相应的嵌入特征可比较(即维度相同)。d(⋅,⋅)d(\cdot,\cdot)d(,) denotes the difference between these transformed features.然后by minimizing these differences Ldistill=∑1nλiLi(S,T)\mathcal{L}_{distill}=\sum_{1}^n\lambda_i\mathcal{L}_i(S,T)Ldistill=1nλiLi(S,T), teacher model的知识可以转移到S,这样它们就可以嵌入相似的潜在域。FitF_i^tFitFisF_i^sFis之间的距离隐含地定义了要从T转移到S的知识。而转移方程Git(⋅)\mathcal{G}_i^t(\cdot)Git(),Gis(⋅)\mathcal{G}_i^s(\cdot)Gis()控制了转移信息的部分。

下面我们着重分析如何设计这两部分,让他们能够选择最有效的信息并转移到S。

在开集任务中,由于类别不能事前设定,所以每个类别的样本分布以及类间距离成为更加重要的知识。因此,作者提出用角度信息作为主要知识被蒸馏。通过这种方式,可以放宽约束,使学生模型提取的嵌入特征与教师提取的嵌入特征方向相似,而不是强制学生模型完全遵从教师模型的输出。

angular distillation loss:

通过余弦相似度来衡量S,T之间的距离。如果ST角度为0(即没有间隔),说明S已经习得T的角度分布,则Ln(S,T)=1−1=0\mathcal{L}_n(S,T)=1-1=0Ln(S,T)=11=0. 若ST之间角度间隔大,则的值会趋于0,导致loss趋向1.

VarGFaceNet采取的是上式的等效形式:

另外应用ArcFace Loss作为类别损失,同样也是关注于角度信息:
因此,总的目标函数是上述两个公式之和:

Recursive Knowledgr Distillation

如果teacher和student模型存在较大的差异,仅一次的知识蒸馏可能不足以迁移足够的知识到student modal中。为了提高本文student modal的判别性能力和泛化能力,本文使用递归知识蒸馏,用第一代的student modal来初始化第二代的student modal。有两个好处:
(1)好的初始化可使student更容易接近teacher的的指引方向;
(2)分类损失和作为指导的指引的角度信息之间的冲突能在第二代中得到缓和。

一文读懂VargFacenet相关推荐

  1. 从实验室走向大众,一文读懂Nanopore测序技术的发展及应用

    关键词/Nanopore测序技术    文/基因慧 随着基因测序技术不断突破,二代测序的发展也将基因检测成本大幅降低.理想的测序方法,是对原始DNA模板进行直接.准确的测序,消除PCR扩增带来的偏差, ...

  2. 一文读懂Faster RCNN

    来源:信息网络工程研究中心本文约7500字,建议阅读10+分钟 本文从四个切入点为你介绍Faster R-CNN网络. 经过R-CNN和Fast RCNN的积淀,Ross B. Girshick在20 ...

  3. 福利 | 一文读懂系列文章精选集发布啦!

    大数据时代已经悄然到来,越来越多的人希望学习一定的数据思维和技能来武装自己,虽然各种介绍大数据技术的文章每天都扑面而来,但纷繁又零散的知识常常让我们不知该从何入手:同时,为了感谢和回馈读者朋友对数据派 ...

  4. ​一文读懂EfficientDet

    一文读懂EfficientDet. 今年年初Google Brain团队在 CVPR 2020 上发布了 EfficientDet目标检测模型, EfficientDet是一系列可扩展的高效的目标检测 ...

  5. 一文读懂序列建模(deeplearning.ai)之序列模型与注意力机制

    https://www.toutiao.com/a6663809864260649485/ 作者:Pulkit Sharma,2019年1月21日 翻译:陈之炎 校对:丁楠雅 本文约11000字,建议 ...

  6. AI洞观 | 一文读懂英特尔的AI之路

    AI洞观 | 一文读懂英特尔的AI之路 https://mp.weixin.qq.com/s/E9NqeywzQ4H2XCFFOFcKXw 11月13日-14日,英特尔人工智能大会(AIDC)在北京召 ...

  7. 一文读懂机器学习中的模型偏差

    一文读懂机器学习中的模型偏差 http://blog.sina.com.cn/s/blog_cfa68e330102yz2c.html 在人工智能(AI)和机器学习(ML)领域,将预测模型参与决策过程 ...

  8. 一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现

    一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现 导读:近日,马云.马化腾.李彦宏等互联网大佬纷纷亮相2018世界人工智能大会,并登台演讲.关于人工智能的现状与未来,他们提出了各自的观点,也引 ...

  9. 一文读懂你该了解的5G知识:现在别买5G手机

    来源: 腾讯科技 2019年是中国全力布局5G的一年:三大运营商纷纷搭建基站,手机厂商发布5G手机,部分城市已经开启了5G测试--在电信日这天,腾讯科技联合知乎推出重磅策划,聚焦和5G相关的小知识,精 ...

最新文章

  1. 曲线拟合最小二乘法优缺点_最小二乘法的优缺点
  2. OAF_VO系列1 - Accelerator Keys
  3. Educational Codeforces Round 48
  4. centos8安装文件服务器,centos8 服务器环境部署
  5. python中对文件、文件夹,目录的基本操作
  6. 【软件相关】Proteus 8入门教程
  7. jdk1.8的安装与环境变量配置
  8. 基于VB6.0的MICAPS风云二号卫星云图转化实例(转载)
  9. 令人吃惊,这个短信平台在这些方面居然完胜阿里云
  10. word自定义目录格式时设置的标题格式不生效
  11. Web压缩问题-图片不显示
  12. 招商银行信用卡中心2018秋招部分编程题汇总
  13. 蓝桥耐摔指数 JAVA暴解(摔手机)
  14. BDB的Btree结构以及影响Btree性能的各种配置和方法
  15. android 友盟统计功能,在Android工程中集成友盟统计
  16. Spark SQL 初识
  17. android 仿微信语音聊天
  18. 开源“大地震”下,华为如何复制 Google 模式?
  19. php删除七牛云文件
  20. 资源的释放方式try-catch-finally, try-catch-resource

热门文章

  1. 关于__declspect(dllexport) 和 __declspec(dllimport)的使用
  2. DM MPP部署问题
  3. 一种直观理解Galois理论的途径
  4. UX最佳实践:提高用户体验影响力的艺术
  5. 一文读懂 | 数据中台如何为企业赋能?
  6. openstack平台上创建云主机
  7. GLib核心应用支持
  8. 排球分组循环交叉编排_请问一下排球是怎么样编排的啊
  9. 2017计算机考研参考书目推荐,2017年中山大学085211计算机技术考研参考书目推荐...
  10. ERP、APS、MES 三者之间的关系是什么?