PFLD+GhostNet+MobileOne=PFLD_GhostOne，重参数化让PFLD重生，精度提升超过4%，速度提升超过55%，代码已开源

在两年前，我曾经分享过利用GhostNet对PFLD进行优化的文章——《人脸关键点检测算法PFLD的优化实战记录》，那里面介绍了经过各种奇技淫巧，GhostNet确实能够提升PFLD的速度和精度，暂且称呼这个方法为PFLD-GhostNet，而且分享到GitHub：FaceLandmark_PFLD_UltraLight后获得六十多颗星，也算老怀安慰了。
两年后，在机缘巧合下接触到Apple大佬的MobileOne，灵机一触觉得MobileOne可能对PFLD-GhostNet还会有进一步的提升，决定尝试一下，便有了今天这篇文章。这次主要记录将GhostNet模块与MobileOne模块进行结合，对PFLD进行进一步优化的实战经验，为需要优化人脸关键点检测算法的小伙伴们提供参考，新的方法我将它叫做PFLD-GhostOne。这个PFLD-GhostOne模型比Slim版本的PFLD-GhostNet精度提升了近3.75%，相比原始PFLD更是提升了4.25%，NCNN推理速度比Slim版本的PFLD-GhostNet提升了超过11%，比原始版本的PFLD提升超过55%。

MobileOne简介

PFLD-GhostOne优化过程

优化结果

开源代码在以下GitHub链接，欢迎大家多多点星收藏：）
GitHub：PFLD_GhostOne

MobileOne简介

有关GhostNet和PFLD的介绍可以参考我两年前分享的文章《人脸关键点检测算法PFLD的优化实战记录》，这里主要介绍一下MobileOne。
MobileOne是2022年Apple大佬提出来的用于移动设备的网络结构，利用重参数化可以有效提高轻量级网络的性能，当然重参数化是RepVGG最先提出来，有兴趣的童鞋可以去膜拜一下，MobileOne只是站在RepVGG巨人的肩膀上提出来的模型结构。如下图所示，MobileOne的基础模块在训练时是多分支的卷积结构，由于卷积和BN都是线性操作，经过重参数化后这个多分支结构可以合并成一个卷积和BN操作，因此在推理阶段，这个多分支结构就可以等效为单通路结构，可以大大减少推理阶段的运算量。在下面的性能表格中可以看到最轻量级的MobileOne-S0比ShuffleNetV2-x1.0的精度已经有一个较大的提升，推理速度两者也相当。

↑ 图1 MobileOne Block结构

↑ 图2 MobileOne性能表

PFLD-GhostOne优化过程

在这次优化PFLD模型的过程中，最最最重要的部分就是将MobileOne的重参数化技术引入到GhostNet中，我将这个结合体称为GhostOne，正因为这个GhostOne模块，可以大大提升PFLD模型的性能。

GhostOne模块

在介绍GhostOne之前，我们先重温一下GhostNet的基础结构。
GhostNet的基础结构Ghost Module如图3所示：

↑ 图3 Ghost Module

通过堆叠Ghost Module形成的Ghost Bottleneck如图4所示：

↑ 图4 Ghost Bottleneck

现在进入正题，介绍今天的主角GhostOne。
GhostOne Module的整体结构如图5所示：

↑ 图5 GhostOne Module

可以看到GhostOne Module其实和Ghost Module的整体结构非常相像，两者的最大区别就是GhostOne Module利用MobileOne中的多分支卷积结构代替了Ghost Module中单一的卷积操作。在训练过程中两者的结构可能差异比较大，一旦经过重参数化后，在推理过程中两者的结构理论上是一模一样的，计算量和参数量也都是一样的，因此GhostOne Module对比原始的Ghost Module，在推理速度上是一样的。

通过堆叠GhostOne Module形成的GhostOne Bottleneck如图6所示：

↑ 图6 GhostOne Bottleneck

通过对比Ghost Bottleneck可以看出，GhostOne Bottleneck缺少了Skip Connection，这里参考的是YoloV7的做法，YoloV7的作者发现，当两个重参数化模块串联时，这个Skip Connection会破坏模型的特征表达能力，最终便有了上面的GhostOne Bottleneck结构。
最终的PFLD-GhostOne模型结构，就是在PFLD-GhostNet的基础上，直接将上述的GhostOne Bottleneck替换掉原始的Ghost Bottleneck，同时把一般的卷积操作也替换成MobileOne Block，在模型精度有比较大的提升的同时，推理速度也有了一个质的提升。PFLD-GhostOne结构如表1：

Input	Operator	t	c	n	s
112x112x3	MobileOneBlock 3×3	-	64	1	2
56x56x64	DW-MobileOneBlock 3×3	-	64	1	1
56x56x64	GhostOne Bottleneck	1.5	80	3	2
28x28x80	GhostOne Bottleneck	2.5	96	3	2
14x14x96	GhostOne Bottleneck	3.5	144	4	2
7x7x144	GhostOne Bottleneck	1.5	16	1	1
7x7x16	MobileOneBlock 3×3	-	32	1	1
7x7x32	Conv7×7	-	128	1	1
(S1) 56x56x64 (S2) 28x28x80 (S3) 14x14x96 (S4) 7x7x144 (S5) 1x1x128	AvgPool AvgPool AvgPool AvgPool -	- - - - -	64 80 96 144 128	1 1 1 1 -	- - - - -
S1,S2,S3,S4,S5	Concat+Full Connection	-	136	1	-

↑ 表1 PFLD-GhostOne结构

说明：t代表GhostOne Bottleneck中间通道的拓展倍数，c代表GhostOne Bottleneck的输出通道数目，n代表GhostOne Bottleneck的串联个数，s代表stride，模型所有的MobileOne Block中的分支数目都是6。

优化结果

WFLW测试结果
模型输入大小为112x112

Model	NME	OpenVino Latency(ms)	NCNN Latency(ms)	ONNX Model Size(MB)
PFLD	0.05438	1.65(CPU) 2.78(GPU)	5.4(CPU) 5.1(GPU)	4.66
PFLD-GhostNet	0.05347	1.79(CPU) 2.55(GPU)	2.9(CPU) 5.3(GPU)	3.09
PFLD-GhostNet-Slim	0.05410	2.11(CPU) 2.54(GPU)	2.7(CPU) 5.2(GPU)	2.83
PFLD-GhostOne	0.05207	1.79(CPU) 2.18(GPU)	2.4(CPU) 5.0(GPU)	2.71

说明：OpenVino和NCNN的推理时间均在11th Gen Intel® Core™ i5-11500下进行统计。

作者 @Anthony Github
2022 年 10月