模型推理速度与硬件算力

1. 模型大小衡量指标

1.1 参数量

这里的参数量就是指模型的权重，对于 CNN 网络而言，主要就集中在 Conv 和 FC 层。

参数量主要会体现在模型的物理大小（硬盘占用大小），在运行时也会体现在内存（显存）占用上，对运行速度没有直接的影响（间接的影响显然是存在的）。具体来说就是，如果模型硬盘占用很大，显然会影响最终软件的大小，如果模型内存占用很多，显然会影响一块显卡（或其他硬件）能同时加载模型的数量。

参数量可以借助 thop，summary 或者 summaryx 获得。

1.2 计算量

FLOPs（Floating Point Operations）浮点计算次数，注意区别，不是 FLOPS，FLOPS（Floating Point Operations Per Second）是一种衡量硬件计算速度的指标。

比如对于 Conv 操作来说，乘和加各算一次操作，那么如果输入为 (N,C,H,W)(N, C, H, W)(N,C,H,W)，卷积核为 (kh,kw,C,Cout)(k_h, k_w, C, C_{out})(kh,kw,C,Cout)，输出尺寸为 (N,Cout,Hout,Wout)(N, C_{out}, H_{out}, W_{out})(N,Cout,Hout,Wout)，计算量如下：

FLOPs=N∗Cout∗Hout∗Wout∗Kh∗kn∗C∗2FLOPs = N*C_{out}*H_{out}*W_{out}*K_h*k_n*C*2 FLOPs=N∗Cout∗Hout∗Wout∗Kh∗kn∗C∗2

当然我们并不需要一个一个算子的去手算，pytorch 中可以借助summary 或者 summaryx 等工具查看。

1.3 访存量

MACs(Memory Access Costs) 是指模型计算时所需访问存储单元的字节大小，反映了模型对存储单元带宽的需求。访存量一般用 Bytes（或者 KB/MB/GB）来表示，即模型计算到底需要存/取多少 Bytes 的数据。

比如两个 size 为 (N,C,H,W)(N, C, H, W)(N,C,H,W) 的 tensor 进行 ele-wise 相加，其涉及到读取两个 tensor，和存放一个 tensor 结果。所以总的访存量可以表示如下：
MACs=(2+1)∗N∗C∗H∗W∗sizeof(datatype)MACs = (2+1)*N*C*H*W*sizeof(data_type) MACs=(2+1)∗N∗C∗H∗W∗sizeof(datatype)
对于上面的卷积来说，其访存量如下：
MACs=MACsinput+MACsweight+MACsoutput=[(N∗C∗H∗W)+(kh∗kw∗C∗Cout)+(N∗Cout∗Hout∗Wout)]∗sizeof(datatype)\begin{aligned} MACs &= MACs_{input} + MACs_{weight} +MACs_{output} \\ &= [(N*C*H*W) + (k_h*k_w*C*C_{out}) + (N*C_{out}*H_{out}*W_{out})]*sizeof(data_type) \end{aligned} MACs=MACsinput+MACsweight+MACsoutput=[(N∗C∗H∗W)+(kh∗kw∗C∗Cout)+(N∗Cout∗Hout∗Wout)]∗sizeof(datatype)
访存量对模型的推理速度至关重要，设计模型时需要予以关注。

MACs 可以借助 thop 获得。

1.4 内存占用

内存占用是指模型运行时，所占用的内存/显存大小，这个主要是影响并发运行的模型数量。这个一般只能在模型运行前后，通过查看硬件的信息来观察得出内存占用情况。比如对于 Nvidia 的显卡，可以通过 nvidia-smi来查看硬件数据。

2. 计算平台运算能力衡量指标

2.1 算力（π\piπ）

算力指计算平台的性能上限，指的是一个计算平台倾尽全力每秒钟所能完成的浮点运算数。也就是上面提到的 FLOPS。

2.2 带宽（β\betaβ）

计算平台的带宽上限，指的是一个计算平台倾尽全力每秒所能完成的内存交换量。单位是Byte/s。

2.3 计算强度上限（ImaxI_{max}Imax）

计算强度上限描述的是在这个计算平台上，单位内存交换最多用来进行多少次计算。单位是FLOP/Byte。
Imax=πβI_{max} = \frac{\pi}{\beta} Imax=βπ

3. Roofline 模型

Roofline 模型是试图对硬件和程序通盘考虑，用于评估程序在硬件上能达到的性能上界的模型。具体可以参考论文 Roofline： An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures

其实这个 Roofline 模型所讲的就是一个道理：硬件的算力和带宽都会限制计算强度，上面的折线的上升部分，显然没有达到峰值计算速度（访存密集区），此时的限制主要在于带宽，而到了水平部分（算力密集区），此时限制计算速度的是硬件的算力。

4. 修正的 Roofline 模型

4.1 硬件限制对性能上界的影响

上面提到的宽带峰值和算力峰值都是理论值，但在实际情况下，硬件会因为种种原因，无法达到这个理论值。因此建议大家对硬件进行micro-benchmark，以获取硬件的真实性能上限。

对于算力和内存的测试方法可以参考：

浮点峰值那些事儿
stream

4.2 系统环境对性能的影响

4.3 软件实现对性能的影响

5. 计算密集型算子与访存密集型算子

网络中的算子可以根据计算密度进行分类。一般来讲，Conv、FC、Deconv 算子属于计算密集型算子；ReLU、EltWise Add、Concat 等属于访存密集型算子。

同一个算子也会因参数的不同而导致计算密度变化，甚至改变性质，比如在其他参数不变的前提下，增大 Conv 的 group，或者减小 Conv 的 input channel 都会减小计算密度。

算子的计算密度越大，越有可能提升硬件的计算效率，充分发挥硬件性能。

6. 模型与硬件匹配

VGG16 的计算量大约是 MobileNe V1 的 30 倍，但是如果把两个模型放在 1080Ti 上做推理，速度的上差异并没有这么夸张，这主要就是 MobileNet V1 由于计算强度的原因，并不能真正发挥 1080Ti 的优势，而更适合在嵌入式设备上运行。

参考

深度学习模型大小与模型推理速度的探讨
Roofline Model与深度学习模型的性能分析