On Rate Distortion Optimization Using SSIM

率失真优化在现代视频编解码器中被广泛应用于各种编码器决策，以优化速率失真的权衡。通常，使用的失真测量要么是平方和误差(SSE)，要么是绝对和距离(SAD)，这两者在使用时都很方便，但并不总是反映感知视觉质量。我们希望解决相同的RDO问题，但使用一个感知动机的失真度量，如SSIM。

1.SSIM

在假设人类视觉感知高度适应于从场景中提取结构信息的情况下，我们引入了一种基于结构信息的质量评估方法，就是SSIM。

两个图像区域之间的SSIM定义为：
SSIM=(2uxuy+c1ux2+uy2)(2σxy+c2σx2+σy2+c2)(1)SSIM=(\frac{2u_xu_y+c_1}{u_x^2+u_y^2})(\frac{2\sigma_{xy}+c_2}{\sigma_x^2+\sigma_y^2+c_2}) \tag{1}SSIM=(ux2+uy22uxuy+c1)(σx2+σy2+c22σxy+c2)(1)

其中，x和y是要比较的两个图像区域，ux和uyu_x和u_yux和uy和分别是x和y的平均值，σx2,σy2\sigma_x^2,\sigma_y^2σx2,σy2和分别是对应区域的方差，σxy\sigma_{xy}σxy是x和y之间的协方差，KaTeX parse error: Expected group after '_' at position 3: c1_̲和c2c_2c2是用于数值稳定性的两个常数。

我们定义MSE：
MSE=1N∑i(yi−xi)2=1N∑iei2(2)MSE=\frac{1}{N}\sum \limits_{i}(y_i-x_i)^2=\frac{1}{N}\sum \limits_{i}e_i^2 \tag{2}MSE=N1i∑(yi−xi)2=N1i∑ei2(2)

N是某个区域的像素总数，索引i表示某个区域中的第i个像素，y和x分别代表重建值和原始像素值。当N趋向于无穷时，MSE---->σe2\sigma_e^2σe2。

在高分辨率的量化近似：
uy≈ux(3)u_y \approx u_x \tag{3} uy≈ux(3)
σy2≈σx2+σe2(4)\sigma_y^2 \approx \sigma_x^2+\sigma_e^2 \tag{4}σy2≈σx2+σe2(4)
σxy≈σx2(5)\sigma_{xy} \approx \sigma_x^2 \tag{5} σxy≈σx2(5)

将式（3）（4）（5）带入到（1），得到SSIM的近似：
SSIM≈2σx2+c22σx2+σe2+c2≈2σx2+c22σx2+MSE+c2(6)\begin{aligned} SSIM&\approx \frac{2\sigma_x^2+c_2}{2\sigma_x^2+\sigma_e^2+c_2} \\ &\approx \frac{2\sigma_x^2+c_2}{2\sigma_x^2+MSE+c_2} \tag{6} \end{aligned} SSIM≈2σx2+σe2+c22σx2+c2≈2σx2+MSE+c22σx2+c2(6)

重新定义基于SSIM的失真度量：
dSSIM=1SSIM=1+MSE2σx2+c2(7)\begin{aligned} dSSIM&=\frac{1}{SSIM} &=1+\frac{MSE}{2\sigma_x^2+c_2} \tag{7} \end{aligned} dSSIM=SSIM1=1+2σx2+c2MSE(7)

(7)式提供了SSIM和MSE之间方便的关系，可以用于RDO决策。

它还具有直观的感知意义，因为感知扭曲是由局部区域的逆方差来衡量的MSE；换句话说，一个区域的纹理越多，可容忍的MSE就越高。因此，对于相同的视觉效果SSIM，纹理区域的MSE可以比平滑区域更高。

原图像

JPEG压缩图像 MSE=210 MSSIM =0.6949

模糊图像 MSE=210 MSSIM=0.7052

2.基于SSIM的RDO方法

2.1 基本概念

在基于块的编码器中，可以使用拉格朗日乘子方法，通过最小化速率约束下的失真来执行每个块的RDO决策。当SSE是失真度量时，这是通过优化下式：
JSSE=SSE+λSSER=N⋅MSE+λSSERJ_{SSE}=SSE+\lambda_{SSE}R=N\cdot MSE+\lambda_{SSE}RJSSE=SSE+λSSER=N⋅MSE+λSSER

对于一个适当选择的拉格朗日乘子λ\lambdaλ。

为了将SSIM纳入RDO中，我们使用（7）中定义的dSSIM作为失真度量，并为具有N个像素的块优化以下成本函数：
J=N⋅dSSIM+λR≈N(1+MSE2σx2+c2)+λR=N+SSE2σx2+c2+λR=N+12σx2+c2(SSE+(2σx2+c2)R)\begin{aligned} J&=N\cdot dSSIM+\lambda R \\ &\approx N(1+\frac{MSE}{2\sigma_x^2+c_2})+\lambda R \\ &=N+\frac{SSE}{2\sigma_x^2+c_2}+\lambda R \\ &=N+\frac{1}{2\sigma_x^2+c_2}(SSE+(2\sigma_x^2+c_2)R) \end{aligned} J=N⋅dSSIM+λR≈N(1+2σx2+c2MSE)+λR=N+2σx2+c2SSE+λR=N+2σx2+c21(SSE+(2σx2+c2)R)

同样地，我们也可以为每个块优化以下内容:
J=SSE+(2σx2+c2)λR(8)J=SSE+(2\sigma_x^2+c_2)\lambda R \tag{8}J=SSE+(2σx2+c2)λR(8)

对于一些适当选择的拉格朗日乘子λ。

（8）为我们提供了一种方便的方法来将SSIM合并到RDO决策过程中，通过使用依赖于局部源方差的λ的局部缩放。这意味着，只需稍微修改一下拉格朗日乘数，就可以保留整个RDO机制。对于这个过程，我们还有一个直观的解释。本质上，在一个高度纹理化的区域，对于码率R起的惩罚作用越大，这意味着一个更大的MSE是可以容忍的。

2.2 计算拉格朗日乘子

虽然上面已经展示了如何在RDO决策内优化SSIM，但还剩下如何选择合适的拉格朗日乘子λ的问题。在这里，有一种可能的方法，即保持编码帧的总体速率相同，假设无论要优化SSE或SSIM，位移帧差统计量(DFD)2(DFD)^2(DFD)2都是相同的。

回想一下，当使用SSE时，优化问题是使总失真最小化总失真：
min⁡ΦSSE=∑idiR=∑iri≤Rc\min \limits_{\Phi} SSE=\sum \limits_{i}d_i \\ R=\sum \limits_{i}r_i \le R_cΦminSSE=i∑diR=i∑ri≤Rc

其中Φ\PhiΦ表示编码器决策的集合，代表第i个MB的SSE，代表第i个MB所需要的码率。
应用拉格朗日算子将上述约束问题变为无约束问题:
min⁡{ϕi}i=1MJSSE=∑idi+λSSE∑iri=∑i(di+λSSEri)(9)\min \limits_{\{\phi_i\}_{i=1}^M}J_{SSE}=\sum_id_i+\lambda_{SSE}\sum_ir_i=\sum_i(d_i+\lambda_{SSE}r_i) \tag{9}{ϕi}i=1MminJSSE=i∑di+λSSEi∑ri=i∑(di+λSSEri)(9)

其中M是视频帧内MB的数量，Φi\Phi_iΦi是第i个MB的编码器决策集。
通常，这种优化是通过忽略MBs之间的依赖关系来实现的，并为每个MB解决以下无约束的问题：
min⁡ϕidi+λSSEri\min \limits_{\phi_i}d_i+\lambda_{SSE}r_iϕimindi+λSSEri

在H.264/AVC参考软件(JM)中，拉格朗日乘子的计算方法为λSSE=β⋅2(Qp−12)/3\lambda_{SSE}=\beta \cdot2^{(Qp-12)/3}λSSE=β⋅2(Qp−12)/3。
在课本率失真优化中，由RD曲线得：
r(d)=Nαlog(σ2d/N)(10)r(d)=N\alpha log(\frac{\sigma^2}{d/N}) \tag{10}r(d)=Nαlog(d/Nσ2)(10)

其中，r(d)是用于编码MB的速率，σ2\sigma^2σ2是MB中DFD的方差，d是重构MB的SSE失真，α是一个尺度常数。

为了求解（9）式，我们对d求导：
∂JSSE∂di=1+λSSE∂ri∂di=0(11)\frac{\partial J_{SSE}}{\partial d_i}=1+\lambda_{SSE}\frac{\partial r_i}{\partial d_i}=0 \tag{11}∂di∂JSSE=1+λSSE∂di∂ri=0(11)

联合（10）和（11），得到解：
di∗=NαλSSEri∗=Nαlog(σi2αλSSE)d_i^{*}=N\alpha \lambda_{SSE} \\ r_i^{*}=N\alpha log(\frac{\sigma_i^2}{\alpha \lambda_{SSE}})di∗=NαλSSEri∗=Nαlog(αλSSEσi2)

其中，di∗d_i^{*}di∗和和和r_i^{*}$分别为最优SSE和第i个MB的码率，是第i个MB的DFD的方差。因此，所使用的总码率是:
RSSE=Nα∑ilog(σi2αλSSE)R_{SSE}=N\alpha \sum_i log(\frac{\sigma_i^2}{\alpha \lambda_{SSE}})RSSE=Nαi∑log(αλSSEσi2)

当使用dSSIM作为失真度量时，我们可以重复同样操作。使用（7），我们将进行优化的式子：
min⁡{ϕi}i=1MJSSE=∑idi2σxi2+c2+λ∑iri=∑i(di2σxi2+c2+λri)(12)\min \limits_{\{\phi_i\}_{i=1}^M}J_{SSE}=\sum_i\frac{d_i}{2\sigma_{xi}^2+c_2}+\lambda \sum_ir_i=\sum_i(\frac{d_i}{2\sigma_{xi}^2+c_2}+\lambda r_i) \tag{12}{ϕi}i=1MminJSSE=i∑2σxi2+c2di+λi∑ri=i∑(2σxi2+c2di+λri)(12)

σxi2\sigma_{xi}^2σxi2代表第i个MB的方差。
为了解决（12）式，我们同样的对d求导。
∂J∂di=12σxi2+c2+λ∂ri∂di(13)\frac{\partial J}{\partial d_i}=\frac{1}{2\sigma_{xi}^2+c_2}+\lambda \frac{\partial r_i}{\partial d_i} \tag{13}∂di∂J=2σxi2+c21+λ∂di∂ri(13)

将（10）带入到（13），
di∗=(2σxi2+c2)NαλSSEri∗=Nα⋅log(σi2α(2σxi2+c2)λ)d_i^{*}=(2\sigma_{xi}^2+c_2)N\alpha \lambda_{SSE} \\ r_i^{*}=N\alpha \cdot log(\frac{\sigma_i^2}{\alpha (2\sigma_{xi}^2+c_2)\lambda})di∗=(2σxi2+c2)NαλSSEri∗=Nα⋅log(α(2σxi2+c2)λσi2)

总的码率为：
RSSIM=Nα∑ilog(σi2α(2σxi2+c2)λ)R_{SSIM}=N\alpha \sum_i log(\frac{\sigma_i^2}{\alpha (2\sigma_{xi}^2+c_2)\lambda})RSSIM=Nαi∑log(α(2σxi2+c2)λσi2)

如前所述，考虑一个条件，这样无论使用MSE还是dSSIM作为失真度量，总的码率都是相同的；这将使得作为JM中使用的拉格朗日乘子λSSE的一个函数表达。通过设置RSSIM=RSSER_{SSIM}=R{SSE}RSSIM=RSSE，我们得到：
λ=λSSE⋅exp(−1M∑iMlog(2σxi2+c2))(14)\lambda =\lambda_{SSE}\cdot exp(-\frac{1}{M}\sum_i^{M}log(2\sigma_{xi}^2+c_2)) \tag{14}λ=λSSE⋅exp(−M1i∑Mlog(2σxi2+c2))(14)

这意味着在使用（8）执行RDO决策时，我们将得到第i个MB的拉格朗日乘数：
λi=2σxi2+c2exp(−1M∑iMlog(2σxi2+c2))λSSE(15)\lambda_i=\frac{2\sigma_{xi}^2+c_2}{exp(-\frac{1}{M}\sum_i^{M}log(2\sigma_{xi}^2+c_2))}\lambda_{SSE} \tag{15}λi=exp(−M1∑iMlog(2σxi2+c2))2σxi2+c2λSSE(15)

相比于在JM中使用的拉格朗日算子λSSE\lambda_{SSE}λSSE，λi\lambda_iλi依赖于局部方差统计量，由对数统计量的几何平均值对原始拉格朗日乘子进行归一化。这给了一种对RDO过程进行小修改，使整个帧的SSIM最大化的方法。

2.3 QP的变化

将拉格朗日乘子中的局部缩放解释为每个MB的QP的变化也很有用。设QP‾\overline{QP}QP是原始（或主）QP, QPiQP_iQPi是SSIM-RDO中第i个MB使用的QP。然后，利用和，其中γi\gamma_iγi是JM中第i个MB的拉格朗日乘子的放缩比例，我们得到：
ΔQPi=QPi−QP‾=3log2γi(16)\Delta QP_i=QP_i-\overline{QP}=3log_2 \gamma_i \tag{16}ΔQPi=QPi−QP=3log2γi(16)

编码器JM可以测试一系列QP，以找到给出最佳RD对应的的QP。然而，由于这增加了编码器的复杂性，则只能测试有限范围的QP。

或者，我们也可以使用（16）来直接确定要应用于每个MB的QP：
ΔQPi=3(si−1M∑j=1Msj)(17)\Delta QP_i=3(s_i-\frac{1}{M}\sum_{j=1}^Ms_j) \tag{17}ΔQPi=3(si−M1j=1∑Msj)(17)

Where si=log2(2σi2+c2)s_i=log_2(2\sigma_i^2+c_2)si=log2(2σi2+c2)

3.算法简述

MBRDO(i，λi)MB_RDO(i，λ_i)MBRDO(i，λi)是指使用λiλ_iλi的拉格朗日乘数对第MB执行传统的RDO模式决策。

4.发展趋势

而由方程（17）调整后的只能反映空间特征，并没有充分考虑到时间感知特征。当该方法应用于空间方差分布复杂、帧间慢动的序列时，性能可能会受到限制。未来会有基于感知空间特性的自适应量化器和基于感知时域自适应量化器的产生。

参考文献：

[1]C. Yeo, H. L. Tan and Y. H. Tan, “SSIM-based adaptive quantization in HEVC,” 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 2013, pp. 1690-1694, doi: 10.1109/ICASSP.2013.6637940.
[2]T. Wiegand, H. Schwarz, A. Joch, F. Kossentini and G. J. Sullivan, “Rate-constrained coder control and comparison of video coding standards,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, no. 7, pp. 688-703, July 2003, doi: 10.1109/TCSVT.2003.815168.
[3]C. Yeo, H. L. Tan and Y. H. Tan, “On Rate Distortion Optimization Using SSIM,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 23, no. 7, pp. 1170-1181, July 2013, doi: 10.1109/TCSVT.2013.2240918.
[4]Y. Yan, G. Xiang, Y. Li, X. Xie, W. Yan and Y. Bao, “Spatiotemporal Perception Aware Quantization Algorithm For Video Coding,” 2020 IEEE International Conference on Multimedia and Expo (ICME), 2020, pp. 1-6, doi: 10.1109/ICME46284.2020.9102882.