《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》

1 绪论

本文提出连续比特率可调整框架，非对称、增益的变分自编码器（AG-VAE）。使用一对即插即用增益单元实现单个模型下离散比特率自适应，之后使用指数插值实现连续比特率自适应，其间增加的复杂度可以忽略不计。此外为解决非对称分布样本的熵估计误差，提出非对称高斯熵模型。

2 提出方法

2.1 增益单元

基于VAE的图像压缩框架中隐层表示普遍存在着不均匀的通道冗余。将隐层表示的前30个通道分别设置为0，之后转换回RGB域，图2左侧显示缺少不同通道导致的PSNR损失。选择通道29为例（缺少29导致的PSNR损失最多），应用不同缩放因子，得到结果如图2右侧。可以得出，不同通道的重要性不同，而且可以通过缩放控制重建质量。之前的许多工作忽略了不同通道的不均匀冗余。

根据以上性质设计增益单元，隐层变量 $y \in R^{c\times h \times w}$ ， $y_i \in R^{h \times w}, i = 0, 1, \cdots, c-1$ ，增益单元由增益矩阵组成 $M\in R^{c\times n}$ ，其中n代表增益向量数目。增益向量可以表示为 $m_s = \{m_{s, 0}, m_{s, 1}, \cdots, m_{s, c-1}\}$ ，s是增益向量序号。隐层重调整操作描述如下：

$\bar{y}_{s, i} = y_i \times m_{s, i}$

通过这种方法，隐层表示的量化损失可以通过增益向量逐通道地精细调整。网络被引导着为影响重建质量大的通道分配更多的比特。增益单元计算过程如下：

$\bar{y}_s = G_{\psi}(y, s) = y \odot m_s$

$\odot$ 代表逐通道相乘。需要注意的是，增益矩阵与自编码器网络联合训练以保证两者兼容。

2.2 离散可变比特率

量化过程公式化：

$\hat{y}_s = Q(\bar{y}_s) = round(\bar{y}_s)$

在将重调整、量化之后的结果 $\hat{y}_s$ 送入decoder之前，添加可训练反增益单元，将 $\hat{y}_s$ 映射回与 $y$ 相同的数字间隔。反增益矩阵 $M^{'}\in R^{c\times n}$ ，反增益向量 $m_s^{'} = \{m_{s, 0}^{'}, m_{s, 1}^{'}, \cdots, m_{s, c-1}^{'}\}$ ，反增益过程：

$y_s^{'} = IG_{\tau}(\hat{y}_s, s) = \hat{y}_s \odot m_s^{'}$

训练过程中，每一对增益向量 $\{m_s, m_s^{'}\}$ 对应预定义好的拉格朗日乘子有限集合 $B \in R^n$ 中一个特定的拉格朗日乘子 $\beta_s$ ，增益、反增益向量和拉格朗日乘子与下标s绑定在一起，离散可变比特率框架（DVR）损失函数如下：

$\mathop{min}_{\theta, \phi, \varphi, \psi } \sum_{s = 0}^{n-1} R_\varphi(Q(G_{\varphi}(f_\theta(x), s))) + \beta_s \cdot D(x, g_\phi(\ IG_\tau(Q(G(f_\theta(x), s)), s)\ ))$

推理过程中，更改s获得对应增益、反增益向量对。通过这种方法，可以获得R-D曲线上几个离散点的压缩性能，R-D曲线范围取决于拉格朗日乘子 $\beta_s$ 的数量和值。

2.3 指数插值

增益单元对保证 $\hat{y}$ 和 $y$ 的数字间隔相同（？），可以公式化为：

$m_t \cdot m_t^{'} = m_r \cdot m_r^{'} = C, where \ r,t \in [0, 1, \cdots, n-1]$

$\{m_t,m_t^{'}\}$ 和 $\{m_r,m_r^{'}\}$ 代表不同比特率的增益向量对。根据上式，可以获得指数插值公式：

$(m_t \cdot m_t^{'})^l \cdot (m_r \cdot m_r^{'})^{1-l} = C,$

$[(m_r)^l \cdot (m_t)^{1-l}] \cdot [(m_r^{'})^l \cdot (m_t^{'})^{1-l}]=C,$

$m_v = [(m_r)^l \cdot (m_t)^{1-l}], m_v^{'}= [(m_r^{'})^l \cdot (m_t^{'})^{1-l}]$

其中， ${m_v, m_v^{'}}$ 是生成增益向量对， $l \in R$ 是插值系数，控制对应生成增益向量对的比特率。 $l$ 是实数，使用指数插值可以实现 $t, r$ 之间任意比特率，实现了连续比特率控制方法（CVR），如图4所示，CVR扩大了覆盖范围同时不减R-D表现。

2.4 超先验的可变比特率

超先验被建模为无参数、全分解熵模型，比特率自适应也可以应用于超先验（HCVR），整体结构如下：

2.5 高斯熵模型

目前主流熵模型：

$p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}) \sim N(\mu, \sigma^2)$

但是对称高斯熵模型自由度不够，对于不满足对称高斯分布的自然图片可能产生较大估计误差，因此使用非对称高斯熵模型[1]如下：

$p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}) \sim N(\mu, \sigma_l^{2}, \sigma_r^2)$

其中 $\sigma_l^2, \sigma_r^2$ 代表隐层表示的左右尺度参数。所有参数包括 $\mu, \sigma_l^2, \sigma_r^2$ 都是可训练的，当左右尺度参数相同的时候退化为对称高斯分布。因此更灵活精确。

2.6 网络结构

AG-VAE框架如图6。采用自回归框架作为基础框架并添加增益单元对，使用非对称高斯作为熵模型。隐层变量 $y$ 的通道数设置为192，卷积核大小为 $3\times 3$ 。采用一些优化方法：注意力模块、通用量化[2]、平行上下文模型。

3 实验

3.1 实验细节

3.2 表现对比

率失真表现

只使用一个模型获得R-D曲线，PSNR表现sota，MS-SSIM表现与Cheng相近。

结果可视化

AG-VAE结果回复更多细节，减少了模糊伪影。

3.3 可变比特率方法对比

率失真表现

与原方法多模型曲线贴合，范围大，无性能损失。

增加的计算与参数

增加参数少，计算快。

3.4 消融学习

增益单元的泛化性

因为无需修改网络结构，增益单元几乎可以用于所有基于VAE的图像压缩方法。实验如图10：

HCVR方法

证明HCVR相对于CVR的优越性，如图11，使用HCVR略好于CVR。

非对称高斯模型

SG对称高斯模型，AG非对称高斯模型：

[1]Nafaa Nacereddine, Salavatore Tabbone, Djemel Ziou, and Latifa Hamami. Asymmetric generalized gaussian mixture models and em algorithm for image segmentation. In ICPR, 2010.

[2]Jacob Ziv. On universal quantization. IEEE Transactions on Information Theory, 1985.

【图像压缩】连续比特率自适应《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》相关推荐

端到端图像压缩《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》
Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation 一简介二内容 2.1 目前方法的缺陷 2.2 整 ...
论文笔记30 -- （视频压缩）【CVPR2021】FVC: A New Framework towards Deep Video Compression in Feature Space
<FVC: A New Framework towards Deep Video Compression in Feature Space> CVPR 2021 的一篇Oral 提出了特征 ...
深度学习视频压缩1—DVC: An End-to-end Deep Video Compression Framework
本文是第一篇端到端使用神经网络来进行视频压缩的论文, github地址:GitHub - GuoLusjtu/DVC: DVC: An End-to-end Deep Video Compressio ...
模型加速--CLIP-Q: Deep Network Compression Learning by In-Parallel Pruning-Quantization
CLIP-Q: Deep Network Compression Learning by In-Parallel Pruning-Quantization CVPR2018 http://www.sf ...
A Survey of Rate Adaptation Techniques for Dynamic Adaptive Streaming Over HTTP（自适应流媒体的综述）
为了避免出现视频卡顿或者重新缓冲的现象,目前有以下四种解决方案: 1.使用播放缓冲区.此方法可以克服短期的网络吞吐量变化. 2.编码变换.比如改变视频分辨率.压缩比或帧速率,但此方法计算量巨大,需要复 ...
【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift
Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...
半监督领域自适应之CCSA--Unified Deep Supervised Domain Adaptation and Generalization
文章目录介绍论文和实现模型架构介绍 Unsupervised domain adaptation (UDA)无监督领域自适应不需要目标域任何标签数据,但是需要大量的目标域数据才能适应数据的分布 ...
7.Deep Interest Network for Click-Through Rate Prediction论文详解
一.总述这是2018年阿里Guorui Zhou等人发表在KDD上的一篇论文.论文提出在CTR任务中,丰富的用户历史行为数据包含了用户多种兴趣,对于不同的候选广告,起作用的用户历史行为数据表示应该不 ...
论文阅读笔记《Fine-tuning Deep Neural Networks in Continuous Learning Scenarios》
摘要:深度神经网络的复兴与ImageNet数据集的公开为近期复杂识别任务的成功奠定了基础.然而,ImageNet并不能包含所有可能的应用场景的所有视觉概念.因此,应用科学家仍然不断地记录新的数据,并期 ...
【图像压缩】超先验模型《VARIATIONAL IMAGE COMPRESSION WITH A SCALE HYPERPRIOR》
updating... 1 动机基于香农定理,使用估计所得熵模型对隐层表示建模理论上的编码下界为: 其中为隐层表示(latent representation)实际分布,为熵模型估计分布,熵模型是一 ...

【图像压缩】连续比特率自适应《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》

1 绪论

2 提出方法

2.1 增益单元

2.2 离散可变比特率

2.3 指数插值

2.4 超先验的可变比特率

2.5 高斯熵模型

2.6 网络结构

3 实验

3.1 实验细节

3.2 表现对比

率失真表现

结果可视化

3.3 可变比特率方法对比

率失真表现

增加的计算与参数

3.4 消融学习

增益单元的泛化性

HCVR方法

非对称高斯模型

【图像压缩】连续比特率自适应《Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation》相关推荐

最新文章

热门文章