Joint Autoregressive and Hierarchical Priors for Learned Image Compression

  • 一 简介
  • 二 内容
    • 2.1 创新内容
    • 2.2 框架细节
    • 2.3 性能
  • 三 总结

论文地址:https://arxiv.org/abs/1809.02736?context=cs.CV

代码地址:无

PixCNN 论文地址:https://arxiv.org/abs/1601.06759v3

PixCNN 代码地址:https://github.com/carpedm20/pixel-rnn-tensorflow

Minnen作品 也是一尊大神,入门必读。该文章仅供本人笔记用,如果问题欢迎讨论。

PixCNN

一 简介

最近,已经引入了层次熵模型(超先验),以作为比简单的完全分解先验算法更能开发潜伏结构的方法,从而在保持端到端优化的同时提高了压缩性能。受到概率生成模型中自回归先验的成功的启发,该文研究了自回归,分层和组合先验作为替代方案,在图像压缩的情况下权衡了它们的成本和收益。虽然众所周知,自回归模型会带来很大的计算量损失,就压缩性能而言,自回归和分层先验是互补的,并且与所有先前学习的模型相比,自回归和分层先验在潜伏中的概率结构更好。组合的模型产生了最新的速率失真性能,第一个超过了BPG传统压缩的智能压缩算法。

二 内容

2.1 创新内容

该模型是基于Ballé 2018等人的工作.使用基于噪声的松弛来将梯度下降方法应用于方程式中的损失函数。并引入了层次化的改进熵模型。尽管先前的大多数研究使用的是(离线)的(但可能很复杂的)熵模型,但Ballé等人(2007年)。使用高斯比例混合(GSM),比例参数以超优先为条件。他们的模型可以进行端到端训练,包括联合优化超先验的量化表示,条件熵模型和基本自动编码器。关键见解是可以将压缩的超优先级作为边信息添加到生成的比特流中,从而允许解码器使用条件熵模型。以这种方式,熵模型本身是图像相关的和空间自适应的,这允许更丰富和更准确的模型。 Ballé等。表明深度神经网络的标准优化方法足以了解边信息的大小与从更精确的熵模型获得的节省之间的有用平衡。与早期的基于学习的方法相比,生成的压缩模型提供了最新的图像压缩结果。

两种方式扩展这种基于GSM的熵模型:基线是只预测了熵模型的 σ\sigmaσ 参数,原文称之为(GSM)模型,而该文则通过增加预测 μ\muμ 均值的形式,该文称之为(GMM)模型,但是实际预测 σ\sigmaσ 和 μ\muμ 两个参数才是单高斯分布,而GMM则是预测了多高斯混合,此处模型称呼问题有出入。第二个方式: 根据生成模型的最新研究,通过自回归的模块。其余模块均与论文《Variational Image Compression With A Scale Hyperprior》中的一致。

2.2 框架细节


组合模型共同优化了一个自回归组件,该组件根据其因果上下文(上下文模型)以及超优先级和底层自动编码器来预测潜伏。对实值潜像表示进行量化(QQQ),以创建潜像(y~\tilde{y}y~​)和超潜像(z~\tilde{z}z~),然后使用算术编码器(AE)将其压缩为位流,并通过算术解码器(AD)对其进行解压缩。高亮区域对应于由接收机执行以从压缩比特流中恢复图像的组件。
       该自回归组件是通过一层的 MaskConvolutionMask \space ConvolutionMask Convolution 卷积层实现的,具体可参考论文《Pixel Recurrent Neural Networks》,通过对卷积核进行 MaskMaskMask 操作,掩盖了未解码点的数值,保证了自回归模型预测的当前的像素点参数仅来自于前面已经解码的点,而不取决于未解码点。


通过这种Mask 掩膜,遮蔽卷积核下面和右边的权重,这种卷积核与特征图进行卷积的时候,可以可知卷积得到的结果与“未来”的数据无关。

自回归模型的问题在于存在严格是时序关系,只能先得到前面的点才能得到当前点的信息,而前面的点也只能依靠更前面的点得到,即表现为在解码的时候,原始的解码方式具有并行性质,而自回归则是串行顺序。如下例子:
       假定有一百个待解码点 [x1x_1x1​,x2x_2x2​,x2x_2x2​,x3x_3x3​ … x100x_{100}x100​],基线模型地解码方式在于通过分层先验模型传输解码需要的参数信息到解码端: [(μ1,σ1\mu_1,\sigma_1μ1​,σ1​),(μ2,σ2\mu_2,\sigma_2μ2​,σ2​),(μ3,σ3\mu_3,\sigma_3μ3​,σ3​) …(μ100,σ100\mu_{100},\sigma_{100}μ100​,σ100​)],这部分的信息解码器是无法自己生成的,所以需要传输。然后解码端根据建模的参数信息进行解码,其中重要的是,上述的的建模信息的生成是并行生成的。该论文中优化联合自回归以及分层先验的方式则是串行的,具体运作规则如下:分层先验会根据源数据[x1x_1x1​,x2x_2x2​,x2x_2x2​,x3x_3x3​ … x100x_{100}x100​] 生成 [ψ1\psi_1ψ1​,ψ2\psi_2ψ2​,ψ3\psi_3ψ3​ … ψ100\psi_{100}ψ100​],分层先验模型的生成方式是并行的,而自回归模块则生成[ϕ1\phi_1ϕ1​,ϕ2\phi_2ϕ2​,ϕ3\phi_3ϕ3​ … ϕ100\phi_{100}ϕ100​], 其串行体现与,在自回归模型训练结束后,ϕ1\phi_1ϕ1​ 的 参数值是根据x0x_0x0​推断的,由于没有x0x_0x0​,则初始化一个x0x_0x0​,而ϕ2\phi_2ϕ2​,由x1x_1x1​已知的情况下才能得到,ϕ3\phi_3ϕ3​,由x2x_2x2​已知的情况下推断得到。解码顺序是:解码端通过初始化 x0x_0x0​,然后推断得到 ϕ1\phi_1ϕ1​, ϕ1\phi_1ϕ1​与ψ1\psi_1ψ1​进行通道拼接操作后经过几个1×11\times11×1的卷积层,得到 (μ1,σ1\mu_1,\sigma_1μ1​,σ1​),然后解码得到 x1x_1x1​,得到 x1x_1x1​可以推断得到 ϕ2\phi_2ϕ2​,ϕ2\phi_2ϕ2​与ψ2\psi_2ψ2​进行通道拼接操作后经过几个1×11\times11×1的卷积层,得到 (μ2,σ2\mu_2,\sigma_2μ2​,σ2​),然后解码得到 x2x_2x2​,不断反复依次生成需要的 [(μ1,σ1\mu_1,\sigma_1μ1​,σ1​),(μ2,σ2\mu_2,\sigma_2μ2​,σ2​),(μ3,σ3\mu_3,\sigma_3μ3​,σ3​) …(μ100,σ100\mu_{100},\sigma_{100}μ100​,σ100​)],之后得到解码的点:[x1x_1x1​,x2x_2x2​,x2x_2x2​,x3x_3x3​ … x100x_{100}x100​]。上述过程可以看出,这种自回归形式仅仅依靠已经解码的可以推测出来(我自己推我自己),即不需要额外的码率进行传时,但是这种串行的性质,需要极大的时间复杂度。

自回归模型和超先验模型可以进行有效的互补工作。首先,从超优先级的角度出发,我们看到对于相同的超先验网络体系结构,对熵模型的改进需要更多的辅助信息。辅助信息会增加压缩文件的总大小,从而限制了其优势。相反,将自回归分量引入先验不会引起潜在的速率损失,因为预测仅基于因果关系,即基于已经被解码的潜像。同样,从自回归模型的角度来看,我们期望一些无法完全从因果关系中消除的不确定性。但是,超先验网络可以“展望未来”,因为它是压缩比特流的一部分,并且被解码器完全了解。因此,超级优先级可以学会存储减少自回归模型中的不确定性所需的信息,同时避免存储可以从上下文中准确预测的信息。

通过使用自回归模型与未使用自回归模型的结构冗余捕获可以看出,下图中,归一化后(第五张图)单超先验模型依旧存在一定的结构冗余,而联合优化自回归模型的归一化图的分布更接近与标准正太分布。

2.3 性能


在相同码率的情况下,比BPG算法多出0.5db左右的性能提高,是第一个超过BPG的图像智能压缩算法,但是在实现速度上,编解码的时间大大增加,相对于之前的分层先验编码器,编码时间延长了近百倍。

三 总结

实际的角度来看,自回归模型本质上是串行的,因此不如层次模型更可取,因此无法使用诸如并行化之类的技术来加速。为了报告包含自回归分量的压缩模型的性能,避免在本文中实现完整的解码器,而是比较香农熵。通过经验证明,这些测量值在算术编码生成的位流大小的百分之几以内。概率密度蒸馏已成功用于绕过语音合成任务的自回归模型的序列性质[38],但不幸的是,由于先验和后验之间的耦合,相同类型的方法无法应用于压缩领域。算术解码器。为了解决这些计算问题,正在考虑采用其他技术来降低上下文模型和熵参数网络的计算要求,例如设计紧密的集成。具有可微自回归模型的算术解码器。未来研究的另一方向可能是通过在严格的等级先验中引入更多的复杂性来完全避免因果关系问题。

端到端的图像压缩----《Joint Autoregressive and Hierarchical Priors for Learned Image Compression》 论文笔记相关推荐

  1. 【图像压缩】自回归模型 《Joint Autoregressive and Hierarchical Priors for Learned Image Compression》

    1. 绪论 第一个在PSNR和MS-SSIM都优于BPG的学习模型.引入自回归模型改善熵模型,虽然自回归模型计算很慢,但作者发现在图像压缩领域,自回归模型与多层先验模型互补,能够比之前的模型更能挖掘隐 ...

  2. 【图像压缩】高斯混合-注意力模型 《Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Atten》

    绪论 本文针对熵模型优化提出使用离散化的高斯混合模型已提供更灵活的隐层表示分布估计,此外在网络结构中使用注意力模块关注复杂区域以提高性能.是第一个达到与VTM 5.2相近表现的工作. 提出的方法 压缩 ...

  3. 端到端的图像压缩----《Channel-wise Autoregressive Entropy Models For Learned Image Compression》论文笔记

    Channel-wise Autoregressive Entropy Models For Learned Image Compression 一. 简介 二 内容 2.1 现有方法缺陷 2.2 改 ...

  4. 端到端的图像压缩《Learning Scalable constrained Near-lossless Image Compression via Joint Lossy Image cmp》

    Learning Scalable ∞-constrained Near-lossless Image Compression via Joint Lossy Image and Residual C ...

  5. 端到端的图像压缩----《Variational Image Compression With A Scale Hyperprior》论文笔记

    Variational Image Compression With A Scale Hyperprior 一 简介 二 内容 2.2 数据流程 2.3 变分自编码器 2.4 思路介绍 三 核心代码 ...

  6. 全景分割这一年,端到端之路

    机器之心原创 作者:朱艳芳 编辑:邱陆陆 图像分割(image segmentation)任务的定义是:根据某些规则将图片分成若干个特定的.具有独特性质的区域,并提出感兴趣目标的技术和过程. 目前图像 ...

  7. 【信息抽取】介绍一种端到端的关系抽取方法

    事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...

  8. 基于深度学习的多目标跟踪算法(上):端到端的数据关联

    ©PaperWeekly 原创 · 作者|黄飘 学校|华中科技大学硕士生 研究方向|多目标跟踪 最近基于深度学习的多目标跟踪算法越来越多,有用于特征提取的,有改进单目标跟踪器的,也有提升数据关联的.如 ...

  9. 端到端神经视频编码=A Better Trade-off ?

    归根结底,每一种视频压缩方法都要权衡利弊(trade-off):如果允许更大的文件大小,就可以拥有更好的图像质量:但如果想让文件非常小,那就必须要容忍错误出现的概率.但现在(以及不久的将来),人们希望 ...

最新文章

  1. linux上如何主指定的静态路由永久有效
  2. 【手记】解决启动SQL Server Management Studio 17时报Cannot find one or more components...的问题
  3. MySQL常见错误总结
  4. 西部数码 php.ini,如何修改PHP的memory_limit限制
  5. uva 10158(并查集)
  6. mysql有程序过程吗_MySQL工作(执行)流程
  7. 【超详细】初中高级软件测试工程师 都需要掌握哪些测试技能
  8. Apache Pulsar 生态项目 KoP 新增 Maintainer:吴展鹏
  9. 以平静的心接受与自己意愿相违背的事
  10. 学习深度学习是否要先学习机器学习?
  11. mac 文字识别软件ocr_Mac平台上一款免费的OCR文字识别功能的屏幕截图软件Screen OCR...
  12. 华为云OBS文件服务
  13. 微信小程序怎么上架和发布商品?
  14. android支持的语言
  15. 【算法•日更•第十二期】信息奥赛一本通1585:【例 1】Amount of Degrees题解
  16. MySQL基本操作,个人总结。(WampServer小补充)
  17. Pycharm配置环境本地训练yolov5(车辆检测)
  18. java pinyin4j.jar,android pinyin4j.jar
  19. oracle+odac的作用,ODAC简介
  20. CLR基础全面版-概念、执行模型、托管模块、程序集、FCL

热门文章

  1. logback之二:输出日志到控制台
  2. 关于给hexo博客增加节日气氛主题切换(包括中国春节和圣诞节)
  3. 12-mac中制作u盘启动盘的方法
  4. 01分布式电商项目 - 电商背景
  5. OCiOS开发:使用相册、照相机和录像
  6. 【评测】SF9/SF21昆虫细胞培养基
  7. 今天14:00 | NeurIPS 专场一 青年科学家专场
  8. 无线网络CSMA/CA原理分析以及相关技术的介绍和分析
  9. 网盘、云盘共享文件搜索引擎链接收藏目录
  10. 一年降本 40%:基于云服务的技术成本精细化运营策略