在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 PaperDaily 的第 88 篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @TwistedW。本文来自早稻田大学,论文用精炼的语言对比了几类图像生成模型,将卷积自编码器(CAE)、生成对抗网络(GAN)和超分辨率(SR)在生成图像性能上做了比较。通过提取图像紧凑的特征,文章得出 CAE 比 JPEG 具有更好的编码效率,GAN 显示出在大压缩比和高主观质量重建方面的潜在优势,超分辨率在其中实现了最佳的速率失真(RD)性能,与 BPG 相当。

如果你对本文工作感兴趣,点击底部阅读原文即可查看原论文。

关于作者:武广,合肥工业大学硕士生,研究方向为图像生成。

■ 论文 | Performance Comparison of Convolutional AutoEncoders, Generative Adversarial Networks and Super-Resolution for Image Compression

■ 链接 | https://www.paperweekly.site/papers/2085

■ 作者 | Zhengxue Cheng / Heming Sun / Masaru Takeuchi / Jiro Katto

图像压缩在计算机视觉领域占据着比较重要的位置,随着 GAN,VAE 和超分辨率图像让生成模型得到了很大的进步。不同的模型有着不同的性能优势,本文用精炼的语言加上较为严谨的实验对比了 GAN,CAE 和 super-resolution 在图像压缩性能上的优势

论文引入

图像压缩一直是图像处理领域的一个基础和重要的研究课题。传统的图像压缩算法,如 JPEG,JPEG2000 和 BPG,依赖于手工制作的编码器。深度学习方法的发展提高了图像压缩的性能,其中比较有突破的图像压缩是在 Autoencoder,GAN 和超分辨率方面。

这篇论文提出了三种架构,分别使用卷积自动编码器(CAE),GAN 和超分辨率(SR)进行有损图像压缩。此外,还对它们的编码性能并进行了全面的比较。

实验结果表明,由于 Autoencoder 可以紧凑表示特性,CAE 可以实现比 JPEG 更高的编码效率;GAN 显示出在大压缩比和高主观质量重建方面的潜在优势;超分辨率在三种方法中实现了最佳的速率失真(RD)性能。

总结一下论文的贡献:

  • 基于 CAE,GAN,SR 提出了三种整体压缩体系结构

  • 对这三种框架做了全面的性能比较

CAE用于图像压缩

文中将图像压缩中的 DCT 和小波变换换成了 CAE(卷积自编码器),整体架构如下图所示:

上图比较符合传统的图像压缩的流程,不过主要的框架是在 CAE 的基础上建立的。连续的下采样操作会破坏重建图像的质量,所以 Autoencoder 采用卷积滤波器执行上下采样,CAE 的内部结构如下图:

内部卷积层之后的激活函数采用的是参数整流线性单元(PReLU)函数,而不是相关工作中常用的 ReLU,因为我们发现 PReLU 可以与 ReLU 相比时,提高了重建图像的质量,尤其是在高比特率。整体的损失函数定义为:

其中为 MSE 损失,x 是原始图像 x̂ 是重构图像,μ 是均值噪声,fθ(x) 是 x 经过 encoder 得到的编码函数,gϕ(y) 为解码得到的解码函数。

GAN用于图像压缩

我们都知道 GAN 多用于图像的生成,图像的压缩也需要在 GAN 的基础上做一些小小的改变,那就是在生成器前面加上一个编码器,这样就可以把图像 encode 到适合 G 生成即可,这个编码器的结构和判别器类似,GAN 做图像压缩的整体框架如下:

这个模型框架结构很清晰,不需要太多的解释,判别器可以提高输出图像的真实性,损失函数为:

这里只写非对抗损失函数部分,对抗损失函数和原始 GAN 是一致的。JG(x) 包含两部分,前半部分是 MSE 损失,后半部分是减小特征层的损失可有利于图像的高质量重建。

基于 GAN 的体系结构与基于 CAE 的体系结构在图像压缩中有三个不同之处。首先,直接输入 RGB 分量,因此不应用从 RGB 到 YCbCr 的色彩空间转换;其次,不在训练过程中添加统一的噪音,因为 GAN 会从噪音中继承重建图像。第三,使用范围编码器,而不是 JPEG2000 熵编码器。

SR用于图像压缩

超分辨率压缩结构如下图所示:

对于具有复杂纹理或小分辨率的图像,SR 将成为高质量重建的瓶颈。因此,在编码器中构建重建循环且为自适应策略,该循环计算仅由 SR 引起的失真,即上图中的 Pre PSNR。

当 Pre PSNR 大于预定阈值时,图像被下采样到(0.5W,0.5H)并且在解码之后进行 SRCNN 滤波。否则,将图像下采样到(0.7W,0.7H),自适应策略的效果如下表。实验中阈值设置为 33.0 dB,并且选择约 30% 的图像以使用 SRCNN 滤波器。

性能比较

为了测量编码效率,通过每像素比特(bpp)来测量速率。PSNR(dB)和 MS-SSIM 分别用于测量客观和主观质量。

CAE 

由于 CAE 生成的特征图不是能量紧凑的,所以还要用 PCA 进一步去相关特征图。PCA 生成的特征映射和旋转特征映射的示例如下图所示。

可以看到,在右下角生成了更多的零,在旋转的特征映射中,大值居中于左上角,这有利于熵编码器降低速率。与 JPEG2000 相比,基于 CAE 的方法优于 JPEG,并且在 Kodak 数据集图像上实现了 13.7% 的 BD 率减少。

GAN

GAN 的图像压缩在 CLIC 验证数据集上进行了性能比较实验:

其中 bpp 越小越好,PSNR 越大越好,MS-SSIM 越大越好!可以看出 GAN 的一定优势。

对比结果 

实验在 CLIC 验证数据集进行公平评估。具有 MS-SSIM 和 PSNR 的 RD 曲线如下图。超分辨率的 RD 曲线很短,因为它是通过用 BPG 编解码器中的固定量化参数(QP) 值改变自适应策略中的阈值来进行的。通过改变 QP,超分辨率还可以实现广泛的 RD 曲线。

从 RD 曲线总结了几个观察结果:

1. 由于自动编码器的固有特性,在有损压缩的情况下,CAE 优于 JPEG。自动编码器可以减少尺寸以从图像中提取压缩的演示文稿,因此 CAE 优于 JPEG 和 JPEG2000。

2. GAN 在低比特率下比在高比特率下表现更好,因此 GAN 倾向于实现大的压缩比。同时,GAN 在 MS-SSIM 上的性能优于 PSNR,因为 GAN 的重建是基于图像数据的分布,肉眼更加认同。特别是对于 MS-SSIM,GAN 具有从 0.2bpp 到 0.8bpp 的稳定性能。

3. SR 在这三种方法中实现了最佳性能,因为它具有新兴算法 BPG 和基于机器学习的超分辨率滤波器的优点。如果可以提供更多的计算资源,那么通过添加更好的超分辨率滤波器,可以预期有希望的结果将超过 BPG。

下表是在速率约为 0.15bpp 的三种方法的比较:

可以看出基于 SR 的方法与 BPG 非常接近,基于 GAN 和 CAE 的体系结构优于 JPEG,特别是 GAN 和 CAE 具有相似的 PSNR,但就相对主观的 MS-SSIM 而言,GAN 比 CAE 更好。

总结

论文提出了三种使用 CAE,GAN 和 SR 进行压缩的体系结构,并讨论了它们的性能。结果表明:

  • CAE 比传统的有限压缩变换更好,并且有望用作特征提取器;

  • GAN 显示出对大压缩比和主观质量重建的潜在优势;

  • 基于 SR 的压缩实现了其中最佳的编码性能。

本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!


点击标题查看更多论文解读:

  • ACL2018高分论文:混合高斯隐向量文法

  • 基于词向量的简单模型 | ACL 2018论文解读

  • COLING 2018最佳论文:序列标注经典模型复现

  • 综述:图像风格化算法最全盘点

  • CVPR 2018 最佳论文解读:探秘任务迁移学习

  • 深度学习模型复现难?句子对模型复现论文

关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 查看原论文

图像压缩哪家强?请看这份超详细对比相关推荐

  1. 爬虫代理哪家强?十大付费代理详细对比评测!

    前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走. 对于爬虫来说,为了解决 ...

  2. 担心被淘汰?请看这份财会人员晋升指南!

    担心被淘汰?请看这份财会人员晋升指南! 随着云技术.流程机器人.认知计算等创新型技术向财务领域不断的深入,其在带来组织架构.人员及管理变革的同时,也不禁引起了财会.税务.审计等人员的困惑. 在以机器人 ...

  3. 计算机网络技术表白,表白技术哪家强?看我武信各专业花式表白

    原标题:表白技术哪家强?看我武信各专业花式表白 马上就到"5.20"表白日了 不同专业学科的人在表白这件事上脑回路都不相同 快来看看我们武信各大专业的花式表白 总有一款适合你 表白 ...

  4. 给你一份超详细 Spring Boot 知识清单

    转载自   给你一份超详细 Spring Boot 知识清单 在过去两三年的Spring生态圈,最让人兴奋的莫过于Spring Boot框架.或许从命名上就能看出这个框架的设计初衷:快速的启动Spri ...

  5. 手机续航测试软件哪个好,手机续航哪家强?58款手机续航测试对比,TOP10有你的手机吗?...

    原标题:手机续航哪家强?58款手机续航测试对比,TOP10有你的手机吗? 大家在买手机的时候,除了关注颜值.性能外,肯定也很关心手机的续航能力.在机不离手的今天,手机的续航表现会直接影响到用户的使用幸 ...

  6. 分享你一份超详细的公众号文章制作流程,注意查收

    一篇公众号文章的制作,背后需不需要经历千锤百炼?当然这样说还是太夸张了! 但是一篇公众号文章的制作一定是需要经过反复推敲的,是需要经过反复打磨.修改的,是需要经过一道道加工程序的. 今天伯乐网络传媒就 ...

  7. 一份超详细的MySQL高性能优化实战总结!

    一份超详细的MySQL高性能优化实战总结! MySQL 对于很多 Linux 从业者而言,是一个非常棘手的问题,多数情况都是因为对数据库出现问题的情况和处理思路不清晰. 在进行 MySQL 的优化之前 ...

  8. android手机系统对比,国产手机系统哪家强?几大主流手机系统盘点对比

    原标题:国产手机系统哪家强?几大主流手机系统盘点对比 现在手机系统基本可以分为安卓和苹果两大阵营.在这之后,安卓系统又因为手机厂商不同可以细分.可以说,几乎每一个手机品牌都在安卓系统基础上进行了优化, ...

  9. 2017深度学习最新报告及8大主流深度学习框架超详细对比(内含PPT)

    2017深度学习最新报告(PPT) ​ 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前"深度学习"部分的报告已经全部结束. 本年度作报告的学术 ...

最新文章

  1. 用DataReader还是DataSet?
  2. C语言写一函数交换两变量的值
  3. dns服务器ip地址 常用列表
  4. 【Flask】SelectedField 同步数据库
  5. SAP UI5 初学者教程之八 - 多语言的支持试读版
  6. C#使用Xamarin开发可移植移动应用进阶篇(10.综合演练,来一份增删改查CRUD)
  7. Android之使用VideoView组件播放一个简单的视频
  8. Docker部署项目的两种方式总结
  9. Nginx之进程间的通信机制(信号、信号量、文件锁)
  10. 基于CloudStack+KVM的企业私有云的实现
  11. 苹果 macOS Monterey 桌面抽象风格不好看,如何换成自己喜欢的照片?
  12. 解决libc.so.6: version `GLIBC_2.14#39; not found问题
  13. 关键词组合工具_关键词的优化方法及搜索工具,亚马逊关键词处理
  14. 什么是PXE及PXE启动
  15. javaweb体育赛事网上售票系统
  16. 不安装iTunes实现USB数据线与电脑传文件
  17. 学习探究--实信号与复信号
  18. html+mp4在线播放代码,MP4 - html代码库 - 云代码
  19. matlab 柱状图不同颜色(取巧哈)
  20. 民办二本学计算机,2020湖南最垃圾的民办大学-湖南最差的民办二本

热门文章

  1. vue创建脚手架 cil
  2. WPF- 模拟触发Touch Events
  3. 19个必须知道的Visual Studio快捷键
  4. eclipse 在 Linux中常用命令,持续更新....
  5. 20145105 《Java程序设计》第5周学习总结
  6. 解决sharepoint2010的多行文本框的插入图片—【从sharepoint】的disabled问题
  7. poj 1218(经典开关问题,模拟)
  8. php 重复区域,如何使用Mysql和PHP从重复区域单击缩略图后检索图像
  9. 如何建立分类模型matlab,创建简单模型 - MATLAB Simulink - MathWorks 中国
  10. 二叉树路径和最大python_python3实现在二叉树中找出和为某一值的所有路径(推荐)...