图像视频压缩:深度学习,有一套
摘要:得益于深度神经网络提取信源特征的能力,深度学习技术在信源压缩编码领域取得了比传统方法更
本文分享自华为云社区《基于深度学习的图像视频压缩编码》,原文作者:罗鹏。
得益于深度神经网络提取信源特征的能力,深度学习技术在信源压缩编码领域取得了比传统方法更优异的效果。
基于深度学习的图像压缩编码
自编码器
Ballé1 提出了一种基于变分自编码器的端到端图像压缩模型,采用结合边信息(side information)的超先验的方案。
模型如下图所示。
Q 表示量化;AE 和 AD 分别表示算术编码和解码;卷积参数表示为层\times×长\times×宽/下采用或上采样,\uparrow↑表示上采样,\downarrow↓表示下采样。
Minnen2 提出了一种超先验结合自回归模型的方案。
循环神经网络(Recurrent Neural Network, RNN)
Google3 团队提出一种基于长短期记忆(long short-term memory, LTSM)的神经网络架构对图像进行可变压缩率的编码方法。
模型如下图所示。
上图是基于卷积核逆卷积的残差编码器,将上下层各第二和第三的卷积/逆卷积模块换成 LTSM 模块即为所提出的模型。
Google4 团队在前面工作的基础上引入了 GRU 和 ResNet 模块,并采用熵编码进一步提升了压缩率。
模型如下图所示。
生成对抗网络(Generative Adversarial Network, GAN)
Agustsson5 提出了一种基于 GAN 的图像压缩方案,可选择地对部分/全部图像生成对应语义标签;解码时,正常压缩的图像部分正常解码,无图像部分由 GAN 网络生成。
模型如下图所示。
EE 为编码器;qq 为量化器;GG 为解码和生成器;DD 为对抗器。
基于深度学习的视频压缩编码
基于深度学习的视频编码分为两种:
- 采用深度学习替代传统视频编码中部分模块
- 端到端采用深度学习编码压缩
部分方案
采样深度神经网络可以替代传统视频编码中的模块包括:帧内/帧间预测、变换、上下采样、环路滤波、熵编码等6。
端到端方案
Lu7 提出了一个端到端采用深度学习进行视频编码压缩的方案;其采用卷积光流估计来进行运动估计,并使用两个自编码器对光流信息和残差信息进行编码压缩。
编码框架如下图所示:
采用一个卷积网络模块进行光流估计8,以作为运动估计。
采用自编码器对光流信息进行压缩,自编码器网络如下图所示:
结合上一帧图像和光流信息,获得运动补偿图像。运动补偿网络如下图所示:
将原图像与补偿图像进行差计算获得残差,残差也使用自编码器压缩。
Rippel9 提出了一种端到端基于机器学习(包括深度学习)的视频压缩方案;采用多帧参考的光流估计做运动估计,采用自编码器对光流信息和残差编码压缩,采用机器学习做码率控制。
Reference
- [2018 ICLR]
Variational image compression with a scale hyperprior - [2018 NIPS]
Joint Autoregressive and Hierarchical Priors for Learned Image Compression - [2016 ICLR]
Variable Rate Image Compression with Recurrent Neural Networks - [2017 CVPR]
Full Resolution Image Compression with Recurrent Neural Networks - [2019 ICCV]
Generative Adversarial Networks for Extreme Learned Image Compression - [2019 MM]
Deep Learning-Based Video Coding: A Review and A Case Study - [2019 CVPR]
DVC: An End-to-end Deep Video Compression Framework - [2017 CVPR]
Optical Flow Estimation using a Spatial Pyramid Network - [2019 ICCV]
Learned Video Compression
点击关注,第一时间了解华为云新鲜技术~
图像视频压缩:深度学习,有一套相关推荐
- 在基于图像的深度学习中如何做数据的自动标注以及自动标注的等级介绍
作者:Tobias Schaffrath Rosario 编译:ronghuaiyang 原文:在基于图像的深度学习中如何做数据的自动标注以及自动标注的等级介绍_ronghuaiyang的博客-CSD ...
- 图像领域深度学习的七个境界
用深度学习玩图像的七重关卡 许铁-巡洋舰科技2 天前 第一个重境界: 图像识别 如果你开始了解深度学习的图像处理, 你接触的第一个任务一定是图像识别 : 比如把你的爱猫输入到一个普通的CNN网络里, ...
- 图像 引言 深度学习_深度学习算法对磁共振图像序列的识别
本文内容.图片与涉及的源码均为作者原创,未经许可不得转载.版权声明或联系作者请移步 "关于" 前言 面对大数据和人工智能,已经跨过门槛的各路小伙伴们利用深度学习算法不断的炼丹,都已 ...
- 图像对齐深度学习算法调研
参考博客: 旷视 R TALK:图像对齐及其应用 单应性Homograph估计:从传统算法到深度学习 1. 传统算法 大致流程: 提取特征点 特征匹配 RANSAC 排除错误匹配 求解单应性(Homo ...
- 面向弹载图像的深度学习网络压缩方法研究
这里写自定义目录标题 源自:航空兵器 作者:高一博 杨传栋 陈栋 凌冲 摘 要 针对基于深度学习目标识别算法具有网络结构复杂.参数量大.计算延迟高等特点,难以直接应用于弹载任务的问题,对网络轻量化方法 ...
- 【知识星球】做作业还能赢奖金,传统图像/机器学习/深度学习尽在不言中
今天给大家介绍一下有三AI知识星球的"看图猜技术"板块,现在已经升级为"作业板块",每天一到三题,第一个答对的同学将获得6.66元赞赏,目前已经出现很多抢答的学 ...
- 国内外免费电子书(数学、算法、图像、深度学习、机器学习)
0. 数学 prob.pdf(概率论基础) Probabilistic-Programming-and-Bayesian-Methods-for-Hackers(Github) All The Mat ...
- 图像 引言 深度学习_用树莓派4b构建深度学习应用(十二)口罩篇
前言上一篇我们把环境和网络问题都解决了,这一篇在 COVID-19 仍在全世界肆虐的当下,我们尝试用 AI 来做一个有趣的自动戴口罩应用.主要用 OpenCV + CNN 来提取面部关键点坐标,再将口 ...
- 快速构建深度学习图像数据集,微软Bing和Google哪个更好用?
译者 | Serene 编辑 | 明明 出品 | AI 科技大本营(公众号ID:rgznai100) [AI 科技大本营导读]在本文中,作者将利用微软的 Bing Image Search API 来 ...
- 谷雨钜献 | 用深度学习理解遥感图像,识别效率提升90倍,PaddlePaddle中科院遥感地球所...
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 高尔夫球场,长期以来的高端社交地,但其存在的背后,却是对资源环境的侵袭. 不仅大量占用土地资源.耗费水资源,而且在维护草坪的时候大量使用化 ...
最新文章
- Linux Shell 脚本攻略学习--四
- java string isempty,java – String.isEmpty()和String.equals(“”)之间的区别
- MyBatis中if,where,set标签
- linux四种集群是什么,lvs四种集群特点及使用场景
- html单击出现下拉菜单,*OnClick实现点击主菜单时出现下拉菜单,已实现但是有问题,求助!*...
- 吴恩达机器学习课后作业深度解析(附答案)(ex2)
- flex 常用正则验证举例
- 计算机上没有系统软件应用软件也一样能使用,2010判断题一般双击桌面上的程序图标可以打开该程序...
- gitserver提交代码的总结
- 一张图轻松搞懂Hive中的join(内连接、左外连接、右外连接、满外连接)
- 名帖289 董其昌 行书《千字文》
- vim 无法使用backspace 删除键进行删除
- 路由在电话网和计算机网中的区别,光猫能替代路由器吗 光猫和路由器有什么区别【详解】...
- 电脑右键没有“发送到”选项
- 关于海思HI3518+OV9712 ISP图像调试 - 夜视效果、曝光、图像稳定响应效果
- 【WebService】第五章、WSDL文件详解
- 详解开发、实施、运维的区别
- [20170412]bbed隐藏数据记录.txt
- eccel身份证截取指定格式日期插入10000条序号
- 使用手机如何拍出好照片
热门文章
- 常熟理工C语言试卷带答案,常熟理工学院 C语言 考试样卷.doc
- ROS笔记(26) Movelt!
- 0202年了,怎么还这么多人不会搜索
- ansys用什么cpu_ansys参数化建模教程专栏——以例子吹爆APDL的省时省力(一)。...
- sql like 多个条件_都9012年啦,不懂得这些SQL语句优化,你是要吃大亏的
- 面试系列26 如何基于dubbo进行服务治理、服务降级、失败重试以及超时重试
- SP1557 GSS2 - Can you answer these queries II
- 数据结构--hashtable(散列表)
- SQLite数据库的特性
- 为view设置虚线边框