本文来自VCIP 2020论文《Deep Inter Coding with Interpolated Reference Frame for Hierarchical Coding Structure》

在混合编码框架中,帧间预测用于去除时域冗余。帧间预测的效果取决于参考帧的内容,当参考帧和待编码帧的内容越相似时编码效率越高,因此本文提出利用DNN合成参考帧然后插入参考帧列表用于后续的预测。本文算法在HM16.20上RA配置下,相当于HEVC有4.6%的BD-rate增益。

本文算法流程图如下所示,

基于DNN的参考帧生成

本节将介绍针对HEVC分层结构的参考帧生成方法。将DPB中的参考帧作为输入放入DNN,然后将DNN输出的帧放入参考列表(RPL)用于后续的预测。

本算法利用HEVC在RA配置下的分层B帧结构,分层B帧结构有5个时域层,如下图所示。

上图中,GOP中的帧被分到不同的时域层,可以看到播放顺序(POC)不同于编码顺序。低时域层的帧优先于高时域层的帧编码,高时域层的帧可以利用低时域层帧的重建帧作为参考。

为了在当前帧位置生成参考帧,DNN要输入DPB中离当前帧最近且距离相等的两个帧。假设F(.)表示利用DNN生成参考帧的过程,I_p表示POC=p的帧,I_p_r表示I_p的重建帧。则时域层级为L(I_p)的帧I_p的参考帧生成过程如下,

此外,由于不同时域层级的质量不同(使用层级越高QP越大),因此对不同时域层级应该分别训练模型,针对5个时域层级的情况应该训练4个不同的模型,但是这会加重编码器的负担,所以本文使用一个模型处理所有时域层级。

网络结构

本文使用DSepConv网络结构来训练插帧模型。如Fig.1所示,整个网络分为4个模块,2帧图像作为输入,然后通过编码器-解码器结构提取特征传给3个子模块用于估计参数(包括kernel、offset、mask)。

本文算法集成在HM16.20中,在编码过程中有两个RPL:List0和List1。List0中包含前向参考帧,其POC小于当前帧。List1中包含后向参考帧。对于B帧,它需要两个参考帧分别来自List0和List1。

本文算法会将DNN生成的参考帧插入List0和List1的末尾,它们会像普通帧一样用于运动预测。而且生成帧的信息不用在码流中传输,因为编码器和解码器可以按同样的方法生成这些帧。同时,生成帧的POC设为和当前帧一样。

实验结果

训练数据

训练集是Vimeo90K,它包含55095个分辨率为448x256的视频。网络的输入是不同压缩率的重建视频帧。为了使模型更鲁棒,对视频的第一帧和最后一帧在HM16.20下采用AI配置编码,QP从20到44。模型两个输入帧的QP的差值从0到10之间随机选择,这样便可以只训练一个模型来处理不同QP的情况。为了增广数据,在训练集只随机裁剪128x128的图像并进行随机旋转或翻转操作。

训练策略

模型通过Pytorch训练,损失函数中同时考虑了像素级预测失真和图像梯度。损失函数通过Adam优化器进行最小化,batch取16。首先对网络进行120 epochs次训练,学习率初始为1e-4,每40 epochs减小一半。最后使用256x256的patches,学习率为6.25-6对网络进行微调。

结果

使用class A到class D的序列进行测试,结果如上表所示。亮度分量可以达到4.6%的BD-rate增益。尤其是在高分辨率的视频上算法表现更好,在PeopleOnStreet序列上可以达到8.7%的BD-rate增益。此外,为了测试微调策略的有效性,和class B序列上和不使用微调的模型相比使用微调可以达到0.5%的BD-rate增益。

感兴趣的请关注微信公众号Video Coding

VCIP2020:基于深度学习合成参考帧相关推荐

  1. 最新综述 | 基于深度学习的SLAM方法:面向空间机器智能时代

    最新综述 | 基于深度学习的SLAM方法:面向空间机器智能时代 A Survey on Deep Learning for Localization and Mapping Towards the A ...

  2. 基于深度学习的低光照图像增强方法总结(2017-2019)| CSDN博文精选

    扫码参与CSDN"原力计划" 作者 | hyk_1996 来源 | CSDN博客精选 之前在做光照对于高层视觉任务的影响的相关工作,看了不少基于深度学习的低光照增强(low-lig ...

  3. 基于深度学习的医学图像配准综述

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 转载自:https://blog.csdn.net/weixin_ ...

  4. 基于深度学习的三维姿态估计

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|计算机视觉工坊 三维重建领域主要的数据格式有四种: • ...

  5. 收集了100+论文的最新综述来了!基于深度学习的图像深度重建

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 今天给大家分享的论文是2020年最新的综述:A Survey on Deep Learning Arc ...

  6. 最新综述 | 基于深度学习的立体视觉深度估计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 今天给大家分享一篇上个月刚刚发布的综述论文,基于深度学习的立体视觉深度估计.英文标题: A Surve ...

  7. 读“基于深度学习的图像风格迁移研究综述”有感

    前言 关于传统非参数的图像风格迁移方法和现如今基于深度学习的图像风格迁移方法. 基于深度学习的图像风格迁移方法:基于图像迭代和模型迭代的两种方法的优缺点. 基于深度学习的图像风格迁移方法的存在问题及其 ...

  8. QB:基于深度学习的病毒序列识别

    全球COVID-19新型冠状病毒肺炎疫情使人们对病毒有了前所未有的关注.病毒不仅可以侵入人体等真核生物,还可以侵入细菌等原核生物.侵入细菌的病毒数量大约有1031,是地球上最丰富的生物体 [1].病毒 ...

  9. 基于深度学习的OCR-from 美團技術團隊

    https://www.jisuapi.com/api/12 行数据的话 可以参考 https://github.com/wanghaisheng/awesome-ocr/wiki/Training- ...

  10. 深度学习助力网络科学:基于深度学习的社区发现最新综述

    来源:AMiner科技 论文题目: A Comprehensive Survey on Community Detection with Deep Learning 论文网址: https://arx ...

最新文章

  1. 手机选择,2014年10月底
  2. Centos 7.2搭建MariaDB数据库服务器应用与管理
  3. chrome xp 扫描此文件时,防病毒软件意外失败
  4. sqlserver中用到的一些方法:convert,isnull
  5. boost::incremental_components用法的测试程序
  6. React开发(243):dva概念7subscription
  7. 读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?
  8. mysql数据库名长可为64字符,MySQL学习笔记1_MySQL
  9. docker安装mysql主从视频教程_docker安装mysql主从
  10. 项目使用线程池_并发编程系列1:线程池的架构实现、大小配置、及四种线程池使用...
  11. 喜欢是可以培养的,学习也是
  12. Django框架学习——4—(DTL模板标签、模版常用过滤器、模版结构优化、加载静态文件)
  13. DDD战略建模在重构业务系统时的实践
  14. 有道云笔记客户端不显示图片
  15. 数据结构-栈基本功能的实现
  16. 计算机怎么搜索程序和文件格式,PDF软件如何快速搜索与查找文件?
  17. R语言使用psych包的cor.test函数检验dataframe中多个数值数据列之间的相关性系数是否具有统计显著性、对相关性系数进行显著性检验、使用print函数和short参数输出系数的置信区间
  18. Day17 静态页面 导航及图片结构与样式
  19. 易语言基础——模块的编写和使用
  20. 利用Cobalt Strike通过exe木马实现远控|Cobalt Strike远程控制|Cobalt Strike 使用方法|CS使用方法

热门文章

  1. Visual Studio使用教程
  2. 2021年,小傅哥の年终总结
  3. CAD图纸打印出来后很多CAD文字消失了怎么办?
  4. 【拉格朗日差值法】 公式
  5. matlab根号2,在matlab中,运行指令a=sqrt(2),计算结果a是精准的根号2吗
  6. BS架构与CS架构的区别(最详细)
  7. 潮流短视频必备——PR赛博朋克效果视频转场快速过渡模板
  8. WPS2019中论文数学公式居中,编号右对齐如何操作
  9. Excel-快捷键的使用方法
  10. html如何改成花体英文字体,花体英文转换器可复制字体(附花体字发文技巧)...