1.摘要

在过去的十年里,我们在应用深度学习以提高压缩视频的质量方面取得了巨大的成功。然而,现有的方法目标是在提高质量在单个帧上,或仅使用固定的相邻帧。因此,它们无法充分利用视频的帧间的信息关联性。本文提出了质量控制卷积长短时记忆(QG ConvLSTM)具有双向递归结构的网络可充分利用大范围帧中的有利信息。更重要的是,由于质量波动明显在压缩帧中,更高质量的帧可以提供为其他帧提供更有用的信息,以提高质量。因此,我们提出从质量相关特征中学习“忘记”和“输入”门在ConvLSTM单元格中。因此,像这样的不同质量的帧在CONVLSTM中贡献了不同的重要性,合理和充分地使用每个帧的信息。

2.内容相关性

可以用皮尔逊相关系数(PCC)来评估两个帧之间的相关性根据。这里,我们计算每个帧与其40个相邻帧(20个先前的帧,以及随后的20帧)之间的PCC。上图显示了Vid-70数据库中所有帧的平均PCC值。可见从上图中可以看出,PCC值在5帧内大于0.79。在10帧的间隔处,平均PCC中间值也高于0.72。当距离扩大到20帧时这一数字约为0.65。这些验证了大范围的帧在内容上存在强相关性,并且这种相关性随着帧间隔而降低。因此,在大范围内充分利用信息帧的范围可以明显地提高上的性能增强压缩视频。因此,我们建议采用本文采用双向ConvLSTM结构。

3.质量波动


压缩质量是通过峰值信噪比(PSNR)进行评估。明确地在Vid-70数据库中,平均标准偏差每个压缩视频的帧级PSNR的(标准)为MPEG-1/2为1.83 dB,MPEG-4为1.78 dB,MPEG-4为1.64 dBHEVC分别为H.264和1.06 dB。峰谷差异(PVD),表示峰值信噪比曲线中最近的峰值和谷值的差异性。也比MPEG-1/2/4和H.264高于1.00 dB。在最新的HEVC标准中,平均PVD高达1.51 dB。这验证压缩后的质量差异框架。上图展示了一个示例,显示了显而易见的压缩帧之间的质量波动。因此,在使用ConvLSTM增强压缩质量,质量波动也应考虑过的。也就是说,不同质量的帧应在向其他帧提供不同有用信息。基于此,我们通过从质量相关性特性的权重学习提出gating convlstm。

4.框架


我们的QG ConvlTM网络设计为时空结构,采用双向ConvLSTM结构,以充分利用先前帧和后来帧中的信息。更重要的是,我们提出在质量相关特征(quality-related features)的输入下通过1DLSTM网络在ConvLSTM单元中生成“遗忘”的权重(f n)和“输入”(i n)的权重的门。因此,有不同压缩质量的帧将指导在Convlstm单元中忘记以前的记忆并更新当前的记忆的比例,ConvLSTM中的信息。因此,具有不同压缩质量的帧在convlstm单元中贡献不同的重要性。

具体而言,我们的QG-CONVLSM方法包含四个组件,分别是:
1.空间网络,2.门生成器,3.质量门控单元,4.重建网络。
这个这四个网络的功能分别表示为fs(·),fg(·),fc(·)和fr(·)。此外,我们定义了压缩视频为{Y n}n n=1,其中n表示当前帧,N是总帧数。因此,定义n时刻的质量特征为Q n,QG CONVLSM方法可以表示为

^Yn为重建帧

空间网络

如上图左侧(a)所示,我们在空间网络中采取CNN层和relu激活函数从压缩帧中提取空间特征。特别的,让Wsm和Bsm表示第m层卷积网络的权重和偏置,对于第n个压缩帧Yn的空间网络的表达式为

CNN层的总层数为M。
因此,作为时间序列,在我们的空间网络中,每个时间步的n的CNN层共享W和B。

门生成器

回想一下,原始视频不能在质量增强中获得,无参考特征用于我们的门生成器。在本文中,我们利用无参考质量评估方法提取的36个空间特征。此外,量化参数(QP)和位分配也应用于我们的方法作为压缩域特征,它们可以
直接从视频解码器获取。因此,对于第n帧,我们得到一个38维的质量相关特征,表示为qn。一个帧对增强其他帧的重要性是由其与其他框架相比的相对质量决定的,而不是绝对的质量。因此,对于第n帧,我们输入当前帧和T邻域帧的质量特征到我们的门生成器网络。即,我们拥有38*(T+1)维的输入特征。

上图左侧显示,在我们的门生成器中,双向LSTM(BiLSTM)能够学习应对质量波动的时间特征。然后前向和后向LSTM网络的输出被连接并输入到全连接的层以预测门单元的选通权重。总而言之,让“+”和“-”表示向前和向后的方向,门生成器的表达式可以写成:

式中,hn定义为时间步n的LSTM网络的输出,[·,·]表示沿
通道连接。在(8)中,wfc和bfc是完全连接层的权重和偏差矩阵
,G n是第n帧的输出。与(3)相似,W fc和B fc是每个时间步的共享参数
。最后,我们得到了

作为在我们的QG-ConvLSTM方法中质量门单元的学习到的门权重。

质量门单元

如上所述,在我们的QG-CONVLSM方法中,每个帧的重要性通过压缩后的
质量来区分,因为更高质量的帧可能包含更有用的内容帮助增强其他帧的信息。因此,我们把(8)中的输出Gn应用到我们的质量门单元的C门,替换原始的遗忘门和输入门。假设第n帧是高质量,然后我们试图让Cn去忘记之前的信息,因为先前的信息是低质量并且和之后的帧有着低相关性。与此同时,高质量帧的信息也该用来更新Cn以提供有用的信息为了后来的帧。相反,当一个低质量帧来了,网络期望不要忘记先前的记忆并且小幅度更新当前的信息,根据于此,我们设:

在我们的质量门控单元中,σ是将fn和in限制在(0,1)的范围内。因此遗忘门和更新记忆的门由G n控制,这是从压缩质量的特征中学到的。
总之,所提出的质量门控单元可以表示为:

O是哈达玛变换,Hn是质量门单元的输出,回忆我们在QG-Convlstm方法中应用双向ConvLSTM结构,让Hn+和Hn-标注为我们的质量门单元的前向和反向输出。

重建帧

最终,我们采用L层CNN去重建压缩视频的增强帧,


WrL和BrL为重建CNN层的权重和偏置。和空域特征提取类似,WrL和BrL的参数对于所有时间步来说是共享的,因此,我们得到增强的视频如下:

5.训练

由于QG-CONVLSM方法的所有四个组成部分如果是深层次的网络,他们可以用端到端的方式联合训练。然而,门生成器具有1D-LSTM,
该结构的目的是为ConvLSTM中的提供权重,以便将单元选通ConvLSTM,而其他三个部分用于增强质量。我们首先单独对门生成器进行预训练,然后所有四个网络都被联合训练。

6.实验结果


与论文中实验结果相似

可以看到我们的质量门单元扩大了高质量短距离帧的贡献,减少了低质量长距离帧的共享,更重要的是,提出的质量门单元也学习帧间联系和压缩质量的权衡。
在Fig. 6-(b)中,即使156帧相比151帧对于153帧有更远的距离,因为它的高质量它比153帧付出了更多的贡献。作为结果,在视频压缩中的质量增强中,多帧信息能被更合适的使用。

论文速读之QUALITY-GATED CONVOLUTIONAL LSTM FOR ENHANCING COMPRESSED VIDEO相关推荐

  1. [论文速读]:全景相机(360度相机)室内图像的景深估计 Depth Estimation for Indoors Spherical Panoramas (三篇)

    [论文速读]:全景相机(360度相机)室内图像的景深估计 Depth Estimation for Indoors Spherical Panoramas (三篇) 全景相机(360度相机)室内图像有 ...

  2. [论文速读] 图像增强系列:2020 TIP 最新去雾算法(摘要、网络结构图及论文链接)

    [论文速读] 图像增强系列:2020 TIP 最新去雾算法(摘要.网络结构图及论文链接) 本博客先介绍 2020 TIP 最新去雾算法的摘要.网络结构图及论文链接,后续将陆续补充较为详细的内容. 目录 ...

  3. 论文速读 -- BEVerse

    论文速读 – BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Dr ...

  4. 【论文速读】城市自动驾驶应用的概率语义地图

    点云PCL免费知识星球,点云论文速读. 标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications 作者:D ...

  5. 【论文速读】RandLA-Net大规模点云的高效语义分割

    点云PCL免费知识星球,点云论文速读. 文章:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qi ...

  6. 【论文速读】基于投影方法的激光雷达点云处理比较

    点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...

  7. 【论文速读】基于图像的伪激光雷达三维目标检测

    点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...

  8. 【点云论文速读】最佳点云分割分析

    点云PCL免费知识星球,点云论文速读. 标题:Learning to Optimally Segment Point Clouds 作者:Peiyun Hu, David Held 星球ID:part ...

  9. 【点云论文速读】点云高质量3D表面重建

    点云PCL免费知识星球,点云论文速读. 标题:Local Implicit Grid Representations for 3D Scenes 作者:Chiyu "Max" Ji ...

最新文章

  1. 机器学习数据清洗之缺失值处理、缺失的原因、缺失值删除、缺失值填充、KNN填充
  2. 利用有序节点来实现分布式锁
  3. linux文件编程(2)——系统文件描述符、动静态文件、块设备介绍
  4. oracle怎样修改表名、列名、字段类型、添加表列、删除表列
  5. 基于hadoop架构的企业数字化转型,阿里数据中台实战案例
  6. azure夜校培训第6场 3月22日 18:00---MYSQL
  7. 深入理解C语言内存管理
  8. 8-06. 畅通project之局部最小花费问题(35)(最小生成树_Prim)(ZJU_PAT)
  9. VMware Workstation 12.0.0 Pro 正式版/注册码/注册机
  10. 基于广度优先搜索的六度空间理论的验证
  11. 模仿百思不得姐项目开发总结
  12. 当 IDENTITY_INSERT 设置为 OFF 时,不能为表 'WLog' 中的标识列插入显式值。
  13. JavaScript简单的数据总计怎么做?
  14. 编程初学者必备的基础知识
  15. 在计算机上怎么搜共享打印机,如何共享电脑中的打印机?共享电脑打印机步骤...
  16. VS2008里的代码如何格式化?
  17. Excel怎样按行排序,干货经验!如何将行数据进行降序排序详细讲解
  18. 软考中级 真题 2016年上半年 系统集成项目管理工程师 应用技术 下午试卷
  19. Matlab中零矩阵zeros和单位矩阵的使用。
  20. zynq中mgtx应用_Xilinx 7系列FPGA 高速收发器GTX/GTH的一些基本概念

热门文章

  1. 服务器ftp日志文件在哪里,ftp服务器的日志在哪
  2. [转载]惯性导航专业相关书籍180多部
  3. mongoDB图形可视化界面及操作
  4. Geekban极客班 第三周
  5. 汇编常用寄存器以及寻址方式
  6. 两端分散对齐怎么设置_Word文档两端对齐分散对齐有哪些设置方法
  7. Phonics 自然拼读法 ai ay ee ea ey ie igh oa ow ui ue 元音字母组合 Teacher:Lamb
  8. 技术文档编写经验总结
  9. Linux大事TOP 100
  10. numpy.around