本文来自VCIP2020文章《Deep Learning-Based Nonlinear Transform for HEVC Intra Coding》

文章针对帧内编码块提出了基于深度学习的非线性变换方法,可以达到1.79%的BD-rate增益。

在帧内编码过程中,信号间的线性依赖可以通过线性预测和线性变换来消除。但是由于预测往往不够完美,导致一些依赖信息不能完全消除,结果在帧内预测后的残差中依然存在方向信息,传统的线性变换很难去除这些方向信息。进一步,线性变换更难去除信号中的非线性依赖。因此,文中提出基于深度学习的变换(DLT)来解决这个问题。

文中提出的变换编码方法如Fig.1所示,其中仅可以对8x8的亮度残差块进行DLT变换。编码器可以根据RDO结果决定8x8的亮度残差块是使用DCT II变换还是DLT变换。对每个8x8TU需要传输一个标志位DLT_Flag表示该TU是否使用DLT变换。

文中方法

原始信号域和残差信号域的统计特性不同,文中方法是基于残差空间进行。

网络结构

文字的网络模型包括两个模块:方向模块和变换模块。方向模块利用预测像素去除残差中的方向信息。变换模块进行正变换和逆变换。

方向模块:

由于预定义的方向模式可能和真实世界的纹理方向不一致,帧内预测后残差中仍可能保留方向信息。

如Fig.2所示,残差中的方向模式通常和预测中的模式相关。因此可以利用预测数据消除方向信息。

为了捕获方向信息构建一个含3个卷积层的CNN,stride为1,kernel size为3x3,输出通道数分别为128,64,1,激活函数都采用tanh。在将预测数据传入网络之前,将其减去均值。然后使用上述网络提取方向信息I_dir,

上式中I_dir代表提取的方向信息,X_pre表示预测信息,F表示CNN。

变换模块:

自编码器是经典的网络结构,它由编码器和解码器两部分组成。本文的自编码器模型中编码器和解码器都由1个卷积层组成。

编码器部分进行正变换,输入为残差X_res和方向信息I_dir的差值,

上式中enc表示自编码器的编码器部分,Z表示变换系数。

正变换后变换系数Z的尺寸和X_res相同。对于逆变换,自编码器的解码器部分将Z作为输入。为了将信号能量集中在少数几个系数中,在逆变换中只使用Z中的K个绝对值最大的系数,本文中K=8,

整个网络结构如Fig.3所示。

损失函数

文中使用原始信号域中像素级损失函数和变换域中新训练的损失函数来优化模型。

(1)L2损失:基于深度学习的正变换和逆变换,可以求得变换前后的L2损失,

(2)能量压缩损失:变换的效率可以通过变换对能量压缩的效果来度量。可以通过变换系数方差的算术平均和几何平均的比值来计算,

最终优化的损失函数为,

其中alpha=1.0,beta=0.2。

实验结果

从结果可以看到本文算法在YUV分量上分别取得0.75%, 0.1%, 0.2%的BD-rate增益。尤其在纹理丰富的序列如 ParkScene, RaceHorses效果更好。

感兴趣的请关注微信公众号Video Coding

VCIP2020:基于深度学习的HEVC帧内预测的非线性变换相关推荐

  1. TIP 2019开源论文:基于深度学习的HEVC多帧环路滤波方法

    作者丨李天一 学校丨北京航空航天大学博士生 研究方向丨视频编码与深度学习 本文概述的是作者近期在 IEEE TIP 期刊上发表的论文:A Deep Learning Approach for Mult ...

  2. 2.H.265/HEVC —— 帧内预测

    在H.265/HEVC中,35种预测模式是在PU的基础上定义的,而具体帧内预测过程的实现则是以TU为单位的.编撰规定PU可以以四叉树的形式划分TU,且一个PU内所有TU共享同一种预测模式的形式划分TU ...

  3. TIP 2018论文概述:基于深度学习的HEVC复杂度优化

    作者丨徐迈.李天一 等 学校丨北京航空航天大学博士生 研究方向丨视频编码与深度学习 本文概述了 2018 年 6 月发表在 IEEE TIP 期刊的论文 Reducing Complexity of  ...

  4. HEVC帧内预测参考相邻帧代码解析

    作者:66 (转载请注明出处) 参考链接:http://blog.csdn.net/hevc_cjl/article/details/8200793 亮度分量的帧内预测涉及到的模块比较多,CU-> ...

  5. H.264学习笔记2——帧内预测

    帧内预测:根据经过反量化和反变换(没有进行去块效应)之后的同一条带内的块进行预测. A.4x4亮度块预测: 用到的像素和预测方向如图: a~f是4x4块中要预测的像素值,A~Q是临块中解码后的参考值. ...

  6. VVC学习之五:帧内预测之色度预测——CCLM及代码学习

    文章目录 1. CCLM跨分量线性预测简介 2. CCLM预测步骤 3. 亮度重建参考像素获取 4. CCLM信号预测 关于VVC的帧内预测,也写了好久了,这应该是色度预测的最后一个部分,第一次写博客 ...

  7. VVC学习之五:帧内预测——67个模式预测信号生成 predIntraAng()

    文章目录 简介 predIntraAng() xPredIntraDc() xPredIntraPlanar() xPredIntraAng() 简介 帧内共有67种预测模式,包括 65种角度+DC+ ...

  8. 文献综述--------山东某地区基于深度学习神经网络的配电网负荷预测研究

    摘  要:地区电网负荷预测是供电企业在电网建设.运营过程中一项十分要的基础性的工作.小到一个企业的负荷预测,大到全国性电网的负荷预测研究,它的应用结果都会对适用范围内的企业经营管理.电力设施(电网)的 ...

  9. 基于深度学习的航空发动机剩余寿命预测

    背景介绍   近年来,随着微电子技术的进步与发展,传感器愈加智能化.微型化且价格低廉,相关产品在国防军工.机械装备.医疗电子以及环境治理等领域具有广泛的应用.传感器工作过程中能够产生大量的监测数据,工 ...

  10. 基于深度学习的PM2.5实时预测系统开发

    尊敬的读者您好:笔者很高兴自己的文章能被阅读,但原创与编辑均不易,所以转载请必须注明本文出处并附上本文地址超链接以及博主博客地址:https://blog.csdn.net/vensmallzeng. ...

最新文章

  1. PHP学习之八:执行运算符与字符加一
  2. 转载之NetApp RAID技术介绍
  3. Jmeter BeanShell采样器提取接口响应并传递(三)
  4. arp包多久发一次_多久洗一次头发合适?洗头越频繁,掉的头发越多?
  5. SpringBoot中是如何创建WebServer的?
  6. 电机控制初学入门资料_电机控制如何入门
  7. JSP从入门到实战视频教程
  8. c语言转换为python语言_C语言程序转换为Python语言
  9. netlogo元胞自动机室内疏散
  10. 使用Git在G码云上传项目及同步
  11. java -verbose命令
  12. Python——域名解析成IP地址
  13. 流量变现平台市场分析报告-
  14. CSS中background与background-image的区别
  15. 中考总分150学计算机专业,中考总分是多少 各科都是多少分
  16. python不间断获取指定ulr的ip
  17. win2008集群文件服务器,Windows2008R2+MSCS集群配置.doc
  18. 一篇文章足够你学习蓝牙技术,提供史上最全的蓝牙技术(传统蓝牙/低功耗蓝牙)文章总结,文档下载总结(2020/12/11更新)
  19. beam Selection
  20. SELinux 宽容模式(permissive) 强制模式(enforcing) 关闭(disabled) 几种模式之间的转换

热门文章

  1. 从零开始为实验室搭建一个多人使用远程登录服务器
  2. 基于51单片机实现8位数码管显示表白数字(Proteus仿真)
  3. 用ADB操纵手机实现连点器(折衷案)
  4. 2021-11-1-无法在此设备上激活WINDOWS因为无法连接到你的组织的激活服务器
  5. 转:W10数字许可激活C#版v3.6 win10永久激活工具
  6. 台式计算机键盘驱动,台式电脑键盘无法找到驱动, 为什么?
  7. NoteExpress文献题录如何导出到excel
  8. 苹果电脑(Mac)如何进行大小写和中英文的切换
  9. ora01033是什么错误linux,Oracle错误:ORA-01033
  10. Python:运营自媒体,如何修改图片的MD5值