关注公众号,发现CV技术之美

作者单位:北京邮电大学、Intel中国研究院

论文链接:https://arxiv.org/abs/2108.08202

代码链接:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

编者言:本文没有以网络结构的创新为切入点,而是利用超分辩率算法去优化神经网络视频传输任务,开辟了一个可以和工业界对接的新的研究方向。

01

看点

本文首先研究了在神经视频传输中不同块的模型之间的关系,然后设计了一个拥有内容感知特征调制层(CaFM)的联合训练框架来压缩这些模型。

使得每个视频块只需要不到1%的原始参数就可以进行流处理,并且获得了更好的SR性能。

此外,本方法也可以看作是一种新的视频编码方法,在存储成本相同的情况下视频质量优于H.264和H.265标准。

02

方法

神经视频传输

神经视频传输通过用LR视频和内容感知模型取代HR视频来节省传输带宽。整个过程如下图所示,共包括三个阶段:

  1. 在服务器上对视频块进行模型训练

  2. 将LR块与同内容感知模型从服务器传输到客户端

  3. 在客户端上解析LR块

在该过程中每个块都需要一个模型,这带来了额外的带宽成本。

动机实验

本实验中采用EDSR对不同视频块训练的模型进行分析。首先将一个视频拆分成个视频块,并训练个EDSR模型。然后本文对这些模型输入随机的DIV2K图像,将得到的特征图可视化,如下图。

定义特征图,其中表示第i个模型,为通道指数,为EDSR中的第k层。通过计算特征图之间的余弦距离来度量它们的相似性,,和之间的余弦距离矩阵如下图所示

根据图上图中矩阵的对角值,观察到虽然在不同的块上训练,但是对应通道之间的余弦距离非常小。不同模型的所有层之间的平均余弦距离分别约为0.16和0.04。

这表明和之间的关系可以用一个线性函数来近似建模。这使得本文提出了共享大多数参数,并用CaFM私有化每个网络块的方案。

CaFM

我们将CaFM层引入到baseline模型中,以私有化每个视频块的网络。总体框架如下图所示。

CaFM表示为一个通道线性函数:

其中表示第j个输入的特征图,C表示特征通道的个数,和表示通道缩放比例和偏置值。对于每个滤波器输出的特征都使用CaFM来进行调制。以EDSR为例,CaFM的参数约占EDSR的0.6%。

因此,对于一个有n块的视频,我们可以将模型的大小从n个EDSR减少到1个共享EDSR加上n个私有CaFM,这显著降低了带宽和存储成本。

联合训练框架

与单独训练的模型相比,添加微调过的CaFM的模块并不能获得有竞争力的结果。因此,本文进一步提出了一个联合训练框架来同时训练视频块模型。给定LR帧,表示该块中的第s个样本,SR帧的生成表示为:

其中为共享参数,为CaFM参数。对于每个视频块,重建损失定义为:

因此,联合训练的损失表示为:

在训练时,所有图像用于更新共享参数,第i块的图像用于更新相应的CaFM参数。

03

实验

VSD4K数据集

公共数据集如Vimeo-90K和REDS只包含相邻帧序列,不适合视频传输。因此,本文从YouTube上收集了一些4K视频来模拟实际的视频传输场景,命名为VSD4K。

它包含6个流行的视频类别,每个类别包含不同的视频长度,包括:15秒、30秒、45秒、1分钟、2分钟、5分钟。使用BI的降质方法来获取LR。

内容感知学习

在大规模数据集上训练网络模型,并使用训练后的模型对LR进行超分辨,本文定义这种训练为外部学习。然而,在神经视频传输任务中,视频是事先知道的。

因此,我们可以训练模型对每个视频都进行拟合,从而获得更好的SR性能。这种训练定义为内容感知学习。除此之外,还可以将视频进一步划分为多个视频块,并针对每个视频块进行分别训练,用‘*’表示。实验结果如下:

CaFM中不同核大小的影响


联合训练的消融实验

在一个特定的视频上从零开始训练的网络表示M0。然后我们冻结参数并为每个块添加CaFM,对CaFM的参数进行微调以拟合每个块,这表示为FT。对每个chunk单独训练网络表示为,消融实验如下图:

与H.264/H.265的对比实验


在Vimeo-90K上的定量评估


VSD4K上的评估

M0表示为整个视频训练一个模型,是将视频分割成块,并为每个块训练一个模型,定量评估如下:

定性评估如下:

END

欢迎加入「超分辨率交流群

ICCV2021—工业界中的神经网络视频传输超分算法相关推荐

  1. AliSSR 语音超分算法:让在线会议语音更明亮更自然

    超分让在线会议语音更明亮,在线会议已成为日常工作中较为普遍的沟通交流方式,接入会议的方式也呈现多样化,比如电脑入会.手机入会又或是电话入会. 雪雅.曜辰|作者 众所周知,高采样率且高带宽的音频信号富含 ...

  2. 突破网络和屏幕的限制,超分算法让图片和视频秒变清晰

    如上图,从100x133pix→400x532pix,除了肉眼可见的清晰,拥有可以将分辨率提升400%的技术到底意味着什么? 它意味着: 老照片.老电影.动漫等画质可快速提升,分辨率自由调节 产业算法 ...

  3. 网络通道数2的倍数_利用双通道卷积神经网络的图像超分辨率算法

    发布时间: 2016-05-25 摘要点击次数: 288 全文下载次数: 39 DOI: 10.11834/jig.20160503 2016 | Volumn 21 | Number 5 图像处理和 ...

  4. 视频图片 超分与动漫化+补帧

    转自AI Studio,原文链接:视频&图片 超分与动漫化+补帧 - 飞桨AI Studio 1.安装依赖 由于视频不便展示,均放到项目根目录下,以便于查看 需要自行建立piece目录和pie ...

  5. 可生成高清视频的Stable Diffusion来了!分辨率提升4倍,超分算法来自腾讯,支持Colab在线试玩...

    明敏 发自 凹非寺 来源 | 量子位 QbitAI 免费玩的Stable diffusion,又出新变种了! 古典人像丝滑切换,还都是4倍超分辨率水平,细节也就多了亿点点吧,眉毛发丝都根根分明. 还能 ...

  6. 针对视频压缩的压缩感知超分算法:COMISR

    作者单位:谷歌 论文链接:https://arxiv.org/pdf/2105.01237.pdf 编者言: 针对H.264等视频压缩标准压缩后的视频进行超分,定量和定性效果相比过去的VSR算法有较大 ...

  7. 传统图片超分算法——双三次插值 (Bicubic)、附C++源码

    呼,花了一个下午,终于是写完加调试完了所有的代码. 双三次插值介绍 之前我写的这篇博客中讲了什么是超分,并实现了单线性插值算法和双线性插值算法.在这里将再介绍一种插值算法--双三次插值算法. 首先,双 ...

  8. 图像超分算法小合集二:FSRCNN、DRCN、RDN、EDSR

    目录 FSRCNN DRCN RDN EDSR 文章: FSRCNN : Accelerating the Super-Resolution Convolutional Neural Network ...

  9. 超分算法小合集之SRCNN、DCSCN、SRDenseNet、SRGAN

    阅读指引 SRCNN DCSCN SRDenseNet SRGAN 论文快速指引: SRCNN:Learning a Deep Convolutional Network for Image Supe ...

最新文章

  1. mysql 垂直拆分 原因_mysql的水平拆分和垂直拆分 (转)
  2. sdut 2087 离散事件模拟-银行管理
  3. transformcontrols可以用在group上吗_电缆沟盖板可以用在水沟上吗
  4. 熵权法excel计算过程_翅片式蒸发器如何最简单的进行计算和仿真?
  5. String案例 获取一个字符串在另一个字符串中出现的次数(两种方法)
  6. java排列组合算法优缺点,一招彻底弄懂!
  7. lombok原理_听说学会用 Lombok 就可以让你早点下班?(你还不看)
  8. 使用 session_destroy() 销毁session文件时 报 Trying to destroy uninitialized session 错误解决办法
  9. jsp ---- filter
  10. 大众1.4t可以一直加92号汽油吗?有哪些需要注意的问题?
  11. java.io.FileNotFoundException: ...\ibs\library-1.0.17.jar (系统找不到指定的文件。)
  12. zabbix 3.0 监控mysql_Zabbix-3.0.3 使用自带模板监控 MySQL
  13. Unity Bound
  14. 英文网站源码 国外财经资讯商业新闻整站源码 全自动采集发布 广告联盟网站
  15. 随机过程的均值函数、自相关函数、协方差函数
  16. 计算机毕业设计基于Android的计算器app设计
  17. 数据耦合的代码例子c语言,代码耦合的处理
  18. 5M的开源桌面整理软件,麻雀虽小,功能十分强大
  19. 四叉树 Quadtrees
  20. 阿里巴巴的合伙人制度!

热门文章

  1. Transformer介绍
  2. 【小程序】【Tips】跨页面全局变量的正确方法 - globalData
  3. python t t_Python ttable包_程序模块 - PyPI - Python中文网
  4. 广播地址的作用_跟百哥学网络16:ARP地址解析协议分析
  5. jsp 定义java类_在JSP中定义一个类
  6. Java 反射取类中类_Java反射机制(二):通过反射取得类的结构
  7. disable path length limit_通过Antsword看绕过disable_functions
  8. python是基于什么的内存管理方式_python的内存管理机制是什么?
  9. stm32 工业按键检测_基于STM32芯片的能谱仪设计
  10. linux输出文件没有找到,Linux环境下标准输入、输出、错误信息详解