在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅、标清到高清、超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动中对视频画质的要求越来越高。

然而在很多实时互动场景中,受到设备性能、传输成本、用户带宽等限制,传输的往往是低分辨率的视频,因此为了提升视频画质质量,进而提升用户的观看体验,需要借助视频超分辨率技术,在用户端将接收到的低分辨率视频重建成纹理丰富、细节清晰、观看体验佳的高分辨率的视频,这个过程往往会用到超分技术。

超分算法在业内已经不是新词,在介绍声网的多倍实时超分前,我们先来看看目前行业主流的超分算法都有哪些?超分算法主要分为非实时与实时处理两种类型。我们经常会看到某某视频网站将一些年代久远、低分辨率、低清晰度的老视频转换成当前主流的 720p、1080p、2k 的高分辨率视频,这种是在线视频行业比较主流的基于云端服务器处理的“非实时超分算法”,这类超分适用的场景是追求更高分辨率、更清晰的视频观看体验,对处理速度的实时性没有要求,并且算力充足,可以让年代久远的视频,焕发新的活力。但非实时超分算法计算量普遍比较大,只能适用于对实时性没有要求的场景。

在实时互动的场景中,就需要用到实时处理的超分算法,这其中主要包含云端、终端处理两种方式,在云端服务器实时处理的超分算法计算量比第一种非实时的小,在超分效果和处理速度做了权衡,保证较好的超分效果的同时,可以满足服务器上实时处理的要求。但弊端也非常明显,由于需要在 GPU (图形处理器)服务器上部署,并且一台服务器只能同时处理有限路视频,当处理大量并发的实时视频流时,则需要部署大量的 GPU 服务器,这种算法的使用成本比较高,而终端的超分算法可以很好的解决这个问题。

终端超分算法可在用户的终端进行视频播放时,对视频画面进行实时后处理,从而在提升视频观看画面主观视觉效果的同时不增加企业传输带宽成本。目前业内很多主流的终端实时超分算法更集中在 PC 端,PC 端的设备相对可以提供更强的算力,实现高性能的视频画质实时增强。但当下随着实时互动场景的爆发,很多 RTE 场景集中在移动端,在移动终端用户的设备性能参差不齐,这就要求移动端实时超分的复杂度必须极低,这样才能在大部分移动设备中做到实时处理。如何在超低计算量的情况下还保持较好的视频超分效果,这成为了实时超分领域内的难点。

针对移动端的实时超分难点,声网人工智能算法团队经过持续的技术钻研,正式推出了业内首个基于移动端实时处理的多倍超分算法,该算法的优势是成本低、功耗小,不需要部署 GPU 服务器,仅依靠移动端设备自身的 CPU、GPU 或 NPU 来实时超分,以较小的算法计算量实现视频分辨率的多倍超分,有效增强了视频的画质,并降低视频传输的成本。

由于移动端的算力有限,并且对算法的功耗、模型大小要求十分苛刻,这类算法的研发难度是极具挑战性的,既要保持较好超分效果,也要满足移动端实时处理的要求。传统超分的技术原理可以简单理解为插值+锐化,插值是将低分辨图像放大为高分辨率图像,锐化是使图像边缘更清晰的一种图像处理方法,插值法和锐化方法,都是人工基于观察、总结和试验出来的方法,存在一定的局限性,常常出现图像放大后出现模糊、锐化过度的现象。

而声网移动端实时超分的技术原理是基于深度学习算法进行丰富的视频数据训练,从大量的低分辨图像和高分辨图像对,有监督地学习低分辨到高分辨率的映射关系,实现图像放大后,细节丰富、画面清晰的效果,其超分效果、自适应能力明显优于传统的超分方法。

为了更直观的展示声网实时超分算法的应用效果,我们也制作了一段视频demo,展示了在采集端 360p 分辨率的视频经过声网多倍超分到 1080p 后的效果。

超分后1080p 视频(左)与360p 未超分视频的对比(右)

从视频中可以发现,360p 视频在开启多倍超分后,画质实现了明显的增强,视频中的鹅卵石与远处山脉的分辨率变的更加清晰,不仅保证了视频画质,还降低了视频的实时传输成本。

● 移动端最高支持 3 倍实时超分:声网多倍超分算法可以做到在移动端实时处理,支持 2 倍与 3 倍超分,例如 360p 两倍超分 720p,240p 3倍超分 720p,360p 3倍超分 1080p,并且经过测试,与行业其他超分算法相比,在同等计算量的条件下,声网的实时超分效果与画质表现更胜一筹。

● 覆盖机型广,中低端机型也能实时处理:声网多倍超分算法在移动端的机型覆盖非常广,iOS 可覆盖 iPhone6s 及以上机型,能够覆盖 95% 以上的 iOS 视频用户;Android 覆盖所有中高端机以及部分低端机,能够覆盖 85% 以上的安卓用户。

● CPU 消耗、SDK 内存消耗低:声网多倍超分算法对移动端设备的性能消耗占比极低,有着出色的能耗表现,例如在移动端 360p 超分至 720p,超分的模型跑在设备的 GPU上,几乎不会增加 CPU 消耗,单帧处理耗时平均在 10ms 以内。在 1 对 1 视频通话场景中,360p/15fps 的视频开启 2 倍或 3 倍超分后,SDK 的内存消耗只增加 10% 左右。

声网实时超分算法目前适用的场景分为三种:

● IoT 平台的实时互动场景:在智能硬件终端对音视频 SDK 的功耗要求非常高,一旦视频通话的视频传输太占功耗,就会造成硬件的续航时间下降,发烫发热等,对此,声网实时超分可以将硬件设备端的 720p 视频以 360p 进行采集,并通过 360p 进行传输,在接收端将接收到的 360p 视频增强到 720p,不仅保证了智能硬件终端的视频画质,还降低了 SDK 功耗,增加了硬件的续航时间。

● 带宽受限的实时互动场景:在很多实时互动场景中由于网络带宽受限,无法传输高分辨率的视频,可通过声网实时超分进行降分辨率传输,将带宽受限的影响降到最低,最终在接收端进行恢复原视频的画质。

● 视频首帧出图清晰:在视频通话开启时,用户都会希望第一眼映入眼帘的画面就很清晰,但在一些实时互动场景中,为了快速出图,刚出来的视频画面是低分辨率,过一会才会变成清晰,从视频小流切到大流。通过声网实时超分可以在视频小流阶段就对视频画质进行放大增强,从而实现首帧的画面达到清晰,同时首帧出图的时延也不会受到影响。

如何评价实时超分算法的实现效果?

介绍完声网实时超分的特点、优势以及应用场景,很多人可能想问最后如何去衡量实时超分的效果?这里就要说到我们上一期声网 VQA 的技术解析文章,声网 VQA 利用深度学习算法实现对实时互动场景接收端视频画质主观体验 MOS 分的评估,解除了传统主观画质评估对人力评分的高度依赖,从而极大提高视频画质评估的效率,使实时的视频质量评估成为可能。点击文章链接可进一步了解声网 VQA 的技术原理。(声网 VQA:将实时互动中未知的视频画质用户主观体验变成可知

目前声网多倍超分已跟多个客户进行了集成,并得到客户高度认可,如您也想进一步体验或者接入声网多倍超分,可以点击下方的阅读原文留下您的信息,我们将与您做进一步的沟通。

业内首个!基于移动端增强视频通话画质的超分辨率算法相关推荐

  1. 【图像超分辨率】基于ResNet或GAN的遥感图像超分辨率论文

    基于ResNet或GAN的遥感图像超分辨率论文 <空间感知残差网络的遥感图像超分辨率重建> 操作: 遥感图像特点: 网络模型: 去掉批处理层的原因: 具体操作 损失方程: <改进的残 ...

  2. 基于目标检测的海上舰船图像超分辨率研究

    基于目标检测的海上舰船图像超分辨率研究 人工智能技术与咨询 来源:< 图像与信号处理> ,作者张坤等 关键词: 目标检测:生成对抗网络:超分辨率 摘要: 针对海上舰船图像有效像素在整体像素 ...

  3. MSFSR: 一种通过增强人脸边界精确表示人脸的多级人脸超分辨率算法(读书笔记)

    MSFSR: A Multi-Stage Face Super-Resolution with Accurate Facial Representation via Enhanced Facial B ...

  4. 经典论文复现 | 基于深度卷积网络的图像超分辨率算法

    过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...

  5. 华威、剑桥与三星联合提出基于时间核一致性的盲视频超分辨率

    关注公众号,发现CV技术之美 ✎ 编 者 言  本文是第一个在深度盲VSR中研究真实视频中核的时间一致性的方法,它展示了如何通过核估计和运动补偿的相互作用以便在盲VSR中利用时间核和帧信息. 详细信息 ...

  6. 小米9拍照黑科技:基于NAS的图像超分辨率算法

    作者:Xiangxiang Chu, Bo Zhang等 丨 机器之心编译丨 雷军表示:这是一篇小米最新出炉的论文,基于弹性搜索在图像超分辨率问题上取得了令人震惊的结果,该模型已开源. 本篇是基于 N ...

  7. PULSE:一种基于隐式空间的图像超分辨率算法

    分享一篇 CVPR 2020 录用论文:PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generati ...

  8. 基于内容自适应的视频超分辨率算法-SRVC

    1. 介绍 论文全名是<Efficient Video Compression via Content-Adaptive Super-Resolution>,作者全部来自麻省理工计算机科学 ...

  9. centos 8 的图形操作界面在哪_商显首款基于安卓系统的图形化调用API软件—智微智能SPIRIT测评...

    出色优美的数字显示可谓是商业展示的灵魂所在,可迅速吸引人们的目光,智能多样化地进行信息展示.随着各种数字显示产品与技术的进步,新型数字商用显示在生活中随处可见.各类数字标牌.POS设备.自助服务终端. ...

最新文章

  1. python 多进程管道 消息式通信
  2. androidHandler讲解
  3. 浅谈equals与==
  4. python反转列表解析_Python语法糖之:列表解析、集合解析和字典解析
  5. 警惕!有“庄家”“大V”联合诱骗投资者,忽悠式荐股
  6. 【Git/Github学习笔记】Git课程简介
  7. git fork的项目与原作者同步
  8. VMware的CentOS部署环境
  9. mysql笛卡尔积效率_SQL优化 MySQL版 -分析explain SQL执行计划与笛卡尔积
  10. php 电脑的右下角弹框,电脑右下角弹出广告的解决方法
  11. 一文搞定YOLO3代码详解
  12. 杰奇 v1.7去限制版橙色模板小说源码
  13. 电脑qq微信等软件可以上网,浏览器无法上网,电脑浏览器提示代理服务器连接失败
  14. 小游戏,客户端游戏版号自助申请教程
  15. win7计算机资源管理器卡住,Win7资源管理器未响应的解决方法
  16. 心流_追求生命的意义
  17. 【Lingo】分段函数
  18. 超简单MySql的DATEDIFF函数计算某个时间距离当前时间多少天。
  19. Java虚拟机(JVM)-- Dump内存快照
  20. 西门子PLC产生随机数

热门文章

  1. 从对人负责的角度,重新理解软件测试
  2. Ansible(自动化软件)
  3. CDR X6低价还能持续多久?官方回应18年元旦过后要涨价
  4. 黄峥辞任拼多多董事长:1:10超级投票权失效,投身科学研究
  5. 最近在看一本不错的书~推荐给大家
  6. 玄学小记.6 ~ Berlekamp_Massey
  7. autojs之桌面快捷方式
  8. 应用程序安全的魔道之争
  9. 2.从入口开始学习StarForce
  10. UE4-UCheatManager