前言

2021年5月,字节跳动智能创作团队精心打磨的移动端实时视频超分技术上线,并在抖音、头条、西瓜等多个业务场景大规模落地。该超分技术在性能和功耗维度取得了巨大突破,通过极致的高性能优化和算法改良设计,跨越超分算法极高的算力要求和移动端算力瓶颈之间的鸿沟,是迄今为止业内唯一实现 720p、1080p 35fps视频在移动端上实时低功耗运行的方案。

端上实时超分的落地,使得用户在移动端的播放体验获得了大幅提升,也为字节系多个业务取得了用户活跃天数、留存、使用时长、商业化指标的显著收益。

自研移动端超分与业界超分端上方案性能数据对比

高清画质解决方案

在 2K 屏幕分辨率已是主流的今天,用户对于高清观看的需求也变得越来越强烈。然而视频质量受到拍摄设备、传输带宽、下发策略等多种因素的影响,用户所观看的视频难免会有分辨率低、质量较差等问题,这势必会影响观看的清晰度体验。超分技术旨在从低分辨率输入中恢复出视觉质量更佳的高分辨率输出,可以有效地解决由于拍摄设备、网络传输等因素导致的视频质量不佳的问题,从而满足播放端用户对于极致高清画质的需求。

低分辨率输入原图分别使用 Bicubic 和 EDVR [1](深度学习)进行放大(Wang et al., 2019)

然而超分问题本身是一类经典的不适定问题,即不存在唯一确定解:由于从高分辨率到低分辨率的降采样过程存在无数种可能性,从低分辨率逆向映射到高分辨率的解空间往往很大,搜索十分困难。为了解决这类不适定问题,业界常采用的解决方案有:

  • 传统机器学习方案

通过图像训练集,提取低分辨率图像块和对应的高分辨率图像块,基于人工设计的特征和匹配的图像块产生一个学习模型,获取先验信息,后续利用这个模型重建出高分辨率图像的细节。

  • 深度学习方案

由于传统机器学习的匹配过程依赖于人工设计的特征,其在高维空间和大尺度因子上的表征能力较差。借鉴于深度学习在其他视觉领域的成功,大家开始尝试利用深度学习强大的特征提取及拟合能力来解决超分问题,并预期获得更准确的超分结果。

  • 端云协同方案

对用户上传的视频逐个进行画质分析,根据分析结果使用相应的云侧算法进行增强,得到高质量的视频源。然后使用不同的编码参数进行抽样,模拟下发后的画质,使用端侧超分进行画质恢复,根据恢复程度智能决定最优编码参数,从而实现画质与码率的最佳平衡。

端上实时超分挑战与优化

移动端实时超分的挑战

作为一种稠密输出型的图像算法,超分算法对运算资源有着较大的需求,因此业界以及学术界的探索往往集中在服务端。与此同时,手机端作为字节系产品矩阵最重要承载平台,负责着大量的 PGC 和 UGC 视频内容的播放,一旦超分技术成功落地在移动端平台上,便能给数亿用户带来更加高清的画质播放体验。

尽管端上实时超分落地带来的画质和码率收益十分可观,但受限于移动端算力、算法功耗、多机型兼容性等问题,在移动端上部署实时超分技术面临着巨大挑战:

挑战一:移动端算力局促

用户在观看视频时,对视频的流畅度、清晰度很敏感。对于高帧率、高分辨率的视频,如果算法不能保证实时性,用户体验将会大打折扣。然而移动端有限的算力资源又使得算法实时性成为一个不容忽视的难点。

挑战二:端上算法功耗要求严格

以往的端上视频超分算法堪称“耗电大户”,特别针对 540p 以上分辨率的输入,图像尺寸的增加带来运算复杂度成倍扩大,容易引起手机发热。因此使用一个低功耗的实时超分算法才能最大限度地提升用户体验。

挑战三:机型兼容性要求较高

不同手机运行着不同的操作系统,且涵盖高中低各档次机型,如何设计业务策略以实现最大范围机型覆盖也是端上实时超分的一个难点。

为了解决上述难题,字节跳动技术团队从算法和工程方面进行了多维度技术攻坚,克服了超分算法极高的功耗性能要求和移动端有限算力之间的鸿沟,在高中低全系移动平台上首次实现了针对手机端 720p/1080p 35fps 以内视频的超低功耗超分算法。

算法侧优化方案

思路一:传统机器学习优化方案

提取成对训练集里对应的低分辨率图像块和高分辨率图像块,根据低分辨率图像块里的内容和几何特征对其进行分类,最后利用机器学习算法学习低分辨率图像块和高分辨率图像块之间的关系,得出重建矩阵。为了做到更多的机型覆盖,在算法设计阶段,精确统计各个子模块的计算复杂度,在保证效果前提下,不断调整分类策略,优化学习算法的鲁棒性,最终支持端上实时低功耗运行 720p/1080p 超分。

思路二:深度学习优化方案

由于学术界经典网络模型参数量往往比较大,需要的算力动辄数百 GFlops,远超目前移动侧高端设备极限算力几十倍甚至百倍之多。下面是一个经典超分模型情况:

Model Input Size GFlops Parameters
SRGAN [2] 360x480 446 1554490

如此复杂的模型需要消耗大量的计算和内存,即使在目前服务器级别的 GPU 上也无法做到实时处理,对移动端更是一个很大的挑战。为了得到一个可在移动设备上实时低功耗运行的模型,团队采用了如下几种优化方法:

  1. 模型结构优化:人工设计网络架构通常需要繁琐的实验过程,且容易出错。为了在网络模型设计阶段尽量选择能效高的算子,我们采用广泛应用的神经结构搜索的方法(Neural Architecture Search, NAS)方式对网络模型进行优化。

  2. 模型压缩技术:我们采用剪枝,蒸馏等模型压缩技术在优化后的模型架构上进一步减少模型中冗余的权重,去掉对模型性能贡献小的分支,达到减小模型复杂度的目的。同时采用量化技术将权重以低码率存储,从而减小模型体积,加速计算。

  3. 硬件加速技术:在保证效果显著的前提下,模型压缩所带来的加速比,是有一定上限的。因此我们进一步采用速度更快、能效更好的硬件(如华为的 NPU,高通的 DSP,MTK 的 APU 等)对网络推理进行加速。

  4. 与硬件厂商进行深度合作:通过与厂商合作,实现算法的深度定制性优化,提升模型在性能与功耗方面的表现。

工程侧优化方案

在移动设备算力、内存总线带宽都有限的情况下,既要满足高分辨率超分算法实时处理的要求,又不能增加太多耗电,对工程化部署要求非常高。我们在相关方向做了很多探索和技术演进,从最初的 CPU 汇编、多线程优化,到结合视频解码器加速的异构方案,再到 GPU、DSP、NPU 多设备的异构方案,深度结合业务场景实现算法在渲染链路与多设备内存零拷贝打通,完成了算法的高性能落地。

算法评测

针对自研的移动端实时超分,我们从功能性和主观画质两个维度进行了全面评测:

功能性评测

作为业界独家 720p 移动端实时超分算法,字节跳动智能创作团队对端上实时超分技术做了深入的优化,在性能、效果、体验上,都取得了一定行业优势:

  1. 鲁棒性强

由于自研算法针对人像、自然、建筑、游戏、动漫等等众多场景进行了效果适配,使得算法能够在绝大多数场景中为用户带来画质提升。

  1. 实时性强且功耗低

经过算法侧和工程侧的优化,自研算法支持移动端 720p 30fps 视频实时超分处理(在 ipad 大屏设备上最大支持 1080p 超分),且功耗增量小于 50mA。

  1. 机型覆盖率高

高性能端上超分方案针对不同机型性能进行了深入探索,通过不同的算法模型以及不同倍率的处理方案,覆盖移动端 50%以上机型,为不同手机型号的用户都带来画质提升。

主观画质评测

为了确保上线效果的稳定,在上线前,字节内部专业画质评测实验室预先对算法效果进行了主观测评。实验评测采用 JND 得分,来对超分前后的主观画质感受进行测试。

JND 评分用于衡量评估视频(此处即超分后视频)与源视频的画质差异,其得分范围的一般性评价为:

  • [-3,-1.5],几乎所有测试者都可以感知测试图像的缺陷

  • [-1.5,-1],大众可以明显感知缺陷

  • [-1,-0.4],大众可以感知缺陷

  • [-0.4,0.4],无明显差异,大众无法感知

  • [0.4,1],有正向感知

  • [1,1.5],大众有明显的正向感知

  • [1.5,3],几乎所有测试者都可以有正向感知

JND 评分与实际画质的示例

最终的实验组织了 100 位用户在移动端对 10 组视频源和超分结果的质量高低进行投票,并将投票结果映射为 JND 得分。如下图所示,经过每一组超分后的视频相比原始视频 JND 得分都大于 0.4, 所有超分视频整体 JND 得分为 0.69,正向明显,意味着绝大多数用户都可以感知到端上超分带来的画质提升。

主观评测视频的整体 JND 得分

单个视频 JND 得分

算法收益

作为业界首家支持端上 720p 实时超分算法,目前端上实时超分方案已在抖音、头条、西瓜等多个业务的视频消费场景落地,实现了端上超分在短视频业务安卓、iPhone 高中低端设备全面落地的重要业界突破。并带来众多实际效果:

  • 提升播放清晰度:利用高端机屏幕的高分辨率优势,低清视频高清播放,高清视频提供超高清画质,提升用户视频消费体验。

  • 降低分发带宽:通过服务端降低转码分发视频分辨率,结合客户端超分处理呈现高分辨率效果,降低高清播放门槛,提升流畅度,减轻用户网络压力。

这些实际效果同时也在用户活跃天数,留存,使用时长,商业收入等重要业务指标上取得显著收益:

  • 在抖音短视频,今日头条,西瓜视频等 APP 中,取得用户活跃天数,留存,使用时长等业务指标的显著收益;

  • 在商业化场景中,带来广告主价值收益,取得了每年数亿的商业指标收益;

  • 基于端上超分算法,在抖音、今日头条完成 CDN 带宽优化,显著降低了下发视频带宽,年节约亿级带宽成本。

未来展望

未来我们将持续探索超分价值场景,结合字节视频云团队的高效编码技术,以及生态合作伙伴在硬件方面的能力,实现端云协同的极致带宽优化和高清播放方案:

  • 极致高清体验

通过端云结合的协同优化打造极致的画质体验。

  • 极致低码率

通过 case-by-case 的智能编码设置,实现在高画质情况下极致的码率节省。

  • 低功耗

深度结合我们的工程优化能力和厂商的硬件能力来降低算法功耗,避免发热同时提升续航能力。

引用文献

  • [1] Wang X, Chan K C K, Yu K, et al. Edvr: Video restoration with enhanced deformable convolutional networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2019.

  • [2] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

加入我们

字节跳动智能创作团队

智能创作团队是字节跳动音视频创新技术和业务中台,覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域,在部门内部实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式向公司内部各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的火山引擎向企业开放技术能力和服务。

抖音多媒体评测实验室

抖音多媒体评测实验室是字节多媒体画质和音质质量保障中台,通过专业的评测人员,实验室设备和业界领先的评测方案,服务于字节内部众多产品,包括抖音,头条,剪映,西瓜等等,在端到端的全链路画质上通过手机厂商合作,视频编解码,图像算法增强,工程优化等方向进行画质测评,全面提升用户视听质量体验。团队发展迅速,年轻富有朝气,注重技术氛围建设,积极参与国内外各顶尖行业技术会议,输出高质量技术专利和相关论文,工作 Base 地有北京、深圳、杭州、上海等多地可选。

欢迎通过下方链接或二维码进行简历投递,加入我们,让我们一起做图像视频算法的领军者!

  • 图像算法研发方向:北京/上海/杭州/深圳职位开放, https://job.toutiao.com/s/8evt3VN

  • 高性能计算架构:北京/上海/杭州/深圳职位开放,https://job.toutiao.com/s/8eckuNQ

  • Camera 算法研发:北京/上海/杭州/深圳职位开放,https://job.toutiao.com/s/8e3R6aJ

  • 图像测试工程师:北京/上海/杭州/深圳职位开放,https://job.toutiao.com/s/8ecgXdm

效果 demo:

  • 机器学习方案(左侧是 bicubic 插值,右侧是 ours,中间一列上方取自左侧,下方取自右侧)

  • 深度学习方案(左侧是 bicubic 插值,右侧是 ours,中间一列上方取自左侧,下方取自右侧)

业界首家720p/1080p移动端实时超分,打造抖音极致画质体验相关推荐

  1. 即构发布 | 移动端实时超分辨率技术,迭代视觉新体验

    超分辨率(Super Resolution,简称 SR),是计算机视觉的一个经典应用.SR 是指通过软件或硬件的方法,从观测到的低分辨率图像重建出相应的高分辨率图像,简单来说就是通过 AI 算法来放大 ...

  2. 松下环境系统:业界首家换气扇全球累积生产突破2亿台※1

    自1958年第一台换气扇生产以来实现60年的生产 通过换气事业为全球用户的室内空气质量提升做贡献 日本大阪--(美国商业资讯)--松下环境系统株式会社,自1958年第一台换气扇发售以来,经过60年发展 ...

  3. 720P实时超分和强悍的恢复效果:全知视频超分OVSR

    论文:https://arxiv.org/pdf/2103.15683.pdf 单位:武汉大学.哈尔滨工业大学.武汉工程大学 译者言: 本文可以看做是PFNL(同一作者)的续作.LOVSR是将PFNL ...

  4. 华人一作登ICCV 2021,实时超分新SOTA!AutoML显神威:1%参数量,超清视频70倍加速...

      视学算法报道   作者:詹政 编辑:好困 小咸鱼 [新智元导读]东北大学王言治团队将网络结构搜索与剪枝搜索相结合,提出了全新的自动搜索框架.该AutoML框架得到的稀疏模型能够在移动设备上实时且高 ...

  5. 互联网日报 | 蔚来首款旗舰轿车1月9日发布;抖音电商开启首届抢新年货节;2020年快递业务量达830亿件...

    今日看点 ✦ 抖音电商开启首届抢新年货节,亿级流量补贴抢占春节档 ✦ 蔚来首款旗舰轿车将于1月9日NIO Day 2020正式发布 ✦ 腾讯安全与奇安信达成战略合作,聚焦信息安全市场 ✦ 阿里健康上线 ...

  6. 钉钉windows端多开软件_抖音很火的备忘录软件是什么?比较火的备忘录便签软件...

    抖音是很多年轻人都比较喜欢使用的一款短视频APP,我们不但能够用它来娱乐打发时间,还可以从抖音的视频中接收咨询和学习.近期我在抖音上看到了不少人都在使用备忘录便签软件,抖音很火的备忘录软件是什么?比较 ...

  7. TikTok举行首个直播购物活动On Trend;《2021抖音电商海外爆品洞察报告》公布;美元跌至6.34... 洞悉跨境

    "11月22日晚,雪梨.林珊珊先后通过微博发布<致歉信>,称因为忙于业务,忽视了专业财税知识的学习,承诺会补缴税款,并暂停直播,进行规范整顿.当日,二人微博被禁言. " ...

  8. 首场直播带货1.9亿,这些抖音直播赚钱套路你要学一学

    关注微信公众号:水煮柚子 获取更多网络营销赚钱咨询. 几个月前,罗永浩在抖音的直播首秀,带货1.9亿,让每个想要通过网络赚钱的人都对直播这块蛋糕产生了兴趣. 后来,各路大小明星,市井小民,都争先恐后的 ...

  9. 业内首个!基于移动端增强视频通话画质的超分辨率算法

    在实时互动场景中,视频画质是影响用户互动体验的关键因素,从流畅.标清到高清.超高清等,分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,给用户的视频互动带来更好的体验,这也促进了用户在实时互动 ...

最新文章

  1. AlphaFold2爆火背后,人类为什么要死磕蛋白质?
  2. C++ JsonCpp 使用(含源码下载)
  3. Canvas之translate,scale,rotate,skew
  4. java 中while编译之后_从APK反编译的Java-while循环什么也不做
  5. LeetCode 744. Find Smallest Letter Greater Than Target (时间复杂度O(n))
  6. linux移植wifi sd8688.bin 最新固件,[ZZ]浅析firmware完整生存和使用流程
  7. 大功率无线输出电台使用注意事项
  8. python自动截图发送邮件_PhantomJS按尺寸截取页面,并用python发送邮件
  9. Mac OSX 安装nvm(node.js版本管理器)
  10. case class和trait
  11. 伪静态 apache重写
  12. gdal mysql乱码_GDAL读取S-57海图数据中文属性值乱码问题解决(续)
  13. 箱线图怎么判断异常值_极简统计学---箱线图[2]
  14. babel原理_手写webpack核心原理,再也不怕面试官问我webpack原理
  15. 800元以内创建的双路CPU主机
  16. 计算机学院考勤管理办法,计算机学院软件学院考勤制度(试行).doc
  17. linux服务器架设篇 下载_后渗透系列——下载(Windows篇)
  18. CAJ转PDF,仅需5秒还免费,PDF文字还能复制
  19. 用Java写出敬业福小程序:人人扫出敬业福
  20. 轻轻揭开 b*tree 索引结构的神秘面纱

热门文章

  1. 电脑报,百度网盘全新版本体验,风格大变样
  2. mongodb-drill for sql
  3. 科大讯飞语音听写app闪退
  4. python语言正确的标识符是__python基础知识:python的标识符和关键字
  5. 产品一:葡萄籽的美肌功效
  6. 淘宝京东拼多多抖音1688苏宁淘特等关键词搜索商品API接口(关键词搜索商品API接口,关键词搜索商品列表接口,分类ID搜索商品列表接口,关键词搜索商品销量接口)
  7. 真爱 vs. 种姓:新一代印度人的婚恋观
  8. izone成员_IZONE成员经历介绍,简介
  9. Qt 中messageBox使用
  10. matlab图像处理 支持向量机,Matlab图像处理滑动窗口SVM