本文来自淘宝 高级算法专家 李晓波(篱悠)在LiveVideoStackCon 2018讲师热身分享,由LiveVideoStack整理而成。在分享中李晓波详细解析了手淘在H.265高效编解码器的实现过程中的所进行的优化探索。

手机淘宝在直播、短视频业务中存在着大量的图片和视频;近年来,图片和视频的数量呈指数级别高速增长;并且随着网络技术的发展与消费升级,用户对图片和视频清晰度的要求也不断提升,从最早的360P到现在的4k甚至8k,这些都带来了宽带成本与存储成本的大规模提升,这也就是为什么我们希望借助H265技术支持音视频业务的良性发展。

H.265介绍

借助H265技术我们可以实现大规模并发场景下音视频业务的有效成本控制。带宽与存储成本不容小觑,与H264相比,以典型4K场景中使用H265技术为例,可在保持画质不变的同时节省达50%的带宽,而以720P直播为例使用H265则可节省30%流量。现在的流量有90%以上都来自移动端(手机)而非传统意义的PC、服务器、Pad等;而对手机端尤其是Android设备而言,碎片化带来的计算能力受限、性能层次不齐等问题使得H265上的很多优化与功能受到限制。如果我们直接将H265应用于手机端则会在解码时出现发热大、能耗高、实时编码无法正常进行等现象;与此同时,也缺少快速、高效且成熟的端上编码方案,这些都是亟待我们解决的问题。

H265编码框架由四个模块组成:输入一段视频的连续多帧,首先需要经过的是包含帧内预测、帧间预测两个操作的预测模块;随后进行变换量化模块也就是针对原始图像块与预测图像块的差值进行DCT和量化;接下来解码模块会将图像解码以便用于下一帧的预测;最后的熵编码模块将针对预测信息和残差系数进行算数编码从而进一步消除编码冗余。

H265主要有哪些技术亮点?首先H265具有灵活的编码结构,拥有CUPUN、CTUN等多个细分编码单元;其次H265的块大小也非常灵活,包括4×4、8×8等更多块划分方式;除此之外,H265的Sample Adaptive Offset(SAO)技术相对于Deblock和ALF具有更高性价比;最后在整个H265中包含了并行化设计,使得H265的优势更加明显。

除了以上技术亮点,H265相比于H264 在插值、MV预测、帧内预测、变换、去块滤波等方面进行了大量改进与优化。上图右侧表展示的是H.265相对于H.264在多方面带来提升的量化数据。

H.265为音视频带来了技术提升,与此同时也带来了不容忽视的改进代价。码流的节省意味着计算复杂度的提升,从上图右侧的统计表中我们可以看出,相对于H264,H265的编码复杂程度增加了约3到4倍,解码复杂程度也增加了近50%。这就意味着传统的针对H.264的软硬件解决方案处理H.265会明显感到力不从心,我们需要妥善解决因方案升级带来的诸多技术挑战。

H.265高效编解码器的实现

即便如此,H.265的优势也不容忽视。上图展示的是我们在2017年开展的一项调研,以当时比较成熟的金山HEVC解码器为例,对比标准H.265解码器,无论是在解码速度还是解码质量上金山的HEVC解码器都有很大优势,这项调研结果也让我们对H.265的未来发展更加充满信心。

手淘在H.265编解码领域作出的优化探索主要分为两部分:算法优化与工程优化,而算法优化主要集中在RDO方向。由于HEVC支持不同的CTU/CU/PU/TU组合模式,可选编码模式激增;搜寻最优编码模式时,随着编码模式数量的增加,率失真计算会成为编码过程的计算瓶颈,这主要是由于传统H.264中基于SATD的率失真优化不可在H.265中使用,需要精度更高的失真代价计算。为了优化RDO以实现更高效的处理效果,我们进行了以下7项改进:

  • 高效预判CU层次。

  • 采用基于纹理信息等内容的CU遍历提前终止策略。

  • 基于卷积神经网络解决图像分块的非线性问题。

  • 提前预判残差AZB块,从而减少D与R的计算。

  • 使用量化误差D和残差比特数R的快速计算模型。

  • 采用基于单调性的ME快速计算模型。

  • 在35中模式中快速选择合适的帧内预测模式。

1)模式划分CTU/CU/PU/TU

以PU为例,H.264有7种划分模式,而H.265则有24种划分模式。

如果统计H.265中一个图像可以选择的所有划分模式,一个块有高达384种可选择的划分模式。只有计算完成所有选择后才能确定最佳划分方案,如何缩短计算如此多选择所需要的时间?

2)RDO优化

快速模式决策——深度预估

首先,由于每块的划分层级与划分深度和当前块的参考帧块之间有很强的相关性,利用时间和空间的相关性,我们可从参考块的深度预估本块的深度范围并得到Min-depth与Max-depth;其次,即使本块与上一块或参考块有相关关系,本块也有一些自己独有的信息可被利用,我们可通过结合本块的运动与纹理信息界定深度的精度范围,确定具体划分深度的精度范围。

快速模式决策——纹理Corner检测

通过对图像纹理的检测我们可快速选择最优的划分模式。迅速识别平坦或对比度较强的纹理,提升划分效率。

快速模式决策——CNN分类

应对带Corner的纹理时,可通过按照强度判决是否继续划分来实现快速选择,这对线性变化的处理效果较好,而在实际应用中我们需要面对很多非线性变化的应用场景,此时就需要CNN卷积神经网络+深度学习的模型对非线性变化进行纹理分类与快速模式选择,这里的线性分析与非线性分析是分开进行的。

快速模式决策——AZB决策

AZB(All Zero Block)是量化后系数为全0的块,通过AZB提前判别决策可对块进行快速归类,从而减少D与R的计算。

Distortion&Bits估计

纵览整个劣势帧的计算过程 ,计算Dp需原图到重建图像间的SSE,也就是完成编码模式P的预测、变换、量化、反量化、反变换、重建等。为避免这样冗长而复杂的计算过程,我们可以在变换与量化后在频域计算残差能量;而码率统计 则是通过一次熵编码实现,为了提高计算效率我们可以对残差数据的码率统计建立线性估计模型并根据NxN变换矩阵量化后的特征估计其码率,可减少近50%的计算量。

FME最优搜索位置估计

这里我们主要进行的优化是,通过整像素点及1/2像素点的SAD值和其坐标来估算出最优1/4像素点,从而加速整个搜索过程。

快速帧率预测方法

我们采用了基于贝叶斯模型开发的一套帧内预测快速决策方法,可为帧内预测速度带来一倍的提升并将损失降低到0.01dB。

3)码率控制优化

我们使用以下策略对码率控制与Lookahead进行优化,首先是基于CuTree的信息传递来调整CUQP,其次是基于rates和复杂度的IBP FrameQP,最后是·基于参考强度的Slice Type Decision,这一部分内容我会在LiveVideoStackCon 2018上作出更加详细描述 。

4)参考帧优化——长期参考帧

我们知道,参考帧大都在一个GOP范围内,往往有更好的编码质量,参考帧有助于提高被参考帧的质量,而长期参考帧可能源于多个GOP。这就使得对于背景很少发生变化的直播场景,长期参考帧可有效减少信息经过多帧传递带来的损失,引用长期参考帧可将平均EV提高大概0.25dB,

上图展示的是各模块计算量占比,以上就是我们围绕RDO领域进行的多项探索。

基于工程方面我们也进行了多项优化,首先是针对一些特殊函数的汇编计算优化,我们通过采用NEON指令集优化,为典型计算性能带来2~4倍的提升,如RDO(SSE、SAD)模块、运动搜索模块、帧内预测模块等均提升两倍以上;其次,针对现在移动端广泛使用的多核处理器,我们优化多核并行计算并适应现代处理器的架构;除此之外,我们也优化bottleneck的指令和访存,从而进一步提升整体性能。

经过算法与工程两个层次上的优化,我们为HEVC编解码带来了明显的性能提升。就编码速度而言,手淘比X.265 17年初的版本提升3倍以上并可在iPhone6上实现720P&30帧的实时编码;若想实现相同的编码质量,手淘的编码码率相对于X.265降低了至少15%,上图展示的便是具体的测试结果。

软解优化更多集中在工程方面也就是NEON指令集部分,较少在算法层面进行调整。通过对NEON指令集的优化与一些逻辑上的改写,手淘可实现相对于FFmpeg提升150%以上的视频解码速度,例如将1Mbps 720P H.265的测试用例用于小米5手机进行解码测试,其解码速度可达两百帧以上,而CPU的占用率也控制在20%以下;在处理图片方面,例如对H.265的标准I帧处理上我们也做出了不少优化和改进,APG的图片解码速度相对于FFmpeg提升70%以上。

总结与未来展望

过去10年大家都是按照H.264、H.265的标准;而在流媒体渐成趋势的未来,Google提出的VP8、VP9、VP10,还有H.266、AV1等标准将推动音视频行业向更光明的未来发展。技术的进步为我们实现更多更新潮的效果打下基础,助力消费升级与用户体验的日渐完善。

如果简单对比H.266与AV1我们可以看到,因为H.266引入了更多的四叉树二叉树结构(QTBT),整体的BD-Rate提升近4%;但H.266对比H.265,在保持画质不变的情况下码流降低了近1倍而整体编码时间却增加了2倍左右,整体解码时间则增加近1倍。基于之前的调研我们发现,AV1的时间复杂度是X.265的2000~3000倍,这说明AV1未来的改进与优化任重而道远。

One More Thing

意犹未尽?欢迎参加这周日(12月16日)的优酷技术沙龙,了解更多音视频领先技术。

点击【阅读原文】或扫描二维码【报名】参加线下交流。

推荐阅读:

淘宝直播:多媒体终端智能互动实践

MR在消费领域的探索实践 “淘宝买啊”亮相淘宝造物节

手机淘宝H265编解码算法与工程优化相关推荐

  1. 手淘H265编解码算法与工程优化

    本文来自淘宝(中国)软件有限公司 高级算法专家 李晓波在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成.在分享中李晓波详细解析了手淘在H.265高效 ...

  2. 手机淘宝客户端架构探索实践

    宗心:淘宝无线事业部资深开发工程师,手机淘宝iOS架构组开发工程师,2012年底参与开发手机淘宝iOS3.0版本,经历大小几十个版本的变迁,针对手机淘宝总体设计架构,hybrid框架解决方案,插件化解 ...

  3. 从编解码算法到全链路RTC架构,揭秘淘系直播技术演进之路

    从2016年直播元年至今,纯粹的直播已经逐渐失去竞争力,越来越多形式创新映入眼帘,而众多企业开始走向内容垂直化--秀场.游戏.电商.广电等内容特点深度结合.伴随2020年疫情爆发,电商为人们日常生活提 ...

  4. 10亿级!淘宝大规模图像检索引擎算法设计概览

    进入21世纪以来,伴随着互联网的高速发展,通过图像和视频来进行需求表达越来越成为大家的习惯. 图像搜索与识别算法使得图像视频内容得以结构化和数字化,以便可以在各种检索和分析引擎中被最大限度地挖掘和利用 ...

  5. 手机淘宝双11全球狂欢节技术解读

    手机淘宝 双11全球狂欢节技术解读 2015双11全球狂欢节全天交易额912.17亿元!无线成交626.42亿元!无线占比68.67%!--这是消费的力量,是新经济的力量,是我们每一个人的力量,更是中 ...

  6. 当手机淘宝遇见海尔电商

    该文章来自阿里巴巴技术协会(ATA)精选集 7月的青岛,向来是旅游胜地.手机淘宝技术团队收到海尔的邀请,展开了一场别开生面的技术之旅,阿里无线事业部(手机淘宝)资深总监南天也应邀在[海尔电商技术沙龙] ...

  7. 手机淘宝 521 性能优化项目揭秘

    http://www.infoq.com/cn/articles/mobile-taobao-521-performance-optimization-project 又是一年双十一,亿万用户都会在这 ...

  8. 天猫11.11:手机淘宝 521 性能优化项目揭秘

    又是一年双十一,亿万用户都会在这一天打开手机淘宝,高兴地在会场页面不断浏览,面对琳琅满目的商品图片,抢着添加购物车,下单付款.为了让用户 更顺畅更方便地实现这一切,做到"如丝般顺滑" ...

  9. 【回顾】手机淘宝推荐系统实战

    写在前面:昨天给大家分享了<文章推荐系统电子书>,有粉丝朋友问下载链接在那里,已经上传到省时查报告小程序中,到详情页点击下方菜单复制下载链接即可,以后公众号中分享的所有文档都会传到该小程序 ...

最新文章

  1. CSS之复合选择器(交集、并集选择器)
  2. angularjs 中的$digest和$apply区别
  3. 超干货 | 硅谷产品大师 Marty Cagan 70 分钟演讲2万字中译
  4. golang 基于Mac os 构建镜像
  5. 【学习笔记】操作系统之哲学原理
  6. 借入单的后续处理-借入归还
  7. API---有意思的API
  8. C++STL容器,你真的会用了吗?——插入、删除、遍历和查找操作性能对比——插入(精简易懂版,句句干货)
  9. 如何设置Jupiter Notebook服务器并从任何地方访问它(Windows 10)
  10. Jest 只MOCK模块中的某个功能实现
  11. python建立数据库连接时出错_python – 尝试连接到localhost上的数据库时出现pyodbc连接错误...
  12. python改变日期的输出格式,关于python:解析日期字符串并更改格式
  13. 01背包问题笔记(转载)
  14. 论文Re-ranking Person Re-identification with k-reciprocal Encoding(person re-id的re-ranking)
  15. 职场 | 因特尔(Intel)无线modem系统设计师实习岗位面试总结
  16. php Y2K38 漏洞解决方法
  17. c语言开发简单小游戏扫雷,利用C语言开发一个扫雷小游戏
  18. 高通820(msm8996)camera hal源码分析
  19. 古代情感诗词top100
  20. Spring boot整合Redis(入门教程)

热门文章

  1. python安装之未指定的错误
  2. 【软考笔记】8. 法律法规
  3. NODE 获取JSO数据长度
  4. 2021-12-11 WPF面试题 WPF中的xmlns 和xmlns:x有什么区别?
  5. 【全知讯微小兔】浅谈:微信营销深水误区是什么!
  6. dslrcontroller尼康_DSLR Controller Wi-Fi Stick
  7. Ckeditor+Ckfinder+Ext4 整合
  8. Python for...in...循环
  9. [C++]-日志记录库SPDLog简介
  10. 多人过河问题C语言贪心算法,南阳oj贪心算法之过河问题