关注公众号,发现CV技术之美

本文介绍CVPR 2023论文《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》,适用于无参考视频质量评价的最新研究成果,作者团队来自阿里巴巴大淘宝技术。

在淘宝,每天有亿级的User-Generated Content (UGC) 等非传统广电视频(包括但不限于短视频、直播等)被生产或播放,其存在明确的无参考视频质量评价的需求,用以对视频质量进行实时监控,确保用户体验。

因此,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,来衡量视频绝对质量的高低。MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝视频相关业务,“量化”画质,有效地反应技术迭代带来的体验提升,为大淘宝视频体验提供画质保障。

背景

随着互联网视频化的深入,越来越多的UGC等非传统广电视频(包括但不限于短视频、直播等)在互联网平台上被生产或播放。手淘内容化与互联网内容化的趋势契合,而平台亦希望能够在成本可控的前提下保障尽可能好的视频画质,视频质量评价指标在其中发挥关键作用。

相比传统广电视频更多地使用有参考视频质量评价指标,也即要求使用近似无损的源视频作为参考,UGC视频源质量不可控,无法作为理想的无损源,因此无参考视频质量评价方法在短视频和直播视频的评价方面更具备实用价值。

大淘宝音视频技术团队基于淘宝直播、逛逛等内容业务,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个视频,覆盖不同的内容、失真、和质量,并通过专业的主观标注,获取165,528个视频的主观质量标签。在此之上,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 ——MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,并进行时空域的融合,来衡量视频绝对质量的高低。在公开的视频质量评价数据集LIVE-WC和YT-UGC+,以及TaoLive上,MD-VQA在主流视频质量评价指标SRCC和PLCC上均超过了SOTA(State-Of-The-Art)方法,达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。

方法

针对上述问题,我们基于淘宝直播平台的视频,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个直播视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。与此同时,我们自研了针对UGC视频的无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。

  TaoLive数据集

我们从淘宝直播平台筛选了418条视频,覆盖美妆、服饰、珠宝、食品、生活日常等不同内容、以及720p和1080p两个主流分辨率。然后,我们对这些视频进行8种不同失真等级的编码,来模拟实际应用中不同的视频质量,最后共生成3,762条不同内容、不同质量的视频,用来验证我们提出的MD-VQA的模型性能。部分示例视频如图1。

图1. TaoLive数据集示例

在此基础上,我们组织了由44名专家和普通消费者组成(20名男性,24名女性)的主观测评团队,对上述3,762条视频进行主观打分,共生成165,528条主观质量分数的标注数据。然后,我们根据ITU-R BT.500-13 [2] 标准,将标注数据转换为mean opinion score(MOS)分数,作为视频质量的ground-truth(GT)数据。

我们也和业界主流的视频质量评价数据集进行了比较,如表1所示。从表中可以看出,早期(2014-2016)的数据集的规模相对有限,而后续演进的大型数据集,例如KoNViD-1k、YouTube-UGC、LSVQ等则更侧重于In-the-wild的视频内容。在互联网内容平台上流行的“UGC视频结合压缩/传输失真(UGC + Compression)”类型数据集,我们构建的TaoLive数据集在数据规模上具有一定的竞争力,同时更适合于电商场景。

表1. 主流视频质量评价数据集比较

  模型设计

图2示出了所提出的 MD-VQA 模型的框架,包括特征提取模块、特征融合模块、和特征回归模块。具体来说,所提取的视频特征包括多个维度:语义、失真、和运动。特别地,我们利用相邻帧特征之间的绝对误差来反映视频质量在时域上波动。上述得到的多维特征在时空域上被融合,并通过特征回归模块映射到最终的质量分数。

图2. MD-VQA模型的网络架构示例

  • 语义特征提取

视频语义特征通常描述视频中物体的物理特性、物体之间的时空关系、以及物体的内容信息等,属于视频的高维特征,且和视频的低维特征(如亮度、色彩、纹理等)存在很强的关联性。

此外,对于不同的视频内容,语义特征的失真对人眼感知到的视频质量有着不同的影响:人眼通常无法容忍纹理丰富的内容(例如草坪、地毯)的模糊,而对纹理简单的内容(例如天空、墙面)的模糊相对不敏感。综上考虑,我们利用从预训练的EfficientNetV2 [3] 网络最后4层中提取的多维度特征作为帧级的语义特征,如图3公式所示:

图3. 语义特征

其中,  表示从第  个视频片段的第帧获取的语义特征,  表示级联算子,  表示全局平均池化算子,  表示EfficientNetV2第  层的特征图,  表示从  获取的平均池化特征。

  • 失真特征提取

由于UGC视频中普遍存在多种失真,仅使用语义特征来表征视频质量是不充分的。此外,对于不同的压缩质量,失真会呈现不同的状态,例如在压缩质量相对较低时,模糊会比较明显,但噪声也同时被抑制。

因此,在考虑高维的语义特征的同时,我们引入了低维的手工(hand-crafted)特征,包括模糊、噪声、块效应、曝光强度、以及色彩,然后将上述特征综合为帧级的失真特征,如图4公式所示:

图4. 失真特征

其中,  表示从第  个视频片段的第帧获取的失真特征,  表示失真特征提取算子。

  • 运动特征提取

运动失真通常源自于拍摄时的抖动、或者低码率的视频编码,并且,其无法被视频空域特征(例如前述的语义特征)有效地描述。因此,为了提高模型的准确度,我们利用预训练的ResNet3D-18 [4] 获取帧级的运动特征,如图5公式所示:

图5. 运动特征

其中,  表示从第个视频片段获取的运动特征,  表示运动特征提取算子。

  • 特征融合

根据 [5] 中所述,高质量视频通常具有更小的帧间质量波动,反之亦然。为了量化上述波动,我们使用帧间语义特征和失真特征的绝对误差来衡量帧间质量波动,如图6公式所示:

图6. 相邻帧的语义特征的绝对误差和失真特征的绝对误差

其中, 和 分别䘚示相邻帧的语义特佂的绝对误差,以及失真特征的绝对误差。

基于此,时空域特征可以利用图7中的公式进行融合:

图7. 时空域特征融合

其中, 表示帧级的时空域特征, 表示级联算子, 表示可学习多层感知机, 表示的转置,表示可学习的线性映射算子,将映射到最终得时空域融合特征。

最后,上述时空域融合特征 与运动特征 进一步融合,形成最终的时空域融合特征 , 如图8公式所示

图8. 最终的时空域特征融合

  • 特征回归

基于上述时空域融合特征 , 我们利用三层全连接层来回归视频质量, 如图 9 公式所示:

图9. 全连接层回归视频质量

其中,  表示全连接层,  表示视频片段的质量。 此外,我们使用均方误差MSE (Mean Squared Error) 作为损失函数,如图10公式所示:

图10. 全连接层回归视频质量

其中,  表示mini-batch的视频数量,  和  分别表示预测的视频质量和实际的视频质量。 完整视频的质量可通过对视频片段进行平均池化操作获得。

实验

我们在两个公开的视频质量评价数据集LIVE-WC和YouTube-UGC,以及我们自建的TaoLive数据集上,与现有SOTA方法进行了对比。我们使用Spearman Rank Order Correlation Coefficient(SRCC)和Pearson Linear Correlation Coefficient(PLCC)作为指标进行对比。更高的SRCC表示样本间更好的保序性,更高的PLCC表示与标注分数更好的拟合程度。结果如表2所示。

表2. MD-VQA与其他视频质量评价SOTA模型在LIVE-WC、YT-UGC+、和TaoLive数据集的性能比较

从表中可以看出,我们在所测试数据集上的SRCC和PLCC均超过了现有SOTA方法,达到了先进性能。

此外,为了探索不同的特征对模型性能的贡献,我们进行了消融实验(ablation study),如表3和表4所示。

表3. 语义特征SF、失真特征DF、和运动特征MF对于模型性能的贡献比较

从表3中可以看出,语义特征对于模型的领先性贡献最多,而另外两种特征在不同的视频内容(不同数据集)上有不同的表现,符合预期。

表4. 绝对误差(ABS)和特征融合模块(FFM)对于模型性能的贡献比较

从表4中可以看出,绝对误差(ABS)和特征融合模块(FFM)对于模型性能的领先性均有贡献。

总结

为了准确、高效地衡量UGC视频的绝对质量,我们构建了大规模UGC视频质量评价数据集 —— TaoLive。不同于常见的视频质量评价数据集使用高质量视频作为源视频,TaoLive 数据集收集了3,762个UGC源视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。

此外,我们提出一个无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。实验结果表明,MD-VQA在主流视频质量评价数据集和评价指标上,均超过了现有方法,达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。

参考文献

【1】 “服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及”,https://mp.weixin.qq.com/s/2-pC1Z9wH60DHpUkCU-_ng.

【2】 RECOMMENDATION ITU-R BT. Methodology for the subjective assessment of the quality of television pictures. International Telecommunication Union, 2002.

【3】 Mingxing Tan and Quoc Le. Efficientnetv2: Smaller models and faster training. In International Conference on Machine Learning, pages 10096–10106. PMLR, 2021.

【4】 Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatio-temporal 3d cnns retrace the history of 2d cnns and imagenet? In IEEE/CVF CVPR, pages 6546–6555, 2018.

【5】Manish Narwaria, Weisi Lin, and Anmin Liu. Low-complexity video quality assessment using temporal quality variations. IEEE TMM, 14(3):525–535, 2012.

团队介绍

该工作主要在大淘宝技术的音视频技术团队的带领下完成,该团队依托淘宝直播、逛逛、手淘首页信息流等内容业务,致力于打造行业领先的音视频技术。团队成员来自海内外知名高校,先后在MSU世界编码器大赛,NTIRE视频增强超分竞赛这样的领域强相关权威赛事上夺魁,并重视与学界的合作与交流。

这项工作的合作方为上海交通大学张文军教授领衔的图像所团队,是数字电视广播及数字媒体处理与传输领域的主要研究力量之一。面向国家战略性新兴产业,顺应网络化、融合化的发展趋势,近年来开展的重点研究领域包括智能媒体融合网络、视频智能分析处理与传输等。

本文转载自大淘宝技术。

END

加入「图像增强交流群

CVPR 2023|淘宝视频质量评价算法MD-VQA相关推荐

  1. CVPR 2023|淘宝视频质量评价算法被顶会收录

    近日,阿里巴巴大淘宝技术题为<MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos>-- 适用于无参考视频质量评 ...

  2. 图像主观质量评价 评分_视频质量评价算法 之 客观评价的性能指标

    前言乱语 说完数据集,先给大家结个尾吧(误) 视频质量评估(VQA)第二期 来介绍几个 评价视频质量评价算法的性能评估指标 我发4,没有在套娃...... 简易小目录 SROCC(Spearman r ...

  3. 一种H.264高清视频的无参考视频质量评价算法(基于QP和跳过宏块数)

    本文记录一种无参考视频质量评价算法.这是我们自己实验室前两年一个师姐做的,算法还是比较准确的,在此记录一下. 注意本算法前提是高清视频.而且是H.264编码方式. 该方法主要使用两个码流里面的参数进行 ...

  4. H.264视频质量评价算法(基于偏最小二乘法回归)

    Zhiyuan Shi等人(这是中国人写的,但是我没看见中文论文,厦门大学的)在论文<Research on Quality Assessment Metric Based on H.264/A ...

  5. 谷歌YouTube算法团队:视频质量评价的集成池化方法

    点击我爱计算机视觉标星,更快获取CVML新技术 随着移动互联网的发展,视频成为信息消费越来越重要的形式(这从国内外的YouTube.抖音的发展可见一斑),而其中用户贡献内容(UGC)往往占很大比例. ...

  6. 视频质量评价:挑战与机遇

    正文字数:5168  阅读时长:10分钟 本文整理自鹏城实验室助理研究员王海强在LiveVideoStack线上分享上的演讲.他通过自身的实践经验,详细讲解了视频质量评价的挑战与机遇.   文 / 王 ...

  7. 【线上分享】视频质量评价:挑战与机遇

    随着在线视频分享平台和社交媒体的兴起,用户原创视频为视频行业带来新的机遇与挑战.传统视频质量评价主要衡量高清视频经压缩/网络损伤后的视觉体验,高清源视频可以用于离线优化系统中.然而,用户原创视频并不具 ...

  8. H.264 无参考视频质量评价方法 (使用了基于遗传编程方法的符号回归)

    Nicolas Staelens 等人在<Constructing a No-Reference H.264/AVC Bitstream-based Video Quality Metric u ...

  9. 基于运动特征的视频质量评价方法(基于H.264)

    Michal Ries等人在论文<Motion Based Reference-Free Quality Estimation for H.264/AVC Video Streaming> ...

最新文章

  1. MaxCompute跨Region数据迁移指导手册
  2. linux yum仓库建立 createrepo 命令简介
  3. SQL Server 查询基础
  4. centos7.x 64位 rpm安装JDK8
  5. 9.找出1000以内的完数,所谓完数是指该数的各因子之和等于该数,如:6 = 1+2+3。
  6. css实现图片旋转,并设置旋转点
  7. 图像处理 花屏_滴滴开源的 AoE:工程实践中的图像处理
  8. 函数stat、fstat、fstatat和lstat
  9. it计算机知识竞赛主持稿,西安交大城市学院计算机系举办第四届“走进IT,触碰未来”计算机知识竞赛...
  10. linux安装软件w,Linux软件安装小结
  11. 【数据库系统设计】数据库安全性
  12. nginx下根据指定路由重定向
  13. 为什么屠呦呦获得了诺贝尔奖却没被评上中科院院士?...
  14. python程序员到哪里_Python程序员都知道的入门知识の五
  15. 图:婚庆现场管理系统-双屏版V3软件完美收工!!!
  16. gom引擎物品和武器的外观Shape值拓展算法
  17. 【码农学编曲】吉他伴奏
  18. 青少年编程究竟应该从什么语言学起?
  19. Android使用七牛实现录像加时间水印和拍照(截帧回调)
  20. 一个合格的java工程师应该必备的能力

热门文章

  1. vant Weapp版本没有自带表单校验
  2. 带你熟练使用Vistual Studio开发工具
  3. 【华为机试题解】奥特曼打怪兽
  4. 虚拟机web服务器的搭建主机访问虚拟机服务器网站、数据库(待完善)
  5. 蓝桥杯真题 跳跃 C++、Java实现 动态规划小蓝在一个 n 行 m 列的方格图中玩一个游戏。 开始时,小蓝站在方格图的左上角,即第 1 行第 1 列。
  6. MySQL 8.0版本驱动更换
  7. 提取身份证号,解析身份证号出生年月、出生地、性别 的Python 实现与在线使用工具
  8. MySQL:带你理解数据类型
  9. upstream指令参数详解
  10. 【python】python获取时间戳