近日,阿里巴巴大淘宝技术题为《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》—— 适用于无参考视频质量评价的最新研究成果被计算机视觉领域顶级会议IEEE/CVF Computer Vision and Pattern Recognition Conference 2023(CVPR 2023)成功收录。

CVPR是由IEEE/CVF主办的计算机视觉领域的顶级学术会议,也是中国计算机协会CCF推荐的A类学术会议。该会议每年在世界范围内召开一次,其收录的论文涵盖了图像和视频领域的创新技术和重大成果,是相关领域学术研究与行业发展的风向标。CVPR 2023共收到创纪录的9,155篇投稿(相比2022提升12%),其中有2,360篇论文被接收,接收率为25.78%。此篇被收录论文属于视频质量评价领域,由大淘宝技术和上海交通大学合作完成(共同一作)。

在淘宝,每天有亿级的User-Generated Content (UGC) 等非传统广电视频(包括但不限于短视频、直播等)被生产或播放,其存在明确的无参考视频质量评价的需求,用以对视频质量进行实时监控,确保用户体验。因此,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 —— MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,来衡量视频绝对质量的高低。MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝视频相关业务,“量化”画质,有效地反应技术迭代带来的体验提升,为大淘宝视频体验提供画质保障。

背景

随着互联网视频化的深入,越来越多的UGC等非传统广电视频(包括但不限于短视频、直播等)在互联网平台上被生产或播放。手淘内容化与互联网内容化的趋势契合,而平台亦希望能够在成本可控的前提下保障尽可能好的视频画质,视频质量评价指标在其中发挥关键作用。相比传统广电视频更多地使用有参考视频质量评价指标,也即要求使用近似无损的源视频作为参考,UGC视频源质量不可控,无法作为理想的无损源,因此无参考视频质量评价方法在短视频和直播视频的评价方面更具备实用价值。

大淘宝音视频技术团队基于淘宝直播、逛逛等内容业务,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个视频,覆盖不同的内容、失真、和质量,并通过专业的主观标注,获取165,528个视频的主观质量标签。在此之上,大淘宝音视频技术团队自研了一种针对UGC视频的无参考视频质量评价模型 ——MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,并进行时空域的融合,来衡量视频绝对质量的高低。在公开的视频质量评价数据集LIVE-WC和YT-UGC+,以及TaoLive上,MD-VQA在主流视频质量评价指标SRCC和PLCC上均超过了SOTA(State-Of-The-Art)方法,达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。

方法

针对上述问题,我们基于淘宝直播平台的视频,构建了大规模UGC视频质量评价数据集 —— TaoLive,包含3,762个直播视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。与此同时,我们自研了针对UGC视频的无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。

  TaoLive数据集

我们从淘宝直播平台筛选了418条视频,覆盖美妆、服饰、珠宝、食品、生活日常等不同内容、以及720p和1080p两个主流分辨率。然后,我们对这些视频进行8种不同失真等级的编码,来模拟实际应用中不同的视频质量,最后共生成3,762条不同内容、不同质量的视频,用来验证我们提出的MD-VQA的模型性能。部分示例视频如图1。

图1. TaoLive数据集示例

在此基础上,我们组织了由44名专家和普通消费者组成(20名男性,24名女性)的主观测评团队,对上述3,762条视频进行主观打分,共生成165,528条主观质量分数的标注数据。然后,我们根据ITU-R BT.500-13 [2] 标准,将标注数据转换为mean opinion score(MOS)分数,作为视频质量的ground-truth(GT)数据。

我们也和业界主流的视频质量评价数据集进行了比较,如表1所示。从表中可以看出,早期(2014-2016)的数据集的规模相对有限,而后续演进的大型数据集,例如KoNViD-1k、YouTube-UGC、LSVQ等则更侧重于In-the-wild的视频内容。在互联网内容平台上流行的“UGC视频结合压缩/传输失真(UGC + Compression)”类型数据集,我们构建的TaoLive数据集在数据规模上具有一定的竞争力,同时更适合于电商场景。

表1. 主流视频质量评价数据集比较

  模型设计

图2示出了所提出的 MD-VQA 模型的框架,包括特征提取模块、特征融合模块、和特征回归模块。具体来说,所提取的视频特征包括多个维度:语义、失真、和运动。特别地,我们利用相邻帧特征之间的绝对误差来反映视频质量在时域上波动。上述得到的多维特征在时空域上被融合,并通过特征回归模块映射到最终的质量分数。

图2. MD-VQA模型的网络架构示例

  • 语义特征提取

视频语义特征通常描述视频中物体的物理特性、物体之间的时空关系、以及物体的内容信息等,属于视频的高维特征,且和视频的低维特征(如亮度、色彩、纹理等)存在很强的关联性。此外,对于不同的视频内容,语义特征的失真对人眼感知到的视频质量有着不同的影响:人眼通畅无法容忍纹理丰富的内容(例如草坪、地毯)的模糊,二队纹理简单的内容(例如天空、墙面)的模糊相对不敏感。综上考虑,我们利用从预训练的EfficientNetV2 [3] 网络最后4层中提取的多维度特征作为帧级的语义特征,如图3公式所示:

图3. 语义特征

其中,表示从第个视频片段的第帧获取的语义特征,表示级联算子,表示全局平均池化算子,表示EfficientNetV2第层的特征图,表示从获取的平均池化特征。

  • 失真特征提取

由于UGC视频中普遍存在多种失真,仅使用语义特征来表征视频质量是不充分的。此外,对于不同的压缩质量,失真会呈现不同的状态,例如在压缩质量相对较低时,模糊会比较明显,但噪声也同时被抑制。因此,在考虑高维的语义特征的同时,我们引入了低维的手工(hand-crafted)特征,包括模糊、噪声、块效应、曝光强度、以及色彩,然后将上述特征综合为帧级的失真特征,如图4公式所示:

图4. 失真特征

其中,表示从第个视频片段的第帧获取的失真特征,表示失真特征提取算子。

  • 运动特征提取

运动失真通常源自于拍摄时的抖动、或者低码率的视频编码,并且,其无法被视频空域特征(例如前述的语义特征)有效地描述。因此,为了提高模型的准确度,我们利用预训练的ResNet3D-18 [4] 获取帧级的运动特征,如图5公式所示:

图5. 运动特征

其中,表示从第个视频片段获取的运动特征,表示运动特征提取算子。

  • 特征融合

根据 [5] 中所述,高质量视频通常具有更小的帧间质量波动,反之亦然。为了量化上述波动,我们使用帧间语义特征和失真特征的绝对误差来衡量帧间质量波动,如图6公式所示:

图6. 相邻帧的语义特征的绝对误差和失真特征的绝对误差

其中,分别表示相邻帧的语义特征的绝对误差,以及失真特征的绝对误差。

基于此,时空域特征可以利用图7中的公式进行融合:

图7. 时空域特征融合

其中,表示帧级的时空域特征,表示级联算子,表示可学习多层感知机,表示的转置,表示可学习的线性映射算子,将映射到最终的时空域融合特征

最后,上述时空域融合特征与运动特征进一步融合,形成最终的时空域融合特征,如图8公式所示:

图8. 最终的时空域融合特征

  • 特征回归

基于上述时空域融合特征,我们利用三层全连接层来回归视频质量,如图9公式所示:

图9. 全连接层回归视频质量

其中,表示全连接层,表示视频片段的质量。

此外,我们使用均方误差MSE(Mean Squared Error)作为损失函数,如图10公式所示:

图10. 全连接层回归视频质量

其中,表示mini-batch的视频数量,分别表示预测的视频质量和实际的视频质量。完整视频的质量可通过对视频片段进行平均池化操作获得。

实验

我们在两个公开的视频质量评价数据集LIVE-WC和YouTube-UGC,以及我们自建的TaoLive数据集上,与现有SOTA方法进行了对比。我们使用Spearman Rank Order Correlation Coefficient(SRCC)和Pearson Linear Correlation Coefficient(PLCC)作为指标进行对比。更高的SRCC表示样本间更好的保序性,更高的PLCC表示与标注分数更好地拟合程度。结果如表2所示。

表2. MD-VQA与其他视频质量评价SOTA模型在LIVE-WC、YT-UGC+、和TaoLive数据集的性能比较

从表中可以看出,我们在所测试数据集上的SRCC和PLCC均超过了现有SOTA方法,达到了先进性能。

此外,为了探索不同的特征对模型性能的贡献,我们进行了消融实验(ablation study),如表3和表4所示。

表3. 语义特征SF、失真特征DF、和运动特征MF对于模型性能的贡献比较

从表3中可以看出,语义特征对于模型的领先性贡献最多,而另外两种特征在不同的视频内容(不同数据集)上有不同的表现,符合预期。

表4. 绝对误差(ABS)和特征融合模块(FFM)对于模型性能的贡献比较

从表4中可以看出,绝对误差(ABS)和特征融合模块(FFM)对于模型性能的领先性均有贡献。

总结

为了准确、高效地衡量UGC视频的绝对质量,我们构建了大规模UGC视频质量评价数据集 —— TaoLive。不同于常见的视频质量评价数据集使用高质量视频作为源视频,TaoLive 数据集收集了3,762个UGC源视频,覆盖不同的内容和质量,并通过专业的主观打分,获取165,528个主观质量分数的标注数据。此外,我们提出一个无参考视频质量评价模型 —— MD-VQA,综合视频的语义、失真、和运动等多维特征,并进行时空域的融合,来衡量视频绝对质量的高低。实验结果表明,MD-VQA在主流视频质量评价数据集和评价指标上,均超过了现有方法,达到了先进性能。

MD-VQA已经全面应用于包括淘宝直播、逛逛在内的大淘宝内容业务,监控视频业务的大盘画质的变化,快速、精准地筛选出不同画质水位的直播间和短视频,配合淘宝自研S265编码器、视频增强算子集STaoVideo以及《电商直播高画质开播指南》[1] 等,帮助提升平台内容画质。

参考文献

【1】 “服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及”,https://mp.weixin.qq.com/s/2-pC1Z9wH60DHpUkCU-_ng.

【2】 RECOMMENDATION ITU-R BT. Methodology for the subjective assessment of the quality of television pictures. International Telecommunication Union, 2002.

【3】 Mingxing Tan and Quoc Le. Efficientnetv2: Smaller models and faster training. In International Conference on Machine Learning, pages 10096–10106. PMLR, 2021.

【4】 Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatio-temporal 3d cnns retrace the history of 2d cnns and imagenet? In IEEE/CVF CVPR, pages 6546–6555, 2018.

【5】Manish Narwaria, Weisi Lin, and Anmin Liu. Low-complexity video quality assessment using temporal quality variations. IEEE TMM, 14(3):525–535, 2012.

团队介绍

该工作主要在大淘宝技术的音视频技术团队的带领下完成,该团队依托淘宝直播、逛逛、手淘首页信息流等内容业务,致力于打造行业领先的音视频技术。团队成员来自海内外知名高校,先后在MSU世界编码器大赛,NTIRE视频增强超分竞赛这样的领域强相关权威赛事上夺魁,并重视与学界的合作与交流。

这项工作的合作方为上海交通大学张文军教授领衔的图像所团队,是数字电视广播及数字媒体处理与传输领域的主要研究力量之一。面向国家战略性新兴产业,顺应网络化、融合化的发展趋势,近年来开展的重点研究领域包括智能媒体融合网络、视频智能分析处理与传输等。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

CVPR 2023|淘宝视频质量评价算法被顶会收录相关推荐

  1. CVPR 2023|淘宝视频质量评价算法MD-VQA

    关注公众号,发现CV技术之美 本文介绍CVPR 2023论文<MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos&g ...

  2. 图像主观质量评价 评分_视频质量评价算法 之 客观评价的性能指标

    前言乱语 说完数据集,先给大家结个尾吧(误) 视频质量评估(VQA)第二期 来介绍几个 评价视频质量评价算法的性能评估指标 我发4,没有在套娃...... 简易小目录 SROCC(Spearman r ...

  3. 一种H.264高清视频的无参考视频质量评价算法(基于QP和跳过宏块数)

    本文记录一种无参考视频质量评价算法.这是我们自己实验室前两年一个师姐做的,算法还是比较准确的,在此记录一下. 注意本算法前提是高清视频.而且是H.264编码方式. 该方法主要使用两个码流里面的参数进行 ...

  4. H.264视频质量评价算法(基于偏最小二乘法回归)

    Zhiyuan Shi等人(这是中国人写的,但是我没看见中文论文,厦门大学的)在论文<Research on Quality Assessment Metric Based on H.264/A ...

  5. 视频质量评价:挑战与机遇

    正文字数:5168  阅读时长:10分钟 本文整理自鹏城实验室助理研究员王海强在LiveVideoStack线上分享上的演讲.他通过自身的实践经验,详细讲解了视频质量评价的挑战与机遇.   文 / 王 ...

  6. 【线上分享】视频质量评价:挑战与机遇

    随着在线视频分享平台和社交媒体的兴起,用户原创视频为视频行业带来新的机遇与挑战.传统视频质量评价主要衡量高清视频经压缩/网络损伤后的视觉体验,高清源视频可以用于离线优化系统中.然而,用户原创视频并不具 ...

  7. H.264 无参考视频质量评价方法 (使用了基于遗传编程方法的符号回归)

    Nicolas Staelens 等人在<Constructing a No-Reference H.264/AVC Bitstream-based Video Quality Metric u ...

  8. 基于运动特征的视频质量评价方法(基于H.264)

    Michal Ries等人在论文<Motion Based Reference-Free Quality Estimation for H.264/AVC Video Streaming> ...

  9. 开源视频质量评价工具: Evalvid

    Evalvid是一个对在真实或模拟的网络里传输的视频进行质量评价的框架和工具集.除了底层网络的QoS参数的测量,如丢包率,延迟,抖动,Evalvid还提供标准的视频质量评价算法如PSNR和SSIM.它 ...

最新文章

  1. Java 数组长度和访问
  2. EHPC通过断点续算和自动伸缩在抢占式实例上实现低成本HPC计算
  3. 9篇小白都能懂系列博客学完MySQL基础
  4. Butterknife 的简单使用 和 配合 Butterknife的插件 Zelezny
  5. TS基础2(泛型、枚举、元组)-学习笔记
  6. Asp.NET Core一个接口的多个实现如何基于当前HTTP请求注册
  7. oracle出错如何备份数据,Oracle数据库备份失败, 出错代码:0xe0001402
  8. 说说在 Python 中如何快速复制序列
  9. TCP系列05—连接管理—4、TCP连接的ISN、连接建立超时及TCP的长短连接
  10. I2C与SPI通信总线协议
  11. 华为辟谣将发布石墨烯电池手机;梁建章回应携程杀熟;GitLab 12.6 发布 | 极客头条...
  12. java web 教程_Java Web服务教程
  13. Uva220 Othello
  14. Linux运维 第三阶段 (九)NFS
  15. python加载动态库出错_浅析python 动态库m.so.1.0错误问题
  16. 转: 从0到1的电商架构应该怎么做?
  17. RxJS修炼之 用弹珠测试学习RxJS
  18. 利用C++的stringstream对各种数据类型转换
  19. 如果服务器被攻击是不是里面所有ip都会暴露?
  20. react 实现图片正在加载中 加载完成 加载失败三个阶段的

热门文章

  1. ps海报暂定,初遇node.js
  2. java三目运算符求三个数的最大值
  3. Locality-Driven Dynamic GPU Cache Bypassing
  4. 域名批量查询功能常用查询方法教程
  5. OPPO A73s在哪里开启usb调试模式的简单方法
  6. 解决Python+selenium 自动化测试打开浏览器自动关闭问题适用于(Chrome和Edge)
  7. 蔻驰和mk哪个更大牌_mk和coach哪个档次高 michael kors是不是比蔻驰贵?
  8. 在Windows, Mac, Linux三种系统中分别获取wifi密码的方式
  9. 计算机安全模式在哪找到,开机按F8没有安全模式菜单怎么办
  10. 北师大版用计算机开方教案,新北师大版数学八年级上《2.5用计算器开方》精品教案...