视频主观质量评价方法总结

很多在音视频行业从业多年的朋友都对主观质量评价不太了解，或者还停留在很浅显的理解层面上，甚至不知道有专门的标准和学科。因此在这里做一个简单的介绍。本文的内容基本参考自两大标准：ITU-R BT.500-13：电视图像质量的主观评价方法，以及ITU-R BT.1788建议书：对多媒体应用中视频质量的主观评估方法。

总体而言，主观评价分为两大类。

第一类评价是确定在最佳条件下系统表现的质量。这类评价通常称为质量评价。
第二类评价是确定在与传输或信号发射有关的非最佳条件下系统维持一定质量的能力。这类评价通常称为损伤评价。

测试前

主观评价的通用观看条件有两种：

实验室观看环境：旨在提供对系统进行检验的严格条件。标准定义的实验室环境中主观评价的通用观看条件如下
- 未激活屏幕亮度与峰值亮度之比：≤ 0.02
- 在全暗的房间内显示时，仅显示黑电平的屏幕亮度与相应仅显示峰白电平的屏幕亮度之比：≈ 0.01
- 显示器亮度和对比度：通过PLUGE建立（见ITU-R BT.814建议书和ITU-R BT.815建议书）
- 相对于标称值的最大观察角度：30°
- 图像监视器后的背景亮度与图像峰值亮度之比：≈ 0.15
- 背景色度：D65
- 房间的其他照明：低
- 当测试中评估的系统使用下变换的图形格式时，例如CIF、SIF 或QCIF 等，应在显示屏的一个窗口上显示片段。屏幕上背景的颜色应为50%的灰色。
家庭观看环境：旨在为消费者一侧提供质量评价的手段。标准定义的家庭环境中主观评价的通用观看条件如下
- 未激活屏幕亮度与峰值亮度之比：≤ 0.02 （避免在高照度环境下使用）
- 显示器亮度和对比度：通过PLUGE建立
- 相对于标称值的最大观察角度：30°
- 4/3图像宽高比的屏幕尺寸：该屏幕尺寸应满足优选观看距离(PVD)规则
- 16/9图像宽高比的屏幕尺寸：该屏幕尺寸应满足PVD规则
- 监视器处理：未经数字处理
- 监视器分辨率：专业级CRT通常满足所需的分辨率标准，也可以对最大和最小分辨率（屏幕中心和四角）进行检验和报告
- 峰值亮度：200 cd/m2
- 屏幕上的环境照度(由周围环境在屏幕上形成的入射光，应在屏幕的垂直方向测量：200 lux
- 当测试中评估的系统使用下变换的图形格式时，例如CIF、SIF 或QCIF 等，应在显示屏的一个窗口上显示片段。屏幕上背景的颜色应为50%的灰色。

所谓PVD，是指优选观看距离，一般表示为屏幕高度的倍数，因此是一个随屏幕尺寸而变化的值。标准建议取值如下图

对于参与评价的观察者的选择，一般来说在正式的评价操作中应使用至少15名观察者，并在评价开始前校正与筛选观察者的视敏度和彩色视觉，最后，在统计评价结果时，建议提供的有关于观察者的数据包括：职业类别（例如广电雇员，大学生，专家非专家），性别和年龄范围等。

测试阶段

一个测试阶段应持续半小时以内。测试阶段分为三部分，如下图所示

训练序列：向评价者仔细介绍评价方法、容易产生的损伤类型或质量因素、分级量表、顺序及定时。说明要评价的损伤的范围和类型，所用训练图像不同于测试中要用的图像，但具有可相比较的感受性。
稳定序列：在正式测试的第一阶段前，应播放5个左右“模拟演示”，以稳定观察者的评分。这几个演示中给出的数据不能在测试结果中考虑。如果需要若干测试阶段，则在后续阶段开始时仅需要3个左右的模拟演示。
主要部分：演示的播放应采用随机顺序；但测试条件的顺序应加以安排，使得疲倦或适应对分级的影响在不同测试阶段之间得以平衡掉。为检查相干性，有些演示可在不同的测试阶段予以重复。

测试结果的表示

对每一测试参数，必须给出评价等级的统计分布的均值和95%的置信区间。如果认为损伤随参数值的变化而变化，则应使用曲线拟合技术。
结果必须与下列信息一起给出：
- 测试配置的详情；
- 测试素材的详情；
- 图像源和显示监视器的类型（尤其是屏幕尺寸）
- 评价者的数目和类型（以及各种背景信息）
- 所用的基准系统；
- 实验的总平均分；
- 原始评分和调整（剔除程序）后的平均分以及95%的置信区间

测试方法的选择

针对不同的质量评价目标，标准有不同的建议测试方法，如下图列举所示

在这里我们选取两种重点推荐的测试方法进行介绍。

一、双激励损伤量表法（The double-stimulus impairment scale method，DSIS）
常见应用场景：评价一个新系统的损伤；评价传输路径对损伤的影响。
质量评价分范围再1-5，分别表示质量从差到好。
测试素材的演示结构有如下图所示的两种

需要注意的是：变型二在需要鉴别的损伤非常小或待测的是活动序列时可以使用；只允许在T4期间内评分；任何情况下，同一测试图像或序列，不管损伤程度是否相同，绝不应连续演示两次。

二、双激励连续质量量表法（The double-stimulus continuous quality-scale method，DSCQS）
常见应用场景：评价一个新系统的损伤；评价传输路径对损伤的影响。
在这种方法中，每对测试图像中有一个是无损的，而另一个可能包含损伤，也可能不包含损伤。无损的图像就作为基准，但不告诉观察者哪个是基准图像。在测试系列中，基准图像的位置是以伪随机方式变化的，并且打分也是以质量相对分来计算的，一般会提供一个如下的打分表给被测，然后将被测的打分转换为归一化的0-100范围内的评分。

测试素材的演示结构有如下图所示：

它也有两种变型：

对于只有一位观察者的变型I，每次演示时观察者都可以在信号A和信号B之间自由转换，直到观察者得出与每一信号的质量相关的心理尺度为止。
对于同时有几位观察者的变型II，在记录结果之前，条件对要显示一次或多次，每次持续时间相同，以便让观察者得出与这一对条件的质量相关的心理尺度，然后再把条件对显示一次或多次，同时记录结果。重复的次数取决于测试序列的长度。对于静止图像，使用3-4 s的序列并重复5次（在最后2次期间评分）可能是合适的。对于受到时变扰动的活动图像，10 s的序列和2次重复（在第2次重复期间评分）可能是合适的。

需要注意的是：

经验显示，从不同测试序列中获得的评分取决于所用测试素材的临界性。对不同的测试序列分别显示结果，可更全面地了解编解码器的性能，而将结果表示为评价中所用的所有测试序列的一个综合平均分则无法做到这一点。
如前所述，用DSCQS法得出的结果不应看做绝对评分，而应看做基准条件与测试条件之间的评分差值。因此，将评分与某个说明质量的术语联系起来是不对的，即便是与DSCQS协议本身所用的术语（例如优，良，中，……）联系起来也是不对的。
在某一图像的主观评分受到损伤的出现顺序和严重程度的影响时，就产生了背景效应。例如，如果在一连串轻微受损的图像之后显示一个严重受损的图像，观察者对这一图像的评分可能无意中会比通常情况下的评分低。实验室研究的结果表明DSCQS法不存在背景效应。对于DSIS法和比较方法，背景效应明显，而DSIS法的变型II则存在最强的背景效应。

数据处理

视频质量评价的数据处理主要包含以下工作：

计算平均评分
计算置信区间，标准差（注意，在测试序列/测试图像数目较少的情况下，相对于参与评价的评价者之间的评价差别而言，所用测试序列之间的差别对标准差的影响更大。）
数据筛选
曲线拟合（logistic function ）
残余损伤/增强和量表边界效应的校正
表现为观察者倾向于不用判断尺度中的极端值，对于较高的质量评分尤其如此。这可能是由若干因素造成的，包括心理上对做出极端判断的迟疑。

关注公众号，掌握更多多媒体领域知识与资讯

文章帮到你了？可以扫描如下二维码进行打赏，打赏多少您随意~