[2020-ECCV] PIPAL: a Large-Scale Image Quality Assessment Dataset for Perceptual Image Restoration 论文简析

论文：https://arxiv.org/abs/2007.12142
代码及数据集：https://github.com/HaomingCai/PIPAL-dataset

概述

本文认为随着图像重建（IR）算法的快速发展（特别是一些基于GAN的模型的出现），使得现有的图像质量评价（IQA）的方法已经不能很好地评估这些图像重建方法。因此，IQA方法应当随着IR算法一起演进更新。基于此，本文提出了一个新的大型图像感知评估数据集PIPAL，并且该数据集使用了Elo评分系统来对两两图像进行比较，更新评分，这使得该数据集的评分标签可以不断地更新，以适应将来可能会出现的新型IR算法。并且，本文基于PIPAL数据集为IQA和IR提出了一种新的指标。结果显示本文的数据集和指标能更好地评价最近基于GAN的IR算法。

其借用的Elo等级分系统的一个好处是：每次接收评分者给出的标签时，并不需要评分者直接给出MOS分的绝对数值，而是请评分者在两张图像中选出较好的一张即可。这无疑降低了受访评分者评分的难度，并大大提高了了收集评分的可信度。毕竟，按照人类的主观感知对一张图像直接给出数值分数还是一件相当tricky的事情。受到个人状态、心情等方面的影响，同一个人在不同的时间对同一张图像的打分可能是不同的，但是两张图像中哪一张更好一点的判断基本是不会变的。

摘要

图像质量评价（IQA）是图像重建（IR）算法发展的关键因素。最近的基于GAN的图像重建方法取得了较大的性能提升，但是量化评估仍然是较大的挑战。尤其是，我们观察到感知质量和评估结果之间越来越不一致。由此，我们提出两个问题：一是现有的IQA方法能否客观地评估最近的IR算法？二是当致力于打败最新的benchmark，我们是否真的得到了更好地IR算法？为了回答这些问题，和促进IQA模型的发展，我们提出了一个大规模的IQA数据集，叫做Peceptual Image Processing Algorithms(PIPAL) 数据集。特别之处在于，本数据集是基于GAN的方法的结果，这在之前的数据集中是没有的。我们收集了超过113万条人类判断来使用更可靠的“Elo系统”为PIPAL图像分配主观分数。基于PIPAL，我们为IQA和SR模型提出了一种新的指标。我们的结果显示现有的IQA方法并不能很好地评估基于GAN的IR算法。使用合适的评估方法是很重要的，IQA方法应当随着IR算法的发展一起更新。最后，我们通过引入 anti-aliasing pooling 来提高基于GAN畸变的IQA网络的性能。实验证明了该方法的有效性。

PIPAL数据集

本文从以下三个方面来介绍PIPAL数据集：

参考图像的收集
降质方法的质量和种类
主观分数的收集

参考图像的收集

从高质量图像数据集DIV2K和Flickr2K，更关注与较难重建的部分，比如高频纹理信息。我们将这些表示纹理的部分块从所选图像中切下来。所选的图像包含了各种不同的真实世界的纹理信息，包括但不限于：建筑物、动植物、人脸、文字和合成的纹理等。切下来的图像的尺寸为288。

图像降质

本数据集中有40中降质方法，分为四个子类。总览如下表：

第一个子类包含了许多传统的降质方法。比如模糊、噪声、压缩等，即一些低层的图像编辑操作。
第二个子类是一些现有算法的超分结果。这些超分算法又分为三类。传统算法、PSNR导向的算法和基于GAN的算法。传统算法在某种程度上可以理解为细节上的损失；PSNR导向的算法通常是基于深度模型的，它们比传统算法有更锐利的边缘和更好的PSNR表现；基于GAN的算法通常与细节损失的质量不太匹配，因为它们通常包含类纹理噪声，或噪声的质量，类纹理噪声在外观上与GT相似但不准确。基于 GAN 的失真示例如下图所示。测量不正确但相似特征的相似性对于感知超分的发展非常重要。

第三个子类包括几种去噪算法的输出。与图像 SR 类似，所使用的去噪算法包含基于模型的算法和基于深度学习的算法。除了高斯噪声，我们还包括 JPEG 压缩噪声去除结果。
最后，我们包括混合退化的恢复结果。如之前的工作所述，依次执行去噪和 SR 将带来新的伪影或不同的模糊效果。

总之，我们有40中降质类型和116中不同的降质等级，总共29K张降质图像。

Elo等级分系统

前人的MOS得分方法

给定失真图像，为每个失真图像提供平均意见得分 (MOS)。

早期的数据集使用“五级评级”方法，其中图像直接分为五个类别。当评分者没有足够的经验时，使用这种方法会导致巨大的偏差。
后来，数据集通常使用瑞士评级系统通过大量成对选择来收集 MOS。然而，这种成对 MOS 的计算方式使其依赖于特定的数据集，这意味着当两个失真图像包含在两个不同的数据集中时，它们的 MOS 分数可能会发生显着变化。
为了消除这种集合依赖效应，又有人提出仅基于成对偏好的概率来构建数据集。这种方法可以提供更准确的倾向概率。但是，它不仅需要大量的人工判断，而且无法提供失真类型的 MOS。

ELo等级分系统

在本文提出的数据集中，我们采用 Elo 评分系统将成对偏好概率和评分系统结合在一起。 Elo 系统的使用不仅提供了可靠的人工评级，而且还减少了所需人工判断的次数。

Elo 评分系统是一种基于统计的评分方法，最初被提出用于评估国际象棋选手的水平。我们假设两个图像 IAI_AIA 和 IBI_BIB 之间的用户偏好遵循由他们的 Elo 分数参数化的逻辑分布logistic distribution。给定他们的 Elo 分数 RAR_ARA 和 RBR_BRB，期望的偏好概率如下：
PA>B=11+10(RB−RA)/M,PB>A=11+10(RA−RB)/MP_{A>B}=\frac{1}{1+10^{(R_B-R_A)/M}},\ \ \ P_{B>A}=\frac{1}{1+10^{(R_A-R_B)/M}} PA>B=1+10(RB−RA)/M1, PB>A=1+10(RA−RB)/M1
其中 PA>BP_{A>B}PA>B 表示一个评分者会相比与 IBI_BIB 更喜欢 IAI_AIA 的概率。MMM 是分布的一个参数，在我们的数据集中 M=400M=400M=400 。一旦评分者作出了选择，我们会根据以下规则为 IAI_AIA 和 IBI_BIB 更新Elo分数：
RA′=RA+K×(SA−PA>B),RB′=RB+K×(SB−PB>A)R'_A=R_A+K\times (S_A-P_{A>B}), \ \ \ R'_B=R_B+K\times (S_B-P_{B>A}) RA′=RA+K×(SA−PA>B), RB′=RB+K×(SB−PB>A)
其中 KKK 是一次判断的变化步长，设置为16。SAS_ASA 表示是否选择 IAI_AIA：如果IA获胜，SA=1S_A=1SA=1，如果 IAI_AIA 失败，SA=0S_A=0SA=0。通过数千次人工判断，每个扭曲图像的 Elo 分数都会收敛。最后几个步骤的 Elo 分数的平均值将被指定为 MOS 主观分数。平均操作旨在减少 Elo 变化的随机性。

例子

举个例子。假设 RA=1500R_A = 1500RA=1500，和 Rb=1600R_b = 1600Rb=1600，那么我们有 PA>B≈0.36P_{A>B} ≈ 0.36PA>B≈0.36 和 PB>A≈0.64P{B>A} ≈ 0.64PB>A≈0.64。在这种情况下，如果选择 IAI_AIA，则 IAI_AIA 的更新 Elo 分数将为 RA=1500+16×(1−0.36)≈1510R_A = 1500 + 16× (1 −0.36) ≈ 1510RA=1500+16×(1−0.36)≈1510，IBI_BIB 的新分数为 RB=1600+16×(0−0.64)≈1594R_B = 1600 + 16 × (0 − 0.64)≈1594RB=1600+16×(0−0.64)≈1594；如果选择 IBI_BIB，新的分数将是RA≈1494R_A≈1494RA≈1494 和 RB≈1605R_B≈1605RB≈1605。注意，由于选择不同图像的预期概率不同，Elo分数的值变化也会不同。这也表明，当质量相差太大时，获胜者不会从糟糕的图像中获得很多收益。根据上式，200 的分差表示 76% 的获胜机会，400 表示超过 90% 的机会。最开始，我们为每个扭曲的图像分配一个 1400 的 Elo 分数。经过多次人工判断（在我们的数据集中，我们有 113 万次人工判断），最终得到了每张图像的 Elo 分数。

采用 Elo 系统的另一个优势是我们的数据集可以是动态的，并且可以在未来扩展。 Elo 系统在电子游戏中被广泛用于评估玩家的相对水平，在电子游戏中，玩家不断变化，Elo 系统可以在少数游戏玩法中为新玩家提供评分。回想一下，“这些 IQA 方法面临挑战”的主要原因之一是 GAN 和基于 GAN 的 IR 方法的出现。如果将来提出其他新型的图像生成技术会怎样？人们是否需要构建一个新的数据集来包含这些新算法？凭借 Elo 系统的可扩展特性，人们可以轻松地将新的失真类型添加到该数据集中并遵循相同的评级过程。 Elo 系统会自动调整所有失真的 Elo 分数，而不需要再对旧的重新评分。

结果

本文基于提出的 PIPAL 数据集进行了全面的研究。首先为IQA方法建立一个基准。通过这个基准，回答了“现有的 IQA 方法能否客观地评估最近的 IR 算法？”的问题。然后，本文为一些最近的 SR 算法建立了一个基准，以探索 IQA 方法的发展与 IR 研究之间的关系。我们可以得到这样的答案：“我们是否通过在这些 IQA 方法上击败基准来获得更好的 IR 算法？” 最后，我们通过与其他现有的失真类型进行比较来研究基于 GAN 的失真的特征。最后还通过引入anti-aliasing pooling来提高 IQA 网络在基于 GAN 的失真上的性能。

实验部分有兴趣的话，请自行查阅原文吧。