封面选择-NIMA阅读笔记

  • 摘要
  • 简介
    • A、相关工作
    • B、我们的贡献
    • C、AVA数据集
    • D、TID2013数据集
    • E、 LIVE数据集
  • 2、本文方法
    • A、损失函数
  • 3、实验结果
    • A、表现比较
    • B、交叉数据验证
    • C、照片排序
    • D、图像增强
    • E、计算损失
  • 4、总结

摘要

图像质量自动评估由于在成像、图像存储和共享等方面有广泛的应用,已成为一个较热的话题。图像质量评价具有主观性,目前大多数方法都是基于AVA [1] 和TID2013 [2]预测MOS(平均意见得分)。与这些方法不同的是,我们的方法是使用一个CNN网络来预测人类意见得分,简单而又有效。我们使用目前效果最好的深度目标检测网络,并进行重训练。最终的网络不但能够给出与人类感知高度相关的可靠的给图像质量评分,同时也能用于图像编辑/增强算法的优化,这些任务的完成都不需要参考图像。

简介

图像质量和美学的量化一直是计算机视觉和图像处理长期存在的问题。但质量评估涉及噪声、模糊、压缩等低水平的退化,美学评估涉及情感、美感等语义级别特征。通常图像质量评估可分为有参考(FR)和无参考(NR)两种方法。前者能获取参考图像(评价指标有PSNR,SSIM[3]等),后者依赖图像失真等统计模型进行预测,这两个方法目标都是预测与人类感知相关的质量得分。然后,图像质量评估的主观性仍然是最基本的问题。近年来许多复杂的深度神经网络模型被用来解决这个问题[4]–[11]。人类标注数据的出现促进了神经网络方法的发展[1], [2], [12]–[14]。一个典型的深度神经网络,先在相关的数据集(Imagenet)上训练初始化权重,再在标注好的图像质量数据集上进行微调。

A、相关工作

机器学习在预测图像质量上显示了明显的成功[4]–[7]。[5]使用CNN提取高维特征在盲图像质量评估上获得了最优的表现。使用端到端的特征学习系统代替手工设计的特征是使用CNN进行像素级质量评估任务的主要优势[5], [6]。[5]使用只有一个卷积层和两个全连接层的浅层网络,输入块的尺寸是32X32。[6]使用有12层的深度卷积网络来提升[5]的图像质量评估的表现。给定的小尺寸的图像块,这两种方法都需要对整张图像进行分数回归。[7]提出了一个基于AlexNet [15]的深度质量评估网络,从227X227的图像块提取多个CNN特征,然后回归得分。
美学质量评估的研究收益于CNN在目标识别领域的成功。这是有道理的,因为语义级别的质量与图像内容直接相关。最近基于神经网络的方法[8]–[11][16]与早期基于手工设计特征的方法[1]比效果有明显的提升。[1]是美学评估的基准方法,他引入AVA数据集,提出了使用手工设计的特征来进行风格分类。后来,[8][17]发现深度CNNs非常适合用于美学评估任务。[17]的双列CNN由4层卷积和2 层全连接层组成,输入分别是缩放和crop的224X224的图像。全局和局部图像视角的预测最后通过一个全连接层回归成一个总的分数。与[1]相似的是,[17]也基于人类投票的平均分数将图片分类为高低美学类别。[9]使用回归的损失函数和AlexNet结构预测平均得分。与[9]的方法相似,[11]微调VGG网络[18]来学习AVA数据集的人类投票分布,使用回归的框架目测投票的直方图分布。[19]最近重训了AlexNet和ResNet网络预测照片的质量。[10]使用自适应的空间池化可以允许给网络送入固定的不同比例的多尺度输入图,它使用多网络(每一个都是预训练好的VGG)的方法能在多个尺度进行特征的提取,然后使用一个场景聚合层将子网络结合起来。同样,[20]提出了一种感知布局的网络通过使用显著性图选择对预测美学得分有最大影响对图像块。总的来说,上面的所有方法都没有体现出预测结果和groundtruth的相关性。最近,[14]提出了在AVA数据集上训练基于AlexNet的网络和使用基于排序的损失函数来对照片进行美学等级排序,能够从两张输入图中学习美学分数的差异,从而间接优化排序相关性。据我们所知,[14]是唯一对AVA数据投票进行相关性评估的方法。

B、我们的贡献

本文提出了一个预测图像技术质量和美学质量的方法。相同的模型结构,在不同的数据集上训练,都能在这两个任务上成为当前效果最好的。因为我们的目标是预测结果与人类投票高度相关,网络的输出是人类投票的直方图分布,而非将图像分类为高/低分数或回归平均分数。最终我们使用[21]提出的对有序类别的分类有明显提升的EMD损失函数,实现表明这个方法也能够更精确的预测平均分数。同时如[1]中的美学评估,图像的非常规性与分数标准差相关,我们的方法也能预测标准差。
最近研究表明感知质量预测可以用于学习损失来训练图像增强模型[22], [23]。同样,图像质量预测能够应用于调整增强算法的参数 [24]。本文我们使用图像质量评估来有效的调整图像去噪、色调增强算子产生感知上更好的结果。
本文先介绍三个广泛用于图像质量评估的数据集,然后详细介绍本文方法,最终呈现本文方法的量化结果和与其它方法结果的比较。

C、AVA数据集

D、TID2013数据集

E、 LIVE数据集

2、本文方法

我们提出的图像质量和美学预测的网络结构是基于图像分类架构。我们探索了一些图像分类结构用来进行图像质量评估任务,如VGG16 [18],Inception-v2 [28], MobileNet [29]。VGG16由13个卷积层和3个全连接层组成,使用3X3的小卷积核。Inception-v2是基于Inception模型,允许能够并行使用卷积和池化操作,同时全连接被平均池化取代,能够使参数量大幅减小。MobileNet是主要为移动端应用设计的模型,深度卷积层被可分类卷积取代,模型的速度更快参数更少。
我们将基准CNN的最后一层替换成有10个神经元的全连接层,并连接softmax作为激活函数(如图8)。基准模型的权重通过在ImageNet训练进行初始化,然后在质量评估数据集上进行端到端的训练。本文我们会讨论不同基准模型的表现。

训练中,输入图缩放到256X256大小,然后随机crop 224X224的区域,这能减缓过拟合问题,尤其是在较少的数据上训练时。我们也试过在不缩放的时候进行随机crop进行训练,然而结果不是很好,这是由于图像构图改变了。我们的训练过程同时还包括对crop的图像进行水平翻转的数据增广方法。
我们的目标是预测给定图片的投票分布,groundtruth的投票分布能够表达为一个经验概率质量函数

给定了图片投票的概率分布,平均质量得分和标准差如下,

如之前章节所述,我们可以通过平均得分和标准差定量的比较图片。数据集中的每个样本包含图片及其对应的投票分布,我们目标是使预测的概率质量函数是groundtruth的真实估计。下面我们讨论下损失函数。

A、损失函数

soft-max cross entropy是分类任务广泛使用的损失函数,
然而在有序类别任务中,交叉熵缺乏类间关系。有人可能会认为有序类能够用一个实数表示,因此可以通过一个回归框架学习。然而对于有序类,分类框架的效果会优于回归框架[21], [31]。[21]表明基于EMD的损失函数有益于类之间具有内在顺序的数据集的训练,这些损失函数能够通过类别距离惩罚误分类。
对图像质量投票,类别间具有内在顺序,EMD定义为从一个分布移动单位质量到另一个分布的最小代价,

3、实验结果

我们在AVA、TID2013、LIVE上分布训练美学和质量评估的模型。对每个模型,我们将每个数据集分成训练集和测试集,20%数据用于测试。本章将讨论模型在测试集上的表现及与已存在的方法的比较,然后探索本方法在照片排序、图像增强上的应用。在介绍之前,先介绍下执行的细节。
本文使用tensorflow框架,基准CNN权重通过在ImageNet上训练进行初始化,最后一个全连接层是随机初始化的。权重和偏置的动量设置为0.9,基准CNN的dropout为0.75,基准CNN和全连接的的学习率分别为3Xe-7和3Xe-6,我们发现基准CNN设置一个低学习率,在使用SGD时能够更简单更快速的优化,对所有层每10个epoch学习率指数衰减因子为0.95。

A、表现比较

我们的美学模型在AVA数据集上的精度、相关性、EMD值如下表1所示。表1中的大多数方法都是对美学得分的二分类,因此仅显示了两类别质量分类的精度评估。在二分类中,预测的平均得分和jie截断阈值5进行比较,得分大于阈值的分为高质量。在两类别美学美学分类任务的结果来源于[20],NIMA(Inception-v2)的精度最高。同时就相关性排序而言,NIMA(VGG16)和NIMA(Inception-v2)优于[14] 。NIMA性价比更高:[20]对图像块使用多个VGG16 nets产生单个质量分数,然而NIMA(Inceptionv2)仅仅是Inception-v2的一部分(如表4)。

我们的技术质量模型在TID2013数据集上和其它方法的比较如表2。大多数方法回归MOS,我们的方法预测投票的分布及MOS。groundtruth和NIMA(VGG16)预测结果的相关性与目前表现最好的[35][7]的值接近,然而[7]给网络输入多个图像块,我们仅仅输入了一个缩放的图。

图9显示了NIMA(Inception-v2)在AVA上预测的得分,可以看出NIMA.能够预测出ground truth分布的平均得分,然后标准差分布预测较难。如我们之前讨论的,主题的非规则性或风格对标准差的分数有影响。

B、交叉数据验证

交叉验证测试,是测试模型在其它数据集上的表现,结果如表3和表4所示。我们用NIMA(Inception-v2)模型在AVA, TID2013 , LIVE 上交叉测试。可以发现,基于AVA训练的平均表现最好,比如在AVA训练的模型在LIVE上测试,线性相关系数为0.552,排序相关系数为0.543。然而在LIVE训练的模型在AVA上测试线性和排序系数分别为0.238和0.2。我们认为在AVA上训练的模型能有效的泛化到其它数据集。值得注意的是AVA数据包含了大概250多倍的样本(与LIVE数据集相比),能让模型训练不会有严重的过拟合。

C、照片排序

预测平均分数能用于基于美学来排序照片,一些来源于AVA测试集的图片排序如图10、图11所示。预测的NIMA得分与groundtruth的分数显示在每一张图片下。图10的结果表明,除了图像内容,色调、对比度、构图等其它因素都是重要图像美学的度量。同时,如图11所示,除了图片语义,框架和调色是图片的关键度量。这些美学属性被我们在AVA上训练的模型近似预测出来了。

预测的平均分数可以用于定量的排序照片,如图12,这些图是TID2013部分测试集,包含各种类型和等级的失真。对比groundtruth和预测的分数,表明我们在TID2013上训练的模型能准确的对图像排序。

D、图像增强

质量和美学得分能够被用于感知调整图像增强算子。换句话说,最大化NIMA得分作为先验能够增加增强一幅图像的感知质量的概率。典型的,去噪、对比度增强等算子的参数是在大量的成像条件下通过大量的实验来选择的。感知调试代价大且耗时,尤其是当人类需要意见。本节我们提出的方法用于调试色调增强[43]以及图像去噪算法[44],更多的细节见[23]。
[43]使用多层拉普拉斯算子增强局部和全局对比度,这个方法的参数控制细节量、阴影、图像的亮度。图13显示了不同参数的多层拉普拉斯算子的样例效果。我们观察到AVA训练的模型预测的美学投票能够通过对比度调整进行提升。因此我们的模型能够引导多层拉普拉斯算子找到美学最优的参数设置,部分样例如图14所示,细节量、阴影、图像的亮度的结合用到了每一张图像。对每个样例,6个等级细节增强、11个等级阴影改变、11个等级的亮度改变组成了726种变化。美学评估模型倾向于高对比度和细节丰富,这与图10中AVA数据集的groundtruth是一致的。

[44]使用域变化作为核心滤波器,其表现依赖于平滑参数的范围,合理的调试这些参数能有效的提升去噪的表现。我们发现变化空间平滑参数能产生最重要的感知差异,最终,我们使用在TID2013上训练的质量评估模型来调试去噪参数。应用无参考质量评估作为去噪的先验知识,与[46], [47]的工作很相似。我们的结果如图15所示,标准差为30的加性白噪声添加到干净的图,各种空间参数用于去噪。为了减少分数偏差,50个随机crop的图从噪声图像中提取,得到平均分数如图15曲线图所示。可以发现,尽管每张图都加相同量的噪声,每张图最大的质量得分对应着不同的参数。对相对平滑的图如 (a) (g),最优的去噪参数比(j)更大,因为 (j)具有更高的信噪比。换句话说,质量评估模型倾向于纹理及避免将细节平滑掉。去噪参数的效果可以从图16中可视化看到,Fig. 16 (a)的去噪结果过于平滑, ©(e)(f)表现来不理想的过平滑效果。预测的质量分数使得感知观察有效。

E、计算损失

NIMA计算复杂度的比较如表5所示,我们在Intel Xeon CPU @ 3.5 GHz 、 32 GB内存、12核、NVIDIA Quadro K620 GPU上执行tensorflow,单张大小为224X224X3的图经过NIMA模型的耗时可以从表5中看到。显然,NIMA(MobileNet)比其它模型明显更轻更快,这主要来自效果表现下降的妥协(表1表2)。

4、总结

本文介绍一种基于CNN的图像评估方法,能够同时训练图片美学和像素级质量的图片数据集。我们方法有效预测质量投票的分布,而不仅仅是平均分数,这能够得到与真实分布高度相关的更精确的质量预测。我们训练类两个模型分布用于高级美学和低级别技术质量,并且利用他们对几种图像增强算子的参数进行控制。实验表明这些模型能够引导去噪和色调增强,感官上产生更好的结果。
作为我们未来工作的一部分,我们将会探索训练模型在其它图像增强上的应用。我们当前的实验设置要求增强算子多次评估,这限制本方法的实时的应用。有人可能会认为就具有良好导数的增强算子而言,NIMA作为损失函数是一种更有效的方法。

封面选择-NIMA阅读笔记相关推荐

  1. 7.5 《丰田模式》阅读笔记和感悟

    多年的嵌入式软件工作经历,我遇到过很多苦恼,也有过很多的挣扎.为了突破这些困境,我一开始喜欢研究西方(主要是美国)的东东,但总感觉概念一大堆,让人摸不着头脑,好似高大上,但又无法落到实处. 机缘巧合下 ...

  2. 深度学习超分辨率综述阅读笔记(翻译)

    深度学习超分辨率综述阅读笔记(翻译) https://arxiv.org/abs/1902.06068 摘要:图像超分辨率(SR)是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术.近几年来,图 ...

  3. T5: Text-to-Text Transfer Transformer 阅读笔记

    作者:徐啸 知乎专栏:自然语言处理学习之旅 https://zhuanlan.zhihu.com/p/89719631 写在前面 谷歌用一篇诚意满满(财大气粗)的基于实验的综述,试图帮助研究者们「拨开 ...

  4. [python Cookbook]阅读笔记

    @toc] 前记:为了补充一下python语法知识,感谢网友的推荐阅读了pythonCookbook,这本书确实不错,以问题为导向,引导解决思路. 这个博文是从阅读笔记typora中直接复制过来的没有 ...

  5. Traffic Flow Forecasting: Comparison of Modeling Approaches文献阅读笔记(一)

    今天开始陆续更新之前文章的阅读笔记,有一些文章是辅助实验简单读的,有一些文章是精读的.这里也不做分类了,只是每次在开头提一下相关信息. 文章链接:戳我 主要工作:描述了历史 平均值.时间序列.神经网络 ...

  6. 极限编程阅读笔记--第二篇

    应本学期软件工程寒假作业,发表第二篇阅读笔记,读的书为<规划极限编程>,本次阅读了五到八章. 第五章:本章讲的是概述,在开发之前我们要总揽这个项目,看看他的开发周期和业务周期,一般开发周期 ...

  7. 阅读笔记 1 火球 UML大战需求分析

    伴随着七天国庆的结束,紧张的学习生活也开始了,首先声明,阅读笔记随着我不断地阅读进度会慢慢更新,而不是一次性的写完,所以会重复的编辑.对于我选的这本   <火球 UML大战需求分析>,首先 ...

  8. Head First HTML与CSS阅读笔记(二)

    上一篇Head First HTML与CSS阅读笔记(一)中总结了<Head First HTML与CSS>前9章的知识点,本篇则会将剩下的10~15章内容进行总结,具体如下所示. div ...

  9. sed 手册阅读笔记转

    原文链接sed 手册阅读笔记摘要sed 手册本身不太适合初学者,我在看的过程中加了一些 自己的注释和一些例子,帮助理解,如有偏差或错误,请指出,多谢.目录1. sed的工作原理 2. sed中如何选择 ...

最新文章

  1. FastJson、Jackson、Gson进行Java对象转换Json的细节处理
  2. 电子工程与计算机科学的读后感,读后感-相关博文 - 电子工程世界-论坛
  3. svn 设置post-commit后 报错svn: Can't convert string from 'UTF-8' to native encoding
  4. Unicode字符编码表
  5. OpenCASCADE绘制测试线束:OCAF 命令之标准演示命令
  6. 【洛谷P1632】点的移动
  7. 东方希望上云 告诉你数字化门槛儿到底有多高?
  8. 有了数据湖,距离数据仓库消失还有几年?
  9. 你是否还在写try-catch-finally?来使用try-with-resources优雅地关闭流吧
  10. Asp.net MVC4 下二级联动
  11. 用IDM怎么批量下载视频
  12. 英语演讲常用连接词和句子
  13. 如何评价红米 Note 11T系列手机?网友:没有不足
  14. 教务系统自动评教_新版正方教务管理系统自动评教脚本
  15. Jexl表达式引擎(1)
  16. C++ define用法
  17. JAVASE、JAVAEE(J2EE)、
  18. UPC --- 2018年第三阶段个人训练赛第五场 --- A题 Make a Rectangle(6595)
  19. pdf文件 converter注册码
  20. [CANFD] 高波特率下收发器延时的处理机制-Transceiver delay compensation

热门文章

  1. strlen, strcpy,strcmp,strcat,strncpy,strncmp,strncat,strst库函数的详细解析以及模拟实现
  2. python3GUI--用Tk开发一款恶搞蓝屏软件(附源码)
  3. 1.基础入门——基础概念
  4. python 伪造源ip_HTTP请求源IP伪造
  5. i5 9400f和i7 9700f玩游戏差距多大 i5 9400f和i7 9700f哪个好
  6. 【转帖】创意搜狗输入法设计理念等
  7. VMware连接摄像头的时候出现USB 设备Acer USB Composite Device解决办法
  8. 她姓敖 是计算机系的,有朋友姓敖,单名武,每次我叫他,都感觉自己好奇怪,像只什么发情的动物。...
  9. HTTP 错误 403.14 - Forbidden Web 服务器被配置为不列出此目录的内容——错误代码:0x00000000
  10. 移动建站工具(二):分秒钟DIY一个移动网站