论文笔记--Quality Prediction of Asymmetrically Distorted Stereoscopic 3D Images

  • 摘要
  • I.介绍
  • II.回顾先前的3D-IQA研究
    • A.先前的3D-IQA研究
    • B.先前的客观3D-IQA研究
    • C.观测
  • III.主观研究
    • A.Waterloo-IVC 3D Image Quality Database Phase I
    • B.主观测试
    • C.Waterloo-IVC 3D Image Quality Database Phase II
    • D.分析和关键观察
    • E.单眼优势的影响
  • IV.客观研究:2D-TO-3D 质量预测
    • A.客观2D质量评估
    • B.2D-to-3D质量预测模型
  • V.验证
  • VI.混合失真立体视频编码的探讨
  • VII.结论

摘要

失真立体图像的客观质量评估是一个挑战性问题,特别是当左右视图得失真是非对称的时候。
存在的研究提出简单地对左右视图地质量进行平均可以很好地预测对称失真地立体图像,但是当对非对称失真立体图像进行时,会产生大量的预测偏置。
在本篇论文中,我们首先建立起一个数据集,它包括了单视图和对称,非对称失真立体图像。
接着我们进行了一个主观测试,从中我们发现:不对称失真图像的质量预测偏差可能倾向于相反的方向(高估或低估),这取决于失真类型和水平。
我们的主观测试也指出,单眼优势在立体图像的视觉质量决策上没有很强的影响。
更进一步的,我们开发了一个基于信息内容和划分规范化的池化方案,它能够提高单视图质量的结构相似性。
最后,通过结合HVS的空间频率调谐机制(spatial frequency tuned mechanisms),我们提出了一个双目竞争激发的多尺度模型(BRIM–binocular rivalry-inspired multi-scale model ),用来从单视图中预测立体图像的质量。
我们的结果显示,提出的那个模型没有明确地辨别出图像地失真类型,却能够成功地预估预测偏差,从而在立体图像质量预测中取得显著的提升。

I.介绍

提出的BRIM模型是用来解释预测偏差,从而不仅在非对称失真等级上获得更好的立体图像的质量预测,而且在混合失真类型下,能够很好地推广非对称失真的情形。

II.回顾先前的3D-IQA研究

A.先前的3D-IQA研究

(2015年)表1列出了现有的8个主观3D图像数据集

缺失对单视图的二维IQA数据,将难以直接测试单视图和立体图像的感知质量之间的关系。

完备的3D图像数据集要包括

  • 2D(单视)图像
  • 立体3D图像(包括对称失真图像和非对称失真图像)
  • 失真图像要有多种不同失真等级
  • 要有单失真图像和混合失真图像

B.先前的客观3D-IQA研究

现有客观3D-IQA或3D视频质量评估(3D-VQA)模型可能可分为两类:

  1. 直接从成功的2D-IQA方法建立起来的方法:可根据使用深度信息还是差异信息再分为两类①不是直接使用深度信息②将深度信息和2D-IQA相结合

在[7],[23]中发现了,SSIM的3D-IQA性能在增加了深度质量之后能够提高。
在[24]中结果表明,适当地结合立体图像质量和深度质量可以提高图像质量。

  1. 专注于直接建立3D质量模型,而不依靠2D-IQA算法

C.观测

值得注意的是,以前的研究对不对称扭曲效应的观察和看法有些矛盾。
对于图像模糊,[42]中的证据表明,非对称模糊的图像的质量更受高质量视图的影响。
对于图像块效应,[43]中表明,3D图像质量应该通过平均高质量视图和低质量视图的质量来近似,但是存在一种倾向低质量视图的趋势,并且这一趋势在压缩等级很高和图像包含同质化区域时更明显,
在[42]中,在MPEG-2编解码器中,当直接平均两个视图的质量时,发现单眼阻塞不足
在[9]中,有人建议,对JPEG压缩图像进行非对称质量评估的最佳策略应取决于内容和纹理。

III.主观研究

A.Waterloo-IVC 3D Image Quality Database Phase I

新的Waterloo-IVC 3D Image Quality database Phase I 是从6个原始立体图像对(以及它们对应的单视图)产生的,如fig1所示。


这些图片全都是从Middlebury Stereo 2005 Datasets收集的。
单视图的原始分辨率是1390X1100 或 1342X1100.
所有的单视图被轻微地裁剪以适应分辨率为1920X1080的展示
每张单视图都被三种类型的失真改变:加性高斯白噪声污染、高斯模糊和JPEG压缩
每个失真类型有四种失真等级如Table II所示,这些失真等级确保了好的感知间隔。
Table III将图像分为7组并有细节描述。

将不同的非对称畸变水平和不同的混合畸变类型包括在内的动机有三个:

  • 纯粹出于科学的好奇心,我们感兴趣的是了解HVS在不对称/混合变形情况下的行为。
  • 不对称/混合变形在实践中是真实的。
  • 这些图像的包含提供了对3D-IQA模型的可推广性进行更强大测试的可能性。

B.主观测试

默认视距为3.5*屏幕高度,具体观察条件的细节展示在Table IV中:


在测试中,受试者被要求评估他们的3D观看体验的四个方面,包括3D图像质量(3DIQ)、深度质量(DQ)、视觉舒适度(VC)和整体3D体验质量(3DQoE)。

C.Waterloo-IVC 3D Image Quality Database Phase II

在此数据集中,只进行了2DIQ和3DIQ测试。

D.分析和关键观察

提出一个问题:单视图二维图像质量如何预测三维图像质量(主观测试中的3DIQ分数),尤其是在不对称失真的情况下
Table VI显示了2D 分数和3D分数之间的相关分数

表中的PLCC用来评估预测准确度,而SRCC和用来 评估预测单调性
更高的PLCC,SRCC, KRCC表明与质量的人类观点有更好的一致性。
对于噪声和JPEG压缩,3D图像质量更加受质量差的视图的影响,即左右视图中,最终的3D图像质量会跟质量较差的那个视图的质量相一致。而对于模糊失真,3D图像质量更加受质量好的视图的影响,也就是说,质量差的那个视图对最终的3D图像质量影响不大了。

E.单眼优势的影响

单眼优势是一种常见的视觉现象,指的是根据人类个体的不同,倾向于从一只眼睛到另一只眼睛的输入[50]。
我们进行了一个单独的研究,针对非对称失真立体图像知觉的单眼优势的影响。
实验结果表明:眼睛优势对不对称失真立体图像感知的影响不被认为是显著的。

IV.客观研究:2D-TO-3D 质量预测

我们选择使用两阶段的方法来设计一个客观的3DIQ预测器。
第一阶段的目的是评价单视图像的感知质量,而第二阶段,开发了一个双目竞争激发的多尺度模型,将两种视图的二维图像质量结合起来,对三维图像质量进行质量估计。

A.客观2D质量评估

我们在SSIM基础上构建了二维IQA模型,但通过引入信息内容和基于分区归一化的池方案进一步改进了该模型。
空间加权池的一般形式由
Q2D=∑i=1Nωiqi∑i=1NωiQ^{2D} = \frac{\sum_{i=1}^{N} \omega_i q_i }{\sum_{i=1}^N\omega_i} Q2D=∑i=1N​ωi​∑i=1N​ωi​qi​​
信息内容加权池背后的假设是,包含更多信息的空间位置更容易吸引视觉关注,因此应给予更大的权重。分别从参考图像和失真图像中提取第i个空间位置周围的局部图像块。
让 xi和yix_i和y_ixi​和yi​作为分别从参考图像和失真图像中提取的第i个空间位置周围的局部图像块。根据[55]中的信息内容评估方法,我们通过以下式子计算权重因子:
ωiic=log[(1+σxi2C)(1+σyi2C)]\omega_i^{ic} = log\left [(1+\frac{\sigma_{x_i}^2}{C})(1+\frac{\sigma_{y_i}^2}{C}) \right]ωiic​=log[(1+Cσxi​2​​)(1+Cσyi​2​​)]

另一个有用的池策略是失真加权池,它基于一个直观的观点,即包含更多失真的空间位置更容易吸引视觉注意,因此应该给予更多的权重。由于局部质量已由qiq_iqi​测量(比如位置i的SSIM值),它是直接将它转换为局部失真测量的,比如使di=1−SSIMid_i = 1-SSIM_idi​=1−SSIMi​.
除数归一化被认为是一种感知和统计激励非线性变换.
我们将除数归一化应用于局部失真图,并定义了基于归一化失真的加权因子
ωid=di∑jϵNidj2+D0\omega_i^d = \frac{d_i}{\sqrt{\sum_{j\epsilon N_i}d_j^2+D_0}}ωid​=∑jϵNi​​dj2​+D0​​di​​
将信息量与基于除数归一化的失真加权因子相结合,得到最终的加权因子。
ωi=max{(ωiic)2,(ωid)2}\omega_i = max \left \{ (\omega_i^{ic})^2,(\omega_i^d)^2 \right \}ωi​=max{(ωiic​)2,(ωid​)2}

B.2D-to-3D质量预测模型

双目融合和双目竞争之间的竞争[57]提供了一个潜在理论去发展2D-to-3D质量预测模型。
当左视图和右视图图像一致时,它们在视觉系统中融合到场景的一个单一感知点,称为双目融合。另一方面,如果两个视图的图像不一致,而不是重叠的两个图像,则其中一个可能占主导地位,或者两个图像交替出现,称为双目竞争[57]。
尽管生物视觉科学中有大量关于双眼融合和竞争的文献[57],[58](通常使用简单和理想的视觉刺激),如何将这一原理应用于3D-IQA仍是一个活跃的研究课题。
由于在3D-IQA中,我们需要处理复杂的场景和失真,因此简化对于创建实用的解决方案至关重要。

我们的工作是受现有的关于双眼竞争的视觉研究[59]–[62]的推动,研究发现,对于简单的理想刺激,对比度增加会增加一种观点对另一种观点的优势。
还需要注意的是,在复杂的场景中,信号的对比度随着其信号强度(使用能量测量)的增加而增加。这启发我们假设,在立体图像的双目竞争中,视角优势的强度与两种视角的相对能量有关

该方法的示意图如图5所示。


假设参考立体对具有完美的质量和强大的三维效果,其中双目融合为主。当在某些空间位置至少有一幅单视图图像发生畸变时,失真可能会影响两个视图图像结构之间的一致性,从而导致双目竞争。因此,一个视图在任何时候都可以支配另一个视图。

V.验证

我们使用两个3D图像质量数据库来测试所提出的算法,即 the new Waterloo-IVC 3D Image Quality
database (Phase I and Phase II)和the LIVE 3D database Phase II [6]。后者是一个最近的数据库,包含对称和不对称失真的图像。
要注意,提出的2D-to-3D质量预测方法的参数在Waterloo-IVC database Phase I上是根据经验选择的。
3DIQ-MOS之间的PLCC、SRCC和KRCC值以及所有立体图像和每个测试图像组的预测Q3DQ^{3D}Q3D值如Table VI所示。

VI.混合失真立体视频编码的探讨

研究非对称失真对立体图像质量的影响,不仅对理解HVS有科学价值,而且在三维视频压缩和传输实践中也具有一定的应用价值。
3D视频编码/通信中涉及的失真不仅仅是压缩伪影。
实际的编码器/解码器还需要决定是否需要打开去块过滤器,以及是否应该使用左/右视图的混合分辨率。
混合分辨率编码、非对称变换域量化编码和后处理技术(去块或模糊)可以单独或共同使用。在[67]–[69]之前,已经研究了可应用于低质量视图而不会显著降低3D质量的降采样率的范围。
在[69]中,对对称立体视频编码、非对称量化编码和混合分辨率编码进行了比较,结果表明混合分辨率编码达到了最佳的编码效率。
在这项工作中,我们的主要观察结果为立体图像/视频编码提供了一些有用的启示。对于jpeg压缩,三维图像质量受质量较差的视图影响较大,因此质量较差的视图应具有较高的权重;
而对于模糊,3D图像质量更受更好的质量视图影响,因此更好的质量视图获得更高的权重。这种不平衡加权对于强不对称失真更为明显。
此外,对于混合变形类型,当一个视图被jpeg压缩而另一个视图被模糊时,jpeg压缩视图总是获得更高的权重,而不管其变形级别如何。
这些观察结果否定了只有两个视图中的一个需要高速编码的假设,因此通过低速编码另一个视图可以节省大量带宽。这也表明,一个重要的编码增益可以实现混合分辨率编码,随后是后处理技术,如去块滤波。

我们目前正在建立我们的Waterloo-IVC 3D视频质量数据库[70],其中包括从混合分辨率编码、非对称变换域量化编码、它们的组合以及多种后处理技术中获得的各种立体3D视频,旨在进一步提高在这个方向上,我们可以研究如何定量预测非对称视频压缩的潜在编码增益,并为开发高效的3D视频编码方案提供新的见解,以保持感知3D图像质量之间的良好权衡,深度质量和/或视觉不适。

VII.结论

当前论文的主要贡献如下:首先,我们创建了一个新的主观3D-IQA数据库,它有两个独特的特征——包括二维和三维图像,以及混合变形类型。其次,利用两个视图的二维图像质量的直接平均值预测三维图像质量时,我们观察到强畸变类型相关偏差。第三,我们观察到眼睛优势对非对称扭曲立体图像的视觉质量评价没有很强的影响。

第四,我们开发了一个基于信息内容和分割归一化的池方案,该方案在评估单视图图像质量时改进了SSIM。第五,我们提出了一个双目竞争激发的多尺度模型,从单视图二维图像的质量预测立体图像。结果表明,该模型在不明确识别图像失真类型的情况下,成功地消除了预测偏差,大大提高了立体三维图像的质量预测。在非对称失真的情况下,性能增益最为显著。在未来,我们将扩大研究范围,了解人类对深度质量、视觉舒适度和整体3DQoE的看法,旨在为3D QoE开发一个完整的客观质量评估模型。

论文笔记--Quality Prediction of Asymmetrically Distorted Stereoscopic 3D Images相关推荐

  1. 论文笔记1:Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views

    快速且鲁棒的多视角下多人三维姿态估计 作者讲解:https://www.bilibili.com/video/BV1K441157Xf?from=search&seid=52494766343 ...

  2. 论文笔记_S2D.77_2013_TOR_使用RGBD相机的3D建图(RGBD SLAM V2)

    目录 基本情况 摘要 介绍 系统流程 特征提取 运动估计 EMM:Environment Measurement Model 回环检测 图优化 建图OctoMap 参考 基本情况 出处:Endres ...

  3. 论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018

    论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...

  4. [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)

    Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...

  5. 论文笔记:《DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks》

    论文笔记:<DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks> 摘要 1. ...

  6. 论文笔记02 Link Prediction by Multiple Motifs in Directed Networks

    论文笔记02 Link Prediction by Multiple Motifs in Directed Networks 1.基于单个子图朴素贝叶斯模型的链路预测 2.基于两个子图朴素贝叶斯模型的 ...

  7. Perceptual Quality Assessment of Smartphone Photography(论文笔记)

    Perceptual Quality Assessment of Smartphone Photography(论文笔记) 论文笔记 论文地址:Perceptual Quality Assessmen ...

  8. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  9. 显著性应用--论文笔记--2019--Aesthetic guided deep regression network for image cropping

    论文信息: 作者:Peng Lua, Hao Zhanga, XuJun Pengb, Xiang Penga 期刊:Signal Processing: Image Communication 任务 ...

最新文章

  1. [译] 新一代 JavaScript 的开发图谱(2017)
  2. PHP curl 实现RESTful PUT DELETE 实例
  3. 2021年春季学期-信号与系统-第一次作业参考答案-第四题
  4. 1.html5究竟是什么
  5. 5.MySQL Cluster(MySQL集群)
  6. python爬取boss直聘招聘信息_Python笔记-爬取Boss直聘的招聘信息
  7. DataGrid 或 DataView 中删除项时告知是否删除
  8. 布式缓存系统Memcached简介与实践
  9. vue 文件转换二进制_Vue利用Blob下载原生二进制数组文件
  10. mysql 视图调用存储过程,是否可以在视图中调用存储过程?
  11. 升级 Node.js 版本遇到的 co 和 pm2 问题解析
  12. 概率密度,概率分布和联合概率分布
  13. 从一坨「便便」说起,大V亲测iPhone X为什么这么贵!
  14. 阿里云mysql1227_Navicat连接阿里云Mysql遇到的的坑
  15. python 生成词云
  16. 游戏《天黑请闭眼OL》全套源代码
  17. 双语电子书epub格式
  18. 用Raphael在网页中画圆环进度条
  19. 【转】CLR20R3 程序终止的几种解决方案
  20. iOS使用VideoToolbox硬编码录制H264视频

热门文章

  1. 【三维目标检测】VoxelNet(二):数据处理
  2. 理财-股票(扫文章中的二维码下软件)
  3. 怎么能看出来一个人善不善良?
  4. 3.1 决策树的基本思想
  5. 医院信息系统网络安全等级保护2.0标准解读
  6. NOIP2010 提高组 复赛 translate 机器翻译
  7. 解忧杂货店—你的问题,我来解答
  8. 隐秘历史:那场国产金融技术的“核武器试爆”
  9. 浅析简历——中华英才网
  10. whaleCTF MISC_Writeup(姿势大全)