DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks具有深度卷积网络的移动设备上的 DSLR 质量照片

摘要
尽管内置智能手机相机的质量迅速提高，但它们的物理限制——传感器尺寸小、镜头紧凑和缺乏特定硬件——阻碍了它们实现单反相机的质量结果。在这项工作中，我们提出了一种端到端的深度学习方法，通过将普通照片转换为 DSLR 质量的图像来弥合这一差距。我们建议使用残差卷积神经网络来学习翻译函数，该网络可同时提高色彩再现和图像清晰度。由于标准均方损失不太适合测量感知图像质量，我们引入了一个复合感知误差函数，它结合了内容、颜色和纹理损失。前两个损失是通过分析定义的，而纹理损失是以对抗方式学习的。我们还展示了 DPED，这是一个大规模数据集，由从三部不同手机和一台高端反光相机拍摄的真实照片组成。我们的定量和定性评估表明，增强的图像质量可与 DSLR 拍摄的照片相媲美，而该方法适用于任何类型的数码相机。
介绍
在过去的几年里，紧凑型相机传感器的质量有了显着的提高，这将移动摄影带到了一个全新的水平。由于其先进的软件和硬件工具，即使是低端设备现在也能够在适当的光照条件下拍摄出相当不错的照片用于后期处理。但是，在艺术质量方面，移动设备仍然落后于数码单反相机。更大的传感器和大光圈光学器件可产生更好的照片分辨率、色彩还原和更少的噪点，而它们的附加传感器有助于微调拍摄参数。这些物理差异导致强大的障碍，使得紧凑型移动设备无法达到数码单反相机的相机质量。虽然存在许多用于自动图像增强的摄影师工具，但它们通常只专注于调整全局参数，例如对比度或亮度，而没有提高纹理质量或考虑图像语义。除此之外，它们通常基于一组预定义的规则，这些规则并不总是考虑特定设备的细节。因此，照片后期处理的主要方法仍然是使用专门的修图软件进行手动图像校正。
1.1.相关工作
尽管使用深度学习技术已经成功解决了许多子任务和相关问题，但自动图像质量增强问题在计算机视觉领域还没有完全解决。这些任务通常处理图像到图像的转换问题，它们的共同特点是它们的目标是去除人为添加到原始图像中的伪影。相关问题如下：
图像超分辨率旨在从缩小的版本中恢复原始图像。在 [4] 中，CNN 架构和 MSE 损失用于直接学习低分辨率到高分辨率的映射。它是第一个基于 CNN 的解决方案，可在单幅图像超分辨率方面实现顶级性能，可与非 CNN 方法相媲美 [20]。随后的工作开发了更深入、更复杂的 CNN 架构（例如，[10,18,16]）。目前，使用基于 VGG 的损失函数 [9] 和对抗性网络 [12] 在此任务上获得了最佳照片般逼真的结果，结果证明在恢复合理的高频分量方面是有效的。
图像去模糊/去雾以去除图像中人为添加的雾霾或模糊。通常，MSE 用作目标损失函数，并且提议的 CNN 架构由 3 到 15 个卷积层组成 [14,2,6] 或者是双通道 CNN 图像去噪/稀疏修复同样针对从图片中去除噪声和伪影。在 [28] 中，作者提出了加权 MSE 和 3 层 CNN，而在 [19] 中表明，当使用标准均方误差时，8 层残差 CNN 表现更好。其他解决方案包括双通道 CNN [29]、17 层 CNN [26] 和循环 CNN [24]，它们被多次重新应用于生成的结果。

图像着色。这里的目标是恢复从原始图像中删除的颜色。这个问题的基线方法是根据每个像素的局部描述来预测每个像素的新值，该描述由各种手工制作的特征组成 [3]。使用生成对抗网络 [8] 或具有多项交叉熵损失函数的 16 层 CNN [27] 在此任务上获得了相当好的性能。

图像调整。一些作品考虑了图像颜色/对比度/曝光调整的问题。在[25]中，作者提出了一种使用手工设计的特征和预定义规则进行自动曝光校正的算法。在[23]中，提出了一种更通用的算法——类似于[3]——使用图像像素的局部描述来再现各种摄影风格。在 [13] 中考虑了一种不同的方法，其中从数据库中检索具有相似内容的图像，并将它们的样式应用于目标图片。所有这些调整都通过设计隐含在我们的端到端转换学习方法中。
1.2.贡献
我们面临的主要挑战是同时处理所有上述增强功能。即使是先进的工具也无法显着改善图像清晰度、纹理细节或相机传感器丢失的微小颜色变化，因此我们无法从现有照片生成目标增强照片。损坏 DSLR 照片并在损坏的图像上训练算法也不起作用：该解决方案不会推广到现实世界和非常复杂的工件，除非它们被建模并作为损坏应用，这是不可行的。为了解决这个问题，我们提出了一种不同的方法：我们建议学习将给定相机拍摄的照片修改为 DSLR 质量照片的转换。因此，目标是学习交叉分布转换函数，其中输入分布由给定的移动相机传感器定义，目标分布由 DSLR 传感器定义。为了监督学习过程，我们创建并利用了使用不同相机捕获相同场景的图像数据集。一旦学习了该功能，它就可以进一步随意应用于看不见的照片。
我们的主要贡献是：
1.基于学习移动设备照片和数码单反相机之间的映射函数的照片增强任务的新方法。目标模型以端到端的方式进行训练，无需使用任何额外的监督或手工制作的功能。
2.一个新的大规模数据集，由单反相机和智能手机的 3 个低端相机在各种条件下同步拍摄的超过 6K 的照片。
3.由颜色、纹理和内容项组成的多项损失函数，可实现有效的图像质量估计。
4.测量客观和主观质量的实验证明了增强照片相对于原件的优势，同时，它们与数码单反相机的质量相当。
在本文的其余结构如下。在第 2 节中，我们描述了新的 DPED 数据集。第三部分展示了我们的架构和选择的损失函数。第四部分展示并分析了实验结果。最后，第 5 节总结了论文。

单反照片增强数据集（DPED）DSLR Photo Enhancement Dataset (DPED)
为了解决从智能手机相机拍摄的质量较差的图像到专业数码单反相机拍摄的高质量图像的图像转换问题，我们引入了一个大规模的真实世界数据集，即“数码单反相机照片增强数据集”（DPED）1，即可用于一般照片质量增强任务。 DPED 由三部智能手机和一部数码单反相机在野外同步拍摄的照片组成。
用于收集数据的设备在表 1 中描述，示例四元组可以在图 3 中看到。
为确保所有相机同时拍摄照片，将设备安装在三脚架上并通过无线控制系统远程启动（见图2）。 3周内总共收集了超过22K张照片，其中包括4549张照片索尼智能手机，5727 张 iPhone 和 6015 张佳能和黑莓相机的照片。这些照片是在白天在各种各样的地方和各种光照和天气条件下拍摄的。照片是在自动模式下拍摄的，我们在整个收集过程中为所有相机使用默认设置。

匹配算法:同步捕获的图像没有完全对齐，因为相机具有不同的视角和位置，如图 ure3 所示。为了解决这个问题，我们执行了额外的非线性变换，产生了一个固定分辨率的图像，我们的网络将其作为输入。算法如下（见图4）。首先，对于每个（手机-DSLR）图像对，我们计算并匹配图像中的 SIFT 关键点 [15]。这些用于使用 RANSAC [21] 估计单应性。然后我们将两个图像裁剪到相交部分，并将 DSLR 图像裁剪缩小到手机裁剪的大小。
在对齐的高分辨率图像上训练 CNN 是不可行的，因此从这些照片中提取了 100×100 像素大小的块。我们的初步实验表明，更大的补丁尺寸不会带来更好的性能，同时需要更多的计算资源。我们使用非重叠滑动窗口提取patch 。窗口沿着来自每个手机-DSLR 图像对的两个图像平行移动，并且它在手机图像上的位置根据互相关度量通过移位和旋转进行额外调整。为了避免显着位移，只有互相关大于0.9 被包含在数据集中。大约 100 张原始图像被保留用于测试，其余的照片用于训练和验证。这个过程产生了 139K、160K 和 162K 的训练以及 2.4-4.3K 的黑莓-佳能、iPhone-佳能和索尼佳能分别配对。应该强调的是，训练和测试补丁都是精确匹配的，潜在的偏移不超过 5 个像素。在下文中，我们假设这些大小为 3×100×100 的块构成了我们 CNN 的输入数据。
3. 方法
给定低质量的照片（源图像），所考虑的增强任务的目标是重现由单反相机拍摄的图像（目标图像）。由权重 Wis 参数化的深度残差 CNNFW，用于学习底层翻译函数。给定由 N 个图像对组成的训练集{Ijs, Ijt}Nj=1，它被训练为最小化：

其中 L 表示我们在第 3.1 节中详细介绍的多项损失函数。然后，我们在第 3.2 节中定义了我们解决方案的系统架构。
3.1.损失函数
图像增强任务的主要难点是输入和目标照片不能密集匹配（即像素到像素）：不同的光学器件和传感器会导致特定的局部非线性失真和像差，导致非恒定偏移精确对齐后，每个图像对之间的像素数。因此，除了作为感知质量指标值得怀疑之外，标准的每像素损失在我们的情况下并不适用。我们在假设整体感知图像质量可以分解为三个独立部分的情况下构建我们的损失函数：i) 颜色质量，ii) 纹理质量和 iii) 内容质量。我们现在为每个组件定义损失函数，并通过设计确保对局部偏移的不变性。
3.1.1 颜色损失
为了测量增强图像和目标图像之间的色差，我们建议应用高斯模糊（见图 5）并计算获得的表示之间的欧几里德距离。在 CNN 的上下文中，这相当于使用一个附加的卷积层，其具有固定的高斯内核，后跟均方误差 (MSE) 函数。颜色损失可以写为：

这种损失背后的想法是评估图像之间的亮度、对比度和主要颜色的差异，同时消除纹理和内容的比较。因此，我们通过目视检查将常数σ固定为确保纹理和内容被删除的最小值。这种损失的关键特性是它对小失真的不变性。图 6 展示了图像对 (X, Y) 的 MSE 和颜色损失，其中 Y 等于 X 在随机方向上移动了 n 个像素。可以看出，颜色损失对小失真（62 像素）几乎不敏感。对于更高的位移（3-5px），它仍然比 MSE 小 5-10 倍，而对于更大的位移，它表现出相似的幅度和行为。结果，颜色损失迫使增强图像具有与目标图像相同的颜色分布，同时容忍小的不匹配。
3.1.2 纹理损失
我们没有使用预定义的损失函数，而是构建了生成对抗网络 (GAN) [5] 来直接学习测量纹理质量的合适指标。鉴别器 CNN 应用于灰度图像，因此它专门针对纹理处理。它同时观察伪造（改进）和真实（目标）图像，其目标是预测输入图像是否真实。它被训练为最小化交叉熵损失函数，纹理损失被定义为标准生成器目标：

其中 FW 和 D 分别表示生成器和鉴别器网络。鉴别器在 {phone, DSLR} 图像对上进行预训练，然后与建议的网络联合训练，这是 GAN 的常规做法。应该注意的是，这种损失根据定义是平移不变的，因为在这种情况下不需要对齐。
3.1.3 内容丢失
受 [9,12] 的启发，我们根据预训练的 VGG-19 网络的 ReLU 层生成的激活图来定义我们的内容损失。这种损失不是测量图像之间的每像素差异，而是鼓励它们具有相似的特征表示，包括其内容和感知质量的各个方面。在我们的例子中，它用于保留图像语义，因为其他损失不考虑它。设ψj()是在VGG-19 CNN的第j个卷积层之后获得的特征图，那么我们的内容损失被定义为增强图像和目标图像的特征表示之间的欧几里德距离：

3.1.4 Total variation loss
3.1.4 总变异损失
除了之前的损失之外，我们还添加了总变化 (TV) 损失 [1] 以加强所生成图像的空间平滑度：

3.2.生成器和鉴别器 CNN
图 7 说明了所提出的 CNN 的整体架构。我们的图像转换网络是全卷积的，从一个 9×9 层开始，然后是四个残差块。每个残差块由两个 3×3 层与批归一化层交替组成。我们在残差块之后使用两个额外的层，内核大小为 3×3，一层内核为 9×9。转换网络中的所有层都有 64 个通道，并且后跟一个 ReLU 激活函数，除了最后一个，其中 ascaledtanhis 应用于输出。 CNN 鉴别器由五个卷积层组成，每个层后跟一个 LeakyReLU 非线性和批量归一化。第一、第二和第五卷积层的步长分别为 4、2 和 2。 sigmoidal 激活函数应用于包含 1024 个神经元的最后一个全连接层的输出，并产生输入图像被目标单反相机拍摄的概率。
3.3.培训详情
网络在 NVidia Titan XGPU 上训练 20K 次迭代，批量大小为 50。网络参数使用 Adam[11] 修改的随机梯度下降进行优化，学习率为 5e-4。整个流程和实验设置对于所有相机都是相同的.

DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks具有深度卷积网络的移动设备上的 DSLR 质量照片相关推荐

CNN 图像增强--DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks ICCV2017 http://people.ee.eth ...
DL图像增强方法--《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks，2017》
DL图像增强方法–<DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks,2017> 这篇文章提出了 ...
【论文解读】DPED：DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
1 论文简介 DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks: 使用深度卷积网络使用移动设备上的照片生成D ...
图像美化笔记：DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
论文地址:DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks 来源: 2017 ICCV 在线demo:htt ...
DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks 源码:https://github.com/aiff22/ ...
【论文详解】DPED：DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks
目录 1.论文概述 2.效果展示 3.网络内容介绍 3.1作者的贡献 3.2 网络数据 3.3 网络结构 3.4 损失函数 3.4.1颜色损失. 3.4.2纹理损失textures loss. 3.4 ...
Deep Image Prior：深度卷积网络先天就理解自然图像
点击我爱计算机视觉标星,更快获取CVML新技术昨天分享了文章ICCV 2019 | Adobe 无需大量数据训练,内部学习机制实现更好的视频修补,其中借鉴的Deep Image Prior (DIP ...
论文翻译——Facial Emotion Recognition using Deep Convolutional Networks
文章目录 Abstract introduction Recognition Of Emotion In Deep Network Convolutional Neural Network 分析与总结 ...
Paper8：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 还未读

DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks具有深度卷积网络的移动设备上的 DSLR 质量照片

DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks具有深度卷积网络的移动设备上的 DSLR 质量照片相关推荐

最新文章

热门文章