【论文精读】Deep Defocus Map Estimation using Domain Adaptation-2019CVPR

题目：Deep Defocus Map Estimation using Domain Adaptation
题目：使用区域适应的深度散焦map估计
作者：Junyong Lee 来自POSTECH
2019CVPR

名词

Defocus Map Estimation Network (DMENet) 离焦map估计网络
depth-of-field (DOF)dataset景深数据集–SYNDOF
circle of confusion (COC)

摘要

在这篇论文中，我们提出了第一个端到端卷积神经网络(CNN)结构，离焦地图估计网络(DMENet)，用于空间变化的离焦地图估计。为了训练网络，我们产生了一个新的景深(DOF)数据集SYNDOF，其中每个图像都被一个地面真值深度图综合模糊化。由于SYNDOF的合成特性，SYNDOF图像的特征可能与真实的散焦图像不同。为了解决这个问题，我们使用了域适配技术，将真实的散焦照片的特征转换为综合模糊照片的特征。我们的DMENet由四个子网络组成:模糊估计、区域适应、内容保存和清晰校准网络。这些子网络相互连接，并以端到端的方式与它们相应的监督进行联合训练。我们的方法在公共可用的模糊检测和模糊估计数据集被评估，结果显示的最先进的性能。

1引言

离焦map包含每像素的离焦模糊量或confusion圆的大小(COC)，在离焦模糊图像中。从离焦图像中估计离焦map可以极大地促进高层次的视觉信息处理，包括显著性检测[12]、深度估计[40]、前景/背景分离[22]和去模糊[39]。一种典型的离焦map估计方法是首先从模糊图像中检测边缘，然后测量边缘周围的模糊量，最后在边缘处插值估计的模糊量来确定均匀区域的模糊量。？？？

以前的边缘驱动方法有一些限制。首先，模糊图像的边缘往往是模糊的，导致检测不准确。其次，边缘的模糊估计本身就容易出错，因为深度不连续的物体边界上的像素在散焦图像[18]中混合了不同的coc。第三，边缘模糊估计的不稳定性会导致均匀区域的预测可靠性降低。也就是说，在一个物体边界的不同部分估计的模糊量可能是不连贯的，然后它们对均匀物体内部的插值只会产生平滑但不准确的模糊估计。例如，一个单一深度的物体的估计模糊量可能不是恒定的，因为当边缘与附近物体的深度不连续度不同时，在相对边缘单独测量的模糊量不可能是相同的。

在这篇论文中，我们提出了DMENet (Defocus Map Estimation Network)，这是第一个端到端的CNN框架，它可以直接对给定的Defocus图像进行Defocus Map的估计。我们的工作不同于之前的工作，因为我们的工作有一个明确的定义，我们试图在COC的混合中估计COC的大小，我们使用相应针孔图像中的深度值来推断一个像素的COC大小。使用我们的COC定义训练的网络可以得到更可靠的模糊量估计，特别是在物体边界处。该网络还通过扩大其接受域来更好地处理均匀区域，以便将对象边缘和内部信息一起使用来解决歧义。因此，我们的网络显著提高了混合COCs下的模糊估计精度。

为了支持这种网络学习，高质量的数据集是至关重要的。然而，目前可用的数据集[29,4]是不够的，因为它们要么是用于模糊检测[29]，而不是模糊估计，或小尺寸的[4]。为此，我们生成了一个defocus-blur数据集，我们称之为SYNDOF数据集。即使是人工操作，也几乎不可能为失焦照片生成真实的离焦map。因此，我们使用针孔图像数据集（ pinhole image datasets），其中每个图像都伴随着一个深度图，来合成失焦图像与相应的地面真相失焦图。

我们的数据集的一个局限性是离焦模糊是合成的，在真实和合成离焦图像的特征之间可能存在区域差异[9]。为了解决这一问题，我们设计了一个包含区域自适应的网络，它能够将真实散焦图像的特征适应于合成图像的特征，从而使网络能够估计真实图像的模糊量with利用合成图像进行离焦模糊估计的训练。

总结，贡献如下
1 第一个端到端CNN架构，直接估计精确的散焦map，不需要边缘检测;
2 SYNDOF defocus-blur数据集，该数据集包含了具有真实离焦map的合成离焦图像;
3 区域适应，使学习通过一个合成数据集为真正的散焦图像。

2相关工作

离焦图估计
对于离焦图估计，以往的工作大多是先估计出显式检测到的边缘周围的模糊量，然后将其传播到周围的均匀区域。Zhuo et al.[40]和Karaali et al.[13]使用图像梯度作为局部模糊线索，计算原始图像边缘与重模糊图像边缘之间的模糊线索比例。Tang等人利用图像边缘附近的光谱对比度来估计稀疏模糊映射。Shi等人利用频域特征、学习特征和图像梯度来估计模糊量。Shi等人的[30]采用稀疏表示来检测只是明显的模糊，这不能处理大的模糊。Xu等人使用局部patch的秩作为模糊量的线索。Park等人使用[24]构建特征向量，这些特征向量包括手工制作的特征和从预先训练好的模糊分类网络中提取的深度特征，然后将这些特征向量输入到另一个网络中，以还原边缘上的模糊量。所有这些方法通常依赖于只在图像边缘定义的特征，因此从均匀区域的边缘内插的模糊量可能不太准确。

最近，机器学习技术已被用来密集估计离焦图。Andres等人的[4]创建了一个数据集，其中真实散焦map标记为每个像素点扩展函数(PSF)的半径，从而最小化了散焦图像上的错误。他们训练回归树域(RTF)来估计每个像素的模糊量。然而，由于训练图像的不足，该方法不能很容易地推广，并且在深度边界附近的像素处不具有鲁棒性，因此无法准确地测量地面真实模糊量。Zhang等人通过手动将散焦图像的每个像素标记为四个模糊等级:高、中、低、无模糊来创建数据集，用于训练CNN分类。他们的方法在中大的模糊检测数据集[29]上显示了最先进的性能，但却不能准确地估计模糊量，而模糊量对于诸如去模糊和深度估计等应用是必不可少的。

区域适应
区域适应[5]是为了解决基于学习的方法对其他还没有被训练领域的泛化能力 。Ganin等人提出了一种区域适应的对抗学习框架。给定一个带标记数据的源领域和一个带未标记数据的目标领域，它们的框架训练一个用于源领域数据的标记分类器和一个用于对不同领域进行分类的域分类器。他们展示了一个使用他们的框架训练的分类器可以很好地泛化到一个目标领域。

从那时起，已经开发了几种方法。Tzeng等人[33]使用了一种对抗判别损失函数，Long等人[21]提出了一种残差域分类器。Hoffman等人对语义分割的领域适应框架进行了扩展。Chen等人提出了基于类域自适应的道路场景语义分割方法。Hoffman等人提出了循环一致的对抗域适应，以获得更好的适应性能。Bousmalis等人提出在像素空间中学习一种变换，将源域图像转换为目标域图像。

我们使用领域适应来解决我们的综合生成的训练图像和真实图像之间的差距。以往的研究多采用领域自适应的方法进行二值或多标签分类，如语义分割等，而我们采用领域自适应的方法进行图像到图像的回归。

3我们设计的数据集SYNDOF

3.1数据收集

我们首先收集了合成的还有真实的图像及他们对应的深度图；我们没有使用3D场景模型，以避免耗时的高质量渲染。我们的图像来自MPI Sintel Flow (MPI)[35]、SYNTHIA[27]和Middlebury Stereo 2014 (Middlebury)[28]数据集。MPI数据集是一个游戏场景渲染的集合，SYNTHIA数据集包含了合成的道路视图，而Middlebury数据集包含了具有精确深度测量的真实室内场景图像。

MPI和SYNTHIA数据集包含了相似场景的序列，因此我们只保留了峰值信噪比(PSNR)和结构相似指数(SSIM)方面的不相似图像，总共得到了2,006张不同的样本图像。然后，我们重复从样本集中随机选取一幅图像，通过相机参数和焦距的随机采样来生成散焦图像。我们生成的散焦图像总数为8231张。表1显示了详细信息。

3.2薄透镜模型

考虑到颜色深度对（ color-depth pairs）,我们使用薄透镜模型[25]生成散焦图像，这是一个标准的散焦模糊在计算机图形学中(图1)。让焦距F(mm)，物距S1(mm)，和焦距比数n。像距是 f 1 = F S 1 S 1 − F f1 = \frac{FS_1}{S_1 - F} f1=S1−FFS1和光圈直径 D = F N D = \frac{F}{N} D=NF。然后，位于物距x三维点的COC直径c(x)的定义为:

3.3失焦模糊图象生成

要将散焦模糊应用到图像上，我们首先分别从深度图中提取出最小和最大深度界限 x n e a r x_near xnear和 x f a r x_far xfar。然后，我们从 [ x n e a r , x f a r ] [x_near, x_far] [xnear,xfar]的范围内随机抽样s1。当使用Eq(1)计算c(x),我们只需要有抽象的物理参数α。在实践中，x不接近零(意味着不非常接近镜头)，有一定的限制。为了方便有意义的捕获条件的随机生成，我们将COC的大小最大限制为cmax。因此,α的上界,用αup,

现在α是随机抽样在[0,αup]。然后,我们应用高斯模糊图像与内核标准差σ,在那里我们经验性定义 σ ( x ) = c ( x ) 4 σ(x) = \frac{c(x)}{4} σ(x)=4c(x)。

为了根据计算出的COC大小l来对图像进行模糊，我们首先根据每个像素的深度值将图像分解为离散层，其中最大层数限制为350。然后,我们对每一层应用σ(x)的高斯模糊，模糊不仅图像还有层的mask。最后，我们使用模糊蒙版作为alpha值，按前后顺序alpha混合模糊层图像。除了散焦图像外，我们还生成标签(即散焦map), 它记录σ(x)值作为的单像素的模糊量 。这个layer-driven的散焦模糊类似于[15]的算法，但我们绕过了matting步骤，因为我们没有把不同的深度放入同一层。

我们的SYNDOF数据集使网络能够准确地估计由于以下属性造成的散焦map。首先，我们的散焦映射是密集标记的(每像素，而不是二进制)。密集的标签尊重场景结构，包括对象边界和深度不连续，并且解决均匀区域的不明确。第二，当像素在散焦图像中用模糊量标记时，使用原始锐化图像中的对象位置。然后，如果网络遇到一种混合的COC(称为部分交叉partial
occlusion[20])，一个模糊的像素会被监督具有它在锐化图像中所具有的COC大小。注意mixture中其他的COCs在这个像素上是无关的，因为他们来自附近的前景或隐藏的表面(没有显示在锐利的图像)[19]。这种在离焦图中对COCs进行估计的澄清，与以前的研究相比是一个巨大的进步。

4 失焦模糊图估计

4.1综述

网络设计
我们DMENet是一个新的架构，来从散焦图像估计散焦map(图2)。网络由四个子网:模糊估计(B),域适应(D),内容保存©和清晰校准网络(S)。

模糊估计网络B是我们DMENet的主要部分，它由来自SYNDOF数据集的真实合成散焦map监督，用来预测新给定的图象的模糊量。

为了能使B在真实的散焦模糊图像上估计模糊量，我们在其上附加了域适应网络D，从而最小化了合成和真实特征之间的域差异。

内容保存网络C补充了网络B，以避免模糊输出。

锐度校准网络S，通过告知网络B给定的真实域的特征是否对应于锐度或模糊像素，从而允许真实域特征引导在散焦图中产生正确的锐度。

我们的网络结构的细节在补充材料中。

训练
我们的最终目标是训练模糊估计网络B来估计真实图像的模糊量。为了达到这个目标,我们共同训练网络B, D,和S，分别参数化为,θB，θD,θS。分别用三种不同的训练集。注意，网络C在我们的训练中是固定的。

给定的训练数据集,我们交替训练θB和θS，这两个的损失函数为Lg，θD损失Ld，跟随同样的对抗训练的practice。损失Lg被定义为

其中|D|为D集合中的元素个数。LB、LC、LS、Ladv分别为模糊贴图loss、内容保存loss、锐度校准loss、对抗loss，我们将在后面讨论。λc、λS，λadv 是平衡损失各项的超参数。loss Ld定义为

LD是鉴别器损失，λD是平衡Lg和Ld的超参数。

在训练过程中，网络D、C和S根据输入域的不同对B产生不同的影响。对于具有ground truth defocus maps (Is, y)∈DS，的综合模糊图像，我们使用测量均方误差(MSE)的blur map loss LB，直接最小化y与预测defocus map B(IS)之间的差值。我们还使用网络c将内容保存损失LC最小化，以减少预测B(IS)中的模糊度。

使用带有二进制模糊maps的真实散焦图像，从域转移特征，校准锐度测量。在b的监督下，锐度校准损失LS指导网络S对预估离焦图B(IB)是否具有正确的模糊量进行分类，最终校准网络b从域转移特征估计正确的锐度。

最后，

一起使用，以最小化从合成和真实散焦图像中提取的特征之间的区域差异。对于图像IS, ground-truth域标签是合成的，而IB和IR标签是真实的。我们以对抗方式，最小化鉴别器的损失LD和对抗损失Ladv,我们训练网络D正确分类来自不同的输入特性的域,而训练网络的B来迷惑D .

剩下的这一节中,我们描述了四种网络及其相关损失详细功能。

4.2模糊估计

模糊估计网络B是DMENet的核心模块。我们采用全卷积网络(FCN)[10]，它是基于U-net架构的[26]，只做了少许改动。在初始化阶段，我们使用一个预先训练好的VGG19[31]来初始化编码器，以获得更好的特性表示。解码器使用上采样卷积代替反卷积来避免棋盘格伪影[23]。我们还在每个上采样层应用了尺度辅助损失来指导离焦图的多尺度预测。这种结构使我们的网络不仅在不同的对象scale上健壮，也要考虑具有大量接受域的全局和局部上下文。在解码器的最后一个上采样层之后，我们附加具有短跳连接的卷积块来细化自适应域特征。

我们使用均方误差(MSE)的损失函数LB估计离焦地图的整体结构和密集预测区域的模糊量。给定合成离焦图像的大小为W H, LB定义为

B (Is;θB) i, j是模糊网络B在像素(i, j)预测的模糊量，θB学习参数。yij是对应的真实离焦值。Laux是尺度辅助损失：

其中B(为;θBθaux) = (B (;θB);θaux)是输出th up-sampling级别的网络B转换为分散注意力地图由θaux小辅助网络参数化。每个辅助网络A由两个卷积层组成，其中第一层的内核数量随级别变化。λaux是一个平衡参数。wh是-th层离焦贴图的大小。y是调整为W H的离焦地图。LB是B中的上采样层数。

4.3区域适应

我们的域适应网络D比较了模糊估计网络b所捕获的真实和合成的散焦图像的特征。我们对网络D进行了对抗性训练，使得这两个域在提取特征方面具有相同的分布。原则上，D是GAN框架[7]中的一个鉴别器，但在我们的例子中，它使真实的和合成的散焦图像的特征难以区分。我们设计了四个卷积层的CNN，每个卷积层后面都有一个批处理的归一化层[11]和(ReLU)激活[36]。

分类器损失
我们首先将网络D训练成一个鉴别器，用鉴别器的损耗LD对来自合成域和实域的特征进行分类，定义为

z是一个标签指示输入特性是否来自一个真实的或合成的散焦图像,即，输入图像I是实的还是合成的;如果特征是实数，则z = 0，否则z = 1。Blast(I，θB)返回的最后up-sampling层的特征图的图像。请注意,在这里我们只训练鉴别器的参数,θD。

对抗损失
然后，我们训练网络B来最小化合成和真实散焦图像特征之间的区域差异。给出了一个真实的散焦图像IR，定义了用于域适应的对抗损失Ladv为:

我们固定参数θD,只有训练θB。

这里的主要目标是训练模糊估计网络B，使它能够处理来自同一领域的真实和合成的散焦图像。随着我们的域适应网络D作为域分类器的能力越来越强，网络B不得不为真实域和合成域生成更多不可分辨的特征，从而使提取的特征的域差最小化。

4.4内容保留

我们的模糊估计损失LB是一种MSE损失，具有产生模糊输出的性质，因为它采用的是理想目标[17]的平均值的最小值。为了减少伪影,我们使用一个内容保护损失[6]，这个损失能丢衡量在特征空间φ的距离,而不是在图像空间本身。我们将我们的内容保存网络C定义为预训练的VGG19[31]。在训练过程中，对网络B进行优化，使其最小化:

4.5清晰校准

我们的域适应网络D专注于调节提取的特征在真实和合成散焦图像之间的整体分布，它并没有特别对齐这两个域之间的特征对应的模糊量。换句话说，我们的模糊估计网络B，从合成的离焦图像，所学习的模糊量估计，不能很好地应用于真实的离焦图像，我们需要为这两种情况校准估计的模糊量。为了解决这个问题，我们的锐度校准网络S为从真实的散焦图像中获取的特征提供了额外的信息，方法是将这些特征与模糊检测数据集中可用的模糊信息进行关联，其中图像中的每个像素都被标记为锐或模糊。

对于数据集中给定的真实散焦图像，我们训练网络S根据估计模糊度的正确性对网络B的输出进行分类。只有当被估计为锐化的像素在输入图像中属于锐化区域时，预测才被认为是正确的。我们构建了1×1个卷积层的网络S，跟着是批量归一化和ReLU层，强制网络B密集估计模糊度。应用s形交叉熵损失进行优化：

其中b为ground truth二值模糊map。

我们使用1×1内核保持网络B和S的接受域相同大小。否则,随着S的接受域变得大,从S向B的梯度将传播到比B的接受域更大的区域。一个大的S的核S最终导致B生成一个污迹斑斑的散焦MAP。详见补充资料。

5实验

本节报告我们的实验，评估DMENet在生成散焦MAP方面的性能。我们首先总结我们的实验的设置,然后讨论了子网之间（,B, C, D,S）相互连接的影响。然后我们比较我们的结果和最先进的方法，在大数据集[29]和RTF数据集[4]上,紧随其后的是DMENet几个应用。评价结果的细节附在补充材料中。

5.1实验设置

训练细节
我们使用Adam[14]来优化我们的网络。网络训练批大小为4，初始学习率设定为0.0001，每20个epoch指数衰减率为0.8。我们的模型在大约60个epoch后收敛。eq(3)、(4)和(5)中的损耗系数设置为:λadv = 1 e-3，λD = 1.0,λC = 1e-4，λS = 2e-2,λaux = 1.0。

我们使用l= 4，表示在VGG19中，在第四个maxpooling 层之前的，最后一个卷积层。我们联合训练所有的网络端到端的方式在PC上，PC配有NVIDIA GeForce TITAN-Xp (12 GB)。

数据集
对于用于训练网络B (Eq. (5))， C (Eq. (9))， D (Eq.(7))的合成的离焦图像的数据集，我们使用的是SYNDOF数据集的图像。我们限制COC的最大尺寸cmax为28。对于用于区域适应的真实散焦图像数据集，我们使用了来自Flickr的2200张真实的散焦图像，和504张来自中CUHK模糊检测数据集[29]。为了清晰校准，我们也使用同样的来自CUHK数据集的504张图像来进行真实的去焦图像IB，这需要使用二进制模糊map。在训练期间，我们用随机翻转、旋转和裁剪来增加所有的图像。为了评估，我们使用了200张CUHK数据集的图像和22张RTF数据集[4]的图像，这些图像不用于训练。

5.2子网络的评估

图3显示了子网增加对从合成(上行图)和真实(下行图)图像中估计离焦图的影响。给定一个合成图像，DMENetB可以很好地估计离焦图。然而，对于真实的散焦图像，单独使用子网B进行模糊估计是失败的(图3b)，这证实了合成图像和真实散焦图像的特征之间存在显著的区域差异。通过我们的域适应，DMENetBD开始在一定程度上识别真实图像的模糊程度(图3c)，但是输出是模糊的。添加内容保存子网络(DMENetBDC)可以有效地从估计的散焦图中去除模糊，增强纹理区域的估计(图3d)。最后，通过锐度校准子网S, DMENetBDCS可以正确地对模糊或锐化区域对应的实域特征进行分类(图3f)。我们还比较了DMENetBDCS具有和不具有按比例分布的辅助损耗Laux (Eq.(6))的结果。从图3e可以看出，没有辅助模块的网络生成的散焦图不清晰、不准确。

5.3在CHUK和RTF数据集上的评估

我们将我们的结果与最先进的方法进行比较【40,30,24,13,38]。对于我们的模型，我们使用了最终的模型DMENetBDCS。为了定量地评估质量，我们计算了每种方法的准确率和召回率，在来自CHUK模糊检测数据集上的200个测试图像。由于数据集只包含基本事实的二进制模糊映射，我们将估计的散焦映射转换为二进制模糊映射。按照Park【24]的方法，二值化的阈值τ是由τ=αvmax +(1-α)vmin，其中vmax和vmin是估计散焦map中的最大和最小值，α= 0.3。

图4和图5为定量比较结果。我们的网络在accuracy上明显优于之前的方法。Precision-recall曲线也显示我们的方法的优越性，这个曲线是用不同级别的散焦计算的，不同等级是tao从vmin滑到vmax而形成不同等级的tao。

图7直观地将我们的网络生成的结果与之前的方法进行对比，证实了我们的方法的优点。首先，我们的散焦图与其他的相比，显示了更连续的模糊度光谱。在图7的第一行，随着深度的变化，我们的结果显示出更少的噪声和更平滑的过渡。其次，我们的网络对物体(如人、天空)的模糊度进行了更准确的估计，因为它被训练来考虑物体边界的coc和物体内部的地面真实模糊量的混合场景上下文。在图的第二行，我们的结果显示了一致的模糊量，同时明确尊重对象的边界。在第三行，我们的方法为盒子表面和上面的符号估计一致的模糊量，而其他一些方法由于其强大的边缘而对符号进行不同的处理。最后，我们的方法在齐次区域具有较强的鲁棒性。在第二行和第四行，我们的结果显示一些物体周围几乎没有污迹，但就相对深度而言，它们仍然是准确的。例如，天空应该比山远，这在其他方法中不一定会保留。

我们还报告了与最新的[38]方法相比的定性结果，该方法的实现尚未公布。从图6可以看出，我们的模型可以处理更大的场景深度范围。虽然我们的散焦地图包括了场景中所有深度范围内的人，但[22]的结果只处理了狭窄深度范围内的人。

另外，我们对RTF数据集[4]进行了评估，该数据集由22张真实的散焦图像和标有disc PSFs半径的地面真相散焦地图组成。对于所有考虑高斯PSF的比较方法(包括我们的)，我们使用[4]作者提供的转换函数重新调焦离焦映射，该转换函数通过测量最接近的拟合将高斯PSF映射到圆盘PSF。我们的网络显示了数据集的最新精度(表2)。更详细的评估在补充材料中。

5.4应用

散焦模糊放大

给定一个输入图像及其估计散焦map,我们可以生成一个放大离焦模糊效果的图像(图8)。我们首先估计模糊σi量,为每个像素使用DMENetBDCS j。然后,我们使用m·σi模糊每个像素,jσ高斯模糊的内核,m是放大范围在图8)(m = 8。我们使用相同的模糊算法用于生成SYNDOF数据集。离焦模糊放大结果证明了我们估计的离焦map的准确性。

All-in-focus图像生成
我们的估计散焦地图可以利用自然去模糊(图9)。估计散焦的map,我们生成一个内核每个像素的高斯模糊估计σ。然后利用超拉普拉斯[16]的非盲图像反褶积技术;为了处理空间变化的去模糊，我们对分解层进行反褶积，并合成反褶积层的图像。

从模糊中估计深度
从模糊的深度，即使没有精确的光学几何参数的存在（焦点，焦距，和光圈数量），我们可以在一个有限但常见的场景(即，焦点在深度znear或zfar)。我们使用光场数据集[8,34]来与地面真值深度图进行比较。从图10可以看出，我们估计的离焦图可以为深度图提供一个很好的近似。图10:由DMENetBDCS估计的离焦图深度。从左到右:输入，深度从我们的估计离焦地图和地面真实深度。

6. 结论

采用更精确的DOF渲染技术(如分布式光线追踪[3])和更真实的光学模型(如厚透镜或复合透镜模型)可以改善SYNDOF数据集。更系统地捕获训练图像，以覆盖更多种类的现实世界散焦图像，这也是未来工作的一个有趣方向。我们的网络最适合使用LDR图像，而强高光(即bokeh)可能不能得到妥善处理。我们计划将bokeh和HDR图像也包括在我们的SYNDOF数据集中。

Acknowledgements

我们感谢审稿人提出的建设性意见。这项工作由韩国科学和信息通信技术部通过IITP赠款(IITP-2015-0-00174)和NRF赠款(NRF- 2017M3C4A7066316, NRF- 2017m3c4a7066317)支持。它还得到了DGIST启动基金项目(2018010071)的支持。