改进YOLOv3 | IA-YOLO让恶劣天气的目标检测起飞了!!!

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨ChaucerG

来源丨集智书童

虽然基于深度学习的目标检测方法在传统数据集上取得了良好的效果，但在恶劣天气条件下从低质量图像中定位目标仍然具有挑战性。现有的方法要么难以平衡图像增强和目标检测任务，要么往往忽略有利于检测的潜在信息。

为了缓解这一问题，本文提出了一种新的图像自适应YOLO (IA-YOLO)框架，可以对每张图像进行自适应增强，以提高检测性能。针对YOLO探测器的恶劣天气条件，提出了一种可微分的图像处理(DIP)模块，并利用小型卷积神经网络(CNN-PP)对其参数进行预测。

IA-YOLO以端到端的方式学习CNN-PP和YOLOv3，这确保CNN-PP可以学习适当的DIP，以弱监督的方式增强图像进行检测。

本文提出的IA-YOLO方法可以在正常和恶劣天气条件下自适应处理图像。实验结果证明了IAYOLO方法在雾天和弱光情况下的有效性。

1所提方法

在恶劣天气条件下拍摄的图像，由于特定天气信息的干扰，能见度较差，导致目标检测困难。为了解决这一挑战，本文提出了一种图像自适应检测框架，通过去除特定天气信息并揭示更多潜在信息。如图2所示，整个管道由一个基于cnn的参数预测器(CNNPP)、一个可微分图像处理模块(DIP)和一个检测网络组成。首先调整输入图像的大小为256x256，并将其输入到CNN-PP，以预测DIP的参数。然后，将经过DIP模块滤波后的图像作为YOLOv3检测器的输入。作者提出了一种端到端的混合数据训练方案，该方案具有检测损失，使CNN-PP能够学习适当的DIP，以弱监督方式增强图像的目标检测。

DIP Module

图像滤波器的设计应遵循可微性、分辨率独立的原则。对于基于梯度的CNN-PP优化，滤波器应该是可微的，以允许通过反向传播训练网络。由于CNN在处理高分辨率图像(如4000×3000)时会消耗大量的计算资源，所以在本文中，从下采样的大小为256×256的低分辨率图像中学习滤波器参数，然后将相同的滤波器应用到原始分辨率的图像中。因此，这些过滤器需要独立于图像分辨率。

我们提出的DIP模块由六个可微滤波器组成，具有可调超参数，包括Defog、White Balance(WB)、Gamma、Contrast、Tone和Sharpen。标准的颜色和色调操作符，如WB、Gamma、Contrast和Tone，可以表示为像素级滤波器。因此，设计的滤波器可以分为雾化、像素化和锐化。在这些滤波器中，除雾滤波器是专门为大雾场景设计的。具体情况如下。

1、像素级滤波器

像素级滤波器映射一个输入像素值转换为输出像素值，其中分别表示红、绿、蓝三个颜色通道的值。表1列出了四个像素级过滤器的映射函数，其中第二列列出了在本文的方法中要优化的参数。WB和Gamma是简单的乘法和功率变换。显然，它们的映射函数对于输入图像和参数都是可微的。

设计了可微对比度滤波器，输入参数设置原始图像和完全增强图像之间的线性插值。所示表1，映射函数中的定义如下:

这里将tone 滤波器设计为一个单调的分段线性函数。用参数学习tone 滤波器，用表示，tone 曲线的点记为，其中。此外，映射函数用可微参数表示，这使得函数对于输入图像和参数都是可微的，如下所示

2、锐化滤波器

图像锐化可以突出图像的细节。就像未锐化掩模技术(Polesel, Ramponi, and Mathews 2000)，锐化过程可以描述如下:

其中为输入图像，为高斯滤波器，λ为正缩放因子。这个锐化操作对于和λ都是可微的。注意，锐化程度可以通过优化λ调优目标检测性能。

3、除雾滤波器

基于暗通道先验方法设计了一个具有可学习参数的除雾滤波器。基于大气散射模型，朦胧图像的形成可以表述为:

其中为雾天图像，为场景亮度。A为全球大气光，为介质透射图，定义为:

其中β为大气的散射系数，为场景深度。

为了恢复干净图像，关键是获取大气光A和透射图。为此，首先计算暗通道图，并选择最亮的1000个像素。然后，对雾霾图像的1000个像素平均估计A。

根据上式，可以推导出的近似解如下：

进一步介绍一个参数除雾程度控制方法如下:

由于上面的操作是可微的，可以优化通过反向传播使除雾滤波器更有利于雾天图像的检测。

CNN-PP Module

在相机图像信号处理(ISP)管道中，通常使用一些可调滤波器进行图像增强，其超参数由经验丰富的工程师通过视觉检查手动调整。

通常，这样的调优过程是非常笨拙和昂贵的，以找到合适的参数，广泛的场景。为了解决这一局限性，建议使用一个较小的CNN作为参数预测器来估计超参数，这是非常有效的。

以雾天场景为例，CNN-PP的目的是通过了解图像的全局内容，如亮度、颜色和色调以及雾的程度来预测DIP的参数。因此，下采样图像足以估计这些信息，可以大大节省计算成本。对于任意分辨率的输入图像，我们简单地使用双线性插值将其采样到256×256分辨率。如图2所示，CNN-PP网络由5个卷积块和2个全连接层组成。

每个卷积块包括一个带有stride=2的3 × 3卷积层和一个LeakyRelu。最后的全连接层输出DIP模块的超参数。这5个卷积层的输出通道分别为16、32、32、32和32。的当参数总数为15时，CNN-PP模型只包含165K个参数。

Detection Network Module

在本文中，选择one-stage检测器YOLOv3作为检测网络。与之前的版本相比，YOLOv3基于ResNet的思想设计了darknet-53，由连续的3×3和1×1卷积层组成。通过对多尺度特征图进行预测，实现多尺度训练，从而进一步提高检测精度，特别是对小目标的检测精度。采用了与原来相同的网络结构和损失函数。

Hybrid Data Training

为了在正常和恶劣天气条件下都能达到理想的检测性能，采用了IA-YOLO混合数据训练方案。算法1总结了提出方法的训练过程。

在输入到网络进行训练之前，每一幅图像都有2/3的概率被随机添加某种雾或被转换为微光图像。无论是普通的还是合成的低质量训练数据，整个过程都是端到端训练，使用YOLOv3检测损失，确保IA-YOLO中的所有模块都可以相互适应。

因此，CNN-PP模块在不手动标注GT真实图像的情况下，受到检测损失的弱监督。混合数据训练模式确保IA-YOLO可以根据每张图像的内容自适应处理图像，从而实现较高的检测性能。

2实验

指标如下：

可视化结果

3参考

[1].Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~