本文 机器之心 授权  编辑:杜伟、陈萍

扩散模型不但在生成任务上非常成功,这次在目标检测任务上,更是超越了成熟的目标检测器。

扩散模型( Diffusion Model )作为深度生成模型中的新 SOTA,已然在图像生成任务中超越了原 SOTA:例如 GAN,并且在诸多应用领域都有出色的表现,如计算机视觉,NLP、分子图建模、时间序列建模等。

近日,来自香港大学的罗平团队、腾讯 AI Lab 的研究者联合提出一种新框架 DiffusionDet,将扩散模型应用于目标检测。据了解,还没有研究可以成功地将扩散模型应用于目标检测,可以说这是第一个采用扩散模型进行目标检测的工作。

DiffusionDet 的性能如何呢?在 MS-COCO 数据集上进行评估,使用 ResNet-50 作为骨干,在单一采样 step 下,DiffusionDet 实现 45.5 AP,显著优于 Faster R-CNN (40.2 AP), DETR (42.0 AP),并与 Sparse R-CNN (45.0 AP)相当。通过增加采样 step 的数量,进一步将 DiffusionDet 性能提高到 46.2 AP。此外,在 LVIS 数据集上,DiffusionDet 也表现良好,使用 swing - base 作为骨干实现了 42.1 AP。

  • 论文地址:https://arxiv.org/pdf/2211.09788.pdf

  • 项目地址 https://github.com/ShoufaChen/DiffusionDet

该研究发现在传统的目标检测里,存在一个缺陷,即它们依赖于一组固定的可学习查询。然后研究者就在思考:是否存在一种简单的方法甚至不需要可学习查询就能进行目标检测?

为了回答这一问题,本文提出了 DiffusionDet,该框架可以直接从一组随机框中检测目标,它将目标检测制定为从噪声框到目标框的去噪扩散过程。这种从 noise-to-box 的方法不需要启发式的目标先验,也不需要可学习查询,这进一步简化了目标候选,并推动了检测 pipeline 的发展。

如下图 1 所示,该研究认为 noise-to-box 范式类似于去噪扩散模型中的 noise-to-image 过程,后者是一类基于似然的模型,通过学习到的去噪模型逐步去除图像中的噪声来生成图像。

DiffusionDet 通过扩散模型解决目标检测任务,即将检测看作图像中 bounding box 位置 (中心坐标) 和大小 (宽度和高度) 空间上的生成任务。在训练阶段,将方差表(schedule)控制的高斯噪声添加到 ground truth box,得到 noisy box。然后使用这些 noisy box 从主干编码器(如 ResNet, Swin Transformer)的输出特征图中裁剪感兴趣区域(RoI)。最后,将这些 RoI 特征发送到检测解码器,该解码器被训练用来预测没有噪声的 ground truth box。在推理阶段,DiffusionDet 通过反转学习到的扩散过程生成 bounding box,它将噪声先验分布调整到 bounding box 上的学习分布。

方法概述

由于扩散模型迭代地生成数据样本,因此在推理阶段需要多次运行模型 f_θ。但是,在每一个迭代步骤中,直接在原始图像上应用 f_θ在计算上很困难。因此,研究者提出将整个模型分为两部分,即图像编码器和检测解码器,前者只运行一次以从原始输入图像 x 中提取深度特征表示,后者以该深度特征为条件,从噪声框 z_t 中逐步细化框预测。

图像编码器将原始图像作为输入,并为检测解码器提取其高级特征。研究者使用 ResNet 等卷积神经网络和 Swin 等基于 Transformer 的模型来实现 DiffusionDet。与此同时,特征金字塔网络用于为 ResNet 和 Swin 主干网络生成多尺度特征图。

检测解码器借鉴了 Sparse R-CNN,将一组 proposal 框作为输入,从图像编码器生成的特征图中裁剪 RoI 特征,并将它们发送到检测头以获得框回归和分类结果。此外,该检测解码器由 6 个级联阶段组成。

训练

在训练过程中,研究者首先构建了从真值框到噪声框的扩散过程,然后训练模型来反转这个过程。如下算法 1 提供了 DiffusionDet 训练过程的伪代码。

真值框填充。对于现代目标检测基准,感兴趣实例的数量通常因图像而异。因此,研究者首先将一些额外的框填充到原始真值框,这样所有的框被总计为一个固定的数字 N_train。他们探索了几种填充策略,例如重复现有真值框、连接随机框或图像大小的框。

框损坏。研究者将高斯噪声添加到填充的真值框。噪声尺度由如下公式(1)中的 α_t 控制,它在不同的时间步 t 中采用单调递减的余弦调度。

训练损失。检测解码器将 N_train 损坏框作为输入,预测 N_train 对类别分类和框坐标的预测。同时在 N_train 预测集上应用集预测损失(set prediction loss)。

推理

DiffusionDet 的推理过程是从噪声到目标框的去噪采样过程。从在高斯分布中采样的框开始,该模型逐步细化其预测,具体如下算法 2 所示。

采样步骤。在每个采样步骤中,将上一个采样步骤中的随机框或估计框发送到检测解码器,以预测类别分类和框坐标。在获得当前步骤的框后,采用 DDIM 来估计下一步骤的框。

框更新。为了使推理更好地与训练保持一致,研究者提出了框更新策略,通过用随机框替换非预期的框以使它们恢复。具体来说,他们首先过滤掉分数低于特定阈值的非预期的框,然后将剩余的框与从高斯分布中采样的新随机框连接起来。

一次解决(Once-for-all)。得益于随机框设计,研究者可以使用任意数量的随机框和采样步骤来评估 DiffusionDet。作为比较,以往的方法在训练和评估期间依赖于相同数量的处理框,并且检测解码器在前向传递中仅使用一次。

实验结果

在实验部分,研究者首先展示了 DiffusionDet 的 Once-for-all 属性,然后将 DiffusionDet 与以往在 MS-COCO 和 LVIS 数据集上成熟的检测器进行比较。

DiffusionDet 的主要特性在于对所有推理实例进行一次训练。一旦模型经过训练,它就可以用于更改推理中框的数量和样本步骤数,如下图 4 所示。DiffusionDet 可以通过使用更多框或 / 和更多细化步骤来实现更高的准确度,但代价是延迟率更高。因此,研究者将单个 DiffusionDet 部署到多个场景中,并在不重新训练网络的情况下获得所需的速度 - 准确率权衡。

研究者将 DiffusionDet 与以往在 MS-COCO 和 LVIS 数据集上的检测器进行了比较,具体如下表 1 所示。他们首先将 DiffusionDet 的目标检测性能与以往在 MS-COCO 上的检测器进行了比较。结果显示,没有细化步骤的 DiffusionDet 使用 ResNet-50 主干网络实现了 45.5 AP,以较大的优势超越了以往成熟的方法,如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且当主干网络的尺寸扩大时,DiffusionDet 显示出稳定的提升。

下表 2 中展示了在更具挑战性的 LVIS 数据集上的结果,可以看到,DiffusionDet 使用更多的细化步骤可以获得显著的增益。

更多实验细节请参阅原论文。

END

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

欢迎加入 GAN/扩散模型 —交流微信群 !

扫描下面二维码,添加运营小妹好友,拉你进群。发送申请时,请备注,格式为:研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

请备注格式:研究方向+地区+学校/公司+姓名

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

将扩散模型用于目标检测任务,从随机框中直接检测!相关推荐

  1. diffdock:将扩散模型用于分子对接

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 简介 一.扩散模型简介 二.方法 1. 噪声的制定与扩散 2. 去噪(打分)模型 3. 置信度模型 4. 工作流回顾 三.结 ...

  2. php活体检测,人脸门禁系统中活体检测的必要性

    人脸识别技术日趋成熟,商业化应用愈加广泛.为防止恶意者伪造或窃取他人的人脸特征用于身份认证,人脸识别系统需具备活体检测功能,以判断提交的人脸特征是否来自有生命的真实个体. 人脸识别技术日趋成熟,商业化 ...

  3. 【MATLAB】在MATLAB中利用GUI编写加法计算器,要求:通过两个编辑文本框实现两个数字的输入,点击“开始计算”按钮进行计算,并在用于结果显示的静态文本框中实现两输入数字的和的显示

    1)打开Matlab,点击工具栏上的[File]–>New–>GUI,命名为:addnum.fig  2)在addnum.fig面板里,拖曳3个静态文本TXT控件(不做任何修改).3个编辑 ...

  4. 目标检测扩散模型DiffusionDet登场,扩散模型正在不同任务中“扩散”

    原文链接:https://www.techbeat.net/article-info?id=4342 作者:seven_ 本文介绍一项来自香港大学和腾讯AI Lab的工作,该工作提出了一个新的Diff ...

  5. 扩散模型与生成模型详解

    扩散模型与其他生成模型 什么是扩散模型 扩散模型的简介 生成建模是理解自然数据分布的开创性任务之一.VAE.GAN和Flow系列模型因其实用性能而在过去几年中占据了该领域的主导地位.尽管取得了商业上的 ...

  6. 扩散模型的迁移和应用(DiffusionDet,AR-LDM,MagicVideo,RenderDiffusion,AltDiffusion,VD)

    在上一篇博文中,博主已经整理了扩散模型(Diffusion Model,DDPM,GLIDE,DALLE2,Stable Diffusion)的基本原理,后续不再赘述其细节.作为一个最近被讨论热烈的方 ...

  7. 深度学习:Diffusion Models in Vision: A Survey视觉中的扩散模型:综述

    Diffusion Models in Vision: A Survey视觉中的扩散模型:综述 0.摘要 1.概述 2.通用模型架构 2.1.Denoising Diffusion Probabili ...

  8. CVPR 2023 | 微软提出RODIN:首个3D扩散模型高质量生成效果,换装改形象一句话搞定!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[扩散模型]微信技术交流群 转载自:微软亚洲研究院 编者按:近日,由微软亚洲研究院提出的 ...

  9. 扩散模型探索:DDIM 笔记与思考

    DIFFUSION系列笔记|DDIM 数学.思考与 ppdiffuser 代码探索 论文:DENOISING DIFFUSION IMPLICIT MODELS 该 notebook 主要对 DDIM ...

最新文章

  1. 一个技术总监的忠告:精通那么多技术有毛用啊,你还不是不被重用?
  2. IE6,IE7,FF等浏览器不兼容原因及解决办法(转)
  3. Haar、pico、npd、dlib等多种人脸检测特征及算法结果比较
  4. iphone/ipod网页开发教程及规则
  5. Java Selenium - 处理页面弹出窗
  6. 特斯拉限时赠送4.6万元完全自动驾驶功能,马斯克:市值能涨1000%
  7. python编程语言-python编程语言基础知识总结
  8. PL/SQL中导出整个表、表结构、部分数据、以及导入整个表
  9. navicat和mysql有必要都装吗_MySQL基本介绍及Navicat安装
  10. Python中出现问题:ValueError: not enough values to unpack (expected x, got x)的可能汇总及解决办法
  11. RocketMQ源码分析(十五)之文件恢复
  12. Unity加载倾斜摄影模型/激光点云,开源
  13. 看的懂的scipy.sparse.csr_matrix和scipy.sparse.csc_matrix
  14. 博客奖品之 2012龙年薪途活动
  15. 编译安装redis6.2.6
  16. jQuery练习_QQ音乐播放器
  17. 武汉科技大学计算机学院廖光忠,武汉科技大学考研研究生导师简介-段宁
  18. 【毕业设计】18-基于单片机的数字直流电源设计(源代码工程+仿真工程+答辩论文+答辩PPT)
  19. Web端即时通讯之SSE
  20. 使用51单片机+lcd1602转接板-iic接口进行显示

热门文章

  1. c语言 如果 n 是素数,且 n+2 也是素数,则称为孪生素数.,算法竞赛入门经典: 第四章 函数与递归 4.3孪生素数...
  2. Go in Practice-Manning 2016(读书笔记)
  3. htc升级鸿蒙,厉害了!这4款HTC手机将升级至安卓9.0:全是U系列
  4. 聚划算加码“百亿补贴”背后,不仅仅是为了下沉
  5. 【网站国际化必备】Asp.Net MVC 集成Paypal(贝宝)快速结账 支付接口 ,附源码demo...
  6. 利用LocalBroadcastManager发送 app业内广播
  7. 网站邀请码php,简单的PHP邀请码系统
  8. git 版本管理系统
  9. CSS 实现input自定义样式--文本框
  10. 点关于直线的距离、垂足、对称点公式