点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:咚咚学AI

论文标题:LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS

论文地址:https://arxiv.org/abs/2112.03126.

论文代码:https://github.com/yandex-research/ddpm-segmentation

摘要

  1. 背景介绍:去噪扩散概率模型DDPM最近受到了很多研究关注,因为它们优于其他方法,如GAN,并且目前提供了最先进的生成性能。差分融合模型的优异性能使其在修复、超分辨率和语义编辑等应用中成为一个很有吸引力的工具。

  2. 研究方法:作者为了证明扩散模型也可以作为语义分割的工具,特别是在标记数据稀缺的情况下。对于几个预先训练的扩散模型,作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。结果表明这些激活有效地从输入图像中捕获语义信息,并且似乎是分割问题的出色像素级表示。基于这些观察结果,作者描述了一种简单的分割方法,即使只提供了少量的训练图像也可以使用。

  3. 实验结果:提出的算法在多个数据集上显著优于现有的替代方法。

算法

首先,简要概述DDPM框架。然后,我们描述了如何使用DDPM提取特征,并研究这些特征可能捕获的语义信息。

背景: 扩散模型逐渐降低噪声从到来吧噪声∼N(0,I)传递给数据样本,从而得到了一个正向扩散过程:

重要的是,噪声样本可以直接从数据中获得的:

预训练DDPM近似于一个反向过程:

实际上,噪声预测网络不是预测 方程(3)中分布的平均值,而是预测步骤t处的噪声分量;然后,平均值是该噪声分量与的线性组合。协方差预测器θ(,)可以是固定的标量协方差集,也可以是学习的(后者被证明可以提高模型质量(Nichol,2021))。

特征提取: 对于给定的真实图像,可以从噪声预测网络计算激活张量的集合T。一个时间步长t的总体方案如图1所示。

首先,通过根据方程(2)添加高斯噪声来破坏。噪声作为由UNet模型参数化的θ(xt,t)的输入。然后使用双线性插值将UNet的中间激活上采样到H×W。

表征分析

作者分析了噪声预测器θ(xt,t)对不同 t 产生的表示。考虑了在LSUN Horse和FFHQ-256数据集上训练的最先进的DDPM  checkpoints。

来自噪声预测器的中间激活捕获语义信息:对于这个实验,从LSUN Horse和FFHQ数据集中获取了一些图像,并分别手动将每个像素分配给21和34个语义类中的一个。目标是了解DDPM生成的像素级表示是否有效地捕获了有关语义的信息。为此,训练多层感知器(MLP),以根据特定扩散步骤t上18个UNet解码器块中的一个生成的特征来预测像素语义标签。请注意,只考虑解码器激活图,因为它们还通过跳跃连接聚合编码器激活图。MLP在20张图片上接受训练,并在20张图片上进行评估。预测性能以平均IoU衡量。

图2显示了不同解码块和扩散步骤t的预测性能演变。解码块从深到浅依次编号。图2显示了噪声预测器θ(xt,t)产生特征的IoU随不同的块和扩散步骤而变化。特别是,对应于反向扩散过程后续步骤的特征通常更有效地捕获语义信息。相比之下,早期步骤相对应的特征通常没有什么信息。在不同的解码块中,UNet解码器中间层产生的特征似乎是所有扩散步骤中信息最丰富的。

此外,根据标注数据集中的目标的平均面积分别考虑小型和大型语义类。然后,独立评估不同UNet解码块和扩散步骤中这些类的平均IoU。LSUN Horse的结果如图3所示。正如预期的那样,在相反的过程中,大型对象的预测性能开始提前增长。对于较小的对象,浅层解码块的信息量更大,而对于较大的对象,深层解码块的信息更大。在这两种情况下,最有区别的特征仍然对应于中间块

图4显示了由FFHQ  checkpoint从扩散步骤{50,200,400,600,800}的解码块{6,8,10,12}中提取的特征形成的k-means聚类(k=5),并确认聚类可以跨越连贯的语义对象和对象部分。在块B=6中,特征对应于粗糙的语义掩码。在另一个极端,B=12的特征可以区分细粒度的面部部位,但对于粗碎片来说,语义意义较小。在不同的扩散步骤中,最有意义的特征对应于后面的步骤。

将这种行为归因于这样一个事实,即在反向过程的早期步骤中,DDPM样本的全局结构尚未出现,因此,在这个阶段几乎不可能预测分段掩码。图4中的掩码定性地证实了这种直觉。对于t=800,掩码很难反映实际图像的内容,而对于较小的t值,掩码和图像在语义上是一致的。

基于DDPM的few-shot语义分割

上述观察到的中间DDPM激活的潜在有效性表明,它们可以被用作密集预测任务的图像表示。图1展示了整体图像分割方法,该方法利用了这些代表的可辨别性。更详细地说,当存在大量未标记图像{X1,…,XN}⊂时,考虑了few-shot半监督设置。

第一步,以无监督的方式对整个{X1,…,XN}训练扩散模型。然后使用该扩散模型提取标记图像的像素级表示。在本工作中,使用UNet解码器中间块B={5,6,7,8,12}的表示,以及反向扩散过程的步骤t={50,150,250}。

实验

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

图像分割交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-图像分割 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

ICLR 2022 | 基于扩散模型(DDPM)的语义分割相关推荐

  1. 从DDPM到GLIDE:基于扩散模型的图像生成算法进展

    前几天,OpenAI在Arxiv上挂出来了他们最新最强的文本-图像生成GLIDE [1],如头图所示,GLIDE能生成非常真实的结果.GLIDE并非基于对抗生成网络或是VQ-VAE类模型所设计,而是采 ...

  2. 李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)

    文章目录 一. 前言 1.1 DALL·E简介 1.2 DALL·E2简介 1.3 文生图模型进展 二. 引言 2.1 摘要 2.2 引言&模型结构 三. 算法铺垫 3.1 GANs 3.2 ...

  3. AI绘画能力的起源:通俗理解VAE、扩散模型DDPM、DETR、ViT/Swin transformer

    前言 2018年我写过一篇博客,叫:<一文读懂目标检测:R-CNN.Fast R-CNN.Faster R-CNN.YOLO.SSD>,该文相当于梳理了2019年之前CV领域的典型视觉模型 ...

  4. 深度学习(二十五)基于Mutil-Scale CNN的图片语义分割、法向量估计-ICCV 2015

    基于Mutil-Scale CNN的图片语义分割.法向量估计 原文地址:http://blog.csdn.net/hjimce/article/details/50443995 作者:hjimce 一 ...

  5. TorchSeg—基于PyTorch的快速模块化语义分割开源库

    点击我爱计算机视觉标星,更快获取CVML新技术 昨日,语义分割算法DFN.BiSeNet 第一作者ycszen开源了TorchSeg项目,基于PyTorch的快速模块化语义分割开源库,复现了DFN, ...

  6. 深度学习(二十五)基于Mutil-Scale CNN的图片语义分割、法向量估计

    基于Mutil-Scale CNN的图片语义分割.法向量估计 原文地址:http://blog.csdn.net/hjimce/article/details/50443995 作者:hjimce 一 ...

  7. CV | Feature Space Optimization for Semantic Video Segmentation - 基于特征空间优化的视频语义分割

    前言:今天分享的这一篇文章是CVPR2016有关视频语义分割方向的,最近才开始学习语义分割相关的文献,有理解偏差的希望大家可以指正. 语义分割 在维基百科上面没有直接定义,但从字面上就可以理解,就是将 ...

  8. SAFNet 基于相似性感知的三维语义分割融合网络

    SAFNet 基于相似性感知的三维语义分割融合网络 论文 Similarity-Aware Fusion Network for 3D Semantic Segmentation IROS 2021 ...

  9. 【ICLR 2023】详细解读DiffEdit:基于扩散模型的图像编辑革命性成果

    Diffusion Models专栏文章汇总:入门与实战 前言:ICLR 2023的第一轮rebuttal已经放榜,这次的ICLR出现了非常多的diffusion models论文,很多工作都非常有创 ...

最新文章

  1. 机器学习01-定义、线性回归、梯度下降
  2. python 使用sqlite3
  3. html多个盒子重叠浮动,如何让浮动后的多个盒子水平居中
  4. vue-provide/inject轻松实现跨级访问祖先组件
  5. 性能测试在软件测试中的位置,性能测试的响应时间,你真的算对了吗?
  6. SpringBoot邮件服务
  7. UIImage 图片处理:截图,缩放,设定大小,存储
  8. linux 查看libevent 安装目录,关于Linux下libevent库的基础安装和使用
  9. python:TypeError: ‘dict_keys‘ object does not support indexing
  10. c函数 postgres_发个C语言连接Postgresql程序
  11. 火山安卓简单分组列表框
  12. visio2016 数据库模型图_数据库相关术语整理
  13. xml.html一键解密工具,华为配置加解密工具
  14. easyexcle 设置列宽_在excel中,如何让excel的列宽自动调整
  15. Python 爬取蜂鸟网的照片
  16. 人脸识别活体检测sdk 百度 python_Python百度人脸识别SDK的使用
  17. php怎样给搜索框加放大镜,Win10系统给小娜搜索框添加放大镜和箭头图标的方法...
  18. 【121期】面试官:什么是熔断?什么是服务降级?
  19. python word转pdf linux_Linux下使用LibreOffice+python将doc/docx/wps格式的文档转成html/txt/docx等格式...
  20. 诚之和:3个月亏17亿,贝壳释放了什么信号?

热门文章

  1. flarum回到顶部
  2. Vue 电商项目学习
  3. node脚本使excel转json
  4. 闭式系统蒸汽管径推荐速度_闭式蒸汽供热系统
  5. 几百款经典小游戏,有你的童年吗?
  6. Java:字符串中a出现的次数
  7. Linux oracle 数据导出导入步骤:
  8. 基于BS结构的高校学生就业信息系统设计与实现
  9. 29个网络营销必须知道的数据
  10. 电源完整性仿真流程梳理