【语义分割】PSPNet：Pyramid Scene Parsing Network

文章目录

一、主要思想
二、方法

一、主要思想

提出了pyramid pooling module (PPM) 模块，聚合不同区域的上下文信息，从而提高获取全局信息的能力。

现有的深度网络方法中，某一个操作的感受野直接决定了这个操作可以获得多少上下文信息，所以提升感受野可以为网络引入更多的上下文信息。

二、方法

Step1：使用global averag pooling得到不同尺度的特征，PPM模块融合了4个不同尺度的特征：

红色是最粗糙尺度，使用一个global average pooling 实现
其他的都是将特征图切分为不同数量的块，在每个块内使用global average pooling （文中四个尺度分别是 1x1, 2x2, 3x3, 6x6）

Step2：global average pooling 之后，每层都接一个1x1的卷积来降低通道维度。

Step3：上采样到和原图相同的尺寸，然后和进入PPM头之前的feature map 进行concat 来预测结果。

import torch
import torch.nn as nn
from mmcv.cnn import ConvModulefrom mmseg.ops import resize
from ..builder import HEADS
from .decode_head import BaseDecodeHead
from .Attention_layer import HardClassAttention as HCAclass PPM(nn.ModuleList):"""Pooling Pyramid Module used in PSPNet.Args:pool_scales (tuple[int]): Pooling scales used in Pooling PyramidModule.in_channels (int): Input channels.channels (int): Channels after modules, before conv_seg.conv_cfg (dict|None): Config of conv layers.norm_cfg (dict|None): Config of norm layers.act_cfg (dict): Config of activation layers.align_corners (bool): align_corners argument of F.interpolate."""def __init__(self, pool_scales, in_channels, channels, conv_cfg, norm_cfg,act_cfg, align_corners):super(PPM, self).__init__()self.pool_scales = pool_scalesself.align_corners = align_cornersself.in_channels = in_channelsself.channels = channelsself.conv_cfg = conv_cfgself.norm_cfg = norm_cfgself.act_cfg = act_cfgfor pool_scale in pool_scales:self.append(nn.Sequential(nn.AdaptiveAvgPool2d(pool_scale),ConvModule(self.in_channels,self.channels,1,conv_cfg=self.conv_cfg,norm_cfg=self.norm_cfg,act_cfg=self.act_cfg)))def forward(self, x):"""Forward function."""ppm_outs = []for ppm in self:ppm_out = ppm(x)upsampled_ppm_out = resize(ppm_out,size=x.size()[2:],mode='bilinear',align_corners=self.align_corners)ppm_outs.append(upsampled_ppm_out)return ppm_outs@HEADS.register_module()
class PSPHead(BaseDecodeHead):"""Pyramid Scene Parsing Network.This head is the implementation of`PSPNet <https://arxiv.org/abs/1612.01105>`_.Args:pool_scales (tuple[int]): Pooling scales used in Pooling PyramidModule. Default: (1, 2, 3, 6)."""def __init__(self, pool_scales=(1, 2, 3, 6), **kwargs):super(PSPHead, self).__init__(**kwargs)assert isinstance(pool_scales, (list, tuple))self.pool_scales = pool_scalesself.psp_modules = PPM(self.pool_scales,self.in_channels,self.channels,conv_cfg=self.conv_cfg,norm_cfg=self.norm_cfg,act_cfg=self.act_cfg,align_corners=self.align_corners)self.bottleneck = ConvModule(self.in_channels + len(pool_scales) * self.channels,self.channels,3,padding=1,conv_cfg=self.conv_cfg,norm_cfg=self.norm_cfg,act_cfg=self.act_cfg)def forward(self, inputs):"""Forward function."""# inputs [4, 512, 64, 128]x = self._transform_inputs(inputs) #[4, 2048, 64, 128]psp_outs = [x]  # list, len=1, psp_outs[0].shape = [4, 2048, 64, 128]# self.psp_models(x), list, len=4psp_outs.extend(self.psp_modules(x)) # len(psp_outs) = 5, psp_out[1-4].shape = [4, 512, 64, 128]psp_outs = torch.cat(psp_outs, dim=1) # [4, 4096, 64, 128]output = self.bottleneck(psp_outs)    # [4, 512, 64, 128]output = self.cls_seg(output)         # [4, 19, 64, 128]# import pdb; pdb.set_trace()return output

【语义分割】PSPNet：Pyramid Scene Parsing Network相关推荐

【论文阅读】PSPNet(Pyramid Scene Parsing Network)
用于语义分割的金字塔场景识别网络论文链接摘要该论文通过金字塔池化模块以及金字塔场景解析网络(PSPNet),通过基于不同区域的上下文信息聚合来利用全局上下文信息的能力.全局先验表示在场景解析任务 ...
场景解析--Pyramid Scene Parsing Network
Pyramid Scene Parsing Network CVPR2017 语义分割 https://github.com/hszhao/PSPNet 针对 FCN 中没有 context 信息,本 ...
Pyramid Scene Parsing Network
论文地址:https://arxiv.org/pdf/1612.01105.pdf 源码地址:https://github.com/hszhao/PSPNet 来自:Semantic Segmenta ...
【PSPnet2017】Pyramid Scene Parsing Network
Pyramid Scene Parsing Network 金字塔式场景解析网络 arXiv:1612.01105v2 [cs.CV] 27 Apr 2017 文章地址:https://arxiv.o ...
一文掌握语义分割PSPNet——证件照制作、抠图（算法原理、Pytorch实现）
目录一. 语义分割概述二. PSPNet语义分割原理和Pytorch实现 1. PSPNet算法原理 2. 环境配置 3. 训练数据集处理 4.数据预处理和加载 5. 模型构建 5. 训练三 ...
机器学习笔记： Upsampling, U-Net, Pyramid Scene Parsing Net
前言在CNN-based 的模型中,我们可能会用到downsampling 操作来减少模型参数,以及扩大感受野的效果. 下图是一个graph segmentation的例子,就先使用 downsa ...
【语义分割】DANet Dual Attention Network for Scene Segmentation
DANet(Dual Attention Network for Scene Segmentation)在语义分割领域多个数据集上取得了STOA的结果,值得大家关注. [废话两段] 由于之前没跑过语义 ...
【论文阅读--实时语义分割】BiSeNet V2: Bilateral Network with Guided Aggregation
摘要低层细节和高层语义对于语义分割任务都是必不可少的.然而,为了加快模型推理的速度,目前的方法几乎总是牺牲低级细节,这导致了相当大的精度下降.我们建议将这些空间细节和分类语义分开处理,以实现高精度和 ...
场景分割：MIT Scene Parsing 与DilatedNet 扩展卷积网络
MIT Scene Parsing Benchmark简介 Scene parsing is to segment and parse an image into different image re ...

【语义分割】PSPNet：Pyramid Scene Parsing Network

文章目录

一、主要思想

二、方法

【语义分割】PSPNet：Pyramid Scene Parsing Network相关推荐

最新文章

热门文章