Pyramid Scene Parsing Network论文解读

代码链接:https://github.com/Lextal/pspnet-pytorch

摘要:

通过金字塔池模块和所提出的金字塔场景解析网络(PSPNet),利用基于不同区域的上下文聚合来开发全局上下文信息的能力。我们的全局先验表示可以有效地在场景解析任务上产生高质量的结果,而PSPNet则为像素级预测提供了一个优越的框架。

  • 我们提出了一个金字塔场景解析网络,将困难的场景上下文特征嵌入到一个基于FCN的像素预测框架中。
  • 提出了一种基于深度监督损失的深度ResNet优化策略。即辅助损失。

总结经验:

  • 在语义分割时,缺乏收集上下文信息的能力,会增加了错误分类的机会。即:识别船和车的时候,有没有考虑到所处的环境时陆地还是海会造成不一样的识别情况。
  • 小尺寸的东西往往包含了重要的信息,大尺寸的物品可能会超过视野接收域的大小。为了提高对于非常小或非常大的对象的性能,我们应该非常注意包含不显眼类别内容的不同子区域。
  • 许多错误部分或完全与不同接受域的上下文关系和全局信息有关。
  • 接受野的大小可以大致表明我们使用上下文信息的数量。
  • CNN的实验接受域比理论的要小得多
  • 全局平均池是一种较好的全局上下文先验基线模型,常用于图像分类任务

PSP Module:

PSP Module在四个不同的金字塔尺度下融合特征。如图所示:

步骤:

  1. 通过Pooling层将特征图划分为不同的子区域,尺寸大小分别为1×1、2×2、3×3和6×6。使用函数:nn.AdaptiveAvgPool2d(output_size=(size, size))
  2. 使用1x1卷积减小维度为1/N(N为金字塔级数,即将多少个子区域)
  3. 直接通过双线性插值的上采样将低维特征图输出得到输入特征图相同大小的特征图。
  4. 将输出特征图和输入特征图进行Concat

Network Architecture:


使用一个预先训练的ResNet模型和 dilated network策略来提取特征图,即在Resnet中设置dilation达到扩张的目的。使用4层金字塔,池化内核覆盖了图像的整个部分、一半部分和一小部分。它们被融合为全局的先验。然后我们将©的最后一部分的先验与原始特征映射连接起来然后是一个卷积层,在(d)中生成最终的预测图。

辅助损失:(暂时没有看懂原因)

除了使用softmax损失来训练最终分类器的主分支外,在第四阶段之后还应用了另一个分类器,即res4b22残差块。让两个损失函数通过之前的所有层。辅助损失有助于优化学习过程,而主分支损失承担的责任最大。我们增加了权重来平衡辅助性的损失。

代码:

import torch
from torch import nn
from torch.nn import functional as Fimport extractorsclass PSPModule(nn.Module):def __init__(self, features, out_features=1024, sizes=(1, 2, 3, 6)):super().__init__()self.stages = []self.stages = nn.ModuleList([self._make_stage(features, size) for size in sizes])self.bottleneck = nn.Conv2d(features * (len(sizes) + 1), out_features, kernel_size=1)self.relu = nn.ReLU()def _make_stage(self, features, size):prior = nn.AdaptiveAvgPool2d(output_size=(size, size))conv = nn.Conv2d(features, features, kernel_size=1, bias=False)return nn.Sequential(prior, conv)def forward(self, feats):h, w = feats.size(2), feats.size(3)priors = [F.upsample(input=stage(feats), size=(h, w), mode='bilinear') for stage in self.stages] + [feats]bottle = self.bottleneck(torch.cat(priors, 1))return self.relu(bottle)class PSPUpsample(nn.Module):def __init__(self, in_channels, out_channels):super().__init__()self.conv = nn.Sequential(nn.Conv2d(in_channels, out_channels, 3, padding=1),nn.BatchNorm2d(out_channels),nn.PReLU())def forward(self, x):h, w = 2 * x.size(2), 2 * x.size(3)p = F.upsample(input=x, size=(h, w), mode='bilinear')return self.conv(p)class PSPNet(nn.Module):def __init__(self, n_classes=18, sizes=(1, 2, 3, 6), psp_size=2048, deep_features_size=1024, backend='resnet34',pretrained=False):super().__init__()self.feats = getattr(extractors, backend)(pretrained)self.psp = PSPModule(psp_size, 1024, sizes)self.drop_1 = nn.Dropout2d(p=0.3)self.up_1 = PSPUpsample(1024, 256)self.up_2 = PSPUpsample(256, 64)self.up_3 = PSPUpsample(64, 64)self.drop_2 = nn.Dropout2d(p=0.15)self.final = nn.Sequential(nn.Conv2d(64, n_classes, kernel_size=1),nn.LogSoftmax())self.classifier = nn.Sequential(nn.Linear(deep_features_size, 256),nn.ReLU(),nn.Linear(256, n_classes))def forward(self, x):f, class_f = self.feats(x) p = self.psp(f)p = self.drop_1(p)p = self.up_1(p)p = self.drop_2(p)p = self.up_2(p)p = self.drop_2(p)p = self.up_3(p)p = self.drop_2(p)auxiliary = F.adaptive_max_pool2d(input=class_f, output_size=(1, 1)).view(-1, class_f.size(1))return self.final(p), self.classifier(auxiliary)models = {'squeezenet': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=512, deep_features_size=256, backend='squeezenet'),'densenet': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=1024, deep_features_size=512, backend='densenet'),'resnet18': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=512, deep_features_size=256, backend='resnet18'),'resnet34': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=512, deep_features_size=256, backend='resnet34'),'resnet50': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=2048, deep_features_size=1024, backend='resnet50'),'resnet101': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=2048, deep_features_size=1024, backend='resnet101'),'resnet152': lambda: PSPNet(sizes=(1, 2, 3, 6), psp_size=2048, deep_features_size=1024, backend='resnet152')
}def build_network( backend):epoch = 0backend = backend.lower()net = models[backend]()#net = nn.DataParallel(net)#net = net.cuda()return netif __name__ == '__main__':net = build_network('resnet34')input = torch.empty((1,3,512,512))label = torch.empty(1)out, out_cls = net(input)

PSPNet: Pyramid Scene Parsing Network论文解读相关推荐

  1. 【论文阅读】PSPNet(Pyramid Scene Parsing Network)

    用于语义分割的金字塔场景识别网络 论文链接 摘要 该论文通过金字塔池化模块以及金字塔场景解析网络(PSPNet),通过基于不同区域的上下文信息聚合来利用全局上下文信息的能力.全局先验表示在场景解析任务 ...

  2. 【语义分割】PSPNet:Pyramid Scene Parsing Network

    文章目录 一.主要思想 二.方法 一.主要思想 提出了pyramid pooling module (PPM) 模块,聚合不同区域的上下文信息,从而提高获取全局信息的能力. 现有的深度网络方法中,某一 ...

  3. Pyramid Scene Parsing Network

    论文地址:https://arxiv.org/pdf/1612.01105.pdf 源码地址:https://github.com/hszhao/PSPNet 来自:Semantic Segmenta ...

  4. 场景解析--Pyramid Scene Parsing Network

    Pyramid Scene Parsing Network CVPR2017 语义分割 https://github.com/hszhao/PSPNet 针对 FCN 中没有 context 信息,本 ...

  5. 【PSPnet2017】Pyramid Scene Parsing Network

    Pyramid Scene Parsing Network 金字塔式场景解析网络 arXiv:1612.01105v2 [cs.CV] 27 Apr 2017 文章地址:https://arxiv.o ...

  6. 机器学习笔记: Upsampling, U-Net, Pyramid Scene Parsing Net

    前言 在CNN-based 的 模型中,我们可能会用到downsampling 操作来减少模型参数,以及扩大感受野的效果. 下图是一个graph segmentation的例子,就先使用 downsa ...

  7. CTR深度学习模型之 DSIN(Deep Session Interest Network) 论文解读

    之前的文章讲解了DIEN模型:CTR深度学习模型之 DIEN(Deep Interest Evolution Network) 的理解与示例,而这篇文章要讲的是DSIN模型,它与DIEN一样都从用户历 ...

  8. 特征交互新路线|阿里 Co-action Network论文解读

    最近看到阿里的新工作在公众号上突然流行起来,自己也没忍住去认真拜读了一下,确实是好文.按照自己的理解对论文做了粗浅的解读. 这篇文章主要介绍周国睿大佬的新工作:CAN: Revisiting Feat ...

  9. 《Strip Pooling:Rethinking Spatial Pooling for Scene Parsing》论文笔记

    代码地址:SPNet 1. 概述 导读:池化操作是在逐像素预测任务中获取较大感受野范围较为高效的做法,传统一般采取N∗NN*NN∗N的正规矩形区域进行池化,在这篇文章中引入了一种新的池化策略,就是使用 ...

  10. Deformable Convolutional Network论文解读

    卷积神经网络由于固定的几何结构一直受限于对几何形变的建模,这篇工作引入了两个新模块--deformable convolution和deformable RoI pooling.deformable ...

最新文章

  1. MULLS:一种基于多尺度线性最小二乘的激光SLAM算法
  2. css 命名规范 BEM
  3. mysql创建全外连接的视图_MySQL之视图
  4. Android 工程引入自定义Library后,工程无法识别Library中的类
  5. java socket 消息中转,Java中Socket实现消息传输(传输原型)
  6. 12.PHP-FPM
  7. dpdk X710 VF reset
  8. QT写的U盘批量复制小工具
  9. nonebot2插件之主持飞花令
  10. C语言判断关系R是否为自反关系
  11. 大部分Python库
  12. 未来无生经超级计算机,第三十二章 有些鸡肋的未来无生经
  13. 山东罕见姓氏百家姓都没有,翻家谱竟是皇室后裔,专家:是真的
  14. 2018年电子设计大赛主要元器件、模块资料汇总
  15. android中出现javax.net.ssl.SSLPeerUnverifiedException
  16. format格式化输出
  17. altera系列fifo和ram
  18. prepay id为空php,微信公众号支付踩坑笔记
  19. vue 判断两对象是否一致_判断两个对象的值是否相等
  20. 【Java】云E办项目后端技术栈整合及代码阅读

热门文章

  1. 一键AI绘画-生成自己想要生成的图片(你懂的)。
  2. 上海仰邦BX-5K1,BX-5K2系列板卡加入定时开关指令后死机现象及解决方案
  3. c语言程序实验报告范文,C语言实验报告范文
  4. 迅雷mac版精简教程
  5. (转)iOS 集成支付宝、微信、银联支付 (2017)
  6. c语言图形显示功能,C语言图形编程(二、图形显示).doc
  7. 下载JDK8 JVM源码
  8. GPS定位+经纬度定位
  9. html jquery图片轮播代码,jQuery实现图片轮播效果代码,jquery实现代码
  10. Sybase的安装、配置及使用(五)