论文题目:CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

网址:https://arxiv.org/pdf/1802.10062.pdf

CVPR2018

主要观点:

1。MCNN的多列设计没有显著作用:

以前的拥挤场景分析工作主要基于multi-scale architectures.他们在该领域取得了很高的性能,但是当网络变得更深时,它们使用的设计也带来了两个显著的缺点:大量的训练时间和无效的分支结构(例如:MCNN),本文设计了一个实验来证明mcnn与表1中更深入的常规网络相比表现不佳。

如我们先前所知,MCNN的每列专用于某一级别的拥塞场景。但是,使用MCNN的有效性可能并不突出。论文在图2中展示了MCNN中三个独立列(代表大,中,小的感受野)所学习的特征,并用ShanghaiTech PartA数据集进行评估。该图中的三条曲线与具有不同拥塞密度的50个测试案例共享非常相似的模式(估计的错误率),这意味着这种分支结构中的每个列学习几乎相同的特征。它违背了MCNN设计的初衷,用于学习每列的不同功能。

2。膨胀卷积优于反卷积

已经在分割任务中证明了膨胀卷积层,其精度得到显著提高,并且它是池化层的良好替代方案。尽管池化层(例如,最大和平均池化)被广泛用于维持不变性和控制过度拟合,但是它们还显著地降低了空间分辨率,这意味着丢失了特征映射的空间信息。反卷积层可以减轻信息的丢失,但额外的复杂性和执行延迟可能并不适合所有的情况,膨胀卷积是一个更好的选择,它使用稀疏内核来交替汇集和卷积层。其在不增加参数数量(或计算量)的情况下扩大了感受野(例如,添加更多卷积层可以产生更大的感受野但引入更多操作)。

为了保持特征图的分辨率,与使用卷积+池化+反卷积的方案相比,膨胀卷积显示出明显的优点,我们在图4中选择一个例子用于说明,输入是人群的图像,并且它分别通过两种方式处理以产生具有相同大小的输出。

在第一种方法中,输入由具有因子2的最大池化层进行下采样,然后将其传递到具有3×3 sobel内核的卷积层。由于生成的特征图是原始输入的1/2,因此需要对其进行上采样。

在另一种方法中,我们尝试膨胀卷积并使用相同的3×3sobel内核,同时具有因子=2步幅的膨胀内核。输出与输入共享相同的维度。最重要的是,膨胀卷积的输出包含更详细的信息

CSRNet以VGG-16为前端,具有很强的迁移学习能力。VGG的输出大小是原始输入大小的1/8。CSRNet还在后端使用膨胀的卷积层。

什么是膨胀的卷积?可以参考以下图像

使用膨胀卷积的基本概念是在不增加参数的情况下扩大核,所以,如果膨胀率是1,我们取核并将它转到整个图像上。然而,如果我们将扩展率提高到2,内核就会像上面的图像所示的那样扩展(按照每个图像下面的标签),它可以替代汇集图层。

背后原理:

假设我们有一个输入x(m,n),一个滤波器w(i,j),以及膨胀率r。输出为y(m,n):

我们可以用(k*k)核推广这个方程,其扩张率为r.内核扩展到:

因此,每一幅图像都产生了一个对应的特征图。在给定的图像中,每个人的头部都是用高斯核模糊的。所有的图像都被裁剪成9个补丁,每个补丁的大小是图像原始大小的1/4。其中,前4个补丁分为四个1/4,其他5个补丁随机裁剪。最后,每个补丁的镜像被取为训练集的两倍。

简而言之,这就是CSRNet背后的体系结构细节。

下面我们来看下其训练细节(含评估指标)。

训练采用了随机梯度下降法,在训练期间,固定学习率设置为le-6,损失函数被认为是欧几里德距离,以便测量真实标注与网络预测之间的误差

其中N是训练批次的大小(batch?).CSRNet中使用的评估标准是mae和mse.即平均误差和均方误差。其计算公式为:

其中,C_i是网络预测值,网络的预测值本质是一个维度为M*N的矩阵Z(可以理解为密度图),则C_i的计算公式为:

网络模型将首先预测给定图像的密度图。如果没有人在场,网络预测矩阵(密度图)元素值的和为0。

CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scen 论文阅读相关推荐

  1. CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes2018—论文笔记

    本论文来自CVPR2018, 读于20190409. Abstract 我们提出的Congested Scene Recognition(CSRNet)包含了两个部分,一个是获得二维特征的前端,一个是 ...

  2. 人群密度估计--CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes CVPR2018 ...

  3. 论文学习笔记:CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    CSRNet是2018年提出来的人群计数模型,其论文发表于CVPR会议. 论文链接:CSRNet Abstract 摘要 我们提出了一个拥挤场景识别网络CSRNet,它提供了一种数据驱动的深度学习方法 ...

  4. 论文解读 CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    abstract 1.提出CSRNet是为了处理非常密集的场景,提供准确的计数和密度图 2.提出的CSRNet主要两部分组成:提取二维特征的CNN做前端,膨胀的CNN做后端,膨胀的卷积核是为了获得更大 ...

  5. CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    本文首先针对MCNN,提出了其两个缺点:大量的训练时间和无效的分支架构. MCNN由于使用了多列网络,参数比较多,需要训练时间长容易理解.可是作者为什么说MCNN的多列是"无效的分支&quo ...

  6. 2018_Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes

    Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes 说明 概括 一. ...

  7. CRSNet: Dilated Convolutional Neural Networks for Underatanding the Highly Congested Scenes

    CRSNet: Dilated Convolutional Neural Networks for Underatanding the Highly Congested Scenes 针对复杂场景拥挤 ...

  8. 人群计数:CSRNet-Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

    (鉴于有朋友提到模型去哪里下载的问题,这里多加一句) CSRNet 官方GitHub地址:https://github.com/leeyeehoo/CSRNet-pytorch 这里面包括代码和训练好 ...

  9. DEEPCON: protein contact prediction using dilated convolutional neural networks with dropout

    今天真的要开始正式进入科研状态了,之前一直都进入失败,咳!那就先来看一篇相关领域的论文吧 ---------------------------------------------- 题目:DEEPC ...

  10. 有效感受野--Understanding the Effective Receptive Field in Deep Convolutional Neural Networks

    Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 本文主要分析了 ...

最新文章

  1. FreeRTOS(三)——资源管理
  2. tableau双折线图_Tableau可视化之多变条形图
  3. 利用闭包实现onclick事件传递参数
  4. 使用ajax获取用户所在地的天气
  5. e5cc温控仪通讯参数设定_自动化工程师:施耐德 PLC常见两种编程通讯控制实例,收好不谢...
  6. CSS3图片动画展示----心跳
  7. 软件工程小学期经历part1
  8. Redis高可用方案:sentinel(哨兵模式)以及springboot整合sentinel模式
  9. 仿网易云音乐html代码,HTML作业-仿网易云音乐项目
  10. 作品展作品延伸——代码
  11. 微软enchange服务器安装,Exchange 2010 图文安装详解
  12. RGB图像点落入色度图上的算法
  13. linux 系统上开启uRPF
  14. IIS Express配置使通过IP访问
  15. synchronized锁升级之轻量级锁
  16. 金仓数据库KingbaseES使用ksql连接认证失败
  17. 【雕爷学编程】Arduino动手做(46)---电阻应变片传感器
  18. GGNMOS ESD保护器件
  19. 关于ROM版本的解释,ROM版本ROM测试到底是什么
  20. json 的几种格式

热门文章

  1. 淘宝店铺用ps+dw装修的步骤
  2. python百度地图热力图_利用百度地图API绘制微信好友分布热力图
  3. 小卡,功能强大– M.2格式的工业通讯
  4. 【安全篇 / 反病毒】(5.6) ❀ 01. 反病毒的基本配置 ❀ FortiGate 防火墙
  5. 科学万能科计算机科学万能计算机,万能科学计算器CalcES v5.0.5脱壳专业会员版...
  6. 2017中国十大富豪排行榜
  7. iOS开发:上架的App生成二维码下载的方法
  8. GEE学习笔记 七十七:GEE学习方法简介
  9. 如何解决Win10应用商店代码:0x80131500错误
  10. 金彩教育:店铺运营怎么看数据