1.文章简介

本次介绍的是一篇2021年发表的名为《ConvolutionalNeural Network for Crowd Counting on Metro Platforms》的有关计算机视觉的文章

2.摘要

随着城市轨道交通的使用增加,地铁站台上的客流在高峰期往往会急剧增加,出于安全原因,监控这些地区的客流非常重要。为了解决地铁站台客流检测问题,文章提出了一种基于卷积神经网络的网络,称为MP(Metro Platform)-CNN,以准确统计地铁站台上的人数。

该方法由三个主要部分组成:

1. 前端使用一组卷积神经网络提取图像特征

2. 多尺度特征提取模块用于增强多尺度特征

3. 转置卷积用于上采样以生成高质量密度图

由于现有的人群统计数据集不能满足文章研究所需,因此,我们从地铁站台的监控视频中收集图像,形成包含627幅图像的数据集,其中有9243个带注释的头部。大量实验结果表明,该方法在自建数据集上表现良好,估计误差最小。

3.模型

模型结构

文章使用VGG-16的前13层作为特征提取的前端网络,并且只有一个3 × 3卷积核。选择VGG作为前端有两个原因:

一方面,它具有优秀的特征提取能力和对分类任务较强的迁移学习能力;

另一方面,VGG具有灵活的架构,这使得连接到后端网络以生成密度图变得容易。

经过前端网络中的一系列卷积层和汇集层,输出特征图的大小是原始输入的1/8。

如果继续叠加更多的卷积图层和汇集图层,输出要素图的大小可以进一步缩小,生成高质量的密度图变得困难。因此,在前端处理后,文章引入了MFEM,它可以在保持输出密度图分辨率的同时提取更深层次的信息。本模块中使用了下图中(b)所示的扩张卷积:

由于在特征提取过程中对图像进行下采样,输出特征的分辨率降低,并且丢失了相当多的细节,所以为了获得高分辨率密度图,文章使用一组转置卷积在MFEM后对图像进行上采样。转置卷积不是普通卷积的完全逆过程,而是特殊卷积。首先通过按照一定的比例用0填充图像来扩展图像大小。然后旋转卷积核,并执行正向卷积,如上图(c)所示。与以前的方法不同,文章选择了一种可学习的换位卷积,而不是双线性插值算法进行上采样。转置卷积不同于双线性插值,它有可以学习的参数,这意味着它可以比双线性插值学习更多的特征。

转置卷积层用于恢复图像的空间分辨率。每个转置的卷积图层都会使feature map的大小加倍,与之前的max-pooling层相对应。网络中使用三个转置卷积层来生成与输入图像大小相同的高分辨率密度图。这提供了详细的空间信息,以便在训练模型时促进特征学习。

多尺度特征提取模块(MFEM)

由于地铁站台上候车乘客的复杂分布、摄像头的视角以及其他问题,拍摄图像中乘客的头部大小各不相同。此外,来自站台、电梯和其他小型设施上的屏蔽门的反射会导致背景信息的复杂变化。

本文引入多尺度特征提取模块来解决这一问题。所提出的MFEM改进了多尺度特征提取,以增强特征图的每一层中的信息。

如上图所示,MFEM首先通过1 × 1卷积压缩特征图的通道,然后通过扩张卷积处理压缩后的特征图,不同的扩张比为1、2、3和4,以处理图像中的多尺度特征和头部大小的变化。本文中固定高斯核的大小设置为15。在生成的密度图中,每个注释头的大小为15×15,用一些0填充图像不会影响计数结果。扩张卷积在保持参数个数不变的情况下,扩大了卷积核的感受野,这样做可以加快运行速度。扩张卷积的示意图如上面的图中的(b)所示,其中扩张比为3。提取的多尺度特征图通过拼接操作和3× 3卷积进行融合,处理后的特征图像的大小与输入图像的大小相同。

这部分设计的关键部分是扩张的卷积层,扩张卷积可以定义如下:

y(l,w)是来自输入x(l,w)的扩张卷积的输出,滤波器f(I,j)的长度和宽度分别为L和W,参数d代表扩张速度。当d=1时,扩张的卷积转化为正常的卷积。

生成ground truth的方法

在人群计数研究中,使用的数据集通常由原始图像和注释文件组成。人群图像的注释包括每个乘客头部中心的点,记录每个头部的二维(2D)坐标和头部总数。这需要将这些离散坐标点转换成密度图,以预测乘客密度.

ground-truth density map是通过将每个δ函数与归一化高斯核Gσ卷积生成的:

其中x代表给定图像中的每个像素,是第i个注释点,N是所有注释点的集合。密度图的积分等于图像中的人数。文章使用固定的高斯核来生成ground-truth density maps,高斯核的扩展参数σ设置为15。

所有像素值的总和给出了输入图像中人群中的人数。p表示乘客数量,定义如下:

其中L代表密度图的长度,W代表密度图的宽度。此外,是生成的密度图中处的像素

训练细节

以端到端的方式训练MP-CNN,在ImageNet上训练的VGG网的权重参数用于预处理。作者在NVIDIAQuadro P4000 GPU上进行实验,使用pytorch框架,batch size=1,epoch=500,损失函数定义如下:

θ表示所提出的MP-CNN中的一组参数,N是训练图像的数量,Xi表示输入图像,fidenotes表示图像Xi的ground-truth density map,代表由MP-CNN生成的估计密度图,用θ为样本参数化,L是估计密度图和ground-truth density map之间的损失。

训练细节

以端到端的方式训练MP-CNN,在ImageNet上训练的VGG网的权重参数用于预处理。作者在NVIDIAQuadro P4000 GPU上进行实验,使用pytorch框架,batch size=1,epoch=500,损失函数定义如下:

θ表示所提出的MP-CNN中的一组参数,N是训练图像的数量,Xi表示输入图像,fidenotes表示图像Xi的ground-truth density map,代表由MP-CNN生成的估计密度图,用θ为样本参数化,L是估计密度图和ground-truth density map之间的损失。

4.实验

数据集

在几个人群计数基准数据集以及本文收集的数据集(地铁平台)上评估了文章提出的模型:ShanghaiTech Part A and Part B,UCF-QNRF,UCF-CC-50,还有文章建立的Metro Platform,这些数据集的比较如下:

Num是图像的数量,Total是标记的总人数,Ave是平均人群计数,Max是最大人群计数

使用平均绝对误差(MAE)和均方误差(MSE)作为度量标准,来评估这些方法在计算人群成员方面的准确性,在实验中引入了在密集人群数据集上训练的模型作为预处理模型,不同方法的性能比较如下表:

不同方法得到的密度图如下:

不同方法在ShanghaiTech Part A and Part B上的表现结果:

不同方法在UCF-QNRF,UCF-CC-50上的表现结果:

多尺度特征提取模块的消融实验结果:

5.结论

文章提出了一种新的方法来计算地铁站台上人群的数量,称为MP-CNN。引入了MFEM来增强多尺度网络的特征提取能力,解决了图像中不同遮挡和乘客头部大小变化的问题。该方法对地铁站台的公共安全具有重要意义;地铁工作人员可以根据乘客数量引导和疏导人流。通过对比实验验证了所提出的MFEM算法的有效性。特别是为了评估它在地铁平台上的有效性,文章收集并标记了一个新的数据集,称为地铁平台数据集,由9243个带注释的人的627幅图像组成。大量实验的结果表明,文章提出的方法在所提出的Metro Platform数据集上提供了出色的结果,并且可以在四个主要人群计数基准中与最先进的方法竞争。

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

基于卷积神经网络的地铁平台人群计数相关推荐

  1. 基于卷积神经网络的密集人群估计/人群计数算法【内含教程和踩坑】

    文章目录 前言 一.什么是密集人群估计 二.实验前准备 1.Github开源项目--Awesome Crowd Counting 2.数据集下载 3.环境配置 三.ShanghaiTech数据集实验 ...

  2. 第八届“泰迪杯”数据挖掘挑战赛C题“泰迪杯”奖论文(基于卷积神经网络及集成学习的网络问政平台留言文本挖掘与分析)

    目 录 第一章 引言 1.1挖掘背景 1.2挖掘意义 1.3问题描述 第二章 群众留言分类 2.1数据准备 2.1.1数据描述 2.1.2数据预处理 2.2特征提取 2.3建立模型 2.3.1卷积神经 ...

  3. 【机器学习】百度飞桨AI Studio平台项目:基于卷积神经网络分类方法的人脸颜值打分

    基于卷积神经网络分类方法的人脸颜值打分 说在前面 实验数据 解决过程 1.Precondition 2.Dataset Preparation 3.Network Configuration 4.Mo ...

  4. 基于卷积神经网络的垃圾图像分类算法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 垃圾分类作为资源回收利用的重要环节之一, 可以有效地提高资源回收利 ...

  5. 卷积神经网络matlab_基于卷积神经网络的遥感图像养殖区自动划分

    基于卷积神经网络的遥感图像养殖区自动划分 摘要:卷积神经网络是目前计算机视觉领域广泛应用的模型.我们在传统卷积神经网络的基础上,替换了全连接层,借助高分辨率图像,对海水养殖区进行识别和标记,最终实现了 ...

  6. 基于卷积神经网络的皮肤癌检测系统

    摘 要 医疗领域对皮肤癌早期诊断的需求越来越大,因此皮肤癌检测具有重要的研究意义和应用价值.提出的皮肤癌检测系统主要包括皮肤图像预处理.特征提取.模型构建和检测分类等四个功能模块.系统首先采用图像去噪 ...

  7. 基于卷积神经网络的验证码识别(准确率87.5%+)

    目录 一.任务背景与目标概述 二.卷积神经网络简介 三.方案设计及实现过程 四.实验结果及分析与讨论 五.结论 实现代码 一.任务背景与目标概述 随着现代网络技术的飞速发展和提高,改善了我们的生活质量 ...

  8. 基于卷积神经网络的手写数字识别(附数据集+完整代码+操作说明)

    基于卷积神经网络的手写数字识别(附数据集+完整代码+操作说明) 配置环境 1.前言 2.问题描述 3.解决方案 4.实现步骤 4.1数据集选择 4.2构建网络 4.3训练网络 4.4测试网络 4.5图 ...

  9. 基于卷积神经网络的人脸表情识别应用--AR川剧变脸(二)

    本项目将在Android上实现一种通过识别表情类别,从而给人脸戴上不同样式脸谱的AR软件,效果如下: 基于表情识别的脸谱换脸AR安卓APP效果演示 想要实现这样一个软件,核心就是两部分: 1)使用卷积 ...

最新文章

  1. Java常用的集合类
  2. 计算机网络一些重要的知识
  3. 2. Get the codes from GIT
  4. 反弹式木马原理_汽车避震器的原理与改装问题
  5. android studio viewo,Android Studio 之 ViewModel
  6. openGL与openGL ES 的区别
  7. 主席树 || 可持久化线段树 || BZOJ 3653: 谈笑风生 || Luogu P3899 [湖南集训]谈笑风生...
  8. HTML5的绘画支持(五)
  9. 【图像加密】基于matlab GUI+Logistic+Tent+Kent+Henon图像加密与解密【含Matlab源码 1745期】
  10. Sigar介绍与使用
  11. 如何获取目标期刊的参考文献格式模板?
  12. windows7时钟屏保怎么设置_w7时钟屏保怎么设置
  13. 面试总结系列(一)------ 国际化中台事业部
  14. 主干开发 主干发布_通过基于主干的开发来改善发布过程
  15. 取代 Ant:使用 Maven 管理 Wowza 插件开发
  16. Alpine Linux
  17. [Git]git命令
  18. 如何在自己电脑上配置开发深度学习项目(windows)
  19. Matlab实现复化求积公式(梯形)
  20. jQuery——B站黑马程序员

热门文章

  1. Go (Golang) 工具之自动化版本工具 gsemver | semver 语义化版本规范
  2. 如何降低计算机版本,Win10系统如何降级版本的?回退到Windows 10上一个版本的方法...
  3. C#之Image使用
  4. windows黑客编程技术之隐藏技术(进程伪装,傀儡进程,进程隐藏)
  5. 前端必备,5大mock省时提效小tips,用了提前下班一小时
  6. bzoj 3944: Sum 杜教筛
  7. 精选 2021 年大厂高频 Java 面试真题集锦(含答案),面试一路开挂
  8. AutoAugment 学习
  9. 区块链产物 的安全是否真的无懈可击!
  10. 首次沙龙场面火爆,高能分享掌声不断,大咖观点集锦为你总结好了