crowd counting_[crowd_counting]-MANet

1.Contribution

主要是研究了segmentation的mask如何作用于counting，会获得更好的效果

2.Model

（1）backbone

Part1：

C(1, 64, 3)-C(64, 64, 3)-MP-C(64, 128, 3)-C(128, 128, 3)-MP-C(128, 128, 3)

C(输入通道，输出通道，卷积核尺寸）,MP代表max pooling

Part2：

part2是两个串联起来的模块，模块结构就是上图的(b)

（2）mask prediction和density map prediction

mask prediction的结构就是两层卷积C(256, 256, 3)-C(256, 1, 1). density map分支由于mask作用的策略不同，而不同。

（3）关于mask分支的ground truth的制作

本文对counting分支的ground truth采用的是固定高斯核的方法，而mask分支的ground truth就是把counting的ground truth非0的值都变成1，变成一个分割的ground truth

3.5种使用mask的方案

结构说明，a1代表backbone产生的feature map，有256层，b1代表mask分支产生的feature map 256层，最后通过一个1x1的卷积产生1层的mask，c1跟b1一样，是通过跟mask分支一样结构的counting分支产生的256层的feature map，也要经过一个1x1的卷积产生1层的density map，d1和e1在方案四中解释

5种方案：

①方案一

train时，直接用ground truth作为mask作用于counting分支，test时，才用mask分支predict的二值化mask作用于counting分支

②方案二

train时，将mask分支输出的，还没有经过二值化的mask作用于counting分支，两个map点乘的，获得组后的density map，这样好处在于mask的作用比二值化来的smooth，同时counting分支的反向传播可以更新mask分支

③方案三

同方案二，唯一的不同在于predict的mask经过二值化再去作用于counting分支，但是由于二值化问题，counting分支的loss无法传播到mask分支，所以中间加了个STE操作，STE的解释要看paper：

《Estimating or propagating gradients through stochastic neurons for conditional computation》

这样的话，counting分支的loss依旧可以反向传播到mask分支

④方案四

不直接将mask乘到density map上，而是将mask通过C(1,256,1)转化为与a1一样256层的feature map，即d1，然后与a1 concat起来，变成512层的feature map，最后经过C(512, 256, 3)-C(256, 256, 3)-C(256, 1, 1)，变成1层的density map输出

在train时，直接用segmentation的ground truth作为mask去产生256层feature，test时，用的是mask分支产生的二值化的mask去转化为256层的feature

⑤方案五

结构同方案四，只是train时用的不是ground truth，而是用mask分支预测的没有二值化的mask去转化为feature，预测时，也是如此。

4.Experiment

（1）loss

Lm是mask分支分割用的loss，为每个点作为二分类的BCEloss，Lr是density map的loss，就是MSE, α没说是多少

（2）训练细节

Adam，lr=1e-5，Adam训练11个epoch后，转用SGD，每20个epoch，lr*0.1。采用固定size的patch，随机从training data中crop出来，同时采用镜像对称护理

（3）5种方案的实验结果对比

baseline1是只有backbone+counting分支

baseline2是更深版本的baseline1

可以发现方案1用二值化的mask，效果反而变差了，方案2说明mask是有用的，方案3效果差是因为采用二值化的mask，尽管counting的loss可以传播到mask分支，但是二值化后传播效果也不好，方案4说明尽管采用了二值化的mask，但是转化为feature的方式要更好，方案5则进一步说明了不用二值化的mask，以及转化为feature的效果

（4）mask分支的作用

为了排除不是因为双路网络结构，而确实是因为mask的作用，所以设置了这个实验，baseline3跟方案5的结构很像，但是取消了segmentation的训练，整个网络就是一个单纯的双路网络，上面实验证明，加了mask的训练是有用的

（5）公开数据集上的结果

①ShanghaiTech

②UCF_CC_50

③WorldExpo'10

④MALL

5.Comment

本文最大的贡献在于探究了mask如何作用于counting是最好的，也证明了相比于直接将mask和density map相乘，将mask转化为feature map要更好