MAN(人群计数)

提出问题:

同一张图片中由于远近关系人头大小可能差异很大,但是标签只有点标注,目前 CNN 和 全局 Attention 是没法很好应对这种尺度差异的;

有些标签位置不太准确,比如应该在人头正中心却标注的有些偏。

因此文章一共提出了三个模块,可学习区域注意力(LRA)、局部注意力正则化(LAR)和实例注意力损失。前两个彼此关联,致力于解决第一个尺度差异问题;最后一个则是针对标签噪声,提出了非常简单却可以推广的损失范式。

解决方法:

提出了一种多方面注意网络(MAN)来改进局部空间关系编码中的transformer模型。MAN将来自vanilla transformer的全局注意力、可学习的局部注意力和实例注意力合并到一个计算模型中。

首先,提出了局部可学习区域注意(LRA)来动态地为每个特征位置分配独占注意。其次,我们设计了局部注意力正则化,通过最小化不同特征位置的注意力之间的偏差来监督LRA的训练,最后,我们提供了一种实例注意机制,以便在训练期间动态关注最重要的实例。

对于每个图像I,我们首先使用VGG-19作为主干来提取特征,然后将特征映射展平并传输到具有所提出的LRA的transformer编码器中,以学习不同尺度下的特征。然后,使用回归解码器预测最终密度图,最后,我们使用局部注意力正则化来监督LRA模块的训练,并使用实例注意力丢失来约束整个网络的训练。

第一个模块叫做 Learnable Region Attention (LRA),主要思路就是针对每个特征学习一个应该注意的范围,最简单的方式就是整个矩形,毕竟只需要两个点来确定,类似于下面这样子:

文中公式:

上边式子代表图 (b),小于该点的地方都置 1,下边式子就代表图 (c),大于该点的地方是 1,最后两者一乘就能得到一个矩形 mask,可以代表其应该注意的范围。

但是这样会有两个问题,一是这样直接预测两个点是不可微的,其次这样形成的 mask 是严格的 0 / 1,其中比如矩阵中心和矩阵边缘注意力是一样的,灵活性很低。

因此本文利用注意力的角度直接预测一整张图然后把它累积积分起来,第一张图从左下到右上累积起来,即左下角值为 0,右上角值为总和;那第二张图就从右下到左上累积,这样其实它们两个重复的范围就可以形成一个区域。

但是可能存在一个问题,就比如如果 ur 那张图大部分值都集中在左下角,那么在累积到左下角之前,其他位置是没有值的。如果 bl 也出现了一样的问题,那最后两者相乘可能就没有重复的范围,最后变成了一张都是 0 的图,不是文章希望看到的。

所以直接再把两个操作反过来一遍:

上面一行就代表了可能出现的极端情况

第二个模块叫做 Local Attention Regularization (LAR),它的目的就是为了监督前一个可学习的局部窗口 LRA,让它满足人头小时注意力窗口就小一点,人头大时,注意力范围自然也要大一点。这其实是有生理学依据的,人类对多物体注意力的分配其实取决于对它们实际大小的认知,就算在 2D 图片中尺寸差异比较大,但实际上分配给远处和近处同一类别物体的注意力是很相似的。

因此在一个注意力窗口内,人的数量其实应该是差不多的,这样就自然而然地完成了小人头窗口小,大人头窗口大了。模型将从特征层面上来监督这件事,简单点来说,直接让通过 mask 加权平均后的特征尽可能一致就好。

四个颜色分别有一个对应的注意力窗口,经过加权平均特征聚集以后,窗口可以调整正确注意的大小和范围。

损失函数

第三个模块就是针对标注错误提出的修正损失,叫做 Instance Attention Loss (IAL),这个损失形式就是对每一个惩罚差值加上一个注意力值。

本文只提出了一个最简单的注意力值,就是忽略那些差值过大的,只关注差值合理的前百分之九十,因为本身如果标记错误其产生的误差可能很大。这样公式写出来就是:

文中 delta 取 0.9,就是只监督前百分之九十的差值

实验结果

Boosting Crowd Counting via Multifaceted Attention相关推荐

  1. Boosting Crowd Counting via Multifaceted Attention之人群密度估计实践

    这周闲来无事,看到一篇前不久刚发表的文章,是做密集人群密度估计的,这块我之前虽然也做过,但是主要是基于检测的方式实现的,这里提出来的方法还是比较有意思的,就拿来实践一下. 论文在这里,感兴趣可以看下. ...

  2. Boosting Crowd Counting with Transformers

    TAM与RTM(人群计数) 提出问题: 通过将更大的上下文集成到卷积神经网络(CNN)中,在人群计数问题上取得了重大进展. 解决方法: 研究了全局上下文在人群计数中的作用.提出了两个新的模块:toke ...

  3. Crowd Counting论文小结(持续更新)

    Crowd Counting论文小结(持续更新) CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly ...

  4. 【论文汇总】RGB-T/D Crowd Counting论文汇总

    [RGBT-CC] Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Cro ...

  5. Multi-Scale Attention Network for Crowd Counting:用于人群计数的多尺度注意网络

    Multi-Scale Attention Network for Crowd Counting:用于人群计数的多尺度注意网络 Multi-Scale Attention Network for Cr ...

  6. 人群计数(Crowd Counting)研究综述

    52CV曾经报道过两篇关于人群计数的新出论文(可在精华文章汇总中找到),皆获得不少关注,今天的文章来自复旦大学计算机的在读博士老田和电闪雷鸣为我们介绍人群计数的相关技术和进展,想对此方向有更全面把握的 ...

  7. 论文介绍《CrowdFormer: An Overlap Patching Vision Transformer for Top-Down Crowd Counting 》

    paper [ijcai2022] CrowdFormer: An Overlap Patching Vision Transformer for Top-Down Crowd Counting co ...

  8. 人群计数数据集汇总和详细介绍,全网最全,crowd counting datasets

    Crowd Counting数据集汇总 视频监控=video surveillance https://github.com/gjy3035/Awesome-Crowd-Counting/blob/m ...

  9. [CAN] [CVPR2019]:Context-Aware Crowd Counting论文+代码解读

    1.论文 论文链接:https://arxiv.org/pdf/1811.10452.pdf 代码链接:GitHub - weizheliu/Context-Aware-Crowd-Counting: ...

  10. 人群密度估计--Structured Inhomogeneous Density Map Learning for Crowd Counting

    Structured Inhomogeneous Density Map Learning for Crowd Counting https://arxiv.org/abs/1801.06642 针对 ...

最新文章

  1. WebMagic学习-解析json
  2. Vue.js环境搭建
  3. 《天下无贼》经典对白
  4. mysql中的文件导入导出表设计_mysql导入导出表结构及表数据及执行sql文件
  5. 劝你们,千千千万不要当一个程序员!!!!!!
  6. Flutter InkWell 动画浅析
  7. NSDictionary和NSMutableDictionary
  8. WinRAR各版本许可注册码
  9. 越狱苹果抹掉数据怎么恢复cydia红字黄字闪退(淘宝30块买的)
  10. 就百度指数对比分析“微博”与“知乎”搜索人数
  11. 为什么从Java开发转测试?
  12. Prove the EXACT 4SAT is NP-complete.
  13. CentOS 7设置获取动态及静态IP地址方法
  14. 基本共射放大电路的动态分析以及放大电路Q点的稳定
  15. Cisco Packet Tracer汉化处理
  16. java向kafka推送数据_Java kafka消息的发送与接收
  17. rec卡刷root吗,卡刷需要root权限吗
  18. 静息态功能磁共振及其在精神疾病诊断中的应用
  19. 中国智慧停车市场运营调研及投资前景方向预测报告2022年版
  20. sublime用浏览器打开方法

热门文章

  1. 如何学习单片机?学习单片机的四个步骤
  2. 安全扫描无法加载目标网站
  3. JDBC Statements, PreparedStatement和CallableStatement语句
  4. 18.Consent 实现思路介绍
  5. 计算机关机快捷图标,七大电脑关机快捷方式,知道3种以上都是大神!
  6. 吉利车机安装第三方app教程,支持缤瑞、缤越、博越、博瑞ge、星越等
  7. 求解最大连续子序列和问题———分治法
  8. 办公室计算机打印机共享,如何将办公室的所有电脑共享一个打印机???
  9. JSON字符串中带有反斜杠
  10. html5 励志名言,5个字的励志名言