点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

人群计数是一项基本但又十分具有挑战性的视觉任务,它需要丰富的信息来生成像素级别的人群密度图。之前的方法大多数仅使有限的用光学图像信息,在不受控场景下无法很好地发撅潜在的行人。在这项工作中,我们发现,融合光学信息和热感信息可以极大地提升人群计数性能。为了促进该领域未来的科学研究,我们首创地引入了一个大型RGBT人群计数(RGBT-CC)基准,该基准包含2030对光学/热感图像,总共标注了138389位行人。为了进一步促进多模式人群计数的研究,我们提出了一种跨模态协同表征学习框架,该框架由多个模态特异分支,一个模态共享分支以及一个信息聚合分散模块(IADM)组成,以充分捕捉不同模在数据的互补性。具体来说,我们的IADM由两个协同信息传递器组成,通过对偶信息传播机制动态地增强模态共享表征和模态特异分支表征。在RBET-CC数据集上进行的大量实验充分地验证了我们框架对RGBT人群计数的有效性。此外,我们的方法RGBD人群计数任务上也取得了业内领先的性能。

本期AI Time PhD 直播间,我们邀请到中山大学博士,香港理工大学博士后刘凌波带来分享——《Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting》

中山大学博士,香港理工大学博士后,悉尼大学访问学者。主要研究兴趣是城市计算,特别是面向交通出行场景的城市路网提取、人群计数、流量/需求预测、个性化推荐和订单分配等任务;在CVPR,ICCV,IJCAI,ACM MM,TITS,TNNLS,TMM等国际顶级刊物上发表论文15篇。

个人主页: http://lingboliu.com/。

01

 背  景 

给定一张图片,返回图片中的人数,这样的任务称为人群计数(crowd counting),主要应用于交通监管、视频监控等领域。

最初人群计数是利用回归算法预测图片中的人数,这种方法的缺点是不能定位人群在图片中的分布。近几年,基于密度估计的方法称为人群计数任务的主流,如下图所示,给定一张图片生成对应的密度图(蓝色图),将密度图所有像素值求和得到的数值就是人群数量。在训练时,ground truth使用了正则化的高斯核来表示密度图的每一个人头点,因此每个人头点的像素值相加等于1 ,因此所有像素值相加就是图像中人群的数量。

人群计数任务的难点与许多视觉任务的难点有相通之处,尺度变化、遮挡、模型推理效率、鲁棒性等同样也是人群计数任务需要关注和克服的难点。给定一张图像,靠近摄像头的地方人群特征清晰,远离摄像头的地方人群特征不明显,计数难度提高,而建筑等非人群物体的遮挡,夜晚场景下的人群计数任务也对算法模型提出了更高的要求。当模型精度要求提高时,网络模型深度也会增加,随之而来的是更低的模型推理效率,并且即使提高模型复杂度,在一些较暗和人数密集的困难场景下,单纯使用图像的RGB信息进行人群计数也非常困难。

因此,本文结合图像光学信息(RGB,下图第一行)和热力学信息(T,下图第二行)帮助进行行人识别。在下图的热感图中,一般情况下,人具有较高的温度使其可以与背景区分开来,但是热感图也引入了一些噪声,下图第三列的广告牌以及第四列夜晚的灯,在热感图中温度与人相近,如果仅根据热感图,就有可能被误判为人群。

02

 方  法 

本次工作中,本文构建了一个面向人群计数的多模态RGBT数据集和跨模态的协作表征学习方法。

(1)RGBT数据集

RGBT-CC数据集包括2030对具有代表性的RGBT图像,分辨率640x480;

其中1013对处于明亮环境,1017对处于黑暗环境;

共有138389个行人标注,平均每场图片包含68个行人;

训练集1030对,验证集200对,测试集800对。

(2)跨模态协作表征学习方法

下图是跨模态协作表征学习(Cross-Modal Collaborative Representation Learning)方法的整体架构。顶部和底部主干是特定模态分支(即RGB图像和热感图);中间主干是为模态共享分支;IADM(Information Aggregation-Distribution Module)动态传输特定共享的信息,以协作增强特定模态分支和共享模态分支的表达;最终的模态共享分支特征包含全面的信息,并有助于生成高质量的人群密度图。

下图是信息聚合(a)与分发模块(b)——IADM的原理示意,主要包含三个部分:①上下文信息提取。②信息聚合传输。③信息分发传输。IADM 可以轻松地整合到各种骨干网络(例如 CSRNet、BL、SANet)中,进行端到端优化。IADM 可以嵌入到网络不同的层中,以进行层次化跨模态表示。

03

 实  验 

数据集:RGBT-CC、ShanghaiTechRGBD

基于本文构建的面向人群计数的RGBT数据集进行消融实验以及与SOTA的对比实验,并且将本文的跨模态协同表征学习方法应用于ShanghaiTechRGBD数据集上,该数据集包含了图像彩色信息RGB和深度信息D。

评价指标:RMSE、GAME

使用RMSE(均方根误差)对整张图片的人群计数误差进行粗略评估;本文引入GAME评估一张图像中不同图像块的人群计数误差,然后将所有区域的误差求平均。其中,RMSE和GAME都是越小代表模型效果越好。

实验结果:

(1) 跨模态对于人群计数任务的有效性

下图的实验是在明亮和黑暗两种场景下,将仅使用RGB信息、仅使用热感信息(T)和结合RGBT信息的三组人群计数实验对比。结果显示,无论在明亮还是黑暗场景下,使用RGBT信息的人群计数实验误差最小,说明光学信息和热感信息具有一定的互补性,证明了跨模态对于人群计数任务的有效性。

(2) 跨模态表征学习方法的消融实验

下图实验探索了基于RGBT信息进行人群计数的消融实验,Early Fusion是将RGBT简单地拼接生成R、G、B、T四个通道输入到网络中;Late fusion是首先将每张图片进行特征提取,而后与热感图融合进行人群计数;最后四行实验是对本文提出地IADM进行一个探索,分别单独去掉门机制/模态共享/信息分发与原有的IADM(最后一行)进行对比实验,结果表明,IADM的每个部分去掉误差都有不同程度的提高,证明了IADM模块每一部分存在的意义。

IADM的第一部分使用了金字塔Pooling进行上下文信息提取,下面实验探索了金字塔层数对于人群计数效果的影响,实验证明,综合来看,三层金字塔的效果最佳。

通用的多模式学习方法不能很好地应用于 RGBT 人群计数。本文的IADM方法与一些经典的人群计数网络结合模型都优于原有网络,具体实验数据如下图。

04

 总  结 

本文引入了一个大型的 RGBT数据集,以促进人群计数任务。然后开发了一个跨模态协作表示学习框架,其中能够通过IADM(信息聚合-分发模块)充分了解不同模式之间的互补性。

项目链接:

http://lingboliu.com/RGBT_Crowd_Counting.html

今日视频推荐

整理:爱国

审核:刘凌波

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

我知道你在看

点击“阅读原文”查看精彩回放

干货!面向人群计数的跨模态协作表征学习方法和大规模RBGT数据集相关推荐

  1. 面向人群属性关系挖掘的数据可视化———基于美国人口adult数据集

    目录 面向人群属性关系挖掘的数据可视化 一.课程设计内容及目的 二.总体设计 (一)题目需求分析 (二)系统整体流程图或组成框图 三.详细设计 (一)读取数据并导入需要的第三方库 (二)通过判断每个属 ...

  2. LXMERT:从Transformers学习跨模态编码器表示LXMERT: Learning Cross-Modality Encoder Representations from Transfors

    摘    要 视觉和语言推理需要理解视觉概念.语言语义,以及最重要的是,这两种模式之间的对齐和关系.因此,原论文提出了LXMERT(从Transforms学习跨模态编码器表示)框架来学习这些视觉和语言 ...

  3. 论文笔记--跨模态检索研究综述-2018

    论文信息: 期刊论文-跨媒体检索研究综述-2018-欧卫华 文末部分参考文献附有论文下载链接,并提供了本论文下载地址 转载本文请添加以下引用: 作者:lingpy 本文链接:https://blog. ...

  4. 基于昇腾AI,空天院携手华为共同发布全球首个面向跨模态遥感数据的生成式大模型“空天.灵眸”

    8月20日,在中国图象图形大会的华为昇思MindSpore技术论坛上,中国科学院空天信息创新研究院(以下简称"空天院")发布了首个面向跨模态遥感数据的生成式预训练大模型" ...

  5. CVPR 2022 57 篇论文分方向整理 + 打包下载|涵盖目标检测、语义分割、人群计数、异常检测等方向

    CVPR2022论文速递系列: CVPR 2022 3月3日论文速递(22 篇打包下载)涵盖网络架构设计.姿态估计.三维视觉.动作检测.语义分割等方向 CVPR 2022 3月4日论文速递(29 篇打 ...

  6. 跨模态学习在三维语义分割领域适应中的应用

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家 ...

  7. 今日 Paper | 虚拟试穿网络;人群计数基准;联邦元学习;目标检测等

    2020-01-15 05:41:40 为了帮助各位学术青年更好地学习前沿研究成果和技术,AI科技评论联合Paper 研习社(paper.yanxishe.com),推出[今日 Paper]栏目, 每 ...

  8. 百度AI技术盛宴来了!大咖齐聚解读CV/NLP/跨模态大模型技术!

    随着人工智能步入工业大生产阶段,AI大模型正在加速走出实验室,在全球范围内逐步实现产业落地应用的突破.自2020年至今,越来越多的科技巨头和科研机构参与其中.去年12月,百度发布了全球首个知识增强千亿 ...

  9. 【论文汇总】人群计数中Transformer的应用,持续更新

    1.CCTrans: Simplifying and Improving Crowd Counting with Transformer 论文地址:https://arxiv.org/pdf/2109 ...

最新文章

  1. 原生js封装二级城市下拉列表
  2. 恒驰机器人_恒大汽车基地:2545台机器人为恒驰“效力”
  3. Font Awesome一套绝佳的图标字体库和CSS框架的使用
  4. Oracle Pipelined Table Functions简介
  5. Oracle 绑定变量 详解 .
  6. 老人寻求到一名程序员,用2W行代码给自己打造了一幅肖像画
  7. iTerm2的颜色主题/配色主题/配色方案
  8. 可爱的PNG免扣新年装饰素材,让你海报增加节日气氛
  9. java中的命令行参数_Java中的命令行参数
  10. 2023届计算机毕业设计源码
  11. 计算机初级培训 ppt,《计算机初级培训》PPT课件
  12. Google CFO 的辞职信(引用)
  13. 屏蔽网站、网页和弹窗的方法
  14. 怎样开启无线热点服务器,Win7开启无线WIFI热点
  15. 期货市场技术分析读后感
  16. 源码自动生成流程图软件介绍
  17. 生态型协同共建,智能家居平台建设新思路
  18. 【论文简述及翻译】MVSNet:Depth Inference for Unstructured Multi-view Stereo(ECCV 2018)
  19. 想去阿里大厂去面试测试工程师?想月薪15k?这篇文章一定对你有所帮助
  20. Android Studio 实战干货例程

热门文章

  1. JPG:文件格式系列科普之.JPEG/.JPG(转)
  2. IP网络广播背景音乐广播系统
  3. 内温的整体优先效应实验_熔盐电解制备钨铜合金粉体槽内温场条件分析
  4. 如果你知道兔兔吃这些,还会觉得ta可爱吗
  5. Localstorage、sessionStorage、cookie 的区别
  6. 万字报告:2019年人工智能发展趋势全解析
  7. 第二行代码第三章笔记
  8. 漏洞分析——shellshock实验
  9. jupyter的基本使用及python教程分享
  10. 英语四级bt总结法(必过)