Accepted by CVPR2021

Lingbo Liu1, Jiaqi Chen1, Hefeng Wu1, Guanbin Li1,2, Chenglong Li3, Liang Lin1,4*

研究领域：RGBT行人计数

1.摘要和引言

2.方法

2.1 Overview

2.2协作表示学习

2.2.1 上下文信息提取

2.2.2 信息聚合传输（IAT）

2.2.3信息分布传输（IDT）

1.摘要和引言

提出了一种跨模态协同表示学习框架，包含多个模态特定分支，一个模态共享分支以及一个信息聚合分布模块（IADM Information Aggregation-Distribution Module）来捕获不同模态的互补信息。确切地说，IADM包含两个协作信息传输，来动态地增强具有双重信息传播机制的模式共享和特定于模式的表示，确切地说：（1）动态聚合所有模态特定特性的上下文信息以增强模态共享特性的信息聚合传输。（2）传播模态共享信息，以对称地细化每个模态特定的特征，来进一步进行表示学习的信息分布传输。此外，将IADM嵌入到不同的层中，来分层学习跨模态表示。

本文提出的方法具有三个吸引人的特性：

（1）由于双重信息传播机制，IADM可以有效捕获多模态互补信息方便人群计数。

（2）作为一个即插即用的模块，IADM可以很容易地整合到各种骨干网络中进行端到端优化。

（2）该框架对于多模态行人计数是通用的。除了RGBT计数，提出的方法可以轻松应用到RGBD计数。

本文主要贡献有以下三点：

为促进人群计数研究，引入一个大规模的RGBT基准，在无约束场景下采集的2030对RGB-热红外图像标注了138389名行人。
开发了一个跨模态协同表示学习框架，该框架通过信息聚合-分布模块能够充分学习不同模态之间的互补性。
实验说明。。。

2.方法

在本文工作中，提出了一个跨模态的协作表示学习框架用于多模态人群计数，确切地说，将多个模态特定分支、一个模态共享分支，一个信息聚合-分布模块被集成到一起，以使用双重信息传播范式来充分捕获不同模态之间的互补性。本节中，采用具有代表丁的CSRNet作为主干网络来开发该框架，值得注意的是，该框架可以用各种骨干网络来实现。

2.1 Overview

如图所示，提出的网络包括三个平行骨干和一个集成-分布聚合模块（IADM），确切地说，上面和下面的主干网络用于特定个模态确切表示学习，中间网络用于模态共享表示学习，为了充分利用多模态互补，IADM，用于动态地传输特定-共享信息，来协作地增强模态特定和模态共享表示。因此，最终的模态共享特性包含了全面信息。

将RGB和T图像分别送到不同的分支用于提取模态特定特征，这将保持单个模态的确切信息。模态共享分支将一个0张量作为输入，并且分层集成模态确切特征，如上所述，每个每个分支都是用CSRNet来实现的，包括VGG-16的前十个卷积前端块和后端中的6个空洞卷积层。具体地说，特定于模态的分支是基于CSRNet的front-end块，而共享模式的分支基于CSRNet的后14个卷积层。

特征提取之后，利用2.2中的信息集成-分布模块来学习跨模态协作表示，为了利用多模态系信息分层，提出的IADM嵌入到不同的层之后。具体来说，在卷积层之后，IADM动态地在特定于模态和共享模特的特性之间传输互补信息，以便相互增强。这个过程可以描述如下：

其中，分别表示在Conv i_j层上的RGB、热红外、模态共享特征。

，分别代表他们的增强特征。将这些特征送到每个分支的下一层，来深入地学习高级多模态表示。由于定制的IADM，输入RGB图像和热红外的互补信息转化为模态共享表示，最后的模态共享特征包含丰富的信息。最后，将送入1*1的卷积层对人群密度图M进行预测。

2.2协作表示学习

为了充分捕获RGB和T图像互补信息，提出Information aggregation and distribution module(IADM)来协作学习跨模态表示与双信息传播机制。具体来说，IADM与两个协作传输集成在一起，动态传播上下文信息将模态确切表示与模态共享表示进行相互增强。

2.2.1 上下文信息提取

在这个模块中，本文传播上下文信息而不是原始特征，因为后者会导致特定共享特性的过度混合。因此，对于一个给定的特征，利用一个L级金字塔池化层来提取上下文信息。（确切地说，在第l层上，利用最大池化层来生成一个的特征，然后通过最近邻插值将其上采样到h x w，为了方面，上采样表示为），最后，特征的上下文信息通过如下计算得到：

代表特征连接操作。这种提取有两个优势：

（1）有个更大的接受域，得每个位置包含更多上下文信息。

（2）不同传感器的采集的RGB和T图像没有严格对齐。由于最大池化层的不变形，可以在一定程度上消除RGB和热图像的错位。

2.2.2 信息聚合传输（IAT）

在这个工作中，IAT被用来集成所有特定模态特征的上下文信息来增强模态共享特征。如图所示：

IAT不是直接吸收所有信息，而是用一种自适应过滤有用信息的门机制动态地传递互补信息。具体来说，给定特定，先用公式2提取提取上下文信息，

然后与论文【61,65】相似，通过计算的差值，获得两个残差信息。最后，用两个门函数自适应地传播互补信息用于细化（精炼？）模态共享特征。增强特征通过如下公式获得。

其中，门函数通过卷积层来实现，是门权重，代表元素乘操作。通过这种机制，互补信息可以有效地嵌入到模态共享表示中，从而可以更好地利用多模态数据。

2.2.3信息分布传输（IDT）

经过信息聚合之后，将新的模态共享特征的信息进行分配，来分别细化每个模态特定特征。如图所示，对于增强特征，首先提取上下文信息，然后动态传输，与IAT相似，两个门函数用于信息过滤。具体来说，增强的特定模态特征计算如下：

最后，所有的增强特征都被输入到单独分支的后续层进行进一步的表示学习。

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Countin相关推荐

2021CVPR Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark crowd
Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Countin ...
文献记录(part19)--Cross modal similarity learning with active queries
学习笔记,仅供参考,有错必纠关键词:主动学习;跨模态相似学习;度量学习文章目录 Cross modal similarity learning with active queries 摘要简介 ...
【PR 2021】Progressive sample mining and representation learning for one-shot person re-identification
下方↓公众号后台回复"PSMA",即可获得论文电子资源. 文章目录内容概要工作概述成果概述方法详解方法特点方法框架算法描述具体实现实验结果总体评价引用格式参 ...
对比学习系列论文MoCo v1（二）：Momentum Contrast for Unsupervised Visual Representation Learning
0.Abstract 0.1逐句翻译 We present Momentum Contrast (MoCo) for unsupervised visual representation learni ...
（转）Predictive learning vs. representation learning 预测学习与表示学习
Predictive learning vs. representation learning 预测学习与表示学习 When you take a machine learning class, ...
论文解读（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...
【论文笔记】Towards Universal Sequence Representation Learning for Recommender Systems
论文详细信息题目:Towards Universal Sequence Representation Learning for Recommender Systems 作者:Yupeng Hou a ...
MOCO： Momentum Contrast for Unsupervised Visual Representation Learning
动机: Unsupervised representation learning is highly successful in natural language processing,but sup ...
论文阅读：Self-supervised video representation learning with space-time cubic puzzles
论文名称:Self-supervised video representation learning with space-time cubic puzzles(2019 AAAI) 论文作者:Dah ...

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Countin

1.摘要和引言

2.方法

2.1 Overview

2.2协作表示学习

2.2.1 上下文信息提取

2.2.2 信息聚合传输（IAT）

2.2.3信息分布传输（IDT）

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Countin相关推荐

最新文章

热门文章