iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

摘要

本文研究场景图中人-物交互问题。其核心思想是人或物体实例的外观包含指示线索，利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索，研究者提出了一个以实例为中心的注意力模块，学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。

一、引言

HOI：人-物交互检测，旨在定位人、物体并识别人与物体之间的交互。图 1 中展示了 HOI 检测问题的一个例子。给定输入图像和物体检测器检测到的实例，研究者的目标是识别出所有的“人-动词-物体”三元关系组。检测和识别 HOI 是朝着更深入理解场景迈出的重要一步。而不是“哪里有什么？”（即，在图像中定位物体实例），HOI 检测的目标是回答“发生了什么？”的问题。研究 HOI 检测问题也为其他相关的高级视觉任务提供了重要线索，例如姿态估计 [2,40]，图像标注 [24,39] 和图像检索 [21]。

Why attention? 加入人体姿势可能有助于识别“骑行”和“投掷”等行为，加入交互点可能有助于识别涉及手 - 物体交互行为，例如“用杯子喝水”和“用勺子吃饭”，加入背景可能有助于区分“用网球拍击中”和“用棒球棍击中”。

本文提出了一种以实例为中心的端到端可训练注意力模块，学习使用人或物体实例的外观来突出信息区域。实例（人或物体）的外观暗示了我们应该注意图像中的哪些位置。例如，为了更好地确定一个人是否拿有物体，应该将注意力集中在人手周围。另一方面，对于图像中的自行车，知道附近人的姿势有助于消除关于物体实例（例如，骑或推自行车）的潜在交互的歧义。本文提出的以实例为中心的注意力网络（iCAN）动态地为每个检测到的人或物体实例生成注意力映射，突出显示与该任务相关的区域。

贡献：

引入了一个以实例为中心的注意力模块，它允许网络动态突出信息区域以改进 HOI 检测。
在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
进行了详细的对比实验和误差分析，以确定各个组成部分的相对贡献，并量化不同类型的错误。
发布了源代码和预训练模型，以促进将来的研究。

二、相关工作

对象检测：是场景理解的基础。本文使用现有的 faster R-CNN来定位人和物体实例。

视觉关系检测：。。。

Attention：。。。

Human-object interactions ：。。。

三、以实例为中心的注意力网络（Instance-Centric Attention Network）

模型概述。研究者提出的模型包括以下三个主要流：（1）基于人类外观检测交互的人流; （2）基于物体外观预测交互的物体流;（3）用于编码人类和物体边界框之间的空间布局的配对流。基于现有的 Faster R-CNN 检测到的对象实例，使用所有的人 - 物体对生成 HOI 假设。然后融合来自各个流的动作分数以产生最终预测。

3.1 方法概述

主要包括两步：

（1）对象检测：用faster R-CNN预测所有的人/对象实例。

$b_{h}$ ：detected bounding box for a person.

$b_{o}$ ：an object instance.

$s_{h}$ , $s_{o}$ ：the confidence scores for a detected person and an object, respectively.

（2）HOI预测：使用以实例为中心的注意力网络评估每个人-对象对的交互得分。

Inference. 预测HOI得分类似于现有方法[14, 16]，对于每个人-对象对( $b_{h}$ , $b_{o}$ )和每一个a ∈ {1, · · · , A}（所有可能的动作），预测 $S_{h, o}^{a}$ 得分。 $S_{h, o}^{a}$ 得分依赖于：（1）单个对象检测的置信度（ $s_{h}$ , $s_{o}$ ）；（2）基于人和物体的外观的交互预测（ $s_{h}^{a}$ , $s_{o}^{a}$ ）；（3）基于人与对象之间的空间关系的分数预测 $s_{sp}^{a}$ 。所以， $S_{h, o}^{a}$ 为：

有一些动作类别不包含交互对象（walk, smile... ...）： $S_{h, o}^{a}$ = $s_{h}$ * $s_{h}^{a}$

Training. 由于一个人可以同时对一个或多个目标物体执行不同的动作，例如，一个人可以同时“用网球拍打”和“握住”网球拍，因此HOI检测是一个多标签分类问题，其中每个交互类是独立的，并且不是相互排斥的。我们对每个动作类别应用binary sigmoid分类器，然后最小化每一个动作类别的得分 $s_{h}^{a}$ , $s_{o}^{a}$ , $s_{sp}^{a}$ 和真实的动作标签之间的交叉熵损失. （We apply a binary sigmoid classifier for each action category, and then minimize the cross-entropy loss between action score $s_{h}^{a}$ ,, $s_{o}^{a}$ , or $s_{sp}^{a}$ and the ground-truth action label for each action category. ）

3.2 以实例为中心的注意力模块

iCAN 模块。给定图像的卷积特征（以灰色显示）和人/物体边界框（以红色显示），iCAN 模块提取实例（人类或物体）的外观特征以及来自以实例为中心的注意力映射的特征。为了计算注意力映射，研究者使用 512 个通道的 bottleneck 来评估嵌入空间中的相似性 [37,38]。具体来说，研究者用 1×1 卷积和实例外观特征将图像特征嵌入到全连接层中。这里的 res5 表示第五个残差块，GAP 表示全局平均池化层，FC 表示全连接层。

我们首先使用标准过程提取实例级外观特征 $x_{inst}^{h}$ ，ROI polling，res5，GAP。

接下来的目标是动态生成感兴趣的对象实例的注意力映射。为此，将实例级外观特征 $x_{inst}^{h}$ 和卷积特征映射嵌入到512维空间中，并使用向量点积来测量该嵌入空间中的相似性。然后通过使用softmax获得以实例为中心的注意力映射。注意力映射突出显示图像中的相关区域，其可以有助于识别与给定人/物实例相关联的HOI。使用注意力映射，我们可以通过计算卷积特征的加权平均值来提取上下文特征 $x_{context}^{h}$ 。

iCAN模块的最终输出是实例级外观特征 $x_{inst}^{h}$ 和基于注意力的上下文特征 $x_{context}^{h}$ 的连接（concatenation？）。

优点：Our iCAN module offers several advantages over existing approaches. First, unlike hand-designed contextual features based on pose [6], the entire image [31], or secondary regions [13], our attention map are automatically learned and jointly trained with the rest of the networks for improving the performance. Second, when compared with attention modules designed for image-level classification, our instance-centric attention map provides greater flexibility as it allows attending to different regions in an image depending on different object instances. 自动学习上下文特征；灵活。

3.3 Multi-stream network

Human/object stream. 按照3.2和图4中概述的步骤，提取1）一个人的实例级外观特征 $x_{inst}^{h}$ 或物的实例级外观特征 $x_{inst}^o$ 和2）基于注意力映射的上下文特征 $x_{context}^{h}$ （或 $x_{context}^{o}$ ）。将两个特征向量连接起来，并通过两个全连接层来生成动作得分 $s_{h}^{a}$ 和 $s_{o}^{a}$ 。来自人类流的分数 $s_{h}^{a}$ 也允许我们检测不涉及任何物体的动作，例如，行走、微笑。

Pairwise stream. 虽然人和物体的外观特征包含识别交互的强烈提示，但是单独使用外观特征常常导致似是而非的预测。具体来讲，为了编码人和物体之间的空间关系，我们采用了[4]中的双通道二值图像表示来表征交互模式。我们将这两个盒子的并集作为参考框，并在其中构建一个具有两个通道的二值图像。第一通道在人类边界框内具有值1，在其他地方具有值0；第二通道在对象边界框内具有值1，在其他地方具有值0。然后，我们使用CNN从双通道二值图像中提取空间特征。然而，我们发现，由于粗略的空间信息（只有两个边界框），这个特征本身不能产生精确的动作预测。为了解决这个问题，我们将空间特征与人类外观特征 $x_{inst}^{h}$ 连接起来。我们的直觉是，人的外观可以极大地帮助消除空间布局相似的不同行为的歧义，例如，骑自行车与推自行车。

3.4 Efficient inference

四、实验

1、在两个大型 HOI 基准数据集上的效果优于当前最佳模型

2、在生活照中检测出各种形式的 HOI。模型检测到在不同情况下与人进行“骑”、“吃”、“躺”和“喝”交互的各种物体：

检测到对同一类别物体的不同类型的交互：

3、Ablation study

a) Contextual feature. 不适用任何上下文特征的baseline，convolutional features from the entire image，bottom-up attention map, and the proposed instance-centric attention map，表明上下文特征通常有助于提高HOI性能。

b) Human-centric vs. object-centric. 表明了以人为中心和以对象为中心的注意力映射的重要性

c) mAP vs. time vs. memory. 在mAP，时间，内存上的权衡

参考：机器之心《 iCAN：以人为中心的“人-物”交互检测网络》

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记相关推荐

Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记
笔记这篇文章作者提出现有的模型没有考虑一词多义的情况,即认为同一个动词的视觉特征差不多,然而实际情况下同一个动词的视觉特征可能会有特别大的变化,本文作者基于此提出了一系列策略和PD-Net模型,来克 ...
人物交互（human object interaction）论文汇总-2018年
1. Detecting and Recognizing Human-Object Interactions 1.1 总述中心思想是以人为中心.假设是一个人的外表信息(姿态.衣服.动作等)是确定与他 ...
人物交互（human object interaction）论文汇总-2020年
1. Learning Human-Object Interaction Detection using Interaction Points 1.1 总述大多数现有的HOI检测方法都是以实例为中心 ...
《A non-contact eye-gaze tracking system for human computer interaction》论文阅读
题目:A non-contact eye-gaze tracking system for human computer interaction 作者:YING QI, ZHI-LIANG WANG, ...
Social-STGCNN: A Social Spatio-Temporal GCNN for Human Trajectory Prediction(CVPR2020)论文阅读笔记
Social-STGCNN: A Social Spatio-Temporal GCNN for Human Trajectory Prediction 一种用于人类轨迹预测的社会时空图卷积神经网络 ...
CenterNet: Keypoint Triplts for Object Detection 论文阅读笔记
论文名称:CenterNet: Keypoint Triplts for Object Detection 作者:Kaiwen Duan & Song Bai等论文链接:https://ar ...
Class-Aware Robust Adversarial Training for Object Detection论文阅读笔记
针对目标检测的类感知对抗训练 2021年的CVPR,哥伦比亚大学和中心研究院合作的工作. 摘要: 目的通过对抗训练增强目标检测的鲁棒性,对于一张给定的图像,本文提出的方法产生一个通用的对抗性攻击 ...
Small Object Detection using Context and Attention（论文阅读笔记）
Small Object Detection using Context and Attention 论文阅读笔记出处:2021 International Conference on Artifi ...
【论文笔记】DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection
论文论文题目:DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection 收录: ...

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记相关推荐

最新文章

热门文章