摘要

本文研究场景图中人-物交互问题。其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。

一、引言

HOI:人-物交互检测,旨在定位人、物体并识别人与物体之间的交互。图 1 中展示了 HOI 检测问题的一个例子。给定输入图像和物体检测器检测到的实例,研究者的目标是识别出所有的“人-动词-物体”三元关系组。检测和识别 HOI 是朝着更深入理解场景迈出的重要一步。而不是“哪里有什么?”(即,在图像中定位物体实例),HOI 检测的目标是回答“发生了什么?”的问题。研究 HOI 检测问题也为其他相关的高级视觉任务提供了重要线索,例如姿态估计 [2,40],图像标注 [24,39] 和图像检索 [21]。

Why attention?  加入人体姿势可能有助于识别“骑行”和“投掷”等行为,加入交互点可能有助于识别涉及手 - 物体交互行为,例如“用杯子喝水”和“用勺子吃饭”,加入背景可能有助于区分“用网球拍击中”和“用棒球棍击中”。

本文提出了一种以实例为中心的端到端可训练注意力模块,学习使用人或物体实例的外观来突出信息区域。实例(人或物体)的外观暗示了我们应该注意图像中的哪些位置。例如,为了更好地确定一个人是否拿有物体,应该将注意力集中在人手周围。另一方面,对于图像中的自行车,知道附近人的姿势有助于消除关于物体实例(例如,骑或推自行车)的潜在交互的歧义。本文提出的以实例为中心的注意力网络(iCAN)动态地为每个检测到的人或物体实例生成注意力映射,突出显示与该任务相关的区域。

贡献:

  • 引入了一个以实例为中心的注意力模块,它允许网络动态突出信息区域以改进 HOI 检测。
  • 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
  • 进行了详细的对比实验和误差分析,以确定各个组成部分的相对贡献,并量化不同类型的错误。
  • 发布了源代码和预训练模型,以促进将来的研究。

二、相关工作

对象检测:是场景理解的基础。本文使用现有的 faster R-CNN来定位人和物体实例。

视觉关系检测:。。。

Attention:。。。

Human-object interactions :。。。

三、以实例为中心的注意力网络(Instance-Centric Attention Network)

模型概述。研究者提出的模型包括以下三个主要流:(1)基于人类外观检测交互的人流; (2)基于物体外观预测交互的物体流;(3)用于编码人类和物体边界框之间的空间布局的配对流。基于现有的 Faster R-CNN 检测到的对象实例,使用所有的人 - 物体对生成 HOI 假设。然后融合来自各个流的动作分数以产生最终预测。

3.1    方法概述

主要包括两步:

(1)对象检测:用faster R-CNN预测所有的人/对象实例。

:detected bounding box for a person.

:an object instance.

:the confidence scores for a detected person and an object, respectively.

(2)HOI预测:使用以实例为中心的注意力网络评估每个 人-对象对的交互得分。

Inference. 预测HOI得分类似于现有方法[14, 16],对于每个 人-对象对()和每一个a ∈ {1, · · · , A}(所有可能的动作),预测得分。得分依赖于:(1)单个对象检测的置信度();(2)基于人和物体的外观的交互预测();(3)基于人与对象之间的空间关系的分数预测。所以,为:

有一些动作类别不包含交互对象(walk, smile... ...):=*

Training. 由于一个人可以同时对一个或多个目标物体执行不同的动作,例如,一个人可以同时“用网球拍打”和“握住”网球拍,因此HOI检测是一个多标签分类问题,其中每个交互类是独立的,并且不是相互排斥的。我们对每个动作类别应用binary sigmoid分类器,然后最小化每一个动作类别的得分和真实的动作标签之间的交叉熵损失. (We apply a binary sigmoid classifier for each action category, and then minimize the cross-entropy loss between action score ,, , or  and the ground-truth action label for each action category. )

3.2    以实例为中心的注意力模块

iCAN 模块。给定图像的卷积特征(以灰色显示)和人/物体边界框(以红色显示),iCAN 模块提取实例(人类或物体)的外观特征以及来自以实例为中心的注意力映射的特征。为了计算注意力映射,研究者使用 512 个通道的 bottleneck 来评估嵌入空间中的相似性 [37,38]。具体来说,研究者用 1×1 卷积和实例外观特征将图像特征嵌入到全连接层中。这里的 res5 表示第五个残差块,GAP 表示全局平均池化层,FC 表示全连接层。

我们首先使用标准过程提取实例级外观特征,ROI polling,res5,GAP。

接下来的目标是动态生成感兴趣的对象实例的注意力映射。为此,将实例级外观特征和卷积特征映射嵌入到512维空间中,并使用向量点积来测量该嵌入空间中的相似性。然后通过使用softmax获得以实例为中心的注意力映射。注意力映射突出显示图像中的相关区域,其可以有助于识别与给定人/物实例相关联的HOI。 使用注意力映射,我们可以通过计算卷积特征的加权平均值来提取上下文特征

iCAN模块的最终输出是实例级外观特征和基于注意力的上下文特征的连接(concatenation?)。

优点:Our iCAN module offers several advantages over existing approaches. First, unlike hand-designed contextual features based on pose [6], the entire image [31], or secondary regions [13], our attention map are automatically learned and jointly trained with the rest of the networks for improving the performance. Second, when compared with attention modules designed for image-level classification, our instance-centric attention map provides greater flexibility as it allows attending to different regions in an image depending on different object instances.  自动学习上下文特征;灵活。

3.3    Multi-stream network

Human/object stream.    按照3.2和图4中概述的步骤,提取1)一个人的实例级外观特征或物的实例级外观特征和2)基于注意力映射的上下文特征(或)。将两个特征向量连接起来,并通过两个全连接层来生成动作得分。来自人类流的分数也允许我们检测不涉及任何物体的动作,例如,行走、微笑。

Pairwise stream.    虽然人和物体的外观特征包含识别交互的强烈提示,但是单独使用外观特征常常导致似是而非的预测。具体来讲,为了编码人和物体之间的空间关系,我们采用了[4]中的双通道二值图像表示来表征交互模式。我们将这两个盒子的并集作为参考框,并在其中构建一个具有两个通道的二值图像。第一通道在人类边界框内具有值1,在其他地方具有值0;第二通道在对象边界框内具有值1,在其他地方具有值0。然后,我们使用CNN从双通道二值图像中提取空间特征。然而,我们发现,由于粗略的空间信息(只有两个边界框),这个特征本身不能产生精确的动作预测。为了解决这个问题,我们将空间特征与人类外观特征连接起来。我们的直觉是,人的外观可以极大地帮助消除空间布局相似的不同行为的歧义,例如,骑自行车与推自行车。

3.4    Efficient inference

四、实验

1、在两个大型 HOI 基准数据集上的效果优于当前最佳模型

2、在生活照中检测出各种形式的 HOI。模型检测到在不同情况下与人进行“骑”、“吃”、“躺”和“喝”交互的各种物体:

检测到对同一类别物体的不同类型的交互:

3、Ablation study

a) Contextual feature.  不适用任何上下文特征的baseline,convolutional features from the entire image,bottom-up attention map, and the proposed instance-centric attention map,表明上下文特征通常有助于提高HOI性能。

b) Human-centric vs. object-centric. 表明了以人为中心和以对象为中心的注意力映射的重要性

c) mAP vs. time vs. memory.  在mAP,时间,内存上的权衡

参考:机器之心 《 iCAN:以人为中心的“人-物”交互检测网络》

iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记相关推荐

  1. Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记

    笔记 这篇文章作者提出现有的模型没有考虑一词多义的情况,即认为同一个动词的视觉特征差不多,然而实际情况下同一个动词的视觉特征可能会有特别大的变化,本文作者基于此提出了一系列策略和PD-Net模型,来克 ...

  2. 人物交互(human object interaction)论文汇总-2018年

    1. Detecting and Recognizing Human-Object Interactions 1.1 总述 中心思想是以人为中心.假设是一个人的外表信息(姿态.衣服.动作等)是确定与他 ...

  3. 人物交互(human object interaction)论文汇总-2020年

    1. Learning Human-Object Interaction Detection using Interaction Points 1.1 总述 大多数现有的HOI检测方法都是以实例为中心 ...

  4. 《A non-contact eye-gaze tracking system for human computer interaction》论文阅读

    题目:A non-contact eye-gaze tracking system for human computer interaction 作者:YING QI, ZHI-LIANG WANG, ...

  5. Social-STGCNN: A Social Spatio-Temporal GCNN for Human Trajectory Prediction(CVPR2020)论文阅读笔记

    Social-STGCNN: A Social Spatio-Temporal GCNN for Human Trajectory Prediction 一种用于人类轨迹预测的社会时空图卷积神经网络 ...

  6. CenterNet: Keypoint Triplts for Object Detection 论文阅读笔记

    论文名称:CenterNet: Keypoint Triplts for Object Detection 作者:Kaiwen Duan & Song Bai等 论文链接:https://ar ...

  7. Class-Aware Robust Adversarial Training for Object Detection论文阅读笔记

    针对目标检测的类感知对抗训练 2021年的CVPR,哥伦比亚大学和中心研究院合作的工作. 摘要:    目的通过对抗训练增强目标检测的鲁棒性,对于一张给定的图像,本文提出的方法产生一个通用的对抗性攻击 ...

  8. Small Object Detection using Context and Attention(论文阅读笔记)

    Small Object Detection using Context and Attention 论文阅读笔记 出处:2021 International Conference on Artifi ...

  9. 【论文笔记】DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection

    论文 论文题目:DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection 收录: ...

最新文章

  1. 网站初学笔记3-HTML实用元素3
  2. CDH6.3.2集群安装hue报错: HDFS dependency is missing.
  3. 开放一些常见功能的工具类代码
  4. 使用Spring Boot和GraphQL构建安全的API
  5. Python破解滑块验证码算法,完美避开人机识别
  6. 卷积神经网络工作原理直观的解释
  7. dojo + jersey 上传图片到数据库
  8. Atitit hibernste5 注解方式开发总结 目录 1. 映入hb5的jar 建立项目 1 1.1. 建表tab1 ,这里使用了sqlite数据库 1 1.2. 建立映射实体类tab1
  9. 自定mvc之新增,下架以及上架
  10. Maya中英文对照表(四)
  11. redis下载配置并简单测试(免安装版)
  12. ps里面的css,PS图层样式详解(上)
  13. 内测成员爱范儿CTO何世友讲述微信小程序的台前幕后
  14. Java SE第10章 异常处理
  15. jquery ajax 出错得到错误信息的方式
  16. mac 修改 DNS
  17. 4.46-47访问控制4/5
  18. Android 超高仿微信图片选择器
  19. 射频信号空间衰减计算
  20. The Things Network LoRaWAN Stack V3 学习笔记 2.5 LoRa节点配置接入

热门文章

  1. 暴雪和黑客的战争三:黑客的反击
  2. MS SQL 的入门学习
  3. 关于开发新一代大数据分布式关系数据库的倡议
  4. DELMIA教程之焊接工作站简介
  5. Leetcode 799. 香槟塔
  6. python:turtle绘制纸飞机
  7. 最简单的USACO,没有之一:【USACO题库】1.3.4 Prime Cryptarithm牛式
  8. Python量化交易学习笔记(18)——放量突破布林线中轨买入策略
  9. k8s pvc Terminating 状态无法删除
  10. Windows动态库注册和取消注册