Detecting and Recognizing Human-Object Interactions
https://arxiv.org/abs/1704.07333

大牛们已经从图像的检测分割向图像理解的研究方向过渡了!

本文主要关注图像中的 人 和 物体的关系检测和识别,这种关系可以用一个三元素 《human, verb, object》 来描述,这里我们提出一个 human-centric model 来检测人和物的关系。


这里我们主要根据 person’s appearance 来给出action 类别概率及关联物体的位置。

在我们提出的方法 InteractNet 中,使用了 Faster R-CNN 检测框架,对于含有人的一个候选区域 RoI, human-centric recognition 分支进行 action classification 和 action 关联的物体位置的 density estimation。密度估计器给出一个4维的高斯分布,对于每个 action type,主要对人和物体的相对位置进行建模。这种预测纯粹基于 person appearance


上图是我们模型的检测效果图示例图

模型框架如下图所示:

3.1. Model Components
Object Detection
这个分支和 Faster R-CNN 完全一样,使用 Region Proposal Network (RPN) 提取候选区域,然后进行分类和矩形框坐标回归,得到人和物体的类别及位置矩形框和对应的概率,在 inference 是只是用检测出人和物体的候选区域,在训练时使用RPN提取的所有候选区域

Action Classification
human-centric 分支的第一个任务就是对每一个human box b_h 和 action a 赋予一个 action classification score,因为人可以同时进行多种动作,所有我们这里进行多类别东西分类。

Target Localization
human-centric 分支的第二个任务就是基于人的 appearance 预测相关联物体的位置,直接预测位置难度较大,这里我们给出物体位置的密度概率。

这里我们将这个密度使用基于human appearance 和 正在进行的动作的高斯函数来建模
We model the density over the target object’s location as a Gaussian function whose mean is predicted based on the human appearance and action being performed.

Interaction Recognition 为了提高模型的表达能力,我们这里进一步利用了 the appearance of the target object,得到一个新的分支 interaction branch

3.2. Multi-task Training
我们将人-物关系的学习看做一个多任务学习问题,所有三个分支是共同训练的。
损失函数定义:
Our overall loss is the sum of all losses in our model including: (1) the classification and regression loss for the object detection branch, (2) the action classification and target localization loss for the human-centric branch, and (3) the action classification loss of the interaction branch.

3.3. Cascaded Inference
在Inference 阶段,我们使用了 Cascaded 来降低时间复杂度,关键是只对人的矩形框进行相关处理!
实现 ∼ 135ms on a typical image running on a single Nvidia M40 GPU

我们方法检测失败的例子:

图像理解--Detecting and Recognizing Human-Object Interactions相关推荐

  1. CVPR2020 | VSGNet:Spatial Attention Network for Detecting Human Object Interactions Using G

    论文地址: https://openaccess.thecvf.com/content_CVPR_2020/papers/Ulutan_VSGNet_Spatial_Attention_Network ...

  2. 人物交互(human object interaction)论文汇总-2020年

    1. Learning Human-Object Interaction Detection using Interaction Points 1.1 总述 大多数现有的HOI检测方法都是以实例为中心 ...

  3. 人物交互(human object interaction)论文汇总-2018年

    1. Detecting and Recognizing Human-Object Interactions 1.1 总述 中心思想是以人为中心.假设是一个人的外表信息(姿态.衣服.动作等)是确定与他 ...

  4. 语义分割--Learning Object Interactions and Descriptions for Semantic Image Segmentation

    Learning Object Interactions and Descriptions for Semantic Image Segmentation CVPR2017 本文主要是从训练数据的角度 ...

  5. CVPR2020检测类论文最全汇总:136篇论文方向细分(附代码和论文打包下载)

    为了方便大家进一步的学习,我们对这CVPR中的1467篇论文进行了整理,本次分享的是所有检测类论文,并将它们细分为3D目标检测.人脸检测.动作检测.视频目标检测.文本检测.行人检测等方向,同时附上了相 ...

  6. CVPR 2020 论文和开源项目合集(Papers with Code)

    CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享CVPR 2020开源项目 [推荐阅读] CVPR 2020 virtual ECCV 2020 论文开源项目合集来了:htt ...

  7. CVPR2020论文分方向整理之检测篇(代码/论文解读/136篇打包下载)

    z CVPR2020论文分方向整理之检测篇(代码/论文解读/136篇打包下载) 极市平台(微信公众号ID:extrememart):专注计算机视觉前沿资讯和技术干货.本文由极市平台首发,转载需获授权. ...

  8. CVPR2020论文分方向整理之检测篇_3D目标检测(代码/论文解读/136篇打包下载)

    CVPR2020论文分方向整理之检测篇(代码/论文解读/136篇打包下载) 本周三,CVPR官方正式开放下载,极市第一时间将所有论文(共1467篇)进行了下载打包,详情见此处.为了方便大家进一步的学习 ...

  9. CVPR2020 论文和代码合集

    CVPR2020-Code CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享CVPR 2020开源项目 [推荐阅读] CVPR 2020 virtual ECCV 2020 ...

最新文章

  1. C语言的数顺序输出与反序输出_只愿与一人十指紧扣_新浪博客
  2. 窃隐私、放高利贷,输入法的骚操作真不少!
  3. datagrid分页传递参数_四类数据库分页实现方案总结之Mysql分页实现
  4. JSP动作标签useBean--jsp:useBean 创建一个对象
  5. 两种CSS3圆环进度条详解
  6. 小米5x的Android,小米5X支持NFC功能吗? 小米5X有nfc吗
  7. 大学期末c语言作业演示,大学C语言期末考试练习题(带详解答案)
  8. css-博客圆形头象的制作
  9. Qt4_改变形状的对话框
  10. Spark利用(idea+maven+scala)创建wordcount打包jar并在spark on yarn上运行——Spark的开发
  11. NOI2019 SX 模拟赛 no.5
  12. 以前自己用SDL写的一个小游戏:QuadraPop
  13. 【飞行器】基于matlab GUI四旋翼飞行器PID控制仿真【含Matlab源码 1279期】
  14. A站、B站、C站、D站、E站、F站、G站、H站、I站、J站、K站、L站、M站、N站、O站、P站、Q站、R站、S站、T站、U站、V站、W站、X站、Y站、Z站都是什么网站?Q站是什么?
  15. win10远程桌面查看对方计算机名,教你如何使用Win10远程桌面控制他人电脑?
  16. Flutter中,解决按下返回键将应用挂起到后台,并不会退出的问题
  17. 你所谓的诗和远方,不过是虚荣感作祟
  18. 输入某年某月某日,判断这一天是这一年的第几天?
  19. Android利用jsoup爬虫爬网页数据(一)
  20. 【题解】士兵训练-C++

热门文章

  1. Nat. Commun. | 训练人工智能以发现与疾病相关的基因
  2. NLP(1) | 词向量one hot编码词向量编码思想
  3. CentOS 7 下安装 Docker 及操作命令
  4. CentOS7(64位)安装Jupyter Notebook
  5. 容器必须设置宽度吗_消防泵必须设置自动巡检柜吗
  6. 中科院城环所朱永官院士团队(宁波)招聘全职博士后启事
  7. WR:城环所杨军组揭示亚热带水库浮游有壳虫群落构建受随机性过程影响比确定性过程更强...
  8. 223.主成分分析PCA
  9. MetaWRAP分箱流程实战和结果解读
  10. pandas使用query函数基于dataframe字符串数据列中字符串的长度筛选dataframe的数据行(specific column string length)