【阅读笔记】Zero-Shot Human-Object Interaction Recognition via Affordance Graphs


目录

  • 【阅读笔记】Zero-Shot Human-Object Interaction Recognition via Affordance Graphs
  • Abstract
  • Introduction
  • Method
    • Model
      • Affordance Graph
      • GCN
      • Class Representations
    • Training
  • Experiments

论文链接:https://arxiv.org/abs/2009.01039

Abstract

本文提出零样本人物交互(Zero-Shot Human- Object Interaction Recognition)新方法,涉及与未知动作的交互(而不是已知的动作和物体组成的新组合)。本文方法以图的形式利用图像中外部知识模拟动作和物体之间的可供性关系,即物体是否能够执行动作。本文提出一个损失函数,旨在将图中包含的知识提取到模型中,同时,还通过在潜在空间上施加局部结构来正则化学习表征。最后在一些数据集(包括流行的HICO和HICO-DET)上评估模型,结果表示,本文模型优于当前最先进的技术。


Introduction

人物交互(HOI)识别是从场景的视觉外观来识别人们如何与周围物体交互的任务,对理解图像内容至关重要。它为输入图像生成一系列三元组<人,动作,目标>,并且提供一个简单的图像语义表示用于图像字幕或者人机交互等更高级的任务。
处理视觉关系时最困难的问题之一就是三元组数量在人、动作和目标空间的基数上倍数增加,即使我们不在大量“人”这个类别上进行区分,比如“大人”、“小孩”等,可能的交互,即<动作,目标>对,该数量依然以平方的形式增加。由于在构数据集的实际挑战中,通常只对可能交互的一个子集进行注释,而大量的数据仍未被标记,例如,HICO中9360对中只有600个交互(8760个未标记的交互,一些是无效的,如<eating,bottle>,一些是有效但缺失的,如<carrying,knife>)。这也就是为什么越来越多研究中聚焦于人物交互识别中零样本(ZSL)的原因。ZSL旨在缓解通过模型预测先前未知交互时可能交互对的数量组合增长所造成的问题。

Method

Model


(1)输入图像I;
(2)CNN(如ResNet)提取特征,生成图像灰度级视觉特征,v=fCNN(I)v=f_{CNN}(I)v=fCNN(I)
(3)两个相同的结构化模块计算相似度分数,由变量q索引,一个用于物体(q=0),一个用于动作(q=A),每个模块通过非线性映射f1qf_1^qf1q(如MLP)计算一个d维表征xq=f1q(v)x^q=f_1^q(v)xq=f1q(v),使用相似函数g(xq,ziq)g(x^q,z_i^q)g(xq,ziq)比较向量xqx^qxq与d维类表征Zq=[z1q∣...∣z∣Sq⋃Uq∣q]Z^q=[z_1^q|...|z_{|S^q\bigcup U^q|}^q]Zq=[z1q...zSqUqq]g(x,z)=xTzg(x,z)=x^Tzg(x,z)=xTz
(4)通过sigmoid函数σ(x)=1/(1+e−x)\sigma(x)=1/(1+e^{-x})σ(x)=1/(1+ex)计算概率yq=σ(Zqx)y^q=\sigma(Z^qx)yq=σ(Zqx)

inference时使用的是:
通过GCN使用已知类的表示以半监督方式学习未知类的表示external representation;
采用全监督的方式为已知类训练另一组表示internal representation;
计算:将物体和动作分数相乘,给每个交互赋值,生成一个矩阵Y∈[0,1]∣O∣×∣A∣Y\in[0,1]^{|O|\times |A|}Y[0,1]O×Ayjky_{jk}yjk表示<aka_kak,ojo_joj>的概率。

Affordance Graph

目的:通过构建affordance graph来挖掘外部来源的交互,模仿真实世界中没有可用未知类相关的交互信息的场景。

本文方法主要是通过使用结构化外部知识,即affordance graph,来提升零样本交互识别能力,表示为G=<V,E>,节点V代表物体和动作,边E代表两者之间的affordance。有效交互<aka^kakojo^joj>表示动作节点aka^kak可以别执行在与之相连的物体节点ojo^joj上,如<eat,apple>。affordance graph是无向二分图,只有动作和物体节点可以相连接。

GCN

目的:使用已知类的表示以半监督方式学习未知类的表示,有效的将图中的可供性关系embedding到learnt representations。

根据Z1=ϕ1(A~Z0Θ1)Z_1=\phi_1(\tilde{A}Z_0\Theta_1)Z1=ϕ1(A~Z0Θ1)聚合其邻居节点来计算每个节点的表示。深度GCN堆叠L层。
ϕ\phiϕ:激活函数,如ReLU;
A~=D−12(A+I)D−12\tilde{A}=D^{-\frac{1}{2}}(A+I)D^{-\frac{1}{2}}A~=D21(A+I)D21:归一化的邻接矩阵:
D:对角矩阵,dii=1+∑j=1Naijd_{ii}=1+\sum_{j=1}^Na_{ij}dii=1+j=1Naij
I:单位矩阵;
Z0∈RN×d0Z_0\in\R^{N\times d_0}Z0RN×d0:初始化节点表示矩阵,N个节点,d0d_0d0维;
Θ1∈Rd0×d1\Theta_1\in\R^{d_0\times d_1}Θ1Rd0×d1:层参数;

Class Representations

目的:结合从word embeddings中计算出的额外语义信息,即类表征,来扩充GCN产生的objects representations。

与先前工作不同,不使用类表征初始化GCN的输入embedding,因为affordance graph和word embeddings提供不同类型的语义,前者捕获affordance,后者捕获共现统计(co-occurrence statistic)。例如,“eat”和“drink”affordance不同但是word embeddings是相近的,这就导致动作相似性上的错误匹配,从而降低性能。然而,word embeddings得到的共现语义对物体是有用的,例如,“pizza”和“sandwich”按照word embeddings有很高的相似度,这两个物体都可以被食用,所以使用word embeddings来扩充GCN产生的objects representationsZEXTOZ_{EXT}^OZEXTOZEXTAZ_{EXT}^AZEXTA多加一个word embeddings函数f2f_2f2

类表征计算:

ZEXTO∈R∣O∣×dZ_{EXT}^O\in\R^{|O|\times d}ZEXTORO×dZEXTA∈R∣A∣×dZ_{EXT}^A\in\R^{|A|\times d}ZEXTARA×d
(ZGCN)O,:(Z_{GCN})_{O,:}(ZGCN)O,:(ZGCN)A,:(Z_{GCN})_{A,:}(ZGCN)A,:ZGCNZ_{GCN}ZGCN中对应物体和动作类别的行;
f2f_2f2f3f_3f3:非线性函数,如MLPs;
WO∈R∣O∣×d′W^O\in\R^{|O|\times d^\prime}WORO×dd′d^\primed维word embeddings;
ZO∈R(∣O∣+∣A∣)×d0Z^O\in\R^{(|O|+|A|)\times d_0}ZOR(O+A)×d0:embeddings;GCN随机初始化输入embeddings;
yEXTq=σ(ZEXTqx)y_{EXT}^q=\sigma(Z_{EXT}^qx)yEXTq=σ(ZEXTqx):使用ZEXTOZ_{EXT}^OZEXTOZEXTAZ_{EXT}^AZEXTA预测的类别概率,其中q∈{O,A}q\in\{O,A\}q{O,A}
ZEXT−Sq=(ZEXTq)Sq,;Z_{EXT-S}^q=(Z_{EXT}^q)_{S^q,;}ZEXTSq=(ZEXTq)Sq,;ZEXT−Uq=(ZEXTq)Uq,;Z_{EXT-U}^q=(Z_{EXT}^q)_{U^q,;}ZEXTUq=(ZEXTq)Uq,;ZEXTqZ_{EXT}^qZEXTq的子矩阵,分别是已知类别和未知类别的行。

问题:正则化器根据affordance graph将unseen class的表示与相似的类聚集在一起,但seen class会收到unseen class的影响,seen class产生了噪声,从而降低性能。
解决方法:采用全监督的方式为已知类训练另一组表示ZINTq∈R∣Sq∣×dZ_{INT}^q\in\R^{|S^q|\times d}ZINTqRSq×d,称为internal representation,产生已知物体和动作类别的单独概率向量yINTq=σ(ZINTqx)y_{INT}^q=\sigma(Z_{INT}^qx)yINTq=σ(ZINTqx)

Training

使用带有动量的SGD和一个固定的学习率来训练模型。

最小化composite loss function:优化internal类表征ZINTqZ_{INT}^qZINTq和其他参数Θ\ThetaΘ(包括MLPs和GCN的权重,以及GCN的初始表示Z0Z_0Z0),使用L2正则化参数Θ\ThetaΘ防止过拟合。
前两项是标准训练损失,第三项是以弱监督方式训练未知动作类并估计labels

λ\lambdaλρ\rhoρ:超参数;
tiO∈{0,1}∣O∣t_i^O\in \{0,1\}^{|O|}tiO{0,1}OtiA∈{0,1}∣A∣t_i^A\in \{0,1\}^{|A|}tiA{0,1}A:标签向量;
lll:标准二分交叉熵损失函数,yyy为输出结果,ttt为目标标签,JJJ是一组指数;

[x]+=max(x,0)[x]_+=max(x,0)[x]+=max(x,0)
M∈{0,1}∣O∣×∣A∣M\in\{0,1\}^{|O|\times|A|}M{0,1}O×A:图邻接矩阵;
wkw_kwk:第k个动作的word embedding;
公式8计算未知动作k描述图像中物体j的可能性分数([0-1]),word embeddings通过正内积对已经标记的已知动作计算分数,与展示的已知动作相似的未知动作得高分。
按照公式7提取action affordance到模型中(只提取有效的交互对,此时mjk=1m_{jk}=1mjk=1)。

一张图像中可能包含多个动作,根据Multiple Instance Learning采用分数最高的动作。
将affordance graph作为动作类别的正则化器,基于affordance的潜在空间上生成一种结构来更好的学习表征,将功能相似的动作聚集在一起,也就是说,同一个物体上的不同动作。

ranking margin loss

γ∈R\gamma\in\RγR:margin;
cijc_{ij}cijZEXTAZ_{EXT}^AZEXTA第i列ziz_izi和第j列zjz_jzj的余弦相似度;
N(i)N(i)N(i):与动作节点aia_iai功能相似的动作的集合;

Experiments

暂时不想写。。。

【阅读笔记】Zero-Shot Human-Object Interaction Recognition via Affordance Graphs相关推荐

  1. 人物交互(human object interaction)论文汇总-2018年

    1. Detecting and Recognizing Human-Object Interactions 1.1 总述 中心思想是以人为中心.假设是一个人的外表信息(姿态.衣服.动作等)是确定与他 ...

  2. 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar

    毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...

  3. 人物交互(human object interaction)论文汇总-2020年

    1. Learning Human-Object Interaction Detection using Interaction Points 1.1 总述 大多数现有的HOI检测方法都是以实例为中心 ...

  4. 【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice

    1.1 论文信息 标题 Optimizing Video Object Detection via a Scale-Time Lattice 会议 CVPR 2018 原文链接 Optimizing ...

  5. [论文阅读笔记]Two-Stream Convolutional Networks for Action Recognition in Videos

    Karen Simonyan Andrew Zisserman  Visual Geometry Group, University of Oxford  fkaren,azg@robots.ox.a ...

  6. 【论文阅读笔记】Integral Human Pose Regression

    论文地址:https://arxiv.org/abs/1711.08229 代码地址:https://github.com/JimmySuen/integral-human-pose 论文总结   本 ...

  7. 【阅读笔记 EMNLP2020】《Message Passing for Hyper-Relational Knowledge Graphs》

    题目:Message Passing for Hyper-Relational Knowledge Graphs(超关系知识图谱的知识传递) 会议:EMNLP2020 论文地址: https://ar ...

  8. [论文笔记] Oriented R-CNN 阅读笔记

    Oriented R-CNN 阅读笔记 Oriented R-CNN for Object Detection(ICCV 2021) 摘要 引言 Oriented R-CNN Oriented RPN ...

  9. Cascaded Human-Object Interaction Recognition论文阅读笔记

    笔记 现有的方法大都采用single-stage的推理线,考虑到任务的复杂性,作者提出了一种采用级联结构,多分支,从粗糙到细致的HOI理解. 如图1,作者的模型包含了一个实例定位网络和一个交互识别网络 ...

最新文章

  1. 切割机插件_这些激光切割机的故障,看看你都遇到过吗?
  2. 今晚直播 | 清华大学NLP组秦禹嘉:基于自然语言解释的数据增强
  3. 学界 | CVPR 2018颁布五大奖项,何恺明获年轻学者奖
  4. 基于VMWare配置VxWorks开发环境
  5. Vue基础之Vue列表渲染
  6. 14个支持响应式设计的流行前端开发框架
  7. 双表查询java代码_多表增删改查
  8. 修复Ubuntu系列pip
  9. centos 下安装mysql-5.6.11
  10. android ant build.xml实例
  11. git下载出错GnuTLS recv error (-54): Error in the pull function
  12. APP推广第一步:五大ASO优化方法
  13. matlab中 不是3和7倍数,从1到100的所有自然数中,不是3也不是7的倍数的数有多少个?...
  14. mysql dump 1449_关于mysqldump的ERROR 1449 问题
  15. 关于字段超长导致的插入错误的提示信息(value too long for type character varying)
  16. win10 声音设置
  17. PDPS软件:机器人最佳布局位置自动选择功能介绍与使用方法
  18. openwrt RK3568_EVB移植
  19. 推荐四款可视化工具,解决99%的可视化大屏需求
  20. python tkinter界面基础----文艺范儿

热门文章

  1. Hibernate之Query.uniqueResult()结果为数值的注意事项
  2. HTML标签学习---第二天
  3. fiddler使用教程+抓包实践+filder抓包APP+HTTPS,PC微信小程序公众号抓包笔记,fidder插件
  4. python动态数组怎么实现_如何创建动态数组
  5. 阵列matlab遗传,基于MATLAB的遗传算法及其在稀布阵列天线中的应用
  6. zookeeper配置详解
  7. “一谷补一脏” 五谷是养生的好食材
  8. 知海匠库php培训,知海匠库:做UI设计电脑用什么配置合适?
  9. Matlab在线上画空心、实心点
  10. Ubuntu下安装QQ和微信