【阅读笔记】Zero-Shot Human-Object Interaction Recognition via Affordance Graphs

Abstract

本文提出零样本人物交互（Zero-Shot Human- Object Interaction Recognition）新方法，涉及与未知动作的交互（而不是已知的动作和物体组成的新组合）。本文方法以图的形式利用图像中外部知识模拟动作和物体之间的可供性关系，即物体是否能够执行动作。本文提出一个损失函数，旨在将图中包含的知识提取到模型中，同时，还通过在潜在空间上施加局部结构来正则化学习表征。最后在一些数据集（包括流行的HICO和HICO-DET）上评估模型，结果表示，本文模型优于当前最先进的技术。

Introduction

人物交互（HOI）识别是从场景的视觉外观来识别人们如何与周围物体交互的任务，对理解图像内容至关重要。它为输入图像生成一系列三元组<人，动作，目标>，并且提供一个简单的图像语义表示用于图像字幕或者人机交互等更高级的任务。
处理视觉关系时最困难的问题之一就是三元组数量在人、动作和目标空间的基数上倍数增加，即使我们不在大量“人”这个类别上进行区分，比如“大人”、“小孩”等，可能的交互，即<动作，目标>对，该数量依然以平方的形式增加。由于在构数据集的实际挑战中，通常只对可能交互的一个子集进行注释，而大量的数据仍未被标记，例如，HICO中9360对中只有600个交互（8760个未标记的交互，一些是无效的，如<eating，bottle>，一些是有效但缺失的，如<carrying，knife>）。这也就是为什么越来越多研究中聚焦于人物交互识别中零样本（ZSL）的原因。ZSL旨在缓解通过模型预测先前未知交互时可能交互对的数量组合增长所造成的问题。

Method

Model

（1）输入图像I；
（2）CNN（如ResNet）提取特征，生成图像灰度级视觉特征， $v=f_{CNN}(I)$ ；
（3）两个相同的结构化模块计算相似度分数，由变量q索引，一个用于物体（q=0），一个用于动作（q=A），每个模块通过非线性映射 $f_1^q$ （如MLP）计算一个d维表征 $x^q=f_1^q(v)$ ，使用相似函数 $g(x^q,z_i^q)$ 比较向量 $x^q$ 与d维类表征 $Zq=[z1q∣...∣z∣Sq⋃Uq∣q]Z^q=[z_1^q|...|z_{|S^q\bigcup U^q|}^q]$ ， $g(x,z)=x^Tz$ ；
（4）通过sigmoid函数 $σ(x)=1/(1+e−x)\sigma(x)=1/(1+e^{-x})$ 计算概率 $yq=σ(Zqx)y^q=\sigma(Z^qx)$

inference时使用的是：
通过GCN使用已知类的表示以半监督方式学习未知类的表示external representation；
采用全监督的方式为已知类训练另一组表示internal representation；
计算：将物体和动作分数相乘，给每个交互赋值，生成一个矩阵 $Y∈[0,1]∣O∣×∣A∣Y\in[0,1]^{|O|\times |A|}$ ， $y_{jk}$ 表示< $a_k$ , $o_j$ >的概率。

Affordance Graph

目的：通过构建affordance graph来挖掘外部来源的交互，模仿真实世界中没有可用未知类相关的交互信息的场景。

本文方法主要是通过使用结构化外部知识，即affordance graph，来提升零样本交互识别能力，表示为G=<V，E>，节点V代表物体和动作，边E代表两者之间的affordance。有效交互< $a^k$ ， $o^j$ >表示动作节点 $a^k$ 可以别执行在与之相连的物体节点 $o^j$ 上，如<eat，apple>。affordance graph是无向二分图，只有动作和物体节点可以相连接。

GCN

目的：使用已知类的表示以半监督方式学习未知类的表示，有效的将图中的可供性关系embedding到learnt representations。

根据 $Z1=ϕ1(A~Z0Θ1)Z_1=\phi_1(\tilde{A}Z_0\Theta_1)$ 聚合其邻居节点来计算每个节点的表示。深度GCN堆叠L层。
$ϕ\phi$ ：激活函数，如ReLU；
$A~=D−12(A+I)D−12\tilde{A}=D^{-\frac{1}{2}}(A+I)D^{-\frac{1}{2}}$ ：归一化的邻接矩阵：
D：对角矩阵， $dii=1+∑j=1Naijd_{ii}=1+\sum_{j=1}^Na_{ij}$ ；
I：单位矩阵；
$Z0∈RN×d0Z_0\in\R^{N\times d_0}$ ：初始化节点表示矩阵，N个节点， $d_0$ 维；
$Θ1∈Rd0×d1\Theta_1\in\R^{d_0\times d_1}$ ：层参数；

Class Representations

目的：结合从word embeddings中计算出的额外语义信息，即类表征，来扩充GCN产生的objects representations。

与先前工作不同，不使用类表征初始化GCN的输入embedding，因为affordance graph和word embeddings提供不同类型的语义，前者捕获affordance，后者捕获共现统计（co-occurrence statistic）。例如，“eat”和“drink”affordance不同但是word embeddings是相近的，这就导致动作相似性上的错误匹配，从而降低性能。然而，word embeddings得到的共现语义对物体是有用的，例如，“pizza”和“sandwich”按照word embeddings有很高的相似度，这两个物体都可以被食用，所以使用word embeddings来扩充GCN产生的objects representations， $Z_{EXT}^O$ 比 $Z_{EXT}^A$ 多加一个word embeddings函数 $f_2$ 。

类表征计算：

$ZEXTO∈R∣O∣×dZ_{EXT}^O\in\R^{|O|\times d}$ ； $ZEXTA∈R∣A∣×dZ_{EXT}^A\in\R^{|A|\times d}$ ；
$Z_{GCN})_{O,:}$ 和 $Z_{GCN})_{A,:}$ ： $Z_{GCN}$ 中对应物体和动作类别的行；
$f_2$ 和 $f_3$ ：非线性函数，如MLPs；
$WO∈R∣O∣×d′W^O\in\R^{|O|\times d^\prime}$ ： $d′d^\prime$ 维word embeddings；
$ZO∈R(∣O∣+∣A∣)×d0Z^O\in\R^{(|O|+|A|)\times d_0}$ ：embeddings；GCN随机初始化输入embeddings；
$yEXTq=σ(ZEXTqx)y_{EXT}^q=\sigma(Z_{EXT}^qx)$ ：使用 $Z_{EXT}^O$ 和 $Z_{EXT}^A$ 预测的类别概率，其中 $q∈{O,A}q\in\{O,A\}$ ；
$Z_{EXT-S}^q=(Z_{EXT}^q)_{S^q,;}$ 和 $Z_{EXT-U}^q=(Z_{EXT}^q)_{U^q,;}$ ： $Z_{EXT}^q$ 的子矩阵，分别是已知类别和未知类别的行。

问题：正则化器根据affordance graph将unseen class的表示与相似的类聚集在一起，但seen class会收到unseen class的影响，seen class产生了噪声，从而降低性能。
解决方法：采用全监督的方式为已知类训练另一组表示 $ZINTq∈R∣Sq∣×dZ_{INT}^q\in\R^{|S^q|\times d}$ ，称为internal representation，产生已知物体和动作类别的单独概率向量 $yINTq=σ(ZINTqx)y_{INT}^q=\sigma(Z_{INT}^qx)$

Training

使用带有动量的SGD和一个固定的学习率来训练模型。

最小化composite loss function：优化internal类表征 $Z_{INT}^q$ 和其他参数 $Θ\Theta$ （包括MLPs和GCN的权重，以及GCN的初始表示 $Z_0$ ），使用L2正则化参数 $Θ\Theta$ 防止过拟合。
前两项是标准训练损失，第三项是以弱监督方式训练未知动作类并估计labels

$λ\lambda$ 和 $ρ\rho$ ：超参数；
$tiO∈{0,1}∣O∣t_i^O\in \{0,1\}^{|O|}$ 和 $tiA∈{0,1}∣A∣t_i^A\in \{0,1\}^{|A|}$ ：标签向量；
$l$ ：标准二分交叉熵损失函数， $y$ 为输出结果， $t$ 为目标标签， $J$ 是一组指数；

$x]_+=max(x,0)$ ；
$M∈{0,1}∣O∣×∣A∣M\in\{0,1\}^{|O|\times|A|}$ ：图邻接矩阵；
$w_k$ ：第k个动作的word embedding；
公式8计算未知动作k描述图像中物体j的可能性分数（[0-1]），word embeddings通过正内积对已经标记的已知动作计算分数，与展示的已知动作相似的未知动作得高分。
按照公式7提取action affordance到模型中（只提取有效的交互对，此时 $m_{jk}=1$ ）。

一张图像中可能包含多个动作，根据Multiple Instance Learning采用分数最高的动作。
将affordance graph作为动作类别的正则化器，基于affordance的潜在空间上生成一种结构来更好的学习表征，将功能相似的动作聚集在一起，也就是说，同一个物体上的不同动作。

ranking margin loss：

$γ∈R\gamma\in\R$ ：margin；
$c_{ij}$ ： $Z_{EXT}^A$ 第i列 $z_i$ 和第j列 $z_j$ 的余弦相似度；
$N (i)$ ：与动作节点 $a_i$ 功能相似的动作的集合；

Experiments

暂时不想写。。。