内容简介

该论文由上海交通大学的Yong-Lu Li等人发表在CVPR 2020。本文在属性-对象组合配对问题当中提出对称性法则并同群论公理相结合，以使得在对象去属性和对象添加属性变换更加合理。同时提出相对移动距离（RMD Relative Moving Distance）模型来利用属性自身的变化而不是属性本身的特征来对属性进行分类。

本文将从论文背景、模型构建、实验结果和个人思考四个方面出发来介绍该论文。

一、模型背景

由图a上半部可以发现，在对象-属性组合问题当中，属性同对象之间具有组成性。同时，属性和对象之间同样需要保持上下文特性，即在对一个对象添加/删除属性后输出的结果应当同时具备对象自身的原始特征，否则添加/删除属性的过程将无意义。

本文作者着重提出，添加属性或删除属性的过程显然具备“对称性”。如上图（b）所示，对已经剥皮的苹果，我们再添加一个剥皮的属性，结果显然仍是一个被剥皮的苹果。同理，我们对一个没有剥皮的苹果删除掉剥皮的属性，结果显然仍是一个未剥皮的苹果。

该对称性的加入使得模型在处理相同特征叠加和去除对象不具备特征两个过程表现的更好，从而使模型具有更好的鲁棒性。

二、模型构建

2.1基本操作定义

根据上文所述的对象与属性之间的交互过程，可以得到耦合操作（T+）和解耦操作（T-）。同时，还需要一套公理系统来使得对象和属性之间的变换具有合理性。为了方便后续公理系统的构建，此处作者定义了元变换（Te），对象经过元变换之后不做任何改变。

下述表述中，f代表的是一个对象-属性配对，下角标o代表的是对象（object），上角标代表的是对象具有的属性。ai/aj代表某一种属性。操作符“ · ”代表对一个对象进行某种操作，该操作符只作用于对象和属性之间，不会作用于属性和属性之间。（作用于属性和属性之间会使表示结果奇怪，不过这样的定义其实也是让公理系统的限制变得更加宽松）

由此可以得到三个定义如下表总结所示，右侧为对应的公式形式。
如：对称公理的公式意义为一个具有属性i的对象添加了属性ai等价于一个具有属性i的对象。

2.2解耦/耦合网络架构

对于上述耦合与解耦操作，本文构建了对应的神经网络来实现。耦合网络（Coupling Net，CoN）和解耦网络（Decoupling Net，DecoN）具有相同的网络结构，但是两者的模型参数是独立的。

在网络模型构建中，首先运用Resnet-18网络提取出对象-属性配对。对于特定的属性ai，本文用300维预训练好的Glove向量作为词缀，同时引入注意力机制。将经过注意力机制处理的特征与配对相乘再相加，之后再与原始特征组合到一起后经过输出层得到最终的结果。由此训练的两个网络便实现了上述要求的T+和T-操作。

网络架构图如下所示：

2.3网络loss设计

为使对象-属性变换过程更具合理性，本文在此额外引入群论公理对该变换过程进行约束，并将所有限制进行总结并构建对应loss。

群论公理要求在给定集合内二元运算需要具有封闭性（closure）、单位元存在（identity element）、逆元存在(invertibility element)、可结合性 (associativity) 和可交换性 (commutativity) 。

对称性（symmetry）：l源于2.1中定义3，该loss加入会使网络具有定义3所要求的性质。

封闭性：该loss的引入主要针对于T+和T-操作。此处，封闭性要求对象经过一定操作之后又唯一确定的结果。Lclo前项是针对对象-属性配对中对象所具有的属性进行操作时，结果应当封闭进行约束。后项是针对对象不具有属性进行操作时，结果应当封闭进行约束。因此该loss被设计为此。

单位元存在：因为上文有定义Te操作，因此该条显然满足。

逆元存在：该loss的设计主要来源于对象-属性配对经过添加和删除相同属性后结果应当与原始配对相同。同样，根据原配对具有/不具有某一属性将loss设计为两项。

可结合性：因为本文只定义了一种操作“·”，所以在此处放宽限制，忽略掉该公理。

可交换性：该loss引入较为直观。对于同一个对象-属性配对先增后减和先减后增同一个属性应该得到相同的结果。

上述每一个性质及对应loss形式总结在下表：

上图为对对象-属性配对数据的可视化，其中包含原始配对以及经过耦合/解耦及其组合操作之后数据的可视化。由该图可以看到，在不同的数据集中，当满足以上提出的各原则后，得到的数据和原始数据均有良好的区分性。由此可以直接说明，通过引入群论公理和对称性会使模型具有更好的鲁棒性。

2.4相对距离模型（RMD）

该图左上为RMD模型的基本思路。原始判断对象是否具有某一属性的方法是简单通过调整决策边界（如SVM中的超平面）来进行二分类。在RMD模型中，通过对一个对象-属性配对添加/删除一个属性，如果增加一个属性之后得到的配对距离原始配对相比于移除一个属性的距离更近，则可以得到增加这个属性对原配对影响较小，因此可以得出该配对具有该属性。对所有属性遍历该操作即可得到该对象具有的全部属性。

由该特性，作者引入triplet loss并设置软间隔为0.5来增强鲁棒性。在具有某一属性的集合及其补集上运用RMD方法计算距离差值并累加来作为triplet loss，并最终设计整个网络模型的loss见上图左下L_total。

2.5总模型架构

将耦合/解耦网络合并在一起并运用RMD方法即得到本论文论文整体模型SymNet。全流程见上图。

运用该模型，作者同样提出针对零次样本组成学习任务CSZL（Compositional Zero-Shot Learning）中的解决流程如下所示：

对于一张图片，其中的对象和属性组合未知，根据上述方法依次遍历属性和对象的每一种组合，并将两者概率相乘后的最大值对应的组合作为该图片中的对象-属性配对。在这样一个过程中，可能性极低的组合会被掩盖掉。

三、实验结果

作者将本模型和已有的诸多模型对CSZL任务在MIT-States和UT-Zappos数据集上的测试效果对比如下图所示，其中右表为每一种方法大致的特点。

为了进一步的对比，作者对Symnet模型在CSZL任务上进行了泛化设置，并同其他模型进行对比，该结果见下图左上侧。

作者将该模型对单一属性/对象识别与其他方法进行对比的识别结果见下图左下。

同时作者适当对Symnet中采用的各项loss进行删除，并将得到的效果同运用整个loss进行对比。最终得到L_total中的每一项对最终模型的效果都有一定的作用。该结果见下图右侧。

四、个人思考

个人认为，该模型意在将提取配对中特征的解析空间加入群论公理的限制，同时适当放宽。这样过程的体现在让网络满足一些基本性质的同时忽略掉结合性，同时加入对称性。加入对称性可以看做对该解析空间的一种压缩，使其减弱对运算过程自身性质的依赖，而加强集合中各元素及拥有属性之间的关系。因此在对具有单属性的对象进行配对时，模型会更容易找到这样的组合。

不过因此会出现当对象被考虑的特征不够明显以及对象具有若干近似特征时，模型很难进行区分及提取。笔者进行简单的公式推导如下所示：

上图中(1)和(2)为根据前文所定义的操作，下式为由（1）（2）推导出来的结果。由该式可以发现，在对象-属性配对中假如原配对中具有多个特征，则耦合操作和解耦操作会近似产生相同的效果。而导致这样现象产生的直接原因是T操作和减法操作之间不具有结合性。

假设将T操作和减法操作之间添加结合性，则会得到From1 和From2 之后的两个式子。假如我们把对象本身固有的性质看作是一个特征，则From1式子可以成立，但From2式子显然不成立。为使得该思路成立，则需为此增加两个loss为L-和L+loss,或许可以在对象具有多属性时产生更好的效果。

限于笔者能力有限，文中不当之处欢迎批评指正。

论文笔记 · Symmetry and Group in Attribute-Object Compositions（CVPR 2020）相关推荐

论文阅读：Oriented RepPoints for Aerial Object Detection (CVPR 2022)
paper:https://arxiv.org/abs/2105.11111 code:GitHub - LiWentomng/OrientedRepPoints: The code for &quo ...
论文笔记——Rich feature hierarchies for accurate object detection and semantic segmentation
最近在看一些目标检测的论文,本文是经典的R-CNN(Regions with CNN features),随之产生的一系列目标检测算法:RCNN,Fast RCNN, Faster RCNN代表当下目 ...
【论文笔记】Feature Pyramid Networks for Object Detection
文章目录 Abstract 1. Introduction 3. Feature Pyramid Networks 4. Applications 4.1. Feature Pyramid Netwo ...
【论文笔记】MV3D：Multi-View 3D Object Detection Network for Autonomous Driving
摘要本文针对自动驾驶场景中的高精度3D对象检测.我们提出了多视点三维网络(MV3D),这是一个以激光雷达点云和RGB图像为输入,预测定向三维边界框的传感器融合框架.我们用一个紧凑的多视图表示来编码稀 ...
论文笔记：U2Fusion A Unified Unsupervised ImageFusion Network（2020 TPAMI）
U2Fusion: A Unified Unsupervised Image Fusion Network [引用格式]: Xu H , Ma J , Jiang J , et al. U2Fusio ...
论文笔记（二十）VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data
VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data 文章概括摘要 1. ...
【论文笔记09】Differentially Private Hypothesis Transfer Learning 差分隐私迁移学习模型, ECMLPKDD 2018
目录导引系列传送 Differentially Private Hypothesis Transfer Learning 1 Abstract 2 Bg & Rw 3 Setting &am ...
【深度学习】270篇CVPR 2020代码开源的论文，全在这里了！
整理不易,希望点个在看或者转发,支持一下前言:1467篇 CVPR 2020 "不开源,就是耍流氓","开源,就是生产力",这是我们经常调侃的话术.因为我们经 ...
CVPR 2020 论文和开源项目合集(Papers with Code)
CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享CVPR 2020开源项目 [推荐阅读] CVPR 2020 virtual ECCV 2020 论文开源项目合集来了:htt ...
CVPR 2020代码开源的论文最全合集
前言之前Amusi整理了1467篇CVPR 2020所有论文PDF下载资源,详见:全在这里了! CVPR2020-Code CVPR 2020 论文开源项目合集,同时欢迎各位大佬提交issue,分享 ...

论文笔记 · Symmetry and Group in Attribute-Object Compositions（CVPR 2020）