Tushar Nagarajan and Kristen Grauman
The University of Texas at Austin

{tushar,grauman}@cs.utexas.edu

1.Introduction

属性携带了物体的语义级别的信息,例如质地,颜色,风格,功能等。属性被证明在许多方面都是有效的表示,例如人脸和人、景色、物品等等。属性有着自然语言的表达形式,使得人与机器在关于视觉上的沟通更为轻松。

属性和物体在本质上是两种东西:物体是物理上存在的,而属性是这些物品的特质。然而现有的属性识别方式很大程度上和物体识别的方法相同。也就是用有着根据属性分类的标签的图像来训练有分辨能力的model。例如使用CNN的方法。

上述这种做法在数据的效率和泛化能力上都是有问题的。这种方法默认了在训练过程中,属性已经与所有潜在的对象相结合(不符合实际)以及属性的影响在所有对象中都有着相同的表现。

作者用上图说明了属性与对象之间的差异,对于切片这个属性,没有很好的视觉原型来定义,而对于车子这样的对象则不同。由此作者提出将属性视作一种操作,学习属性如何对对象进行转换。一旦学习完成,属性对对象的影响可以泛化到未见过的对象上。

比起将属性视为高维空间中可分类的点,作者将属性视作一种操作,可以将视觉数据从一种外观转换为另一种。

2.Approach

2.1 Unseen pair recognition as embedding learning
本文的模型是学习一个从给出的图像X到属性-对象 对P=A×O的映射,作者将A-O对分类两个部分,Ps是训练过程中用到的,Pu是用于测试的集合。这里用label p表示A-O对。
在训练过程中,对给定的X-p,学习两个映射函数f(x)和g(p),f(X)是预训练的resnet-18,g(p)是A-O模型,两个映射分别将X和p映射到相同的语义空间。学习的目标是f(x)和正确的A-O对生成的g(p)之间的欧式距离最小,和错误的g(p)之间的距离最大。
在推理过程,我们储存所有的潜在的g(P)向量,然后对于一张新图片X计算f(X),找出欧式距离最近的A-O对。

注意到P包含了未在训练集中出现的A-O对,如果仅仅将推理过程定义为分类问题,是无法完成对未出现的A-O对识别的。

2.2 Attribute-operator model for composition
在一方面,对于无属性的对象生成一个隐式的表达是有意义的,例如狗和斑点狗,但在另一方面,为无对象的属性生成一个表达则是有问题的,将‘蓬松的’作为概念映射到语义空间有什么意义?
他的视觉原型是什么样的?
因此,作者将每一个对象表达为D维的向量,使用GloVe 词汇映射.每一个属性a都对应于一个函数Ga
其中Ma是D*D的矩阵.

2.3 Learning objective for attributes as operators

作者采用Triplet loss,给出图像x和label pair p=(a,o)
其中m是固定值,实验中设为0.5,即图像的特征向量与其对应label中属性矩阵作用在对象生成的向量的欧式距离小于与负样本之间的距离减去m.

下面是一些正则化项

L-aux:要求g(p)=MaO得到的向量能够分别正确预测出对应的A/O,防止训练过程中丢失A/O信息。

Linv:利用属性的可逆性质,隐式的合成新的对象来进行正则化.

首先左乘Mα_inv相当于从原始图像中移除了属性α,然后乘以Mα'以增加一个新的随机属性,生成的伪实例f(x')拥有一个新的O-A对,例如,对于sliced banana,移除slice并增加ripe属性后,将slice banan作为负样本,ripe banana作为正样本。

Lcomm:要求属性操作之间的可交换性,例如sliced banana进行ripe操作之后效果等同于ripe banana进行slice操作

Lant:要求反义的属性操作可以相互抵消。例如'钝'属性抵消'锋利'属性,'ancient'属性抵消'modern'属性

2.4 Training and inference

训练过程的Loss由以上5个loss组合而成,进行端到端的训练,更新的参数包括对图片x的映射f(x),属性操作对应的矩阵Mα,Object向量o,以及对Mα*o进行分类的两个全连接层以及Laux用到的Softmax分类器。

在训练过程,给出输入的图像以及对应的O-A对,得到相应的f(x)以及*o,然后进行训练。

在推理过程,计算所有O-A对,计算f(x),根据f(x)与O-A对之间的欧式距离排序决定预测出的结果。

总结:本文将属性视为对对象的一种操作,其中属性映射为一个矩阵,对象为一个列向量, O-A对就是两者的乘积。类似于数学上对向量进行旋转/平移等操作。并且将图像与O-A对映射到同一个空间。有种在模板上加上各种Mask的感觉。

对于时尚衣物来说,这种属性的定义也许可以迁移。比如对象可以是各种基本款的裙子 T恤 衬衫,袖子的长短/男士女士/风格/颜色等都可以视为在基本款进行各种属性操作。

Attributes as Operators相关推荐

  1. ECCV 2018 完整论文集 -- List 下载链接

    下文列表为ECCV2018官网得到了今年接收论文列表,共779篇: 下文为ECCV2018的全部接收论文汇总 Oral: Convolutional Networks with Adaptive Co ...

  2. Vue 源码阅读(三)Special Attributes

    Special Attributes 包括以下:key ref slot v-* key https://vuejs.org/v2/api/#key The key special attribute ...

  3. R语言attributes函数(获取属性、设置属性)、attr函数(改变一个属性)、structure函数(改变数据形状)实战

    R语言attributes函数(获取属性.设置属性).attr函数(改变一个属性).structure函数(改变数据形状)实战 目录

  4. 人群场景的属性--Deeply Learned Attributes for Crowded Scene Understandin

    Deeply Learned Attributes for Crowded Scene Understanding CVPR2015 http://www.ee.cuhk.edu.hk/~jshao/ ...

  5. 20170401 11G Deprecated Attributes for LOG_ARCHIVE_DEST_n

    [20170401]11G Deprecated Attributes for LOG_ARCHIVE_DEST_n.txt --//前几天与itpub一个网友的交流,提到LOG_ARCHIVE_DE ...

  6. 收藏——CodeProject - 使用特性(attributes)和激活机制来实现工厂模式

    收藏--CodeProject - 使用特性(attributes)和激活机制来实现工厂模式 分类: .NetDelphi2005-03-24 09:57496人阅读评论(0)收藏举报 原文 http ...

  7. RxJS - Observables, observers 和 operators 简介

    RxJS 是响应式编程 (reactive programming) 强大的工具,今天我们将深入介绍 Observables 和 Observers 的内容,以及介绍如何创建自己的操作符 (opera ...

  8. 论文笔记之:Deep Attributes Driven Multi-Camera Person Re-identification

    Deep Attributes Driven Multi-Camera Person Re-identification  2017-06-28  21:38:55    [Motivation] 本 ...

  9. libxml解析的attributes参数理解

    libxml的attributes参数用结构体表示 static void startElementSAX (void *ctx, const xmlChar *localname, const xm ...

  10. 关于服务器端控件的attributes属性的奇怪问题

    我在做一个页面时,通过attributes为服务器端控件添加了一个客户端事件 UploadButton.Attributes.Add("onclick", "ShowBa ...

最新文章

  1. 贝叶斯机器学习:经典模型与代码实现!
  2. 8 场 5 胜,微服务 VS 单体架构
  3. 优化SQL Server数据库查询方法
  4. Jmeter测试Mysql数据库-入门篇
  5. Win32ASM学习[2]:运算符
  6. NFS调试linux内核启动卡死在DHCP和RARP上
  7. 树:二叉树的内存拷贝和内存释放
  8. 微信群接龙报名小程序功能模块源码V1.1.38
  9. Django的rom
  10. php排序算法面试题,PHP面试:尽可能多的说出你知道的排序算法
  11. Linux用户的福音,记忆力解放!快速调用复杂命令...
  12. Flash 显示全景图
  13. 曲线的平滑和随机生成
  14. 电子邮件反垃圾邮件软件的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  15. android分享视频到微信,android 分享文本、图片、音乐、视频到微信朋友圈、好友、我的收藏...
  16. react在线编辑Excel表格
  17. SSD:Single Shot MultiBox Detector解读
  18. idea下载数据库驱动太慢?
  19. 徐汉彬:Web系统大规模并发——电商秒杀与抢购
  20. matplot.pyplot 绘图学习

热门文章

  1. 400GE燎原前夜,智能IP网络的核心路由器巅峰际会
  2. Android基础整合项目之节日群发助手(三)
  3. FPGA信号截位策略
  4. pip install 报错:ERROR: Exception: Traceback (most recent call last):..raise ValueError(“check_hostnam
  5. T1119 紧急措施(逐句精解)
  6. 从HDMI到MHL,手机走进高清时代
  7. 史玉柱和他老同学的一段故事
  8. 分布式数据库NoSQL(五)——MongoDB 之滴滴、摩拜都在用的索引
  9. 【阿里巴巴/腾旭】mysql面试题汇总
  10. linux设置北京时区