End-to-End Localization and Ranking for Relative Attributes

arXiv Paper

   摘要:本文提出一种 end-to-end 的属性识别方法,能够同时定位和相对属性的排序(simultaneously localize and rank relative visual attributes)。给定训练图像对,并且对于预测该属性的强度进行排行,我们的目标是训练一个深度神经网络,能够学习一个函数,同时发现图像中每一个属性出现的位置,以及根据对属性预测的强度进行 rank。更要的一点是,仅用的监督信息是 the pairwise image comparisons。

  方法框架:

  1. 输入:对于训练来说,网络的输入是图像对 (I1, I2)以及对应的标签 L,表明该图相对是否属于集合 E 或者 Q。

      (I1, I2)属于 E 表明 I1 and I2 的 ground-truth attribute strength 是相似的;

      (I1, I2)属于 Q 表明 I1 的属性强度比 I2 大;

      (I2, I1)属于 Q 表明 I2 的属性强度比 I1 大。

  对于测试来讲,我们的输入是一张图像 $I_{test}$,我们利用学到的函数(网络权重)来预测属性的强度 $v = f(I_{test})$。

  2. 结构:

  

  从上图可以看出,该网络的输入是:两幅图像 image 1 and 2 以及其对应的 label,然后将其输入到孪生网络(Siamese Network)中,该网络包括两个子网络:Spatial Transformer Network 和 Ranker Network。经过这两个网络之后,分别输出其预测 label 的可信度,然后链接一个损失函数,通过此进行网络的更新和回传。

  Spatial Transformer Network(STN):直观上来看,为了发现每一个图相对和属性相关的区域,我们可以采用一个 ranking function 不同区域对,选择和 gt 对 匹配的最好的 pair。NIPs 的文章 STNs 给我们提供了一个很好的思路,就借鉴了该网络结构,因其有两个优势:

  1. 全差分,可以用 BP 算法来训练;

  2. 可以学习进行 translate,crop,rotate,scale,or warp 一张图像,而不需要任何 explicit 的监督来做变换。--> 此处可以考虑借鉴此网络进行多模态图像的配准工作。

  本文借鉴该网络结构主要是想用于 ROI region 的获取。STN 的输出可以输入到 ensuing Ranker network中,easing its task。

  STN 的网络结构参考下图:

  

  在本文中,我们有三个转换参数,分别是 isotropic scaling (各向同性尺寸变换)s,水平和竖直转移 tx, ty。转移是通过一个 inverse warp 来产生输出image:

    训练该网络就是为了得到转换的这 6 个参数。其前5层和 Alexnet 相同,加了一层卷积用于降维,然后是两层 fc,输出6个参数。

  下图是随着训练的进行,所得到的图像 patch 的位置变化情况:

  

  

  可以看出这个过程,其实和 Attention Model 的过程非常相似,也就是说,不断的调整参数,使得bbox 得到的图像 patch就是所需要的 attention region。这个就是进行定位,并且产生图像 patch 的过程。

  Ranker Network(RN): RN 将 STN 的输出 以及 原始图像作为输入,也就是 local 和 global information 的组合。将两个图像的feature 组合在一次,经过一个线性层(linear layer),得到一个 score,反应了预测属性的可信度。

  

  3. 定位和排行的损失函数:

  我们将输出 v1 and v2 通过一个逻辑函数 P 映射为一个概率 P,优化标准的交叉熵损失函数(the standard cross-entropy loss):

  $Rank_{loss}(I_1, I_2) = -L*log(P) - (1-L)*log(1-P)$

  其中,如果 (I1,I2)属于Q,则 L = 1,否则 如果(I1, I2)属于 E,则 L = 0.5.

  在作者初始的实验当中发现,大规模的转移参数会导致输出的 patch 超出图像的边界,从而导致黑色部分,因为其值全为 0. 为了处理这种情况,本文提出了新的损失函数:

  


  实验效果:

  

  

论文笔记之:End-to-End Localization and Ranking for Relative Attributes相关推荐

  1. 【论文笔记】3D LiDAR-Based Global Localization Using Siamese Neural Network

    [论文笔记]3D LiDAR-Based Global Localization Using Siamese Neural Network ~~~   ~~~~     在本文基于从神经网络中学习到的 ...

  2. 论文笔记—A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping

    论文笔记-A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping 论文链接 文章摘要 ~~~~    ~ ...

  3. 【论文笔记】Map-Based Localization Method for Autonomous Vehicles Using 3D-LIDAR

    [论文笔记]Map-Based Localization Method for Autonomous Vehicles Using 3D-LIDAR ~~~   ~~~~    精确和稳健的定位是复杂 ...

  4. 论文笔记(十二):Particle Filter Networks: End-to-End Probabilistic Localization From Visual Observations

    Particle Filter Networks: End-to-End Probabilistic Localization From Visual Observations 文章概括 摘要 1. ...

  5. 【论文笔记】Integrate Point-Cloud Segmentation with 3D LiDAR Scan-Matching for Mobile Robot Localization a

    [论文笔记]Integrate Point-Cloud Segmentation with 3D LiDAR Scan-Matching for Mobile Robot Localization a ...

  6. 【论文笔记】GLFP: Global Localization from a Floor Plan

    [论文笔记]GLFP: Global Localization from a Floor Plan ~~~   ~~~~    在本文中,我们描述了一种在以前没有访问过的环境中进行全球定位的方法,该方 ...

  7. 【论文笔记】PSEUDOSEG: DESIGNING PSEUDO LABELS FOR SEMANTIC SEGMENTATION

    论文笔记 1.论文题目 2.作者及研究单位 3.摘要 4.简介 (1)这篇论文针对什么问题展开的研究 (2)已有工作是如何解决这些问题的(已有工作存在什么不足) (3)这篇论文是如何做的(如何弥足已有 ...

  8. [论文总结] 深度学习在农业领域应用论文笔记5

    深度学习在农业领域应用论文笔记5 1. Channel pruned YOLO V5s-based deep learning approach for rapid and accurate appl ...

  9. 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour

    360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...

最新文章

  1. 关于libStagefright系列漏洞分析
  2. 盘点类别级物体6D位姿估计
  3. 配置Linux声卡,让Arch高歌
  4. js数组、字符串常用方法和互相转换,==和===
  5. LiveVideoStack线上交流分享 (十四) —— 深度学习在视频分析处理的实践
  6. [NOIP2015] 子串
  7. snmp服务 2003 镜像_美国掌握全球70%根服务器,一旦对中国关闭,我们将无法上网?...
  8. 论述计算机硬件结构的理解论文,论述对汇编语言教学内容和方法及特点的认识与思考...
  9. Palindrome DP
  10. 90万餐饮商家全店五折 支付宝首次以数字生活平台身份参加双11
  11. Postgresql之split_part()切割函数,取最后一部分
  12. spring集成compass中出现的问题和总结
  13. 读取kaf卡数据_墨菊居然能秒开机秒读数据!Lexar雷克沙1667x UHS-II存储卡体验
  14. 移除superView上的subviews
  15. 用c语言验证欧拉定理,欧拉定理_欧拉定理的意义
  16. 全局函数声明和静态函数声明
  17. APS供应链计划管理有何功能?其目的和意义又是什么?
  18. 更改SQL Server数据库名、数据库文件名、逻辑文件名的方法
  19. Deformable DETR论文翻译
  20. 记忆化结果再利用 进一步探讨递推关系

热门文章

  1. python安装pip-安装pip的三种方法
  2. spoj Pattern Find(kmp)
  3. LeetCode Monotonic Array(数组单调性)
  4. libevent中的缓冲区(二)
  5. hdu1715 大菲波数
  6. springmvc常用配置
  7. oracle数据库逐步学习总结【基础一】
  8. Ubuntu系统查看mongo得慢日志,及一些操作
  9. 面试准备工作 -戈多编程
  10. Runtime----字典转模型