论文笔记之:End-to-End Localization and Ranking for Relative Attributes
End-to-End Localization and Ranking for Relative Attributes
arXiv Paper
摘要:本文提出一种 end-to-end 的属性识别方法,能够同时定位和相对属性的排序(simultaneously localize and rank relative visual attributes)。给定训练图像对,并且对于预测该属性的强度进行排行,我们的目标是训练一个深度神经网络,能够学习一个函数,同时发现图像中每一个属性出现的位置,以及根据对属性预测的强度进行 rank。更要的一点是,仅用的监督信息是 the pairwise image comparisons。
方法框架:
1. 输入:对于训练来说,网络的输入是图像对 (I1, I2)以及对应的标签 L,表明该图相对是否属于集合 E 或者 Q。
(I1, I2)属于 E 表明 I1 and I2 的 ground-truth attribute strength 是相似的;
(I1, I2)属于 Q 表明 I1 的属性强度比 I2 大;
(I2, I1)属于 Q 表明 I2 的属性强度比 I1 大。
对于测试来讲,我们的输入是一张图像 $I_{test}$,我们利用学到的函数(网络权重)来预测属性的强度 $v = f(I_{test})$。
2. 结构:
从上图可以看出,该网络的输入是:两幅图像 image 1 and 2 以及其对应的 label,然后将其输入到孪生网络(Siamese Network)中,该网络包括两个子网络:Spatial Transformer Network 和 Ranker Network。经过这两个网络之后,分别输出其预测 label 的可信度,然后链接一个损失函数,通过此进行网络的更新和回传。
Spatial Transformer Network(STN):直观上来看,为了发现每一个图相对和属性相关的区域,我们可以采用一个 ranking function 不同区域对,选择和 gt 对 匹配的最好的 pair。NIPs 的文章 STNs 给我们提供了一个很好的思路,就借鉴了该网络结构,因其有两个优势:
1. 全差分,可以用 BP 算法来训练;
2. 可以学习进行 translate,crop,rotate,scale,or warp 一张图像,而不需要任何 explicit 的监督来做变换。--> 此处可以考虑借鉴此网络进行多模态图像的配准工作。
本文借鉴该网络结构主要是想用于 ROI region 的获取。STN 的输出可以输入到 ensuing Ranker network中,easing its task。
STN 的网络结构参考下图:
在本文中,我们有三个转换参数,分别是 isotropic scaling (各向同性尺寸变换)s,水平和竖直转移 tx, ty。转移是通过一个 inverse warp 来产生输出image:
训练该网络就是为了得到转换的这 6 个参数。其前5层和 Alexnet 相同,加了一层卷积用于降维,然后是两层 fc,输出6个参数。
下图是随着训练的进行,所得到的图像 patch 的位置变化情况:
可以看出这个过程,其实和 Attention Model 的过程非常相似,也就是说,不断的调整参数,使得bbox 得到的图像 patch就是所需要的 attention region。这个就是进行定位,并且产生图像 patch 的过程。
Ranker Network(RN): RN 将 STN 的输出 以及 原始图像作为输入,也就是 local 和 global information 的组合。将两个图像的feature 组合在一次,经过一个线性层(linear layer),得到一个 score,反应了预测属性的可信度。
3. 定位和排行的损失函数:
我们将输出 v1 and v2 通过一个逻辑函数 P 映射为一个概率 P,优化标准的交叉熵损失函数(the standard cross-entropy loss):
$Rank_{loss}(I_1, I_2) = -L*log(P) - (1-L)*log(1-P)$
其中,如果 (I1,I2)属于Q,则 L = 1,否则 如果(I1, I2)属于 E,则 L = 0.5.
在作者初始的实验当中发现,大规模的转移参数会导致输出的 patch 超出图像的边界,从而导致黑色部分,因为其值全为 0. 为了处理这种情况,本文提出了新的损失函数:
实验效果:
论文笔记之:End-to-End Localization and Ranking for Relative Attributes相关推荐
- 【论文笔记】3D LiDAR-Based Global Localization Using Siamese Neural Network
[论文笔记]3D LiDAR-Based Global Localization Using Siamese Neural Network ~~~ ~~~~ 在本文基于从神经网络中学习到的 ...
- 论文笔记—A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping
论文笔记-A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping 论文链接 文章摘要 ~~~~ ~ ...
- 【论文笔记】Map-Based Localization Method for Autonomous Vehicles Using 3D-LIDAR
[论文笔记]Map-Based Localization Method for Autonomous Vehicles Using 3D-LIDAR ~~~ ~~~~ 精确和稳健的定位是复杂 ...
- 论文笔记(十二):Particle Filter Networks: End-to-End Probabilistic Localization From Visual Observations
Particle Filter Networks: End-to-End Probabilistic Localization From Visual Observations 文章概括 摘要 1. ...
- 【论文笔记】Integrate Point-Cloud Segmentation with 3D LiDAR Scan-Matching for Mobile Robot Localization a
[论文笔记]Integrate Point-Cloud Segmentation with 3D LiDAR Scan-Matching for Mobile Robot Localization a ...
- 【论文笔记】GLFP: Global Localization from a Floor Plan
[论文笔记]GLFP: Global Localization from a Floor Plan ~~~ ~~~~ 在本文中,我们描述了一种在以前没有访问过的环境中进行全球定位的方法,该方 ...
- 【论文笔记】PSEUDOSEG: DESIGNING PSEUDO LABELS FOR SEMANTIC SEGMENTATION
论文笔记 1.论文题目 2.作者及研究单位 3.摘要 4.简介 (1)这篇论文针对什么问题展开的研究 (2)已有工作是如何解决这些问题的(已有工作存在什么不足) (3)这篇论文是如何做的(如何弥足已有 ...
- [论文总结] 深度学习在农业领域应用论文笔记5
深度学习在农业领域应用论文笔记5 1. Channel pruned YOLO V5s-based deep learning approach for rapid and accurate appl ...
- 论文笔记(八):360 VR Based Robot Teleoperation Interface for Virtual Tour
360 VR Based Robot Teleoperation Interface for Virtual Tour 文章概括 摘要 1. 介绍 2. 方法和系统设计 2.1 系统结构 2.2 远程 ...
最新文章
- 关于libStagefright系列漏洞分析
- 盘点类别级物体6D位姿估计
- 配置Linux声卡,让Arch高歌
- js数组、字符串常用方法和互相转换,==和===
- LiveVideoStack线上交流分享 (十四) —— 深度学习在视频分析处理的实践
- [NOIP2015] 子串
- snmp服务 2003 镜像_美国掌握全球70%根服务器,一旦对中国关闭,我们将无法上网?...
- 论述计算机硬件结构的理解论文,论述对汇编语言教学内容和方法及特点的认识与思考...
- Palindrome DP
- 90万餐饮商家全店五折 支付宝首次以数字生活平台身份参加双11
- Postgresql之split_part()切割函数,取最后一部分
- spring集成compass中出现的问题和总结
- 读取kaf卡数据_墨菊居然能秒开机秒读数据!Lexar雷克沙1667x UHS-II存储卡体验
- 移除superView上的subviews
- 用c语言验证欧拉定理,欧拉定理_欧拉定理的意义
- 全局函数声明和静态函数声明
- APS供应链计划管理有何功能?其目的和意义又是什么?
- 更改SQL Server数据库名、数据库文件名、逻辑文件名的方法
- Deformable DETR论文翻译
- 记忆化结果再利用 进一步探讨递推关系