论文阅读笔记|Unsuperised Deep Homography
论文阅读笔记|Deep Image Homography: A Fast and Robust Homography Estimation Model
- 前言
- 无监督深度单应性模型
- A.模型输入(Model Inputs)
- B.张量直接线性变换(Tensor Direct Linear Transform)
- C.空间变换层(Spatial Transformation Layer)
- 实验结果
前言
T. Nguyen, S. W. Chen, S. S. Shivakumar, C. J. Taylor, and V. Kumar. Unsupervised deep homography: A fast and robust homography estimation model. IEEE Robotics and Automation Letters, 3(3):2346–2353, 2018
本文提出了一种无监督学习算法,设计了一个卷积神经网络进行单应性估计,使用了不需要人工标签的光度损失函数,并引入了张量直接线性变换层和空间变换层,在合成数据集和真实数据集上都取得了较好的效果。
源码地址
Pytorch复现地址
无监督深度单应性模型
首先看一下单应性估计方法概述,如上图所示,(a)是监督学习方法,可参见这篇博客 (b)是
传统的基于特征的方法,©是无监督学习方法。可以看出,无监督方法主要由两大部分组成,前半部分使用和监督方法相同的网络,后半部分由Tensor DLT张量线性变换层、Spatial Transformation空间变换层和LPW\mathbf{L}_{P W}LPW光度损失等组成。
在监督学习方法中,Regression Model是一个VGG风格的回归网络,网络的输出是8个参数的H~4pt\mathbf{\tilde{H}}_{4 p t}H~4pt,表示图像的四个顶点之间的偏移量,损失函数是H~4pt\mathbf{\tilde{H}}_{4 p t}H~4pt和标签H4pt∗\mathbf{H}_{4 p t}^{*}H4pt∗之间的L2损失。
监督学习方法需要人工标注的Ground Truth标签,因此在实际应用中受限制。本文提出了一个无监督学习方法。给定一对图像对IA(x)I^A(\mathbf{x})IA(x)和IB(x)I^B(\mathbf{x})IB(x),其离散像素位置由齐次坐标{xi=(xi,yi,1)T}\left\{\mathbf{x}_{i}=\left(x_{i}, y_{i}, 1\right)^{T}\right\}{xi=(xi,yi,1)T}表示,网络通过最小化以下平均L1像素光度损失来输出H~4pt\mathbf{\tilde{H}}_{4 p t}H~4pt:
LPW=1∣xi∣∑xi∣IA(H(xi))−IB(xi)∣\mathbf{L}_{P W}=\frac{1}{\left|\mathbf{x}_{i}\right|} \sum_{\mathbf{x}_{i}}\left|I^{A}\left(\mathscr{H}\left(\mathbf{x}_{i}\right)\right)-I^{B}\left(\mathbf{x}_{\mathbf{i}}\right)\right| LPW=∣xi∣1xi∑∣∣IA(H(xi))−IB(xi)∣∣其中,H(xi)\mathscr{H(\mathbf{x}_{i})}H(xi)是由H~4pt\mathbf{\tilde{H}}_{4 p t}H~4pt定义的单应性变换。
这是一个L1损失函数,表示对经过单应性变换后的IA(x)I^A(\mathbf{x})IA(x)与原来的IB(x)I^B(\mathbf{x})IB(x)进行逐像素地计算强度值之差,再对所有的像素强度值之差求平均。相当于图中的P~B\tilde{\mathbf{P}}^\mathbf{B}P~B与 PB求差的部分。
A.模型输入(Model Inputs)
模型的输入由三部分组成,第一部分是从IAI^AIA和IBI^BIB上随即裁剪的128×128×2大小的堆叠的Patch对,记为 PA和 PB。第二部分是PA的四个顶点坐标,用C4ptA\mathbf{C}_{4 p t}^{A}C4ptA表示。第三部分是用来变换的图像IAI^AIA。
B.张量直接线性变换(Tensor Direct Linear Transform)
由于本文使用的无监督学习方法需要使用单应性矩阵对图像进行变换,因此设计该Tensor DLT层,使得能够从四个顶点的偏移量H~4pt\mathbf{\tilde{H}}_{4 p t}H~4pt映射到3×3的单应性矩阵H~\mathbf{\tilde{H}}H~。
C4ptA\mathbf{C}_{4 p t}^{A}C4ptA是PA的四个顶点的坐标,加上H~4pt\mathbf{\tilde{H}}_{4 p t}H~4pt就得到了对应的C~4ptB\tilde{\mathbf{C}}_{4 p t}^{B}C~4ptB。通过直接线性变换(DLT)方法可以从C4ptA\mathbf{C}_{4 p t}^{A}C4ptA和C~4ptB\tilde{\mathbf{C}}_{4 p t}^{B}C~4ptB中估计单应性矩阵的9个参数。
C.空间变换层(Spatial Transformation Layer)
接下来设计的SLT层,是对图像IAI^AIA的像素坐标xi\mathscr{\mathbf{x}_{i}}xi应用Tensor DLT层的输出单应性矩阵H~\mathbf{\tilde{H}}H~,得到变换后的图像IA(H(xi))I^{A}\left(\mathscr{H}\left(\mathbf{x}_{i}\right)\right)IA(H(xi)),即P~B\tilde{\mathbf{P}}^\mathbf{B}P~B。
实验结果
超参数:
(1) 初始学习率: 0.0001
(2) Batch size: 128
(3) 优化器: Adam, β1=\beta_{1}=β1= 0.9, β2=\beta_{2}=β2= 0.999, ϵ=\epsilon=ϵ= 10-8
使用逐像素光度损失函数的隐含假设是输入图像之间的亮度和对比度保持一致,因此在本方法中使用了随即光照偏移等数据增强方法。图像的重叠度通过参数ρ\rhoρ控制。
对于合成数据集,从头开始训练网络共300,000次迭代。
对于航空数据集,对神经网络进行微调,共150,000次迭代。
最后的结果表明,监督和非监督方法在合成数据上的表现相当,但无监督方法在航空图像数据集上的表现却更好。
论文阅读笔记|Unsuperised Deep Homography相关推荐
- 论文阅读笔记——A deep tree-based model for software defect prediction
本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--A deep tree-based model for software defect prediction 论文阅读笔记 ...
- [论文阅读笔记05]Deep Active Learning for Named Entity Recognition
一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...
- 论文阅读笔记:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020)
协同分割论文阅读:Deep Object Co-segmentation via Spatial-Semantic Network Modulation(AAAI2020) 论文原文 代码 提出 ...
- 论文阅读笔记:Deep Video Quality Assessor
论文PDF: Deep Video Quality Assessor: From Spatio-Temporal Visual Sensitivity to a Convolutional Neura ...
- 论文阅读笔记------iTM-Net: Deep Inverse Tone Mapping Using Novel Loss Function Considering TMO
Kinoshita Y, Kiya H. iTM-Net: Deep Inverse Tone Mapping Using Novel Loss Function Considering Tone M ...
- 【论文阅读笔记】Deep neural networks are easily fooled- High confidence predictions for unrecognizable image
与之前提出的添加微小扰动来造成DNN的误判不同,本文提出的是生成一系列人类无法识别,但是却可以被DNN以99.99%的置信度分类的图片.具体而言提出了两种基于进化算法的以及一种利用梯度上升的生成算法. ...
- DCP(Deep Closest Point)论文阅读笔记以及详析
DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
- 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection
本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...
- 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
- VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION(VGG网络)-论文阅读笔记
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION VGG网络 论文阅读笔记 //2022.4.11上午9:53开始阅 ...
最新文章
- Windows核心编程 第六章 线程基础知识 (下)
- WIN10系统触摸板快捷键
- 第二阶段冲刺10天 第五天
- rejection from Cambridge Machine Learning and Machine Intelligence MPhil
- 请思考并描述下面python语句的输出结果print_Python语句print(type([1,2,3,4]))的输出结果是() 。...
- review_core_basic_java(1)java程序设计概述
- 每天一个实用小技巧!归纳多个文件、批量修改文件名
- Leetcode每日一题:904.fruit-into-baskets(水果成篮)
- [CTO札记]第1天:认识人、熟悉环境
- 概率论:p(x|theta)和p(x;theta)的区别
- kaggle实战之流浪猫狗归处预测
- 惠普触控板使用指南_手势操作更简便 笔记本触控板使用简介
- Unity笔记之切换鼠标图标样式、PSD格式文件导入Unity
- 你怎么看:就算老公一毛钱股份都没拿到,在我心里,他依然是最牛逼的创业者...
- waf绕过—过360主机卫士sql注入
- html中li的圆点,CSS中li圆点样式
- 怎样用计算机弹出声音,电脑没声音怎么调出来
- Linux系统swap分区扩容,swap分区扩容
- [人工智能-深度学习-43]:输入预处理 - 规范化Normalization、标准化Standardization、正态分布、算术平均、方差
- 软件工程领域 相关概念