AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
Paper name
AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
Paper Reading Note
URL: https://arxiv.org/pdf/1803.01599.pdf
TL;DR
- cvpr2018 文章, 基于 adversatial learning 的思想提出了一种无监督的 domain adaption 策略用于单目深度估计任务,并且提出了 content congruent regularization 来显式增加内容一致性避免了 mode collapse 问题。
Introduction
- 深度估计数据获取成本高且噪声大,合成数据能一定程度解决这个问题,但是由于固有的 domain shift 问题所以基于合成数据训练的模型在真实场景下的泛化性不佳
- 目前基于 adversarial 的 domain adaption 方法在分类领域有一定效果,但是在全卷积模型的相关任务中效果一般
- 本文基于 adversatial learning 的思想提出了一种无监督的 domain adaption 策略用于单目深度估计任务,并且提出了 content congruent regularization 来显式增加内容一致性避免了 mode collapse 问题
Dataset/Algorithm/Model/Experiment Detail
实现方式
整体流程
- 如上图所示,M 用于提取特征,T 用于将提取的特征转换为 depth,Ms 为提取合成数据特征的 backbone,Mt 为提取真实数据特征的 backbone,domain adaption 主要是为了将基于 Ms 提取合成数据的 Ms(Xs) 和 Mt 提取真实数据的 Mt(Xt) 进行对齐
- 具体流程
- 基于合成数据训练的模型权重 Ms 和 Ts 用于初始化真实数据模型 Mt 和 Tt
- 引入两个 discriminator 来判断提取的特征:Df 用于判断 Ms(xs) 和 Mt(xt) 的一致性;Dy 用于合成场景的深度图数据 Ys 和 预测得到的真实场景的深度 T(Mt(Xt))
- 假设合成场景和真实场景的深度图分布基本一致,那么用 T 分别作用于 Ms(xs) 和 Mt(xt) 应该指向相同的输出密度函数
- 考虑到深层的特征一般是 task specific,且迁移性更低,所以使用最深层的 block (res-5)来进行 Ms 分支和 Mt 分支输出对齐;
- adaption 过程中仅 Mt 分支参数会被更新,且 t 分支更新部分为 block(res-5) 与其之后的结构,其他部分的参数固定住从而降低模型参数更新的计算量,T 的参数也是固定的
loss 设计
Adversarial Objectives
- Dy 用于合成场景的深度图数据 Ys 和 预测得到的真实场景的深度 T(Mt(Xt))
- Df 用于判断 Ms(xs) 和 Mt(xt) 的数据分布一致性
- Dy 用于合成场景的深度图数据 Ys 和 预测得到的真实场景的深度 T(Mt(Xt))
Content Congruency
在实际应用中,深度CNN具有复杂的输出和多模式的潜在特征分布。仅依靠 adversarial loss 更新参数会导致模式崩溃。理论上,对抗性目标应该适用于随机传递函数。然而,由于在深度预测模型中不使用任何随机性,它很容易受到这个问题的影响,导致预测的输出虽然满足较优的对抗损失,但是和输入图片不一致
Domain Consistency Regularization (DCR),由于我们在对合成图像进行训练后开始对抗性学习,因此通过对抗性目标进行的适应不应扭曲源域中丰富的学习表示。因此,可以合理地假设Ms和Mt因一个小扰动而不同。我们通过对学习到的表示施加约束,同时调整新目标域的参数来实现这一点。
Residual Transfer Framework (RTF),将 Mt 建模为 Ms+ΔMM_{s} + \Delta{M}Ms+ΔM ,为了维持内容一致性 ΔM\Delta{M}ΔM 需要尽量小从而避免对 Ms 的特征造成扰动
Feature Consistency Framework (FCF),将 res5 的输出经过重建分支与 res4 的输出进行一致性约束
full objective
其中 Lcontent 是 Ldomain、Lres、Lfeature 中的一个, λ\lambdaλ 小的时候容易出现 mode collapse, λ\lambdaλ 大的时候 adaption 的效果变差。
因为 Residual Transfer Framework (RTF) 中有一个随机初始化的 ΔM\Delta{M}ΔM 分支, λ\lambdaλ 的调节非常困难,而 Feature Consistency Framework (FCF) 结构因为通过特征重构可以进行预训练,所以会稳定很多,最终使用 FCF
整体算法流程
实验结果
nyu 实验
- 使用合成数据集 pretrain,Physically-Based Rendering Dataset, 随机采样 100000 样本,该数据共 568,793 样本
- 无监督实验 AdaDepth-U 不使用任何带标注数据
- 半监督实验 AdaDepth-S 使用部分带标注数据: 795 (6.5%)
- baseline 就是基于合成数据训练的模型
kitti 实验
- 使用 21260 的合成数据 pretrain,数据来源与 Virtual KITTI 数据集
- 无监督实验 AdaDepth-U 不使用任何带标注数据
- 半监督实验 AdaDepth-S 使用部分带标注数据: 1000 (4.4%)
- baseline 就是基于合成数据训练的模型
与当时的 SOTA 方法比较,基本强于当时的无监督训练方法,nyu上甚至比有监督的都好
可视化对比
Thoughts
- 思路非常简单,就是在 adversarial loss 上加一些正则约束
- 预训练的数据集都挑选了和目标域数据比较接近的合成数据,不知道使用差别更大的数据集是否也能有效
AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation相关推荐
- 论文笔记- AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
论文信息 标题: AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation 作者:Jogendra Nath K ...
- Unsupervised Monocular Depth Estimation With Left-Right Consistency 论文笔记
文 | 陈十三 公众号首发 | 一只在路上的哈士奇 公众号ID | super_Mrchen 关注可了解更多.问题或建议,请公众号留言 0x00 补充知识 1.视差:左右双目图像中,两个匹配块中心像素 ...
- Unsupervised Monocular Depth Estimation From Light Field Image
** Unsupervised Monocular Depth Estimation From Light Field Image ** Network Architecture 在深入研究前人工作的 ...
- 无监督单目深度估计 Unsupervised Monocular Depth Estimation with Left-Right Consistency 论文方法分析
最近在做深度估计相关的毕业设计,一般的基于深度学习单目深度估计算法都是基于监督学习的方法,也就是说我希望输入一张拍摄到的单目照片,将它通过卷积神经网络后生成一张深度图.在这个过程中我们就要求需要有大量 ...
- 单目深度估计(Monocular Depth Estimation)论文阅读 2021-01-15
单目深度估计 问题公式化:求非线性映射函数 一.数据集: NYU Depth:视频序列和dense depth map通过RGB-D采集的,但是不是每一种图像都有深度图,因为映射是离散的. KITTI ...
- [论文速读]:全景相机(360度相机)室内图像的景深估计 Depth Estimation for Indoors Spherical Panoramas (三篇)
[论文速读]:全景相机(360度相机)室内图像的景深估计 Depth Estimation for Indoors Spherical Panoramas (三篇) 全景相机(360度相机)室内图像有 ...
- 单目深度估计 | Real-Time Monocular Depth Estimation using Synthetic Data 学习笔记
文章目录 1. 摘要 2. 创新点和局限性 3 研究 3.1 阶段1-单目深度估计模型. 3.1.1 损失函数 3.1.2 训练细节 3.2 阶段2-通过风格迁移的域自适应 3.2.1 损失函数 3. ...
- 介绍一篇通过无监督depth estimation改进语义分割的论文
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴@知乎 来源丨https://zhuanlan.zhihu.com/p/341180239 ...
- 3D Packing for Self-Supervised Monocular Depth Estimation
动机: propose a novel self-supervised monocular depth estimation method combining geometry with a new ...
最新文章
- php 计算两点时间距离,PHP计算地球上两点之间的距离(示例详解)
- mysql 关联更新_MySQL 规范
- LiveVideoStack秋季招聘(编辑、会务运营、项目经理)
- ssm使用全注解实现增删改查案例——EmpMapperImpl
- t分布f分布与样本均值抽样分布_分布模拟1——MCMC抽样方法
- c语言tty,1. 终端_C语言_C语言入门-Linux C编程一站式学习
- 编程之美读书笔记2.14 - 子数组之和的最大值
- 除了微软默认的ppt服务器外,微软如此解释这一新政。据了解,除了MSN与Skype有很多类似功能之外.ppt...
- shell基础入门1.1shell特性
- 微信授权登陆跳转提示10003 redirect_uri域名与后台配置不一致
- Go语言核心之美 1.5-作用域
- 买的香港云服务器怎么用?云服务器使用教程
- html图片轮播加上切换按钮,轮播图(点击按钮切换)
- PHPBB网站如何搬迁新服务器,phpbb 安装教程
- 塞雷三分钟漫画中国史3
- Cassandra分析
- Circulation(IF=23.054):更年期后的女性冠心病患者代谢组学研究
- Eclipse ShotCut[From internet]
- iOS小知识:解决部分英文国际化没有生效的问题(一个语言对应多个字符串资源文件的方案)
- 疫情环境下外卖跑腿市场,校园平台与社会主流大平台有什么区别?
热门文章
- 学分,选够了吗? Alpha冲刺阶段
- 网络安全实验室基础关 writeup
- 欢乐狼人服务器维护,欢乐狼人杀6人局怎么玩 欢乐狼人杀6人玩法攻略 如何玩欢乐狼人杀...
- EC20 raspberry pi 树莓派 4g上网 发短信
- bzoj3165 [Heoi2013]Segment
- 棋牌游戏运营框架思路
- 基于遗传算法的BP神经网络优化算法(GA BP)实用算例
- 文件服务器建立,文件服务器建立
- HTML+CSS期末大作业:保护动物网站设计——大象(6页) 学生DW网页设计作业成品 web课程设计网页规划与设计 大学生动物保护网页作品 环保网页设计作业模板 学生网页制作源代码下载...
- 58同城2021秋招数据分析笔试