• 论文信息

    • 标题: AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
    • 作者:Jogendra Nath Kundu (jogendrak@iisc.ac.in), Phani Krishna Uppala (krishnaphaniiitg@gmail.com), Anuj Pahuja (anujpahuja13@gmail.com), R. Venkatesh Babu (venky@iisc.ac.in)
    • 机构:印度帝国理工,视频分析实验室
  • 代码链接

    • http://val.cds.iisc.ac.in/adadepth/
  • 论文主要贡献

    • 提出 AdaDepth 用于无监督对抗域调整,用于对高维的结构编码表示适应到针对目标任务的输出层
    • 通过使用新的特征重建正则网络约束目标 domain 的内容一致性,解决模式崩塌的问题
    • 再 NYU Depth 和 KITTI 上的实验结果表明,在弱监督条件下,本文方法取得了较好的性能
  • 论文要点翻译

    • 摘要

      • 监督学习方法在单目深度估计任务中取得的较好的性能,但是该类方法需要大量的标注数据,由于对噪声不鲁棒,而且准确性仍然可以进一步提高
      • 合成场景数据集已经被用于解决这些问题,但是由于 domain shift 的存在,合成场景数据训练的模型难以泛化到真实场景数据
      • 最近的用于 domain adaptation 的对抗训练方法已经取得较好的结果,能够一定程度上缓解不同 domain 之间存在的差异,但是这些方法通常都是用于图像分析任务的,不能较好地用于像素级预测的全卷积网络
      • 本文工作提出 AdaDepth,用于无监督地将图像进行域适应调整,进而用于深度估计这样的像素级回归任务
      • 提出的方法通过对抗训练的方式,显示地利用目标 domain 的特征表示与源域的内容一致性,有效改进之前提出的问题
      • 提出的无监督学习方法比其他的方法效果差不多,能够达到半监督条件的 SOTA 性能
    • 引言
      • DNN 的发展对计算机视觉任务的促进,DNN 方法对于数据的需求,为了解决这个问题,在训练中引入合成场景数据集是常用手段
      • 由于类似语义场景理解的问题,真实的标注图像往往难以采集,就需要有效利用合成场景的数据集,虽然合成场景数据与真实数据相似性很高,但是还是有一定的 domain gap,因此在合成场景数据训练的模型难以泛化到真实场景数据
      • 从概率分布的角度考虑,网络的输入样本来自特定的源分布,网络只有当测试数据输入与训练数据输入的分布一致时能获得较好的性能,因此,通常的调优方法都是在合成场景数据上训练之后再混合的样本数据上进行模型的调优
      • 为了进行深度估计任务,典型的通过传感器采集的数据通常具有噪声,严重影响了监督学习方法的性能,通过人工标注的方式标注的数据往往有较多的局限,这些局限导致了对于干净有效的场景数据的需求,AdaDepth 解决这个问题的主要手段是通过从合成场景的深度图像中学习特征表示并将其适应调整到真实场景
      • 单目深度估计本身是一个病态问题,但是弹幕深度估计再图形学、计算摄影学、机器人学等领域都有应用,为了解决对多视图信息的缺乏问题,单目深度估计模型需要有效利用图像的全局语义信息,进而回归得到像素级的深度信息。端到端的 FCN 模型可以有效的提取目标特征,有效用于深度估计任务,这样的目标信息再合成场景和真实场景数据中都具有,因此可以利用合成场景数据学习这种从图像语义到图像像素级深度之间的对应关系
      • 之前的域调整方法主要通过学习额外的映射层来减少不同 domain 之间的 gap,或者通过学习不同域图像之间共有的域无关的特征表示用于深度估计任务,和分类任务不同的是,基于分类任务更多地利用更高层次的语义信息,AdaDepth 是第一个用于深度估计这样的空间结构的语义回归任务的无监督对抗训练的域调整方法
      • 通常,由于缺乏成对的标注数据,模式崩塌是域调整对抗训练中的一个常见问题,再对抗训练的过程中,由于 FCN 嵌入表示的复杂性,保留输入的空间结构信息是一个较为困难的过程,由于无法获取目标 domain 的深度图,本文主要通过提出内容全等正则方法保留输入的结构信息,提出的方法可以有效用于深度估计,能够很好地适用于目标自然场景数据
    • 相关工作
      • 监督学习条件的单目深度估计(CNN方法、CRF优化等)
      • 无监督/自监督深度估计:利用双目立体图像形成自监督信号,左右一致性监督信号,视频序列的场景合成
      • 使用合成场景迁移学习
      • 域调整
    • 方法
      • 考虑 合成场景的图像及其对应的深度图作为源分布 (xs,ys)∈Xs,Ys(x_s,y_s) \in X_s,Y_s(xs​,ys​)∈Xs​,Ys​,源分布记为 ps(x,y)p_s(x,y)ps​(x,y),类似的有真实图像 xt∈Xtx_t\in X_txt​∈Xt​ 及目标分布 pt(x,y)p_t(x,y)pt​(x,y) ,且有 ps≠ptp_s \neq p_tps​​=pt​,在此条件下进行深度估计任务
      • 将一个 DCNN 模型作为从输入图像到对应的深度图的转换函数,基础的模型可盈分为两个转换,(1)MsM_sMs​ 将图像转换为隐含层的表示信息,而 (2)TsT_sTs​ 将图像的特征表示转换成最终的深度预测结果
      • 基础的 CNN 模型首先通过合成场景数据进行监督学习,ys^=Ts(Mt(xt))\hat{y_s}=T_s(M_t(x_t))ys​^​=Ts​(Mt​(xt​)),由于域 shift 问题,直接利用 XsX_sXs​ 训练的网络难以直接用于目标域 XtX_tXt​,导致了隐含层的表示和预测具有差异,即 Ms(xt)≠Mt(xt)M_s(x_t) \neq M_t(x_t)Ms​(xt​)​=Mt​(xt​) 且 Ts(Ms(xt))≠Tt(Mt(xt))T_s(M_s(x_t)) \neq T_t(M_t(x_t))Ts​(Ms​(xt​))​=Tt​(Mt​(xt​)),为了能够有效进项域调整,理想的 MsM_sMs​ 和 TsT_sTs​ 应该能够以较好的性能迁移到目标域,考虑到 XsX_sXs​ 和 XtX_tXt​ 只是在感知层次有所不同,这个差异主要是由于图像合成的过程导致的,但是两个场景的数据应当在物体信息、相对的目标的偏移等方法有较强的相似性,因此,只需要将 MtM_tMt​ 进行调整用于目标的分布,为了将从域学习到的特征表示泛化到新的域,首先需要匹配两个隐含层表示 Ms(Xs)M_s(X_s)Ms​(Xs​) 和 Mt(Xt)M_t(X_t)Mt​(Xt​) 使得之后的转换函数 TTT 对于不同域是一致的,也就是 Ts=Tt=TT_s = T_t = TTs​=Tt​=T
      • 调整的过程中,初始化的 MtM_tMt​ 和 TtT_tTt​ 用监督训练得到的 MsM_sMs​ 和 TsT_sTs​ 作为权重老远,为了将 MtM_tMt​ 的参数调整以适应目标样本 xtx_txt​,引入两个不同的判别器 DFD_FDF​ 和 DYD_YDY​,其中 DFD_FDF​ 用于判断特征表示来自哪个域,即区别 Ms(xs)M_s(x_s)Ms​(xs​) 和 Mt(xt)M_t(x_t)Mt​(xt​) 而 DYD_YDY​ 用于判断 YsY_sYs​ 和 T(Mt(xt)T(M_t(x_t)T(Mt​(xt​) 之间的差异,假设合成场景和真实场景的深度具有相同的分布,即 p(Ys=ys)≈p(Yt=yt)p(Y_s=y_s) \approx p(Y_t=y_t)p(Ys​=ys​)≈p(Yt​=yt​),推理过程中,推理对应的转换函数 T 的过程对于源域特征表示和目标域特征表示都是一样的
      • 方法使用 ResNet-50 作为基本的骨干网络,典型方法的结果显示,在层次网络中,底层特征表示通常和数据分布有关,而高层特征表示则通常和任务相关,这就说明不同的数据域之间的迁移性主要在后面层次中,实验评估过程中选择了 MsM_sMs​ 和 MtM_tMt​ 之间从第一层到最后一层,最终只在Res-5层作为固定(其他层都是可迁移特征)
    • 训练目标
      • 对抗 loss 主要是预测过程中的 DFD_FDF​ 和 DYD_YDY​ 使用的对抗目标
    • 内容全等
      • 实际上,DCNN 能够探索不同模式的复杂输出和特征分布,仅仅依靠对抗目标进行参数更新可能导致模式崩塌,在这个条件下,输出的转换图像即使在对抗目标实现较好的情况下与原输入图像的结构信息可能他并不一致,为了解决这个问题提出了内容全等规范约束
      • 域一致性正则(DCR)
        • 通过不同域的特征表示的区别对于 L1 范数进行表示
      • 残差迁移框架(RTF)
        • 从 MsM_sMs​ 到 MtM_tMt​ 的过程,【32】提出将 MtM_tMt​ 表示为 Ms+ΔMM_s+\Delta MMs​+ΔM,本文类似地使用这个方法,为了维持内容一致性,将 ΔM\Delta MΔM 约束为一个较小的只,避免影响基础的 MsM_sMs​ 的激活值,具体如文中图4所示
      • 特征一致性框架(FCF)
        • 新的保留空间结构和内容与输入之间得一致性的深度估计,因此要求使用特征重建 loss 约束这个内容一致性,将 Res-5 块中的特征一致性形式化,将关注对应的深度估计

论文笔记- AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation相关推荐

  1. AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation

    Paper name AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation Paper Reading No ...

  2. 【论文笔记】Unsupervised Deep Embedding for Clustering Analysis(DEC)

    [论文笔记]Unsupervised Deep Embedding for Clustering Analysis(DEC) 文章题目:Unsupervised Deep Embedding for ...

  3. 论文笔记(二十)VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data

    VisuoTactile 6D Pose Estimation of an In-Hand Object using Vision and Tactile Sensor Data 文章概括 摘要 1. ...

  4. 论文阅读:RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation

    中文标题: 分辨自适应自监督单目深度估计 提出问题 传统的无监督深度估计方法如果在固定分辨率上训练,则迁移到其他分辨率上存在严重退化. 创新点 提出一种分辨率自适应的无监督深度学习框架(RA-Dept ...

  5. ECCV2016【论文笔记】Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

    1.INTRO 本文作者旨在通过解决拼图问题来进行self-supervised learning,这样可以训练一个网络去识别目标的组成部分. 2.Solving Jigsaw Puzzles 当前一 ...

  6. 论文笔记:全景图恢复房间结构(Room Layout Estimation From A Panorama Image)

    1. DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama (CVPR ...

  7. 活体检测论文笔记2——Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing

    本文创新点: 设计了一种基于两种见解来检测来自多个框架的表示攻击的新方法: 1)详细的鉴别线索(例如,空间梯度大小)可以通过叠加的普通卷积被丢弃:2)三维运动人脸的动力学为检测假人脸提供了重要的线索 ...

  8. Unsupervised Monocular Depth Estimation With Left-Right Consistency 论文笔记

    文 | 陈十三 公众号首发 | 一只在路上的哈士奇 公众号ID | super_Mrchen 关注可了解更多.问题或建议,请公众号留言 0x00 补充知识 1.视差:左右双目图像中,两个匹配块中心像素 ...

  9. 论文笔记目录(ver2.0)

    1 时间序列 1.1 时间序列预测 论文名称 来源 主要内容 论文笔记:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Dr ...

最新文章

  1. 在虚拟机中的Nginx的安装
  2. 【Java每日一题】20161128
  3. 趣链 BitXHub跨链平台 (2)跨链网络拓扑
  4. 踩内存是什么意思啊_面试|搬了这么久的砖,居然还不知道什么“踩内存”
  5. 宿主机linux,宿主机上安装小linux
  6. Docker实践4: 基于nginx对后端的weblogic负载均衡
  7. 2011(信息学奥赛一本通-T1234)
  8. Python面向对象中的self到底是什么?
  9. 【报告分享】数据大治理-毕马威阿里研究院.pdf(附下载链接)
  10. easyui datagrid中添加右键菜单事件
  11. 阅读笔记-游戏开发中的人工智能-第3章-移动模式
  12. linux本地光盘yum
  13. 中国全部城市的中心点坐标 json格式
  14. 使用winpcap开发网络抓包工具
  15. Chrome启动参数最全集合
  16. 国密算法分类及介绍(sm系列密码算法)
  17. 两军对垒问题及个人的思考
  18. 《AngularJS深度剖析与最佳实践》一2.12 单元测试
  19. qr-rls算法matlab实现,【预测模型】基于RLS算法进行预测matlab源码
  20. 网友RHCE认证考试经历

热门文章

  1. 查看C++源文件的预处理结果
  2. 绘制原理图时的常识(一)Stm32F103ZE电源供电
  3. android 死亡自动启动,android – 服务在Activity的’死亡’崩溃
  4. CSDN博客去除图片水印
  5. 机器学习实战:K-近邻(KNN)算法识别26个大写英文字母(A到Z)(含拍照检验步骤详解)
  6. 百度2015校园招聘面试题回忆录(成功拿到offer)
  7. 威纶通触摸屏技巧总结
  8. 地震波ifft matlab,地震波观测系统的MATLAB仿真报告
  9. 工业网关BL110实现西门子S7-200 PLC接入华为 云平台
  10. novamind下载+和谐激活