目录

一、基本信息

二、研究背景

三、创新点

损失函数

Supervised loss.

Unsupervised loss.

Regularization loss.

总损失

网络结构

四、实验结果

五、结论与思考

作者结论

总结

思考

参考


一、基本信息

  • 标题:Semi-Supervised Deep Learning for Monocular Depth Map Prediction
  • 时间:2017
  • 引用格式:Kuznietsov Y, Stuckler J, Leibe B. Semi-supervised deep learning for monocular depth map prediction[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 6647-6655.

二、研究背景

监督学习:需要大量标记数据,激光雷达RGBD等获取的数据存在噪声且稀疏,激光与照相机的投影中心不重合
无监督学习:对应没有纹理的地方,预测不了

总结一下深度预测发展

三、创新点

本文提出使用监督和非监督结合的方法。一个训练配对图需要2张深度图(LiDAR获得),2张RGB图。

令CNN预测的深度倒数ρ ( x ) \rho(\mathbf{x})ρ(x)和激光雷达得到的深度Z ( x ) Z(\mathbf{x})Z(x)对应关系:
ρ ( x ) − 1 = ! Z ( x ) \rho(\mathbf{x})^{-1} \stackrel{!}{=} Z(\mathbf{x})ρ(x)−1=!Z(x)

图像减去视差f b ρ ( x ) f b \rho(\mathbf{x})fbρ(x):
ω ( x , ρ ( x ) ) : = x − f b ρ ( x ) \omega(\mathbf{x}, \rho(\mathbf{x})):=\mathbf{x}-f b \rho(\mathbf{x})ω(x,ρ(x)):=x−fbρ(x)

令左图I 1 I_1I1​等于右图I 2 I_2I2​-视差:
I 1 ( x ) = ! I 2 ( ω ( x , ρ ( x ) ) ) I_{1}(\mathbf{x}) \stackrel{!}{=} I_{2}(\omega(\mathbf{x}, \rho(\mathbf{x})))I1​(x)=!I2​(ω(x,ρ(x)))

结合左右图像:
I left ( x ) = ! I right ( ω ( x , ρ ( x ) ) ) I right ( x ) = ! I left ( ω ( x , − ρ ( x ) ) )

Ileft(x)=!Iright(ω(x,ρ(x)))Iright(x)=!Ileft(ω(x,−ρ(x)))Ileft(x)=!Iright(ω(x,ρ(x)))Iright(x)=!Ileft(ω(x,−ρ(x)))

Ileft​(x)=!Iright​(ω(x,ρ(x)))Iright​(x)=!Ileft​(ω(x,−ρ(x)))​

损失函数

Supervised loss.

L θ S = ∑ x ∈ Ω Z , l ∥ ρ l , θ ( x ) − 1 − Z l ( x ) ∥ δ + ∑ x ∈ Ω Z , r ∥ ρ r , θ ( x ) − 1 − Z r ( x ) ∥ δ

LSθ=∑x∈ΩZ,l∥∥ρl,θ(x)−1−Zl(x)∥∥δ+∑x∈ΩZ,r∥∥ρr,θ(x)−1−Zr(x)∥∥δLθS=∑x∈ΩZ,l‖ρl,θ(x)−1−Zl(x)‖δ+∑x∈ΩZ,r‖ρr,θ(x)−1−Zr(x)‖δ

LθS​=x∈ΩZ,l​∑​∥∥​ρl,θ​(x)−1−Zl​(x)∥∥​δ​​+x∈ΩZ,r​∑​∥∥​ρr,θ​(x)−1−Zr​(x)∥∥​δ​​

θ \thetaθ是CNN参数那么预测的深度倒数:ρ r / l , θ \rho_{r/l, \theta}ρr/l,θ​,∥ ⋅ ∥ δ \|\cdot\|_{\delta}∥⋅∥δ​是berHu范数,结合了L1和L2范数:
∥ d ∥ δ = { ∣ d ∣ , d ≤ δ d 2 + δ 2 2 δ , d > δ \|d\|_{\delta}=\left\{

|d|,d≤δd2+δ22δ,d>δ|d|,d≤δd2+δ22δ,d>δ

\right.∥d∥δ​={∣d∣,d≤δ2δd2+δ2​,d>δ​

δ = 0.2 max ⁡ x ∈ Ω Z ( ∣ ρ ( x ) − 1 − Z ( x ) ∣ ) \delta=0.2 \max _{\mathbf{x} \in \Omega_{Z}}\left(\left|\rho(\mathbf{x})^{-1}-Z(\mathbf{x})\right|\right)δ=0.2x∈ΩZ​max​(∣∣​ρ(x)−1−Z(x)∣∣​)

Unsupervised loss.

L θ U = ∑ x ∈ Ω U , l ∣ ( G σ ∗ I l ) ( x ) − ( G σ ∗ I r ) ( ω ( x , ρ l , θ ( x ) ) ) ∣ + ∑ x ∈ Ω U , r ∣ ( G σ ∗ I r ) ( x ) − ( G σ ∗ I l ) ( ω ( x , − ρ r , θ ( x ) ) ) ∣

LUθ=∑x∈ΩU,l|(Gσ∗Il)(x)−(Gσ∗Ir)(ω(x,ρl,θ(x)))|+∑x∈ΩU,r|(Gσ∗Ir)(x)−(Gσ∗Il)(ω(x,−ρr,θ(x)))|LθU=∑x∈ΩU,l|(Gσ∗Il)(x)−(Gσ∗Ir)(ω(x,ρl,θ(x)))|+∑x∈ΩU,r|(Gσ∗Ir)(x)−(Gσ∗Il)(ω(x,−ρr,θ(x)))|

LθU​=∑x∈ΩU,l​​∣(Gσ​∗Il​)(x)−(Gσ​∗Ir​)(ω(x,ρl,θ​(x)))∣+∑x∈ΩU,r​​∣(Gσ​∗Ir​)(x)−(Gσ​∗Il​)(ω(x,−ρr,θ​(x)))∣​

G σ \mathrm{G}_{\sigma}Gσ​是高斯核,模糊是为了去噪,使用σ = 1 p x \sigma=1 \mathrm{px}σ=1px

Regularization loss.

L θ R = ∑ i ∈ { l , r } ∑ x ∈ Ω ∣ ϕ ( ∇ I i ( x ) ) ⊤ ∇ ρ i ( x ) ∣ L_{\boldsymbol{\theta}}^{R}=\sum_{i \in\{l, r\}} \sum_{\mathbf{x} \in \Omega}\left|\phi\left(\nabla I_{i}(\mathbf{x})\right)^{\top} \nabla \rho_{i}(\mathbf{x})\right|LθR​=i∈{l,r}∑​x∈Ω∑​∣∣∣​ϕ(∇Ii​(x))⊤∇ρi​(x)∣∣∣​

ϕ ( g ) = ( exp ⁡ ( − η ∣ g x ∣ ) , exp ⁡ ( − η ∣ g y ∣ ) ) ⊤ \phi(\mathbf{g})=\left(\exp \left(-\eta\left|g_{x}\right|\right), \exp \left(-\eta\left|g_{y}\right|\right)\right)^{\top}ϕ(g)=(exp(−η∣gx​∣),exp(−η∣gy​∣))⊤

η = 1 255 \eta=\frac{1}{255}η=2551​
防止预测梯度太大作用,个人理解:当预测梯度∇ ρ i ( x ) \nabla \rho_{i}(\mathbf{x})∇ρi​(x)很大时,而真实梯度很小,导致ϕ ( ∇ I i ( x ) ) ⊤ \phi\left(\nabla I_{i}(\mathbf{x})\right)^{\top}ϕ(∇Ii​(x))⊤很大,所以L θ R L_{\boldsymbol{\theta}}^{R}LθR​就很大。保持梯度一致性的意思。。。

总损失


L θ ( I l , I r , Z l , Z r ) = λ t L θ S ( I l , I r , Z l , Z r ) + γ L θ U ( I l , I r ) + L θ R ( I l , I r )

Lθ(Il,Ir,Zl,Zr)=λtLSθ(Il,Ir,Zl,Zr)+γLUθ(Il,Ir)+LRθ(Il,Ir)Lθ(Il,Ir,Zl,Zr)=λtLθS(Il,Ir,Zl,Zr)+γLθU(Il,Ir)+LθR(Il,Ir)

Lθ​(Il​,Ir​,Zl​,Zr​)=λt​LθS​(Il​,Ir​,Zl​,Zr​)+γLθU​(Il​,Ir​)+LθR​(Il​,Ir​)​
λ t \lambda_{t}λt​ 和γ \gammaγ是权衡参数

网络结构

用的残差网络Flownet

2种残差块:

上投影残差块:

具体网络结构:

四、实验结果


9就是系列2左右约束方法,然后看到本文方法可以结合真实深度预测得到比较精准结果,同时对于真实深度没有扫描的地方,通过CNN进行学习。

五、结论与思考

作者结论

总结

本文在有深度标签数据下是个结合CNN的方法,但是大多数情况是没有深度。要是以后有深度相机集成到手机上,这个方法不失为增强方法。

思考

参考

https://blog.csdn.net/qq_29598161/article/details/106951390

论文笔记_S2D.26_2017-ICCV_半监督深度学习的单目深度图预测相关推荐

  1. 深度学习 英文 训练阶段_半监督深度学习训练和实现小Tricks

    临近毕业,忽然想实现一下一些比较经典的半监督深度学习算法.恰逢一周前有个师妹问我有没有关于半监督深度学习训练技巧的文章,我一想,好像没有,便想自己写一篇. Talk is cheap, show yo ...

  2. 融合一致性正则与流形正则的半监督深度学习算法

    融合一致性正则与流形正则的半监督深度学习算法 王杰1,2, 张松岩1,2, 梁吉业1,2 1山西大学计算机与信息技术学院 2计算智能与中文信息处理教育部重点实验室 摘要:半监督学习已被广泛应用于大数据 ...

  3. 基于深度学习的单目深度估计综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 文章:Monocular Depth Estimation Based On Deep Learnin ...

  4. 基于深度学习的单目图像深度估计总结

    图像深度估计,是目前计算机视觉研究中的经典问题.深度图(Depth Map)表示每个像素在空间中的位置,是一种普遍的三维场景信息表达方式,广泛应用于自动驾驶.三维重建等方面. 基于深度学习的单目图像深 ...

  5. 前车碰撞预警——FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码

    前车碰撞预警--FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码. 单目测距,多目标跟踪. 车辆检测,智能adas,FCW,价格只包括源码及设计文档讲解. 我使用的版本说明: gpu版本: an ...

  6. 基于深度学习和单目摄像头测距的前车碰撞预警源码

    前车碰撞预警--FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码 单目测距,多目标跟踪. 车辆检测,智能adas,FCW,编号只包括源码及设计文档讲解. 我使用的版本说明: gpu版本: ano ...

  7. 深度学习之单目深度估计:无监督学习篇

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:桔子毛 https://zhuanlan.zhihu.com/p/29968267 本文仅做学术 ...

  8. 最新综述|深度学习的单目人体姿态估计

    向大家推荐一篇今天新出的人体姿态估计综述文章 Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods ,对20 ...

  9. B.3【智能标注】:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。

    NLP专栏简介:数据增强.智能标注.意图识别算法|多分类算法.文本信息抽取.多模态信息抽取.可解释性分析.性能调优.模型压缩算法等 专栏详细介绍:NLP专栏简介:数据增强.智能标注.意图识别算法|多分 ...

  10. 半监督学习深度学习算法

    该文章主体摘自知乎糯米稻谷的文章,对一些细节添加了自己的理解 文章链接https 半监督学习 啥是半监督学习(Semi-supervised Learning) 1.简单自训练(simple self ...

最新文章

  1. 图像水平梯度和竖直梯度代码_20行代码发一篇NeurIPS:梯度共享已经不安全了
  2. golang实现图片上传和下载
  3. CTFshow 命令执行 web36
  4. python怎么启动服务器_如何通过cgi启动服务器端python程序?
  5. [云炬创业管理笔记]第三章打造优秀创业团队讨论4
  6. 时空大数据 AI 研究院在京成立,助推时空产业高质量发展
  7. 音视频技术开发周刊 | 179
  8. Python2.x 和 Python3.x,如何选择?
  9. centos利用nexus搭建局域网docker私有仓库
  10. 杭电计算机研究院排名,2020浙江省大学最新10强排名,浙大第1,杭电第5
  11. Linux操作Oracle(2)——Oracle导出exp导出用户报错:EXP-00006: 出现内部不一致的错误 EXP-00000: 导出终止失败
  12. Java for LeetCode 036 Valid Sudoku
  13. 《剑指offer》面试题6——重构二叉树——已知 前序遍历和中序遍历,求后序遍历(C++)
  14. 菜鸟教程: Linux cat 命令
  15. 联通手机服务器密码怎么修改,联通宽带手机修改wifi密码
  16. Mysql+Echarts+Python+Flask实现前后端交互及数据可视化
  17. 打开 codeblocks 出现 ntvdm.exe 停止工作
  18. AWS灾难恢复的重要参考指标
  19. python里面Nose和pytest的区别
  20. 无聊的小明来数1 (5 分)...按位与

热门文章

  1. Burp Suite Scanner Module - 扫描模块
  2. 02.规划过程组表格-沟通管理计划
  3. css3的一些知识点
  4. JavaStuNote 5
  5. WebBrowser.ObjectForScripting 属性的使用
  6. 使用notepad++进行格式转换
  7. 使用.net开发并生成Windows服务安装包
  8. 用CSS样式如何制作圆角的详细教程
  9. zendstudio 的使用过程中出现 Editor could not be initialized. 的问题
  10. 拦截器(Interceptor)和过滤器(Filter)的区别