【论文学习笔记-16】立体匹配:360SD-net

  • Contribution
  • RelatedWork
  • Method
  • Experiment

本文利用两张360°摄像机获得的球形图片进行立体匹配,与双目立体匹配相同的,需要解决的问题是在两张图片上获取对应点的位置差,之后通过几何原理获取该点在现实世界的深度

关键难点在于3D相机获得的图片在2D和3D世界的几何性质并不相同,如3D世界投影到2D后可能发生严重的畸变。这里作者采用立刻上下位置的相机对,以保证极线的重合。

同时靠近同时靠近顶部和底部的直线比在“赤道线”附近的图像会产生较多的畸变,这意味着需要针对球形图片设计与双目不同的立体匹配方法。

Contribution

①第一个端到端的360°图片的深度估计网络
②在已有方法的基础上作出了一系列改进,以解决畸变问题,包括级角的使用。
③提出了新颖的filter来获取costvolume,比以往的在球面投影进行像素级平移的filter效果更好
④贡献了360图片立体数据集。
⑤用上述的方法,利用消费级3D相机产生现实环境(3D点云?)

RelatedWork

3D摄像机的廉价获得了CV界的注意,相关工作包括:在球形图像频率域上进行处理做图片分类;使用特殊的球形卷积处理360°图像;使用360°视觉进行布局重构等。

Method

深度计算公式:在已知两图对应点的前提下

使用CNN获取对应点,其中关键的改进步骤包括:为了解决畸变问题,在Feature Extraction前为输出增加了Polar Angle通道,同时为Polar Angle通道进行Feature Extraction,并进行Concatenation。这里没有提前将RGB与Polar angle共同作为输入提取特征(Early Fusion)而是在Feature Extraction后进行Concatenation(Late Fusion Design) 从而分离Geometry information 和 RGB appearance information

由于该任务包含了全景图片,在不同位置需要提取多个尺度的信息,因此采用空洞空间卷积池化金字塔(Aspp)在特征提取之后,提高感受域,同时采用随机剪裁来减少存储消耗:

在CostVolume区域,直接采用GCNet和PSMNet的CostVolume策略来构建3D costvolume包括实现定义Maxdisparity和stepsize等参数,这里stepsize指的是GCnet/GAnet等文章中的直接将可能相同的点的feature直接concatenate作为CostVolume,在矩阵操作上是将两个矩阵不断平移再合并,每次平移的步长就是stepsize,如下图所示:

这里作者设计了新颖的Learnable cost volume,学习stepsize(在这里作者称其为度数单位degree unit),这里通过一个7*1的卷积层进行学习,同时为了采用了Channel wise shifting来防止各通道混合。

前50个Epoch采用传统的固定步长进行训练,然后采用learnable costvolume shifting。

这里作者采用改了堆叠沙漏网络Stacked hourglass作为Encoder Decoder,采用了GCnet的视差回归法,用Smooth_L1作为Loss Function

整体结构如图

Experiment

【论文学习笔记-16】立体匹配:360SD-net相关推荐

  1. 【论文学习笔记-10】ActiveStereoNet(Google ECCV2018)主动式双目相机自监督学习立体匹配网络

    [论文学习笔记-10]ActiveStereoNet(Google ECCV2018)主动式双目相机自监督学习立体匹配网络) 自监督训练方法 Experiment ORAL 针对双目立体匹配中无监督存 ...

  2. 【论文学习笔记-6】立体匹配:MGM(More global matching)和R3SGM(Real-time Raster-Respecting global matching)

    [论文学习笔记-6]立体匹配:MGM(More global matching)和R3SGM(Real-time Raster-Respecting global matching) Motivati ...

  3. Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social...》论文学习笔记

    Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social Effects in Recom ...

  4. 《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network》论文学习笔记

    <Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network>–<基于 ...

  5. 动态环境下的SLAM:DynaSLAM 论文学习笔记

    动态环境下的SLAM:DynaSLAM 论文学习笔记 这篇文章 论文摘要 系统流程 相关环节的实现方法 神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...

  6. cocos2d-x学习笔记16:记录存储1:CCUserDefault

    cocos2d-x学习笔记16:记录存储1:CCUserDefault 一.简述 CCUserDefalt作为NSUserDefalt类的cocos2d-x实现版本,承担了cocos2d-x引擎的记录 ...

  7. SpringBoot学习笔记(16)----SpringBoot整合Swagger2

    Swagger 是一个规范和完整的框架,用于生成,描述,调用和可视化RESTful风格的web服务 http://swagger.io Springfox的前身是swagger-springmvc,是 ...

  8. 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...

  9. Hadoop学习笔记—16.Pig框架学习

    Hadoop学习笔记-16.Pig框架学习 一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin, ...

最新文章

  1. 数据库多对多设计方案(贴标签的设计方案)
  2. 钩子运行机制HOOK
  3. 游戏类型区分(做游戏的朋友可以看看)
  4. Windows内存修改初篇
  5. 上海药物所揭示KRAS突变肿瘤的分子分型和精准治疗新策略
  6. 通过谷歌API验证地址是否存在 How Google’s Geocoding solves Address Validation
  7. ubuntu安装显卡驱动后无法进入系统
  8. 微信emoji表情及输入法自带表情存储与显示
  9. openFOAM当中的收敛问题
  10. OpenLayers 3 坐标、坐标系、投影
  11. [算法题]返回数组A的元素组成的小于n的最大数
  12. 综合项目 旅游网 【4.旅游线路名称查询-参数传递】
  13. 锂矿降龙十八掌之时乘六龙
  14. 数据库连接池是什么?
  15. 运动模糊 motion blur
  16. lgv50怎么进入fastboot模式_fastboot知识扫盲 高级刷机方式fastboot模式怎么进入?
  17. 布尔代数(Boolean Algebra)
  18. 软件工程师的核心竞争力(学习能力,解决问题的能力,影响力)
  19. java 中free,FreeJava 的使用方法(三)FreeJava的使用,freejava使用方法
  20. 计算机网络八股文-面试必问

热门文章

  1. 前端jquery判断元素是否隐藏
  2. Flutter中的日期时间选择器
  3. FPGA原型验证中define/undefine编译顺序的问题
  4. idea maven打包错误
  5. python绘制双折线图
  6. 阿里云企业邮箱购买流程
  7. RAII + 接口模式
  8. 分享118个HTML个性简实模板,总有一款适合您
  9. loj2038「SHOI2015」超能粒子炮・改(卢卡斯的理解和延伸+数位dp)
  10. css transform导致字体像素模糊的问题解决办法