【论文学习笔记-16】立体匹配:360SD-net
【论文学习笔记-16】立体匹配:360SD-net
- Contribution
- RelatedWork
- Method
- Experiment
本文利用两张360°摄像机获得的球形图片进行立体匹配,与双目立体匹配相同的,需要解决的问题是在两张图片上获取对应点的位置差,之后通过几何原理获取该点在现实世界的深度
关键难点在于3D相机获得的图片在2D和3D世界的几何性质并不相同,如3D世界投影到2D后可能发生严重的畸变。这里作者采用立刻上下位置的相机对,以保证极线的重合。
同时靠近同时靠近顶部和底部的直线比在“赤道线”附近的图像会产生较多的畸变,这意味着需要针对球形图片设计与双目不同的立体匹配方法。
Contribution
①第一个端到端的360°图片的深度估计网络
②在已有方法的基础上作出了一系列改进,以解决畸变问题,包括级角的使用。
③提出了新颖的filter来获取costvolume,比以往的在球面投影进行像素级平移的filter效果更好
④贡献了360图片立体数据集。
⑤用上述的方法,利用消费级3D相机产生现实环境(3D点云?)
RelatedWork
3D摄像机的廉价获得了CV界的注意,相关工作包括:在球形图像频率域上进行处理做图片分类;使用特殊的球形卷积处理360°图像;使用360°视觉进行布局重构等。
Method
深度计算公式:在已知两图对应点的前提下
使用CNN获取对应点,其中关键的改进步骤包括:为了解决畸变问题,在Feature Extraction前为输出增加了Polar Angle通道,同时为Polar Angle通道进行Feature Extraction,并进行Concatenation。这里没有提前将RGB与Polar angle共同作为输入提取特征(Early Fusion)而是在Feature Extraction后进行Concatenation(Late Fusion Design) 从而分离Geometry information 和 RGB appearance information
由于该任务包含了全景图片,在不同位置需要提取多个尺度的信息,因此采用空洞空间卷积池化金字塔(Aspp)在特征提取之后,提高感受域,同时采用随机剪裁来减少存储消耗:
在CostVolume区域,直接采用GCNet和PSMNet的CostVolume策略来构建3D costvolume包括实现定义Maxdisparity和stepsize等参数,这里stepsize指的是GCnet/GAnet等文章中的直接将可能相同的点的feature直接concatenate作为CostVolume,在矩阵操作上是将两个矩阵不断平移再合并,每次平移的步长就是stepsize,如下图所示:
这里作者设计了新颖的Learnable cost volume,学习stepsize(在这里作者称其为度数单位degree unit),这里通过一个7*1的卷积层进行学习,同时为了采用了Channel wise shifting来防止各通道混合。
前50个Epoch采用传统的固定步长进行训练,然后采用learnable costvolume shifting。
这里作者采用改了堆叠沙漏网络Stacked hourglass作为Encoder Decoder,采用了GCnet的视差回归法,用Smooth_L1作为Loss Function
整体结构如图
Experiment
【论文学习笔记-16】立体匹配:360SD-net相关推荐
- 【论文学习笔记-10】ActiveStereoNet(Google ECCV2018)主动式双目相机自监督学习立体匹配网络
[论文学习笔记-10]ActiveStereoNet(Google ECCV2018)主动式双目相机自监督学习立体匹配网络) 自监督训练方法 Experiment ORAL 针对双目立体匹配中无监督存 ...
- 【论文学习笔记-6】立体匹配:MGM(More global matching)和R3SGM(Real-time Raster-Respecting global matching)
[论文学习笔记-6]立体匹配:MGM(More global matching)和R3SGM(Real-time Raster-Respecting global matching) Motivati ...
- Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social...》论文学习笔记
Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social Effects in Recom ...
- 《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network》论文学习笔记
<Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network>–<基于 ...
- 动态环境下的SLAM:DynaSLAM 论文学习笔记
动态环境下的SLAM:DynaSLAM 论文学习笔记 这篇文章 论文摘要 系统流程 相关环节的实现方法 神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...
- cocos2d-x学习笔记16:记录存储1:CCUserDefault
cocos2d-x学习笔记16:记录存储1:CCUserDefault 一.简述 CCUserDefalt作为NSUserDefalt类的cocos2d-x实现版本,承担了cocos2d-x引擎的记录 ...
- SpringBoot学习笔记(16)----SpringBoot整合Swagger2
Swagger 是一个规范和完整的框架,用于生成,描述,调用和可视化RESTful风格的web服务 http://swagger.io Springfox的前身是swagger-springmvc,是 ...
- 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...
- Hadoop学习笔记—16.Pig框架学习
Hadoop学习笔记-16.Pig框架学习 一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin, ...
最新文章
- 数据库多对多设计方案(贴标签的设计方案)
- 钩子运行机制HOOK
- 游戏类型区分(做游戏的朋友可以看看)
- Windows内存修改初篇
- 上海药物所揭示KRAS突变肿瘤的分子分型和精准治疗新策略
- 通过谷歌API验证地址是否存在 How Google’s Geocoding solves Address Validation
- ubuntu安装显卡驱动后无法进入系统
- 微信emoji表情及输入法自带表情存储与显示
- openFOAM当中的收敛问题
- OpenLayers 3 坐标、坐标系、投影
- [算法题]返回数组A的元素组成的小于n的最大数
- 综合项目 旅游网 【4.旅游线路名称查询-参数传递】
- 锂矿降龙十八掌之时乘六龙
- 数据库连接池是什么?
- 运动模糊 motion blur
- lgv50怎么进入fastboot模式_fastboot知识扫盲 高级刷机方式fastboot模式怎么进入?
- 布尔代数(Boolean Algebra)
- 软件工程师的核心竞争力(学习能力,解决问题的能力,影响力)
- java 中free,FreeJava 的使用方法(三)FreeJava的使用,freejava使用方法
- 计算机网络八股文-面试必问