Review Article Review of Stereo Matching Algorithms Based on Deep Learning
基于深度学习的立体匹配算法综述(没看完)
(1)非端到端(2)端到端(3)无监督
非端到端
限制:每个深度值下计算成本问题,有限的感受野无法推断出错误点,后续步骤还是依靠经验手动设置参数。
端到端:可生成高精度深度估计,但是在无纹理、详细结构的小物体和近边界处很难找到正确对应点。而且需要更大的存储器和相对费时,对应的地面真值训练和大量标记工作。
Kitti数据集是怎么来的,安装在车顶部的相机拍的,还有旋转激光扫描仪,测量地面真值,数据集包含真实的视差值可以用于训练,也可以给出精确度用来预测。评估指标通常是端点误差(EPE),即像素的平均平 均视差误差。对于KITTI 2012,报告了 ⾮遮挡(Non-occ)和所有(All)像素 的错误像素百分⽐和平均端点错误。对 于KITTI2015,将针对背景,前景和所 有像素评估视差离群值D1的百分⽐。 离群值定义为视差误差⼤于max (3px,0.05d *)的像素,其中d *表示 地⾯真实视差。
非端到端:原始的太费时间,需要67秒,快速结构只要0.7秒。一个是cnn完了连接到DNN,一个是在代价计算中融入了多尺度特征,cnn完了之后直接点积。Luo提出了视差范围内的多标签分类模型,可以通过概率分布的学习来获得不同视差下的关联。虽然cnn让精度大大提高,但是时间相对于sgbm也慢了100倍。
Park和Lee提出了每个像素的金字塔池化,在不丢失细节和分辨率的情况下扩大感受野。
Shaked等提出了高速网络架构基于多级加权剩余shortcuts。
深度神经网络也能用在后面的步骤,因为视差图都是光滑的,所以可以用在平滑约束上。Seki和Pollefeys提出了5X5的灰度图预测SGM中线性约束惩罚,由路径和邻域代价组成了新的代价,可使用在稀疏注释视差图上,例如LiDAR。但是SGM惩罚不能明确标注,这个网络需要三步生成弱标签去训练这使得整个过程复杂和费时。
Knobelreiter等提出了CNN和CRF混合模型,一元CNN和成对CNN提取表达特征。CRF中计算一元代价和二元代价,利用ssvm在大量数据和端到端上训练CNN+CRF。
大家都想设计更加复杂的网络,原始简单的网络限制产生丰富的语义表现。
Gidaris 和Komodakis用由检测、替换和修改错误预测三阶段组成的网络替换传统的人工视差优化后续步骤。这个网络叫DDR虽然效果好但是计算成本很好而且它在反光和无纹理区域效果不好,Displets通过在较远距离上进行物体类别特定视差建议,很好的解决了反光和无纹理区域效果不好的问题。
在这些非端到端的方法中,传统算法还是必不可少的而且有着大的计算量,有限的接受域,缺乏上下文信息,或多或少用到后续步骤。他们表现很好但是时间成本高,其中DDR快是因为用了整幅图像,其他算法匹配的是图像块。
端到端立体匹配
Mayer等人成功发明端到端算法之后,端到端的匹配算法越来越受欢迎。很多算法基于这个算法。2D编解码结构和3D卷积组成的级联优化和规则化模块是现在最流行的端到端匹配网络结构,一个是2D卷积神经网络搭配残差信息生成最终预测,3D结构是利用3D卷积神经网络提取视差维度。
Dosovitskiy等人第一次用端到端网络解决立体匹配问题,他们提出来flowNet和flowNetc网络解决光流估计问题。把这个算法用到了立体匹配问题上,光流估计和立体匹配的区别是1D和2D的区别。
受到FlowNet的启发,mayer提出了DispNet,效率高,但是在固有的不良区域(遮挡、重复和无纹理区域)仍然效果不好。
启发于DispNet,级联残差学习被pang等人提出,由两部分组成,一部分给出初始视差,另一部分通过多尺度生成残差信号优化视差,两部分汇总输出视差。越复杂表达能力越强,但同时越慢,时间大概是DispNet的8倍。
Liang等人扩展了DispNet,设计了不同视差优化子网络基于恒定的特征的两部分联合学习。与DispNet相比时间慢一点,效果好很多。CRL和iResNet网络都有相同的思想,CRL方法在两个子网络之间没有共享足够的信息,只有第一阶段子网络预测的视差信息被传递到第二阶段子网络,而iResNet则在两部分传递了更多信息,这个导致了虽然CRL更复杂但是iResNet效果更好。
其他方法尝试整合其他信息,以提高这些难匹配区域的表现。肖等人提出了一个由骨干网和边缘子网组成的网络。该模型通过嵌入和边缘感知平滑度损失规范化,集成了边缘提示,从而在 KITTI 立体声和场景流基准上实现最先进的性能。国润等人[25]提出了一个模型,将语义特征从分割中整合,并引入语义软质损失。语义提示的结合大大改进了差异估算的预测,并在 KITTI 立体声基准上取得了最先进的结果。
Kendall 等人提出了 GC-Net ,并率先使用 3D 卷积网络来汇总代价量的上下文。在计算代价量时,它们没有折叠特征维度,而是形成了一个 4D 成本量,该量与图像对沿悬殊维度的合并特征组成,然后是 3D 卷积网络,以给出差异预测。差异维度的使用大大提高了性能,达到了最先进的性能。在GC-Net的启发下,张和陈[28]提出了金字塔立体声匹配网络(PSMNet)来利用全图上下文信息。此网络由空间金字塔池和堆叠的 3D CNN 模块组成。空间金字塔池化提取多尺度表示,堆叠 3D CNN 使 4D 成本量规范化,以给出视差预测。
Review Article Review of Stereo Matching Algorithms Based on Deep Learning相关推荐
- python数据库开发 dga_DGA detection based on Deep Learning (CNN and GRU) (基于深度学习的DGA检测)...
DGA-detection DGA detection based on Deep Learning (CNN and GRU) (基于深度学习的DGA检测) This project impleme ...
- Automated defect inspection system for metal surfaces based on deep learning and data augmentation
Automated defect inspection system for metal surfaces based on deep learning and data augmentation 基 ...
- Prediction of Multidrug-Resistant TB from CT Pulmonary Images Based on Deep Learning Techniques论文总结
Prediction of Multidrug-Resistant TB from CT Pulmonary Images Based on Deep Learning Techniques 解决的问 ...
- image adaptive 3dlut based on deep learning
文章目录 image adaptive 3dlut based on deep learning 1. Learning Image-adaptive 3D Lookup Tables for Hig ...
- LCZ classification based on deep learning概况(持续更新)
目录 Multilevel Feature Fusion-Based CNN for Local Climate Zone Classification From Sentinel-2 Images: ...
- DeepCachNet A Proactive Caching Framework Based on Deep Learning in Cellular Networks论文阅读
DeepCachNet:蜂窝网络中基于深度学习的主动缓存框架 摘要 在网络边缘的内容缓存被认为是用于增强蜂窝网络中内容传递效率的合适技术, 由于存储限制,在SBS(小型基站)缓存战略内容至关重要. ...
- 论文解读:6mA-Pred: identifying DNA N6-methyladenine sites based on deep learning
6mA-Pred:基于深度学习的DNA n6 -甲基腺嘌呤位点识别 摘 要 一.介绍 二.材料和方法 2.1 数据集 2.2 特征编码和分类算法 三. 绩效评估 四. 不同数据集的性能比较 总结 数据 ...
- Who Am I? Personality Detection based on Deep Learning for Texts 阅读笔记
文章目录 源代码github地址 摘要 2CLSTM 过程 1. 词嵌入 2. 2LSTM处理 3. CNN学习LSGCNN学习LSG 4. Softmax分类 源代码github地址 https:/ ...
- 跌倒综述 Deep Learning Based Systems Developed for Fall Detection A Review
文章目录 1.基本信息 2. 第一节 介绍 3. 第二节 跌倒检测系统文献 4.第三节 讨论和未来方向 5. 第四节 结论 6. 参考文献 1.基本信息 题目:Deep Learning Based ...
最新文章
- Linux shell 学习笔记(4)— linux 环境变量(全局变量、局部变量及变量持久化)
- [Java] System.arraycopy 数组复制
- DOM节点中属性nodeName、nodeType和nodeValue的区别 Delphi
- 『重构--改善既有代码的设计』读书笔记----Split Temporary Variable
- 数据结构实验病毒感染检测问题
- 微信小程序 button按钮 image图片
- CAD图纸的缩放——缩放上一个命令
- 微信域名屏蔽检测技术-微信域名防封防屏蔽的的原因
- 第六课:计算两数的GCF(最大公因数)(基于AndroidStudio3.2)
- 自考汉语言文学本科要考几门?专业有哪些课程?
- XSS labs 闯关大合集
- 龙腾世纪审判一直连接服务器,【1.7.2】【rpg】我的世界龙腾世纪群组服务器
- app运营中,如何提高用户活跃度?
- 进度模型方法论,利用“削峰填谷”进行资源优化
- 由博客评论引发的思考和实践(关于搜狗输入法)
- jQuery 从零开始学习 (二) 选择器
- python中文文本分词_SnowNLP:?中文分词?词性标准?提取文本摘要,?提取文本关键词,?转换成拼音?繁体转简体的 处理中文文本的Python3 类库...
- matlab与科学计算 王沫然,MATLAB与科学计算(第3版) 王沫然著 电子工业出版社 9787121180521...
- 全志android平台下的SDK快速移植
- 【渝粤教育】电大中专电大中专职业生涯规划考试考核试题作业 题库