TPAMI 2022 | 国防科大等高校提出光场解耦机制,在超分辨与视差估计任务上取得优异性能...
来源丨我爱计算机视觉
光场相机可以通过记录光线的强度与方向信息将3维场景编码至4维光场图像。近年来,卷积神经网络被广泛应用于各项光场图像处理任务。然而,由于光场的空间信息与角度信息随空变的视差高度耦合,现有的卷积网络难以有效处理高维的光场数据。
鉴于此,该文提出了一种通用的光场解耦机制,通过设计一系列的解耦卷积将高维光场解耦至多个低维子空间,实现了光场数据的高效处理。基于所提解耦机制,该文针对空间超分辨、角度超分辨以及视差估计任务分别设计了DistgSSR、DistgASR以及DistgDisp三个网络。
实验结果表明该文所提网络能够在以上三个任务中取得一致优异的性能,验证了所提光场解耦机制的有效性、高效性与通用性。 相关论文收录于IEEE TPAMI期刊,代码已开源。
论文: https://arxiv.org/pdf/2202.10603.pdf
主页: https://yingqianwang.github.io/DistgLF/
▊ 引言(Introduction)
光场(light field,LF)相机可以同时记录光线的强度和角度信息,在重聚焦、深度估计、虚拟现实、增强现实等方面具有广泛的应用。随着深度学习的发展,卷积神经网络被应用于各类光场图像处理任务并不断取得性能提升。
然而,光场图像的空间信息与角度信息高度耦合于空变的视差(disparity),使得卷积神经网络难以直接从高维光场中提取有用信息。现有方法通常采用“分而治之”的策略,通过处理部分光场图像(如相邻视角、极平面图像或行列子光场)实现数据降维。这样的策略虽然能够解决高维光场数据处理的难题,却无法充分利用所有视角的信息,从而限制了算法的性能。
该文提出了一个通用的 光场解耦机制 以实现高维光场数据的处理。基于光场图像的结构先验,该文设计了空间、角度、极平面三类解耦卷积,将光场解耦至不同的二维子空间中,而后通过设计相应的模块对不同子空间提取的信息进行融合。
相比于现有的基于卷积网络的光场图像处理框架,该文所提解耦机制具有 三个显著优点:
1)可以很好地结合光场的结构先验并充分利用所有视角的信息;
2)通过将4维光场解耦至不同的2维子空间,降低了单个子空间内卷积层的学习难度,从而提升了网络的性能;
3)所提解耦机制具有通用性并且可以应用至不同的光场图像处理任务中。
基于所提光场解耦机制,该文分别提出了DistgSSR、DistgASR以及DistgDisp三个网络用于空间超分辨、角度超分辨以及视差估计三个典型的光场图像处理任务。实验结果表明,该文所提网络能够在以上三个任务中取得一致优异的性能,验证了所提光场解耦机制的有效性、高效性与通用性。
▊ 光场解耦机制(The LF Disentangling Mechanism)
光场的表示与可视化
图1 光场图像的阵列子图像(SAI)与极平面图像(EPI)示意图
光场图像在不同的维度具有不同的特性。如图1(a)所示,4维光场可以可视化为U×V的阵列子图像(sub-aperture image,SAI),每一幅子图像的分辨率均为H×W。
此外,如图1(b)和图1(c)所示,当固定一个空间维度(如h)和一个角度维度(如u)时,4维光场可以被可视化为极平面图像(epipolar plane image,EPI)。场景中的物体在不同视角图像上的投影表现为极平面图像上的一条斜线,而斜线的斜率体现了该物体在不同视角图像间的视差(disparity),与该物体所处的深度相关。
图2 光场图像的阵列子图像(SAI)与宏像元图像(MacPI)示意图
若将每幅阵列子图像相同空间位置的像元按照视角顺序进行排列,则可以构成如图2(b)所示的宏像元图像(macro-pixel image,MacPI)。在宏像元图像中,各个视角的信息被紧密编码在空间相邻的像元中,基于这一特殊的结构,该文通过设计特定的卷积算子灵活地结合特定维度的信息,实现了光场的解耦。
光场解耦机制
图3 该文所提光场解耦卷积算子示意图。图中红色卷积为角度特征提取子(AFE),紫色卷积为空间特征提取子(SFE),绿色卷积为水平/竖直极平面特征提取子(EFE-H/EFE-V)。
图3为简化的光场宏像元图像示意图。在该示例中,光场的空间分辨率为3×4,角度分辨率为3×3。图中涂有不同底色的区域表示不同的宏像元,每个宏像元内的像元标有不同的字母,表示其属于不同的视角。设光场图像的角度分辨率为A×A,该文所提解耦卷积算子的定义如下:
- 空间特征提取子SFE定义为kernel size=3×3,stride=1,dilation=A的卷积;
- 角度特征提取子AFE定义为kernel size=A×A,stride=A的卷积;
- 水平极平面特征提取子EFE-H定义为kernel size=1×(A^2),stride=[1, A]的卷积;
- 竖直极平面特征提取子EFE-V定义为kernel size= (A^2)×1,stride=[A ,1]的卷积;
将AFE应用于宏像元图像时,只有单个宏像元内(不同视角、相同空间位置)的像元参与卷积运算,而不同宏像元之间的信息不互通;将SFE应用于宏像元图像时,只有属于相同视角的像元参与卷积运算,而属于不同视角的像元不互通。
因此,通过采用AFE与SFE,4维光场可以被解耦至U-V和H-W两个相互正交的2维子空间,使得后续的卷积层能够独立处理光场的空间和角度特征,降低了光场特征学习的难度。
此外,考虑到极平面图像中的斜线能够很好地反映空间与角度之间的关联,将EFE应用于宏像元图像(等价于在极平面图像上做A×A卷积)可以将4维光场解耦至U-H和V-W两个相互正交的2维极平面子空间。通过结合属于相同行(列)视角的局部空间角度信息,可以加强网络对光场空间角度关联的建模能力。
上述所提的特征提取子(解耦卷积)可以将4维光场解耦至不同的子空间,在每一个子空间内,光场的特征分布更有规律,从而降低了卷积层进行特征学习的难度。在将该解耦机制应用于各类光场图像处理任务中时,不同类型的解耦卷积可以组合为不同的模块。通过堆叠多个解耦模块,所提解耦卷积可以实现协同工作,并对复杂的光场数据进行多子空间联合学习,通过扩大网络的感受野以覆盖空变的视差。
▊ 基于光场解耦的空间超分辨(DistgSSR)
光场空间超分辨(LF spatial super-resolution),也常被称为光场图像超分辨(LF image super-resolution),旨在通过低分辨率的光场图像(例如128×128像素)重建出高分辨率的光场图像(例如512×512像素)。基于所提光场解耦机制,该文构建了用于空间超分辨的DistgSSR网络。
网络结构
图4 DistgSSR网络结构图
DistgSSR网络结构如图4所示,该网络将低分辨率(HA×WA)的光场图像恢复为高分辨率(αHA×αWA)的光场图像,其中α(α=2, 4)为空间上采样系数。
性能比较
该文在5个公开数据集上将DistgSSR与领域多个单图超分辨算法以及光场图像超分辨算法进行了比较,结果如下:
表1 不同图像超分辨方法PSNR与SSIM数值结果比较
由表1可见,DistgSSR在各个数据集上均能取得领先的性能。图5展示了不同超分辨算法的视觉效果,DistgSSR能够生成更加真实丰富的细节,且能够较好地保持光场的结构特性(EPI线更加清晰)。
图5 不同图像超分辨方法视觉效果比较
表2比较了不同图像超分辨算法的运行效率与性能。如表所示,即使将DistgSSR的主通道数从64减少至32(参数量减小为原模型的1/4),该网络仍然可以达到领先的超分辨性能,同时参数量与运算量远小于resLF、LF-InterNet、LF-DFnet等网络。
这主要是因为,通过所提解耦机制将光场解耦至不同的子空间降低了卷积网络学习特征映射的难度,因此用更少的参数量可以实现更好的性能。这充分表明了所提解耦机制在空间超分辨任务上的有效性。
表2 不同超分辨方法运行效率比较
以下视频展示了DistgSSR网络输出的光场不仅具有更加丰富的细节,而且具有更高的角度一致性。
视频链接:https://wyqdatabase.s3.us-west-1.amazonaws.com/DistgLF-SpatialSR.mp4
▊ 基于光场解耦的角度超分辨(DistgASR)
光场角度超分辨(LF angular SR),也常被称为光场重建(LF reconstruction)或视角合成(view synthesis),旨在通过角度维度上稀疏采样的光场(例如2×2视角)重建出密集视角采样的光场(例如7×7视角)。基于所提光场解耦机制,该文构建了用于角度超分辨的DistgASR网络。
网络结构
图6 DistgASR网络结构图
DistgASR网络结构如图6所示,该网络将稀疏采样(HA×WA)的光场图像恢复为密集采样(βHA×βWA)的光场图像,其中β为角度上采样系数(对于2×2→7×7的角度超分辨而言β=7/2)。
算法性能比较
该文在5个公开数据集上将DistgASR与领域多个角度超分辨算法进行了比较,结果如下:
表3 不同光场角度超分辨方法PSNR与SSIM数值结果比较
由表3可见,DistgASR在4个数据集上取得最优的光场重建性能。图7展示了不同角度超分辨算法的视觉效果与重建误差,DistgASR能够更加精确地重建出新视角,且能够较好地保持光场的结构特性(EPI线更加清晰)。以上结果验证了该文所提解耦机制在光场角度超分辨任务上的有效性。
图7 不同光场角度超分辨方法视觉效果与重建误差比较
以下视频展示了DistgASR网络重建出的光场具有丰富的细节和更高的角度一致性。
视频链接:https://wyqdatabase.s3.us-west-1.amazonaws.com/DistgLF-AngularSR.mp4
▊ 基于光场解耦的视差估计(DistgDisp)
光场视差估计(LF disparity estimation),也常被称为光场深度估计(LF depth estimation),旨在估计场景中的物体在各个视角图像之间的相对位移值。由于视差与光场相机的基线长度以及物体所处的深度相关,因此可以通过视差推断出物体所在的深度。基于所提光场解耦机制,该文构建了用于光场视差估计的DistgDisp网络。
网络结构
图8 DistgDisp网络结构图
如图8所示,DistgDisp网络的输入是宏像元形式的光场图像,输出是中心视角的视差图。网络主要分为 特征提取、匹配代价构建、匹配代价聚合 以及 视差回归 四个阶段。DistgDisp网络在特征提取阶段采用含批归一化的SFE对输入光场的空间邻域信息进行解耦与建模。
在匹配代价构建阶段,DistgDisp网络基于所提解耦机制设计了视差选择性角度特征提取子(disparity-selective angular feature extractor,DS-AFE)。将DS-AFE应用于宏像元图像可以实现预定视差下的角度信息提取,即匹配代价的构建。
算法性能比较
该文在HCI 4D LF Benchmark上将DistgDisp与领域多个视差估计算法进行了比较,结果如下。
表4 不同光场视差估计方法的数值结果比较
图9 不同视差估计算法的视觉效果展示
由表4和图9可见,DistgDisp网络能够达到领域先进的视差估计性能,具有较小的视差估计误差。作者将DistgDisp提交至HCI 4D LF Benchmark并与Benchmark上的其他方法做了广泛的比较,结果如图10所示。在共计81个提交算法中,DistgDisp的各项误差指标均排名前4。
值得一提的是,由于所提DS-AFE能够替代耗时的特征位移操作而通过卷积的方式构建匹配代价,因此在运行时间方面具有较大优势(在benchmark上排名第一)。
图10 HCI 4D LF Benchmark上的排名截图(2021年7月)。在当时81个提交结果中,DistgDisp算法在各项误差指标上排前4名,运行时间排第1名。
作者在该文最后将所提DistgSSR、DistgASR以及DistgDisp进行了集成,从稀疏采样的低分辨率光场(2×2×256×256)重建出密集采样的高分辨率光场(7×7×512×512),且通过重建的光场估计了场景的视差(相对深度)分布。而后,作者根据所估计的视差图引导重聚焦算法进行深度辅助的光场重聚焦,展示了所提算法的应用前景。
视频链接:https://wyqdatabase.s3.us-west-1.amazonaws.com/DistgLF-demo.mp4
▊ 结论(Conclusion)
该文提出了一个通用的光场解耦机制,通过设计空间、角度和极平面特征提取子将四维光场解耦至不同的子空间,促进了卷积神经网络学习光场的内里结构。该文所提解耦机制高效紧凑且适用于不同的光场图像处理任务。
基于所提解耦机制,作者设计了DistgSSR、DistgASR和DistgDisp分别应用于空间超分辨、角度超分辨和视差估计三个典型的光场图像处理任务。实验结果表明所提三个网络在各自任务中均达到了领域领先的性能,从而验证了所提解耦机制的有效性与通用性。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
TPAMI 2022 | 国防科大等高校提出光场解耦机制,在超分辨与视差估计任务上取得优异性能...相关推荐
- 国防科大计算机优势,报考国防科技大学的优缺点,你知道的有多少?
谈到报考国防科技大学,有很多家长和考生都很向往,但又有多少家长和考生了解国防科技大学的考分与身体素质要求,更不要说分配与就业了.下面我就一一分析给大家,希望能帮到你们. 为什么常有人说国防科大比清华大 ...
- DeOccNet:国防科大提出阵列相机去除前景遮挡成像新方法
点击我爱计算机视觉标星,更快获取CVML新技术 阵列相机可以从不同的视角记录当前场景,并对场景的结构进行解析,因而在战场侦察.公安监视等领域具有巨大的应用潜力. 近日,国防科技大学研究团队提出阵列相机 ...
- ThunderNet:国防科大、旷视提出首个在ARM上实时运行的通用目标检测算法
点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇前天新出的论文<ThunderNet: Towards Real-time Generic Object Detection&g ...
- 顶刊TPAMI 2022!清华刘玉身团队提出SPD:雪花反卷积网络
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:图形学与几何计算 点云形状补全与生成是三维计算机视觉 ...
- 国防科大计算机夏令营经验分享,保研经验|理工科五所985高校夏令营经验
原标题:保研经验|理工科五所985高校夏令营经验 个人介绍 姓名:萱同学 本科学校:南京理工大学 本科专业:兵器类-装甲车辆工程 年级排名:1/197(截止至第五学期) 专业排名:1/30(前5学期) ...
- 国防科大提出基于可变形三维卷积的视频超分辨,代码已开源
原文链接:https://bbs.cvmart.net/articles/3041 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 视频是 ...
- 国防科大提出基于可变形三维卷积(D3Dnet)的视频超分辨,代码已开源
视频是具有时间连续性的图像集合,其中每帧图像的上下文信息(空域信息)与不同帧之间的互补信息(时域信息)都有助于提升视频超分辨的性能. 近日,来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络 ...
- CVPR 2019 | 国防科大提出双目超分辨算法,效果优异代码已开源
点击我爱计算机视觉标星,更快获取CVML新技术 近年来,双摄像头成像系统在智能手机.自动驾驶等领域取得了广泛的应用. 近日,来自国防科技大学等单位的学者提出了新型双目超分辨算法,充分利用了左右图的信息 ...
- 2022保研夏令营经验贴(中科大、华科、武大、国防科大、浙大软件、中科院)
一.本人信息介绍 学校:武汉某211 rank:专业第三,5%(rank1可以吃肉,rank2能够喝汤,rank3只配闻香) CET-4: 544:CET-6: 466;(六级有点拖后腿) 科研:比较 ...
最新文章
- 国产AI芯片加速,鲲云携手浪潮推出数据流AI服务器
- R语言可视化包ggplot2包绘制多个图形并将多个图像垂直堆叠c成一个图像实战(grid.arrange)
- python selenium webdriver入门基本操作
- CSS控制所有浏览器水平居中和控制链接不换行的效果
- Go题目 自己做的 不完善的地方请评论指出
- 想要快速搭建开发测试环境?这么做就可以!
- 查看局域网内所有用户
- 微服务化的基石--持续集成
- 项目日报模板_韶州中学项目建设正酣 ,计划明年9月投入使用
- Android 动画分类
- DoTween动画系统
- 如何搭建自己的CI/CD平台:Gitlab+Jenkins+Docker+Harbor+K8s集群搭建CICD平台(持续集成部署Hexo博客Demo)
- [完全免费] 在线UML State Diagram 状态机图工具 - 教程第7部分
- html布局flex有什么优势,css flex布局的优缺点是什么
- 2018年全国高中数学联合竞赛一试和加试参考答案(B卷)
- word文档如何画线条流程图_word怎么画图,如何用word制作流程图
- 基于WPS的在线编辑服务【.net Core 3.1】
- html下拉框的宽度怎么设置,在HTML选择下拉选项中设置下拉元素的宽度
- matlab bsxfun memory,matlab之bsxfun函数
- 多个图元合并其中相邻的图元