AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow
编辑 | Carol
出品 | AI科技大本营(ID:rgznai100)
商汤科技研究团队发表论文《Every Frame Counts: Joint Learning of VideoSegmentation and Optical Flow》,该论文被AAAI 2020录用。
视频语义分割的一个主要的挑战是缺少标注数据。在大多数基准数据集中,每个视频序列(20帧)往往只有一帧是有标注的,这使得大部分监督方法都无法利用剩余的数据。为了利用视频中的时间-空间信息,许多现有工作使用预先计算好的光流来提升视频分割的性能,然而视频分割和语义分割仍然被看作是两个独立的任务。
在这篇文章中,作者提出了一个新颖的光流和语义分割联合学习方案。语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡的光流保证了语义分割的像素级别的时序一致性。作者提出的语义分割方案不仅可以利用视频中的所有图像帧,而且在测试阶段不增加额外的计算量。
背景:
视频语义分割通过利用前后帧的语义信息,往往有着比图像分割更高的准确率,因此在机器人和自动驾驶领域有着丰富的应用。然而目前的视频语义分割主要面临两个挑战:缺少标注数据和实时性的问题。
一方面由于标注工作耗时耗力,一个视频片段往往只标注一帧,导致很多方法难以利用全部的数据,或者需要使用额外的数据集做预训练;另一方面由于对前后帧之间进行信息交互往往为模型引入额外的模块,导致视频分割效率低。
视频分割大致可以分为两类,第一类通过利用前后帧的时序信息来为视频分割加速,如Clockwork network (Shelhamer etal. 2016) ,Deep Feature Flow (Zhu et al. 2017) 和 (Li,Shi, and Lin 2018) 等,这类模型对前一帧的特征图或者分割结果进行简单处理即可得到下一帧的分割结果了,从而大大减少视频分割中的冗余和加速,但语义分割的准确率会有所降低;
第二类方法如 (Fayyaz et al. 2016) ,Netwarp (Gadde,Jampani, and Gehler 2017),PEARL (Jin et al. 2017) 等通过光流/RNN等模块将前后帧的特征进行融合或添加约束以学习到更强的表示能力,从而提高语义分割的准确率。本文的方法属于第二类。
图一,和使用特征融合(feature aggregation)的方法往往只利用标注帧附近的少数帧相比,本文通过学习的光流来为视频帧添加时序一致性约束,通过这种约束可以间接把分割标注传导到其他无标注的帧上,从而利用全部的数据。
方法概述:
光流作为视频中前后帧之间像素级别的关联,在视频语义分割中一直有着重要的地位。例如 (Li, Shi, and Lin 2018; Zhu etal. 2017; Shelhamer et al. 2016) 通过光流来重新利用前一帧的特征图从而为视频分割加速;(Fayyaz et al. 2016; Jin et al. 2017; Gadde,Jampani, and Gehler 2017; Nilsson and Sminchisescu 2018; Hur and Roth 2016) 通过光流指导的特征融合来获得更好的分割准确率。
然而上述方法面临两个问题,一方面其往往使用现成的在其他数据集上训练的光流模型(FlowNet),导致了分割效率的降低;另一方面上述方法往往只利用了标准帧附近的少数帧,没有充分利用整个数据集和发挥光流的作用。
为了解决上述两个问题,作者提出了一个光流和语义分割联合学习的框架,语义分割为光流和遮挡估计提供了更丰富的语义信息,而非遮挡得光流保证了语义分割的像素级别的时序一致性。
本文模型通过在视频中无监督学习光流并且使用光流对前后帧语义分割的特征图施加约束来使得两个任务互相增益并且没有显式的特征融合,这种隐式的约束可以帮助利用数据集中的全部数据并学到更鲁棒的分割特征以提高分割准确率,并且不会在测试阶段增加额外的计算量。
图二,本文提出的联合学习框架,输入图片经过共享编码器后分为两个分支,第一个是光流分支,第二个是分割分支。block代表模型的特征图,灰色的虚线代表时序一致性约束,灰色实线代表遮挡估计模块。
时间一致性约束:
对于一对图片I_i和I_{i+t},设其对应的分割特征图为S,设学习到的光流为F,遮挡Mask为O,(S,F,O均包含三个block,如图所示),则两帧分割特征图可以通过光流warp进行转换:S_i^{warp}= Warp(S_{i+t},F_{i->i+t})
考虑到遮挡的截断区域无法使用光流进行对齐,因此这些区域不计算损失。两帧的其他区域对应的分割特征图通过光流进行warp对齐后的一致性损失为第一帧的分割特征图和第二帧经过warp的分割特征图的非遮挡区域的2范数。
光流和遮挡估计:
文中所说的遮挡意味着两帧图片中光度的不一致性,它一般由图像中遮挡,截断(汽车离开相机拍摄)和移动目标导致,这里作者使用无监督的方式学习遮挡区域,通过反向光流推测出可能无法对齐的像素位置O,模型根据此学习得到O_{est};两帧的分割结果通过光流warp不一致的区域设为O_{seg},O_{seg}应包括遮挡区域和光流估计错误的区域,因此O_{error} = O_{seg}-O_{est}应为光流估计的重点区域。在计算光流估计的损失函数时,作者不考虑遮挡区域(O_{est})的损失,而加大重点区域(O_{error})的权重,遮挡估计的示意图如图3所示。
图3,遮挡和遮挡估计示意图
语义分割的学习:
在训练时,作者从每个视频小段中随机选择10对图片来进行训练,其中五对包含标注帧,而另外五对均不包含标注帧。对于标注帧,直接使用监督的语义分割损失来进行学习;对于不包含标注帧的情况,通过两帧的一致性约束来对模型进行约束和学习。通过这种约束学习,标注信息可以从一帧传播到其他的未标注帧,而即使是两个未标注帧也可以通过一致性来学习。
实验结果:
Cityscapes数据集上的分割结果:
CamVid数据集上的分割结果:
KITTI数据集上的光流估计结果:
可视化结果:
图四,Cityscapes验证集分割结果,从上至下分别为原图,本文算法分割结果,PSPNet分割结果和GT。可以看出本文算法对移动目标(汽车,自行车)和出现频次较少目标(横向卡车)分割效果较好。
图五,KITTI数据集上光流估计结果,从上至下分别为原图,本文算法估计结果,GeoNet估计结果和GT。可以看出本文算法对移动目标的边缘估计更为准确。
论文:Every Frame Counts: Joint Learning of VideoSegmentation and Optical Flow
作者:Mingyu Ding, Zhe Wang, Bolei Zhou, JianpingShi, Zhiwu Lu, Ping Luo
论文地址:https://arxiv.org/pdf/1911.12739.pdf
◆
精彩推荐
◆
为了助力对抗疫情,减少线下人员流动和聚集,CSDN与 PyCon 官方授权的 PyCon中国社区合作,举行「Python开发者日」在线系列峰会。通过精彩的技术干货内容、有趣多元化的在线互动活动等,让您足不出户便可与大咖学习交流,共同渡过抗疫攻坚期。扫码入群咨询详情!
推荐阅读
详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割
GPT-2仅是“反刍”知识,真正理解语言还要改弦更张
疫情当前,CSDN开放1000+精品IT课程,程序员在家即可免费学习
2020 年,云游戏将爆发?各大科技公司云游戏布局大曝光!
阿里再发最严口罩禁令;铁路再次调整免费退票;iOS 13.4 测试版发布 | 极客头条
为什么说程序员做外包没前途?
-
你点的每个“在看”,我都认真当成了AI
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法相关推荐
- 语义分割算法性能比较_AAAI 2020 | 商汤:新视频语义分割和光流联合学习算法
作者 | 商汤科技 编辑 | 贾伟 本文介绍商汤科技在AAAI 2020 上的论文<Every Frame Counts: Joint Learning of VideoSegmentation ...
- 商汤科技开源DAVIS2017视频目标分割冠军代码
出处"来自微信公众号:我爱计算机视觉" 商汤科技开源DAVIS2017视频目标分割冠军代码 用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜 ...
- 终于!商汤科技开源DAVIS2017视频目标分割冠军代码
(关注52CV--有价值有深度的公众号~) 用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜),而真实的视频中的目标位置往往存在着一些跳变,比如在目标快速漂移和 ...
- AAAI 2020论文解读:商汤科技提出新弱监督目标检测框架
来源 | Object Instance Mining for WeaklySupervised Object Detection 编辑 | Carol 出品 | AI科技大本营(ID:rgznai1 ...
- 聚观早报|九安医疗从硅谷银行取回6亿存款;商汤科技发布通用大模型
今日要闻:九安医疗从硅谷银行取回6亿存款:OpenAI推出GPT-4更精准解决问题:iPhone 14/Plus黄色版开售即破发:消息称英伟达RTX 4070显卡即将上市:商汤科技发布多模态通用大模型 ...
- CVPR2020论文解读:手绘草图卷积网络语义分割
CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...
- 万字解读商汤科技ICLR2019论文:随机神经网络结构搜索
雷锋网 AI 科技评论消息,日前,商汤科技研究院论文<随机神经网络结构搜索>(SNAS,stochastic neural architecture search)被深度学习顶级会议 IC ...
- 商汤科技发布新一代SensePass工业级可视人脸识别门禁全新升级
http://ex.chinadaily.com.cn/exchange/partners/77/rss/channel/cn/columns/4m6872/stories/WS5ce3b1ada31 ...
- 商汤科技发布迄今最大人脸检测数据集,绝杀Deepfake!
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 商汤研发部门SenseTime Research的研究人员与新加坡南洋理工大学合作 ...
最新文章
- wsl2 图形界面_WSL2配置xrdp一键启动至桌面环境
- 【Groovy】编译时元编程 ( 编译 ASTTransformation | 打包 ASTTransformation 字节码文件 | 编译 Groovy 类同进行编译时处理 )
- Nginx-windows下nginx安装、配置与使用
- 一台机器上运行多个ActiveMq
- matlab 列表 剪切,利用Matlab进行文件批量复制、剪切和修改文件名
- 五、规则组织的衍生组织——纬山形组织数学模型的建立
- mysql+查询新的一条记录表_Mysql 查询表中每个类别最新的一条记录
- Android-动画-view 动画笔记
- Redis 6.0 源码阅读笔记(3) -- 概述 Redis 重要数据结构及其 6 种数据类型
- 《软件体系结构》 第一章 软件体系结构概论
- 什么是计算机病毒?是怎么产生的?
- 用texstudio写伪代码
- Linux操作系统普通用户与root之间的切换
- 扫描的PDF转Word工具实践(主要ORC识别图片功能转换)
- Win11蓝屏代码IRQL NOT LESS OR EQUAL的处理方法
- 【windows10】将路由器设置为交换机
- 使用Vue写一个登录页面
- 好记性不如烂笔头-linux学习笔记4apache相关知识
- 【论文阅读】——Spons Shields: Practical Isolation for Trusted Execution
- 我获了诺贝尔奖,却治不好你的癌症