前言:今天分享的这一篇文章是CVPR2016有关视频语义分割方向的,最近才开始学习语义分割相关的文献,有理解偏差的希望大家可以指正。

语义分割

在维基百科上面没有直接定义,但从字面上就可以理解,就是将图像或视频分割后,并为每一个包含的像素加上标签。下图是《基于特征空间优化的视频语义分割》的插图,可以很好地解释语义分割的含义,左列为输入视频截图,右列为语义分割结果。我们可以看到图中的每一个像素都被标以一种颜色,即对应一种分割类别,如车、行人、路等等。

摘要 / 创新点

从题目来看可以了解本文的主要贡献点在于特征空间的优化。视频的语义分割,相较图像的语义分割更加有难度,因为有时间轴的加入,由原来二维的分割问题拓展到三维空间。由于第三维度的加入,导致运动信息可能出现在三维时空中,因而找到帧与帧之间的对应像素点难度增大。通常,使用欧式空间的度量来确定像素点之间的对应关系,但因为运动信息的干扰,这个度量方式变得不再可靠。本文优化了像素点到欧式特征空间的映射方法,以最小化对应像素点间的距离。另一方面,本文还在优化的特征空间基础上应用稠密的CRF(条件随机场)以得到最终的语义分割结果。

模型

本文提出的分割模型由一组视频团(原文用的cliques)组成。视频团包含互相重叠的视频段(blocks),基于每个视频段定义稠密的CRF,然后依据时空平滑预测的规定进行语义分割。该模型示意图如下所示,可能看了图就好理解一些了。

图中的椭圆代表一个block,每个block有两个与之覆盖的block,基于每个全连接的block定义一个稠密CRF进行分割处理。

下面给出本文中CRF的定义。对于视频中的每个像素点p=( b, t, i ),b为block编号,t为其所在block的帧编号,i是像素点p在该帧中的索引编号。其色彩特征定义为Ip三维向量,坐标特征定义为sp。像素点集合定义为P。对于每一个像素点p,设Xp为一个随机变量,取值范围是L={ l1, l2, ..., lL },即视频中所包含的标签种类。X对应的随机域表示为一个Gibbs分布P(x|P),对应的能量项为E(x|P)定义如下:

其中

Z定义为分离函数(partition function),能量项E中的( p, q )域即为clique的一个单位区域。文中关于clique的定义不是很清晰,推断来看,应该就是连续几帧视频帧的联合区域。关于能量项的定义类似于最大流最小割中的能量方程,其中数据项和关联项都与之前使用过的方法类似。

最大流最小割的文章:最大流最小割

以下进行一些简单的描述。能量方程中的第一项即为数据项,指代将像素p赋值为xp标签的代价值。第二项为关联项,其定义使用高斯核计算:

其中w为权值,μ为兼容项,fp和fq为xp和xq的特征。关联性的定义为:

关联项主要衡量的是两个像素点所取标签情况对互相的影响,若关联性值大,即两个特征向量差异小,则所得出的代价值也小,也就是倾向于给这两个像素点赋予同一标签。有关fp特征向量的定义见下节。

特征空间优化

本文的主要贡献。作者通过在以上定义中增加规则项,以确保分割目标的形状,优化特征空间以减少对应像素点之间的欧式距离。其中,优化的目标特征为所有像素点的位置sp,处理过程中时间和颜色的特征维度保持不变,特征向量即( tp, Ip, sp )。

假设一个视频段block由T×N个像素点组成,T为帧数,N为每帧中的像素点,那么优化的目标方程定义为:

其中s为所有像素点的位置特征,s*为优化得到的特征。下面详细介绍Eu,Es和Et的定义。

数据项Eu

数据项的设计是为了去除视频的抖动问题。取视频段block的中间帧作为anchor帧,a=T/2为anchor帧的帧数,Pa为该帧所包含的像素集合。令sp’(式中为sp_bar)为Pa未优化的自然特征空间的坐标特征。定义如下:

其防抖动操作可以理解为找到中间帧作为所有坐标的参照系,确保找到的优化坐标特征不会与源坐标太远从而避免抖动。注意的是,该约束项虽然只对anchor帧进行处理,但由于其特殊位置,自然会影响到前后的坐标优化。

空间规则项Es

空间规则项保留色彩边界和检测到的轮廓信息。本文使用二阶项在四邻域图上进行约束:
其中Ni是像素( b, t, i )的邻域,wij主要保护边界信息,定义如下:
其中第一项基于颜色差异进行定义,第二项基于轮廓强度定义,cp为计算得到的轮廓信息,cp∈[ 0, 1 ],为1时说明检测为边界。若该像素点检测为边界,则wij权值变小,E的代价值变大,则所对比的两个位置特征很可能不匹配。

时间规则项Et

时间规则项约束的是在不同视频帧里的对应的像素点的位置相似性。定义如下:
K是对应像素对的集合,p和q位于不同的视频帧。这里对应的像素点对是使用光流和点轨迹生成的。

优化

定义好能量项之后,对公式(4)进行求解即可得到优化的坐标特征。本文指出使用的求解方法是biconjugate gradient stabilized method,这个方法还没有学习,文献链接文后贴上,方便后续研究。

文章链接:Bi-CGSTAB 查的时候才发现原来是92年的文章,引用次数4000+

推导和实验

有关公式(1)的求解过程使用的是Krahenbuhl提出的方法,不过不同于以往对全连接层模型的操作,这个方法在本文中改为对多个覆盖的团结构进行处理。该文章的链接同样附上:点击打开链接 当然如果不能翻墙,在我的资源页也能看见~

实验结果截图:

本文的方法是最后两个,都取得很不错的性能。

看图更加直观呀~最后一个是人为标定的参照结果,倒数第二列则为本文的结果,图中看来效果也是不错的。

题外话:这篇文章的学习笔记就暂时先写到这里了。。。本以为一点半可以写完的,结果写到五点多,看来时间预估的参数得调一调了= = 新年第一更,祝大家新年快乐!另外,这篇文章我还没看代码,所以到后面部分的时候理解欠佳,之后学习希望得到新的灵感,如果有不对的地方,希望大家指正。

另附这篇文章的资源链接:特征空间优化的视频语义分割

新的一年,大家一起努力学习吧!

CV | Feature Space Optimization for Semantic Video Segmentation - 基于特征空间优化的视频语义分割相关推荐

  1. CV Code | 本周新出计算机视觉开源代码汇总(含目标跟踪、语义分割、姿态跟踪、少样本学习等)...

    点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周出现了很多很实用.有意思.很神奇的CV代码. 比如大家期待的SiamRPN++算法,官方终于要开源了. 阿里MNN成为移动端网络部署的新选 ...

  2. ICCV2019语义分割/UDA:ACE: Adapting to Changing Environments for Semantic SegmentationACE:适应变化环境下的语义分割

    ACE: Adapting to Changing Environments for Semantic Segmentation ACE:适应变化环境下的语义分割 0.摘要 1.概述 2.相关工作 2 ...

  3. Emotion Expression With Fact Transfer for Video Description基于事实传递的视频描述情感表达

    摘要 在视觉理解中,将视频翻译成自然语言是一项基本但具有挑战性的任务,这是因为视觉内容和语言句子之间存在巨大的差距.近年来,这一研究领域受到了越来越多的关注,并取得了一些最新成果. 然而,视频中的情感 ...

  4. 论文阅读:Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation(deeplabv3+)

    语义分割系列论文-Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation(deeplabv ...

  5. 【未完待续】综述:用于视频分割(Video Segmentation)的深度学习

    A Survey on Deep Learning Technique for Video Segmentation 0. 摘要 本文回顾视频分割的两条基本研究路线:视频目标分割(object seg ...

  6. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记

    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Con ...

  7. 语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述

    Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...

  8. 视频实例分割paper(一)《Video Instance Segmentation》

    [主要贡献] 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R-CNN,在Mask ...

  9. 一种无监督语义分割算法:Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering

    论文题目:PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering 1 摘要 ...

最新文章

  1. 【C++】C++11 STL算法(六):最小/最大操作(Minimum/maximum operations)、比较运算(Comparison operations)
  2. 对tmemorystream的一些改进_delphi教程
  3. C# 定时器定时更新
  4. Spring in Action 3 (翻译)
  5. 金融数据分析与挖掘实战练习2.1-2.4
  6. css控制 区域 圆角 显示
  7. java 设置全局热键_第三方包jintellitype实现Java设置全局热键
  8. iphone长截图哪个软件好_iPhone上最好的长截图工具!
  9. 2021年度最全“Java面试宝典+Java核心知识集”,一箭双雕杠春招
  10. a7100换电池_如何评价三星galaxy A7100(2016版)?
  11. 云时代数据容灾的正确姿势
  12. VHDL_EDA课设_八音电子琴
  13. iOS开发之Block详解
  14. make[1]: *** Waiting for unfinished jobs....
  15. [原创]python计算中文文本相似度神器
  16. 草履虫纳米机器人_草履虫大小的“微型机器人”或许能在人体组织中自由穿梭...
  17. linux下运行eureka,Linux服务器重启后eureka报错
  18. 为人处事的19个技巧
  19. 详解WPF 4 DataGrid控件的基本功能
  20. 函数式编程:Python 调用迅雷下载

热门文章

  1. 前端学习日记 -- 八月
  2. 图片转文字的工具有哪些?分享两个实用转换工具
  3. iOS 应用架构 (三)
  4. 付费解谜游戏《纪念碑谷》如何一周内登上榜首?
  5. 关于spring自动加载的那点事儿
  6. Ubuntu 安装小狼豪输入法
  7. 做性能测试必须了解的性能测试基础知识
  8. github 推送出现“git@github.com: Permission denied (publickey). fatal: 无法读取远程仓库。请确认您有正确的访问权限并且仓库存在。” 问题
  9. Scrapy全国历史天气数据爬取
  10. python编程的文件后缀是什么意思_python文件的后缀名是什么