CV | Feature Space Optimization for Semantic Video Segmentation - 基于特征空间优化的视频语义分割
前言:今天分享的这一篇文章是CVPR2016有关视频语义分割方向的,最近才开始学习语义分割相关的文献,有理解偏差的希望大家可以指正。
语义分割
摘要 / 创新点
从题目来看可以了解本文的主要贡献点在于特征空间的优化。视频的语义分割,相较图像的语义分割更加有难度,因为有时间轴的加入,由原来二维的分割问题拓展到三维空间。由于第三维度的加入,导致运动信息可能出现在三维时空中,因而找到帧与帧之间的对应像素点难度增大。通常,使用欧式空间的度量来确定像素点之间的对应关系,但因为运动信息的干扰,这个度量方式变得不再可靠。本文优化了像素点到欧式特征空间的映射方法,以最小化对应像素点间的距离。另一方面,本文还在优化的特征空间基础上应用稠密的CRF(条件随机场)以得到最终的语义分割结果。
模型
本文提出的分割模型由一组视频团(原文用的cliques)组成。视频团包含互相重叠的视频段(blocks),基于每个视频段定义稠密的CRF,然后依据时空平滑预测的规定进行语义分割。该模型示意图如下所示,可能看了图就好理解一些了。
图中的椭圆代表一个block,每个block有两个与之覆盖的block,基于每个全连接的block定义一个稠密CRF进行分割处理。
下面给出本文中CRF的定义。对于视频中的每个像素点p=( b, t, i ),b为block编号,t为其所在block的帧编号,i是像素点p在该帧中的索引编号。其色彩特征定义为Ip三维向量,坐标特征定义为sp。像素点集合定义为P。对于每一个像素点p,设Xp为一个随机变量,取值范围是L={ l1, l2, ..., lL },即视频中所包含的标签种类。X对应的随机域表示为一个Gibbs分布P(x|P),对应的能量项为E(x|P)定义如下:
其中
Z定义为分离函数(partition function),能量项E中的( p, q )域即为clique的一个单位区域。文中关于clique的定义不是很清晰,推断来看,应该就是连续几帧视频帧的联合区域。关于能量项的定义类似于最大流最小割中的能量方程,其中数据项和关联项都与之前使用过的方法类似。
最大流最小割的文章:最大流最小割
以下进行一些简单的描述。能量方程中的第一项即为数据项,指代将像素p赋值为xp标签的代价值。第二项为关联项,其定义使用高斯核计算:
其中w为权值,μ为兼容项,fp和fq为xp和xq的特征。关联性的定义为:
关联项主要衡量的是两个像素点所取标签情况对互相的影响,若关联性值大,即两个特征向量差异小,则所得出的代价值也小,也就是倾向于给这两个像素点赋予同一标签。有关fp特征向量的定义见下节。
特征空间优化
本文的主要贡献。作者通过在以上定义中增加规则项,以确保分割目标的形状,优化特征空间以减少对应像素点之间的欧式距离。其中,优化的目标特征为所有像素点的位置sp,处理过程中时间和颜色的特征维度保持不变,特征向量即( tp, Ip, sp )。
假设一个视频段block由T×N个像素点组成,T为帧数,N为每帧中的像素点,那么优化的目标方程定义为:
其中s为所有像素点的位置特征,s*为优化得到的特征。下面详细介绍Eu,Es和Et的定义。
数据项Eu
其防抖动操作可以理解为找到中间帧作为所有坐标的参照系,确保找到的优化坐标特征不会与源坐标太远从而避免抖动。注意的是,该约束项虽然只对anchor帧进行处理,但由于其特殊位置,自然会影响到前后的坐标优化。
空间规则项Es
时间规则项Et
优化
文章链接:Bi-CGSTAB 查的时候才发现原来是92年的文章,引用次数4000+
推导和实验
实验结果截图:
本文的方法是最后两个,都取得很不错的性能。
看图更加直观呀~最后一个是人为标定的参照结果,倒数第二列则为本文的结果,图中看来效果也是不错的。
题外话:这篇文章的学习笔记就暂时先写到这里了。。。本以为一点半可以写完的,结果写到五点多,看来时间预估的参数得调一调了= = 新年第一更,祝大家新年快乐!另外,这篇文章我还没看代码,所以到后面部分的时候理解欠佳,之后学习希望得到新的灵感,如果有不对的地方,希望大家指正。
另附这篇文章的资源链接:特征空间优化的视频语义分割
新的一年,大家一起努力学习吧!
CV | Feature Space Optimization for Semantic Video Segmentation - 基于特征空间优化的视频语义分割相关推荐
- CV Code | 本周新出计算机视觉开源代码汇总(含目标跟踪、语义分割、姿态跟踪、少样本学习等)...
点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周出现了很多很实用.有意思.很神奇的CV代码. 比如大家期待的SiamRPN++算法,官方终于要开源了. 阿里MNN成为移动端网络部署的新选 ...
- ICCV2019语义分割/UDA:ACE: Adapting to Changing Environments for Semantic SegmentationACE:适应变化环境下的语义分割
ACE: Adapting to Changing Environments for Semantic Segmentation ACE:适应变化环境下的语义分割 0.摘要 1.概述 2.相关工作 2 ...
- Emotion Expression With Fact Transfer for Video Description基于事实传递的视频描述情感表达
摘要 在视觉理解中,将视频翻译成自然语言是一项基本但具有挑战性的任务,这是因为视觉内容和语言句子之间存在巨大的差距.近年来,这一研究领域受到了越来越多的关注,并取得了一些最新成果. 然而,视频中的情感 ...
- 论文阅读:Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation(deeplabv3+)
语义分割系列论文-Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation(deeplabv ...
- 【未完待续】综述:用于视频分割(Video Segmentation)的深度学习
A Survey on Deep Learning Technique for Video Segmentation 0. 摘要 本文回顾视频分割的两条基本研究路线:视频目标分割(object seg ...
- DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Con ...
- 语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述
Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...
- 视频实例分割paper(一)《Video Instance Segmentation》
[主要贡献] 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R-CNN,在Mask ...
- 一种无监督语义分割算法:Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering
论文题目:PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering 1 摘要 ...
最新文章
- 【C++】C++11 STL算法(六):最小/最大操作(Minimum/maximum operations)、比较运算(Comparison operations)
- 对tmemorystream的一些改进_delphi教程
- C# 定时器定时更新
- Spring in Action 3 (翻译)
- 金融数据分析与挖掘实战练习2.1-2.4
- css控制 区域 圆角 显示
- java 设置全局热键_第三方包jintellitype实现Java设置全局热键
- iphone长截图哪个软件好_iPhone上最好的长截图工具!
- 2021年度最全“Java面试宝典+Java核心知识集”,一箭双雕杠春招
- a7100换电池_如何评价三星galaxy A7100(2016版)?
- 云时代数据容灾的正确姿势
- VHDL_EDA课设_八音电子琴
- iOS开发之Block详解
- make[1]: *** Waiting for unfinished jobs....
- [原创]python计算中文文本相似度神器
- 草履虫纳米机器人_草履虫大小的“微型机器人”或许能在人体组织中自由穿梭...
- linux下运行eureka,Linux服务器重启后eureka报错
- 为人处事的19个技巧
- 详解WPF 4 DataGrid控件的基本功能
- 函数式编程:Python 调用迅雷下载
热门文章
- 前端学习日记 -- 八月
- 图片转文字的工具有哪些?分享两个实用转换工具
- iOS 应用架构 (三)
- 付费解谜游戏《纪念碑谷》如何一周内登上榜首?
- 关于spring自动加载的那点事儿
- Ubuntu 安装小狼豪输入法
- 做性能测试必须了解的性能测试基础知识
- github 推送出现“git@github.com: Permission denied (publickey). fatal: 无法读取远程仓库。请确认您有正确的访问权限并且仓库存在。” 问题
- Scrapy全国历史天气数据爬取
- python编程的文件后缀是什么意思_python文件的后缀名是什么