基本情况

题目: Conditional Random Fields as Recurrent Neural Networks

出处:Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, D., ... & Torr, P. H. (2015). Conditional random fields as recurrent neural networks. In Proceedings of the IEEE international conference on computer vision (pp. 1529-1537).

Google引用次数:2133 (2020-10-27)

摘要

像素级标记任务,如语义分割,在图像理解中扮演核心角色。最近的一些方法试图利用深度学习技术来处理图像识别的像素级标记任务。这种方法的一个核心问题是,

  • 深度学习技术在描绘视觉对象(visual objects方面的能力有限。

为了解决这个问题,

  • 我们引入了一种新的卷积神经网络,它结合了卷积神经网络(CNNs)和基于条件随机场(CRFs)的概率图模型的优点。
  • 为此,我们将具有高斯二元势函数均值近似推理条件随机场,公式化为递归神经网络(we formulate Conditional Random Fields with Gaussian pairwise potentials and mean-field approximate inference as Recurrent Neural Networks。这个网络称为CRF-RNN
    • 然后作为CNN的一部分插入,得到一个同时具有CNNs和CRFs特性的深度网络。

重要的是,我们的系统完全集成了CRF建模和CNNs,使得用通常的反向传播算法、端到端训练整个深度网络成为可能,避免了离线后处理方法来描绘物体。我们将所提出的方法应用于语义图像分割问题,在具有挑战性的Pascal VOC 2012分割基准上获得了最优结果。

介绍

诸如语义图像分割深度估计之类的低级计算机视觉问题通常涉及为图像中的每个像素分配标签。虽然用于对单个像素进行分类的特征表示在此任务中起着重要的作用,但在分配标签时要考虑诸如图像边缘,外观一致性和空间一致性之类的因素以获取准确和精确的结果,同样重要。

设计强大的特征表示是像素级标注问题的关键挑战。该主题的工作包括:

  • TextonBoost [50],
  • TextonForest [49]和
  • 基于随机森林的分类器[48]。

最近,在许多高级计算机视觉任务(例如图像识别[29]和对象检测[19])中,诸如大规模深度卷积神经网络(CNN)等有监督的深度学习方法已经取得了巨大的成功。这激发了探索使用CNN解决像素级标记问题的动机。关键见解是为像素级标记任务学习端到端的强大功能表示,而不是通过启发式参数调整来手工制作功能。实际上,许多最近的方法,包括特别有趣的著作FCN [35]和DeepLab [9],都显示出通过将基于CNN的最新图像分类器用于语义分割问题,可以显着提高准确性。

但是,在将专为高级计算机视觉任务(例如对象识别)设计的CNN调整为像素级标记任务时,存在巨大挑战。

  • 首先,传统的CNN具有卷积滤波器,具有大的感知域(large receptive fields),因此在重构以产生像素级标签时会产生粗糙的输出[35]。 CNN中maxpooling层的存在进一步降低了获得精细分段输出的机会[9]。例如,这可能导致语义分割任务中出现非清晰的边界和类似斑点的形状。
  • 其次,CNN缺乏平滑度约束,而平滑度约束鼓励相似像素之间的标签一致以及标签输出的空间和外观一致性。缺乏这种平滑度约束会导致对象轮廓不佳,以及分割输出中的杂散区域较小[57、56、30、37]。

在深度学习技术进步的另一条轨道上,概率图模型(PGM)已被开发为提高像素级标记任务准确性的有效方法。特别是,马尔可夫随机场(MRF)及其变体条件随机场(CRF)已在该领域获得了广泛的成功[30,27],并已成为计算机视觉中最成功的图形模型之一。用于语义标记的CRF推理的关键思想是将标签分配问题公式化为一个概率性推理问题,其中包含诸如类似像素之间的标签一致性之类的假设。 CRF推理能够完善弱和粗像素级的标签预测,以产生清晰的边界和细粒度的细分。

因此,从直觉上讲,CRF可用于克服将CNN用于像素级标记任务的缺点。一种利用CRF改进CNN产生的语义标记结果的方法是将CRF推论作为与CNN训练无关的后处理步骤来应用[9]。可以说,这没有充分利用CRF的强度,因为它没有在训练阶段,与深层网络集成在一起,深层网络无法使其权重适应CRF行为。

本文针对像素级语义图像分割问题提出了端到端的深度学习解决方案。我们的公式在一个统一的框架中结合了CNN和基于CRF的图形模型的优势。更具体地说,

  • 我们将具有高斯二元势函数的密集CRF(dense CRF)的平均场推理(mean-field inference),公式化为循环神经网络(RNN),该神经网络可以在向前传递中细化传统CNN的粗略输出,同时在训练过程中将误差微分传回CNN。
  • 重要的是,使用我们的公式,可以使用常规的反向传播算法对包括传统CNN和用于CRF推理的RNN在内的整个深度网络进行端到端训练。

可以说,经过适当的训练后,拟议的网络应优于将CRF推理作为对经过预训练的CNN产生的独立像素级预测进行后处理的系统。我们的实验评估证实确实如此。

论文笔记_S2D.39_2015-ICCV-条件随机场作为递归神经网络(CRF-RNN)相关推荐

  1. 《统计学习方法》读书笔记——第十一章 条件随机场

    写在前面 本系列博客是自己对于<统计学习方法>这本书的读书笔记,在读过每个章节以后根据自己的理解写下这一章的知识框架以及补充一些延伸知识点. 目录 写在前面 本章框架 概率无向图模型(马尔 ...

  2. 概率图模型笔记(三)条件随机场(CRF)基础

    写在前面 前面写完了HMM,比较重点的就是HMM的三个问题,需要好好消化.这篇博客主要介绍条件随机场,相比于HMM,CRF的应用可能会更广.从刚接触CRF开始也很久了,但是由于书上公式非常晦涩难懂,而 ...

  3. 论文笔记_S2D.77_2013_TOR_使用RGBD相机的3D建图(RGBD SLAM V2)

    目录 基本情况 摘要 介绍 系统流程 特征提取 运动估计 EMM:Environment Measurement Model 回环检测 图优化 建图OctoMap 参考 基本情况 出处:Endres ...

  4. [论文笔记]Seed,Expend and Constrain

    SEC论文笔记 Abstract Introduction Related Work 方法概述 比较 Proposed Method 损失函数 训练 Experiments Abstract 基于三个 ...

  5. 【CV】DeepLab:使用DCNN、空洞卷积和全连接条件随机场的图像语义分割网络

    论文名称:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Full ...

  6. LinkNet论文笔记

    LinkNet论文笔记 LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation Abstract ...

  7. 关于条件随机场的一些补充

    原文:机器学习:<统计学习方法>笔记(二)-- 条件随机场(CRF) 参考:概率无向图模型 1. 概率无向图的因子分解 注:有一点笔者仍然不明白,<统计学习方法>是定义P(Y) ...

  8. 条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?

    作者:尔总的马甲 链接:https://www.zhihu.com/question/53458773/answer/554436625 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  9. 条件随机场CRF的理解

    1.个人理解和总结 对比HMM的状态转移概率矩阵和发射概率矩阵CRF有自己的定义在边上的特征函数(相当于转移概率)和定义在节点上的特征函数(相当月发射概率) 序列标注HMM可以根据转移概率矩阵和发射概 ...

  10. 李宏毅机器学习2016 第二十一讲 隐马尔可夫模型和条件随机场

    视频链接:李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩 课程资源:Hung-yi Lee 课程相关PPT已经打包命名好了:链接:https://pan.baidu.com ...

最新文章

  1. linux expect 输入密码,shell脚本无密码登录 expect的使用方法详解
  2. python官网下载步骤图解-下载及安装Python详细步骤
  3. 【学习笔记】一些常用的数学公式
  4. 考研计算机专业介绍,2021考研:计算机专业考试科目简介
  5. C# 数值和字符串之间的相互转换
  6. 吴恩达深度学习 —— 2.4 梯度下降
  7. 哥德巴赫猜想用计算机证明,用计算机证明有限数哥德巴赫猜想成立:运行结果...
  8. Android单元测试 - Sqlite、SharedPreference、Assets、文件操作 怎么测?
  9. ASP.NET随机显示数据库记录
  10. 对JSON格式的城市按照拼音首字母排序
  11. ANSYS ICEM CFD 网格划分步骤简要总结
  12. Keil MDK 编译器 AC5 和 AC6 优化选项重要内容和区别
  13. 「 墙裂推荐」互联网人必备GIF制作的14种选择
  14. SWMM引擎之二——在读SWMM模拟结果时应注意的问题
  15. oracle 统计同比 环比,oracle求同比,环比函数(LAG与LEAD)的详解
  16. Docker报错Error spawning command line “dbus-launch --autolaunch=xxx --binary-syntax --close-stderr”
  17. JavaScript 数组之every
  18. flutter 微信语言选择_Flutter 模仿微信读书效果!
  19. Open3d(三)——网格数据操作
  20. 【愚公系列】2023年02月 WMS智能仓储系统-013.基础设置(首页、公司信息、角色设置)

热门文章

  1. javascript中的取input对象集合与php中取input数组的区别
  2. vue-cli webpack浅析
  3. AndroidStudio关联GitHub
  4. 当手机访问时自动跳转到手机网站
  5. Kafka配置1--Windows环境安装和配置Kafka
  6. .NET程序员应掌握的常用类库
  7. cloudflare 关于tls 检测,发送未知message type字节
  8. 3.修改和编译XposedBridge.jar 和 api.jar
  9. Process Explorer 进程管理利器常用功能(中)
  10. 07. 用两个栈实现队列(C++版本)