代码地址(非官方,训练未开源):CRAFT-pytorch
代码地址(官方):CRAFT-Reimplementation

1. 概述

导读:这篇文章主要致力于去解决任意形状本文的检测问题,对此文章提出了一种新的文本检测方法CRAFT,该方法检测每个文字字符的区域与文字字符的相互关系。对于字符级别的训练自然就要有字符级别的标注,然而实际中这样的数据是很少的,针对这个问题,文章有效利用了已有的字符级标注,还是用网络自己去预估字符级的标注用于训练。完成字符级别的训练之后,对于字符之间的关联性文章使用新提出的字符关联表达来实现这个任务。文章提出的方法在诸如CTW-1500等数据集上展现了文章字符级文本检测的性能(达到state-of-the-art)。

这篇文章提出的算法CRAFT使用一个卷积与生成字符区域的置信度与字符之间的关联系数。字符区域的置信度用于定位图像中的独立字符区域,而关联系数是将这些独立的字符关联起来组成一个检测实例。对于没有字符级标注的问题,提出使用一个弱监督学习框架拟合真是的字符级标注GT。

在图1中展示了CRAFT检测的结果,左边一列是字符级文本区域heatmap,右边一列是最后的检测结果。

文章的网络结构见图2所示,其基础网络是VGG-16,之后是FPN的特征融合,最后在stage2出生成字符区域预测(region score)与字符关联性预测(affinity score)。

2. 训练

2.1 训练标签的生成

这里对于字符区域与字符关联性区域的标签并没有采用分割标注的离散形式,而是采用高斯分布的连续形式。具体为:

  • 1)首先准备一个二维的高斯分布heatmap;
  • 2)计算准备好的高斯分布与需要映射过去的字符与相关性区域的变换关系;
  • 3)将高斯分布按照这个变换关系映射过去得到标签;

其中对于字符相关性的区域标注使用的是图3左半部分的过程,具体看图就好了。

2.2 字符级弱监督学习

真实的检测文本标注是单词级别的,因而文章对每个单词级别的标注区域使用弱监督的形式学习字符特性。其弱监督的训练形式见图4所示

原本的标注是单词级的,而文章要求的标注是字符级别的,这里使用弱监督的形式学习,其中就涉及到字符的分割问题,其具体过程见图6所示

这里将分割的步骤划分为如下步骤:

  • 1)首先将单词级别的字符区域从原始图像中抠出;
  • 2)使用训练的模型去预测(图4的右下部分)字符区域置信度;
  • 3)使用分水岭算法分割每个字符区域;
  • 4)过程1的逆变换,映射到原图上去;

为了解决弱监督并没有显著约束的问题,这里引入单词级标注的长度作为约束。这里将检测的文本区域与其长度(单词级)定义为R(w),l(w)R(w),l(w)R(w),l(w),预测的字符(多个)长度为lc(w)l^c(w)lc(w),则其置信度sconf(w)s_{conf}(w)sconf​(w)可以描述为:

则对于整张图ScS_cSc​的置信度图可以通过下面的关系计算:

则区域R(w)R(w)R(w)中的像素ppp其损失描述为:

其中,Sr∗(p),Sa∗(p)S_r^*(p),S_a^*(p)Sr∗​(p),Sa∗​(p)分别代表弱监督学习到的字符区域与关联置信度。Sr(p),Sa(p)S_r(p),S_a(p)Sr​(p),Sa​(p)。弱监督的作用如下图所示,随着迭代的进行网络是能够学到对应的字符区域的。

在使用合成数据进行训练的时候能获得真是的标注数据,这时Sc(p)=1S_c(p)=1Sc​(p)=1。文中提到在为了排除对结果的干扰这里将公式3学习到的置信度分数阈值设置为0.5。

2.3 预测阶段的处理

在预测阶段对于网络预测得到的Sr(p),Sa(p)S_r(p),S_a(p)Sr​(p),Sa​(p)分别使用阈值τr,τa\tau_r,\tau_aτr​,τa​进行二值化操作得到M,之后在M的基础上将这些单独预测的字符区域连接起来,在这些区域上使用最小包围矩形框就可以得到一个带角度的矩形框检测结果。

对于任意形状的检测区域是使用单个字符的位置寻找中心线与对应的多边形支撑点实现的,具体见下图所示:

3. 实验结果

网络性能:

《CRAFT:Character Region Awareness for Text Detection》论文笔记相关推荐

  1. 论文笔记之Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...

  2. 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...

  3. 论文笔记Understanding and Diagnosing Visual Tracking Systems

    最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...

  4. 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...

  5. 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)

    追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...

  6. ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...

  7. Understanding and Diagnosing Visual Tracking Systems

    文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...

  8. CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...

  9. ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...

  10. CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

最新文章

  1. 什么是启发式?什么是产生式?
  2. 服务器损坏文件怎么办,服务器文件系统损坏的处理
  3. MySQL 数据库sql命令查询被锁的表实例演示,mysql的锁表与解锁,mysql强制解锁杀掉进程,mysql查询锁表一直转圈
  4. ABAP 生成ZIP压缩文件的代码
  5. python是什么时候发布的_python发布日期
  6. php trim用法,php trim函数怎么用?
  7. NYOJ--1236--挑战密室(第八届河南省程序设计大赛)
  8. Bootstrap 标签页Tab插件使用方法
  9. 安装ssr_网易《代号SSR》电脑版教程!
  10. leetcode题解3-无重复字符的最长子串
  11. 微信开发 调用摄像机拍照(录像)功能
  12. 利用Seaborn库进行简单的画图
  13. AppStore编年史 iOS游戏开发者的变迁路
  14. 由中缀式转化为后缀式
  15. 浅析:提升手机APP开发和运营成效的经验分享
  16. html5隐藏自定义控制按钮,用仿ActionScript的语法来编写html5——第七篇,自定义按钮...
  17. OpenGL编程指南 示例笔记(2)--独立地移动光源
  18. FOXIT PDF EDITOR工具分割PDF
  19. 对称数 一个整数,它的各位数字如果是左右对称的,则称这个数是对称数。例如:1234321、123321等。
  20. 人工智能数学基础:泰勒(Taylor)公式

热门文章

  1. 高阶篇:4.1.1)QFDI(客户需求转换为设计要求)
  2. IE11下载文件文件名出现乱码
  3. .tpk格式文件简介
  4. 李维:我的回忆和一些有趣的事(About Borland)(转载)
  5. JS中国标准时间格式转换字符串
  6. 标准解读系列之二:国家车联网产业标准体系完成各板块拼图(附标准下载)
  7. 今日头条号问答微头条原创收益向百粉开放
  8. 网络编程之OSI七层模型,讲解tcp/ip五层涉及的网络协议,网络通信实现,结合协议来看网络通信流程...
  9. 摩托梁念坚出任微软大中华区董事长兼CEO
  10. kafka topic acl授权