相关资料
论文地址:Character Region Awareness for Text Detection
作者的推理部分代码:clovaai/CRAFT-pytorch
https://zhuanlan.zhihu.com/p/76528329

字符级文本检测CRAFT

这个方法来源于CVPR2019 Character Region Awareness for Text Detection的论文,论文地址:https://arxiv.org/pdf/1904.01941.pdf
已经开源的代码:https://github.com/clovaai/CRAFT-pytorch

核心思想:

1.利用了分割的方法,但与普通的图像分割不同的是,CRAFT不是对整个图像的进行像素级分割(如Faster-Rcnn),它将一个character视为一个检测目标对象,而不是一个word(所有的word都由character构成),即不把文本框当做目标。

故,它先检测单个字符(character region score)及字符间的连接关系(affinity score),然后根据字符间的连接关系确定最终的文本行

这样做的好处在于:使用小感受野也能预测大文本和长文本,只需要关注字符级别的内容而不需要关注整个文本实例。

2.在训练过程中对于合成样本可以很好地进行单个字符的标注,但是对于现有的文本数据库,其标注方式基本是基于文本行的,所以文中提出了如何利用现有文本检测数据集合成数据得到真实数据的单字标注的弱监督方法。
整体的算法结构

上图为整个CRAFT的网络结构:特征提取的主干网络采用的VGG-16以及batch normalization,解码器部分采用了U-net的方法,采用自顶向下的特征聚合方式,最终输出两个通道:region score map和affinity score map,分别为单字符中心区域的概率和相邻字符区域中心的概率,得到原图大小1/2的预测图。

网络结构

主干网络采用了VGG16-BN,上采用部分设计了一个UpConv Block结构,网络最终在1/2图上产生两个输出:

Region score:字符级的高斯热图
Affinity score:字符间连接的高斯热图

训练数据处理

对于训练标签生成,与以往分割图(以二值化的方式离散标记每个像素的label)的生成方式不同,CRAFT采用高斯热度图来生成region score和affinity score.采用高斯热度图的好处:它能很好地处理没有严格包围的边界区域.


上图是训练数据的label的生成示意图。
于character affinity score标签生成,从左边开始看,有了一个字符级的标注(红框, Character Boxes),这个字符的四个点(绿边)构成一个四边形,做对角线,构成两个三角形(蓝边),取三角形的中心,两个框之间就有四个点,构成了一个新的边框,这个边框就是用来表示两个字符之间的连接的label的(Affinity Boxes)
对于character region score标签生成,由于对box中的每个像素计算高斯分布值比较耗时,本文结合透视变换,采用了近似估计的方法来生成标签,具体步骤如下:
a).准备一个二维的高斯图;
b).计算高斯图区域和每个文字框的透视变换;
c).将高斯图变换到文字框区域.

弱监督学习


上图是整个弱监督学习的框架。
从图中可以看出,有三种颜色的线,最开始训练是蓝色的线条,其利用Synth80k数据集(合成数据,这些数据的标注是准确的)进行有监督的训练,使整个模型达到的效果后,进行弱监督训练。
绿色线条代表是真实数据,这些数据的标注是文本行等级的,真实数据的训练分为以下几步:
1.根据真实数据的标签,将文本行crop出来。
2.跑网络,得到结果图。
3.根据网络输出的图,分割出单个文字,得到字符的基本文字框。
4.根据上一步的结果,生成label。

效果图

特性

CRAFT可以用于处理任意方向文本、 曲线文本、 畸变文本等.
该方法具有如下特性:
1).对尺度变换具有较好地鲁棒性,本文都是基于单尺度图像进行实验的;
2).本文模型不能适用与粘连的语言,如Bangla and Arabic characters;
3).相比于端到端的文本检测方法,该方法在训练的时候借助了文本长度
4).泛化能力较强

生成伪标签


对于只有Word级而无Character级标签的数据集(如ICDAR2013、ICDAR2015),需要生成Character级的标签。

原作方法

使用Word级的Box坐标crop出文本图像
使用当前训练的模型预测出文本图像的Region Score Map。
使用分水岭算法分割Region Score Map,得到Character Box的坐标。
将Character Box的坐标转换回原坐标

替代方法

使用当前训练的模型预测出图像的Region Score Map。

使用Word级的Box坐标crop出局部的Region Score Map。

使用分水岭算法分割Region Score Map,得到Character Box的坐标。

将Character Box的坐标转换回原坐标

训练策略

训练步骤

1.在强标签数据(SynthText)上进行强监督训练,迭代50k次。
2.在其他数据集上进行fine-tuning,强标签数据和弱标签数据混合训练。

训练技巧

  • fine-tuning期间,弱标签数据和强标签数据按照1:5的比例进行训练,从而保证字符级标签的准确性。
  • 对于ICDAR2015和ICDAR2017中部分“DO NOT CARE”的文本在训练阶段将Confidence设置为0。
  • 常用的数据增强,如:Crops,rotations,and/or color variations。
  • 按照1:3使用OHEM。

论文中的结果

CRAFT(Character Region Awareness for Text Detection)相关推荐

  1. character-level OCR之Character Region Awareness for Text Detection(CRAFT) 论文阅读

    Character Region Awareness for Text Detection 论文阅读 论文地址(arXiv) ,pytorch版本代码地址 最近在看一些OCR的问题,CRAFT是在场景 ...

  2. CRAFT: Character Region Awareness for Text Detection ---- 论文阅读笔记

    基于字符区域感知的文本检测 论文地址:https://arxiv.org/abs/1904.01941 论文翻译:https://blog.csdn.net/m0_38007695/article/d ...

  3. CRAFT:Character Region Awareness for Text Detection 论文详解

    论文目录 论文背景 发展现状与趋势 研究方法 模型架构 ground truth(GT)生成 合成数据集GT生成 真实数据集GT生成--弱监督学习 整体训练流程 损失函数 后处理--字符级边框变为单词 ...

  4. R语言ggplot2在可视化图像中添加横线并在横线中添加文本、为横线中添加的文本添加文本框、自定义文本框的填充色(background color for a text annotation)

    R语言ggplot2在可视化图像中添加横线并在横线中添加文本.为横线中添加的文本添加文本框.自定义文本框的填充色(background color for a text annotation) 目录

  5. 超快速结构感知深度巷道检测(Ultra Fast Structure-aware Deep Lane Detection )

    超快速结构感知深度巷道检测 ? 秦泽群.王焕宇.李曦??[0000−0003−3023−1662] 计算机科学与技术学院, 浙江大学,中国杭州 zequnqin@gmail.com, {huanyuh ...

  6. 中文新闻文本标题分类(基于飞桨、Text CNN)

    目录 一.设计方案概述 二.具体实现 三.结果及分析 四.总结 一.设计方案概述 主要网络模型设计: 设计所使用网络模型为TextCNN,由于其本身就适用于短中句子,在标题分类这一方面应该能发挥其优势 ...

  7. 目标检测之RPN网络(Feature Pyramid Networks for Object Detection)

    最近读了几篇WSDN的文章,有一篇的paper用到了RPN网络的一些思想,因此去拜读一下RPN这篇paper.这篇paper的attribution就是取长补短的思想,在卷积神经网络中,网络层数越浅, ...

  8. java poi 读取word_Java poi读取word文档(本篇只能读取text内容)

    注意:word存在版本问题  分别为2003版本和2007版本(两个版本的操作是不一样的,已解决不同版本读取问题) 1.既然是使用poi  当然是先看需要什么包咯 maven导入依赖(三个依赖都是必须 ...

  9. 基于深度学习的场景文本检测和识别(Scene Text Detection and Recognition)综述

    1. 引言 文字是人类最重要的创作之一,它使人们在时空上可以有效地.可靠的传播或获取信息. 场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索.即时翻译.机器人导航.工业自动化等领域. ...

  10. 【aixiv2016】DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural I

    本文转载自: http://www.cnblogs.com/lillylin/p/6118268.html Zhuoyao Zhong--[aixiv2016]DeepText A Unified F ...

最新文章

  1. 基础理论:集合的Hausdorff距离
  2. sonar 不再支持 cobertura 插件(sonar支持的插件表)
  3. AlertDialog禁止返回键
  4. Android 系统(51)Android窗口机制
  5. VC 写 TXT 文件分割器 附代码
  6. 嵌入式开发中数值常量如何转化为内存地址?
  7. php 打包网站在线压缩为zip
  8. vue登录如何存储cookie_vue登录模块,登录状态应该存在哪里,怎么防止手动改cookie、localStorage?...
  9. 仿药易通输入单位信息后如果没有则自动加入功能
  10. 华硕无线网卡测试软件,华硕 AiMesh WiFi系统 无线回程测试
  11. 计算机表格复制粘贴,在Excel同一个工作表中,如何复制表格格式(excel表格粘贴复制技巧)...
  12. 导出chrome扩展插件,crx文件
  13. 存储、冯诺伊曼和哈佛结构之间的关系
  14. Error:间接寻址级别不同——C++真的魔鬼
  15. 黄蓝专场之 | 小蓝单车生死故事
  16. 第五篇:mig读写时序下板实现
  17. TX2配置RealSense D455相机SDK和ros驱动
  18. c++里面的protect和public、private有什么区别?
  19. js运动(一)—— sidebar(分享到)
  20. python中获取职位信息

热门文章

  1. 笔记本电脑亮度突然不能调的处理方法
  2. QuickFlow-如何通过QFD and ExecuteCode获取其他列表数据
  3. 八:微服务调用组件Dubbo
  4. 关于PyQt5 菜单点击实现打开chm格式的文件
  5. 第四周-C语言 圆柱体表面积计算
  6. F5学习——Part 1(基于LTM模块的基本组网模式)
  7. 武汉市星创天地申报条件和程序
  8. debian7升级到debian9
  9. 支付宝推出信用租房 醉翁之意不在酒?
  10. image not loaded  try to open it externally to fix format problem