《EAST: An Efficient and Accurate Scene Text Detector》
特点概述:在这篇文章中,提出了一个快速且精确的场景文本检测方法,该方法取消了一些不必要的步骤(如:候选区域的聚合和词的分割),且它只包含两个阶段,可以在整幅图像中检测任意形状和方向的单词或文本行。

方法概述:

该方法利用一个全连接模型去直接预测单词或文本行,然后将预测的框进行Non-Maximum Suppression操作得到最后的结果。(生成的预测框可以是旋转的矩形或四边形)

贡献:

提出了场景文本检测的方法,该方法由两个阶段组成:一个全连接网络和一个NMS融合阶段。FCN直接生成文本区域。
网络结构是灵活的,可以生成单词级别或文本行级别的预测。根据具体的应用场景,网络输出的预测框的几何形状可以是被旋转后的boxes或四边形(预测框的形状事先确定)。

传统的文本检测方法和一些基于深度学习的文本检测方法,大多是multi-stage,在训练时需要对多个stage调优,这势必会影响最终的模型效果,而且非常耗时.针对上述存在的问题,本文提出了端到端的文本检测方法,消除中间多个stage(如候选区域聚合,文本分词,后处理等),直接预测文本行.
下图给的是几个不同框架的检测pipeline:可以发现本文只包含两个stage

方法:

本方法的文字检测模型是一个全卷积神经网络,可以对单词或文本行进行像素级的预测,其后处理步骤仅仅包括阈值和NMS。
一张图片输入到FCN中,生成像素级文本评分图和包含几何形状信息的多个通道。

预测的通道之一是分数图,其像素值范围在[0,1]之间;剩下的通道表示了预测框的几何形状,预测框在像素层面上圈出单词的范围,分数则表示对应位置预测的几何形状的可信度。
对于文本区域,使用用两个几何形状去实验:旋转box(RBOX)和四边形(QUAD)。本方法针对两种几何形状都设计了不同的loss函数 。在得到预测框后,几何形状的分数超过预定义阈值就被认为是有效的预测框,然后将预测框进行non-maximum-suppression处理,之后的结果作为最终的输出。

论文关键idea

提出了基于two-stage的文本检测方法:全卷积网络(FCN)和非极大值抑制(NMS),消除中间过程冗余,减少检测时间.
该方法即可以检测单词级别,又可以检测文本行级别.检测的形状可以为任意形状的四边形:即可以是旋转矩形(下图中绿色的框),也可以是普通四边形(下图中蓝色的框)).
采用了Locality-Aware NMS来对生成的几何进行过滤
该方法在精度和速度方面都有一定的提升


Pipeline
论文的思想非常简单,结合了DenseBox和Unet网络中的特性,具体流程如下:

  • 先用一个通用的网络(论文中采用的是Pvanet,实际在使用的时候可以采用VGG16,Resnet等)作为base net ,用于特征提取
  • 基于上述主干特征提取网络,抽取不同level的feature map(它们的尺寸分别是inuput-image的 [公式] ),这样可以得到不同尺度的特征图.目的是解决文本行尺度变换剧烈的问题,ealy stage可用于预测小的文本行,late-stage可用于预测大的文本行.
  • 特征合并层,将抽取的特征进行merge.这里合并的规则采用了U-net的方法,合并规则:从特征提取网络的顶部特征按照相应的规则向下进行合并,这里描述可能不太好理解,具体参见下述的网络结构图
  • 网络输出层,包含文本得分和文本形状.根据不同文本形状(可分为RBOX和QUAD),输出也各不相同,具体参看网络结构图

合并层中feature map的合并规则

具体的合并步骤如下:

  • 特征提取网络层中抽取的最后层feature map被最先送入uppooling层(这里是将图像放大原先的2倍),
  • 然后与前一层的feature map进行concatenate,
  • 接着依次送入卷积核大小为ParseError: KaTeX parse error: -Expected ‘EOF’, got ‘,’ at position 11: 1\times{1},̲3\times{3},卷积核的个数随着层递减,依次为128,64,32
  • 重复1-3的步骤2次
  • 将输出经过一个卷积核大小为3\times{3}3×3,核数为32个
    具体的公式如下:

输出层的输出

  • 对于检测形状为RBOX,则输出包含文本得分和文本形状(AABB boundingbox 和rotate angle),也就是一起有6个输出,这里AABB分别表示相对于top,right,bottom,left的偏移
  • 对于检测形状为QUAD,则输出包含文本得分和文本形状(8个相对于corner vertices的偏移),也就是一起有9个输出,其中QUAD有8个,分别为

训练

使用ADAM进行优化。统一采样到512x512,minibatch=24,学习率为1e-3,decays每27300minibatch减1/10,到1e-5停止。指标性能不变停止训练。

为了构建最终的结果,保留下来的几何形状在阈值作用后应该用NMS进行合并。

假设相邻像素构成的几何形状是高度相关的,提出逐行进行合并,同时同一行的几何图形进行合并,然后依次将当前遇到的几何图形与最后一个合并的几何图像合并。

实验结果

ICDAR 2015

文本检测-EAST方法概述相关推荐

  1. # 经典目标检测识别方法概述RCNN/FAST/FASTER RCNN/MASK RCNN/SSD/DSSD/YOLO V1/YOLO V2等

    经典目标检测识别方法概述@陈子逸 经典目标检测识别方法概述 由于水硕期间自学了一些目标探测的方法,这里做一个概述,肯定有不完美的地方,还请指正一起进步. 综述 1.分别简单描述一下RCNN系列: 在我 ...

  2. 背景宽高随文本变化_中科大提出ContourNet:更准确的任意形状场景文本检测新方法...

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:CSIG文档图像分析与识别专委会 本文简要介绍2020年被CVPR录用的论文&qu ...

  3. 值得一看的文本检测方法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 前  言 目前深度学习方法做文本检测比较普遍,但是也存在一些时候G ...

  4. 根据大小分割大文本_值得一看的文本检测方法

    作者:晟  沚 前  言 目前深度学习方法做文本检测比较普遍,但是也存在一些时候GPU资源不够,这时候就需要一些其他的方法来检测文本信息,本文主要介绍不使用深度学习进行文本检测的方法.文本检测的瓶颈主 ...

  5. 人工智能学习--文本检测实践

    注释:文本检测 和 文本识别是两回事. 可能现在已经有 end-to-end的深度神经网络可以将文本检测和识别一起实现,这个要去搜相关的sci论文. 文本检测,是从一张图片中找到文字区域,并用矩形框标 ...

  6. 文本检测大满贯!自适应文本区域表示改进形状任意的文本检测

    点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇CVPR 2019 文本检测的论文,其要解决的问题是任意形状的文本检测,难能可贵的是,该算法在多个文本检测数据集上达到了SOTA,非常 ...

  7. 论文翻译:自然场景文本检测与识别综述

    论文翻译:自然场景文本检测与识别综述 引言 介绍 文章回顾 文本检测 文本识别 实验结果 总结和未来工作展望 引言 自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...

  8. 【技术白皮书】第一章:基于深度学习的文本检测与识别的技术背景

    1.技术背景 1.1技术背景--什么是文本检测与识别 OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印 ...

  9. 文本检测最近文章检索(1)

    期刊 1)Evaluating and improving lexical resources for detecting signs of depression in text 评价和改进词汇资源, ...

最新文章

  1. 自学成才翁_作为一名自学成才的开发者从“我的旅程”中吸取的教训
  2. 综合技术--maven的基本使用
  3. BERT模型从训练到部署全流程
  4. 【Latex】一些使用
  5. DataWhale sklearn学习笔记(一)
  6. Wave 文件(5): 获取 Wave 文件的格式信息
  7. 简洁的架构还能高效和准确?清华华为提出新型残差循环超分模型:RRN!
  8. 爱立信发布体验版WebRTC移动浏览器…
  9. Objective-C学习之旅(四)----内存管理2----retain点语法
  10. 硬盘容量统计显示WinDirStat v1.1.2.79(印心绿化版)
  11. 用同一个文件流读取同一个文件两次所需要做的操作
  12. Leetcode题目:Binary Tree Paths
  13. python语言实现医院管理系统
  14. ant Design Vue2.0+vite+vue3+typescript+node后台项目实现使用upload一个表单上传多个图片
  15. SSHD服务的搭建与管理
  16. 图数据库|如何从零到一构建一个企业股权图谱系统
  17. 在Windows 10下搭建Android开发环境
  18. 网页制作经典技巧24条
  19. 吉林大学 超星慕课 高级语言程序设计 实验06 结构体(2022级)
  20. Jira Automation 探索与实践

热门文章

  1. python和gui结合实例_Python GUI —— 简单例子+讲解
  2. koa mysql 按钮级权限_Vue 指令实现按钮级别权限管理功能
  3. qt4 mysql_qt4连接mysql_MySQL
  4. 南华大学计算机学院吴取劲,一种基于图深度优先搜索的基本路径集自动生成优化算法-南华大学学报.PDF...
  5. 计算机二级安装64位的还是,电脑操作系统安装,该选择32位还是64位?
  6. it有啥好咨询的_小经验 | 埃森哲Accenture管理咨询+IT咨询实习
  7. 迭代器,生成器,递归
  8. Shell命令-文件及内容处理之sort、uniq
  9. NET平台4.0 发布网站流程及出错总结
  10. [转]Struts2.3.16.1+Hibernate4.3.4+Spring4.0.2 框架整合