一、文字检测

  (1)方法

  方法主要是基于EAST和Refinenet进行的。首先,图像经过Resnet50得到不同层的特征,然后通过Refinet的特征融合方式融合多层特征,接着,经过多任务回归预测每个特征图上的点的分数和RBOX,最后,在多尺寸检测算法里加了过滤机制。

  方法流程图如下:

  (2)涉及到的点

  1.EAST

A.网络结构图

  B.PVANet和C.Relu

 

  C.Resnet50

  残差网络详细原理见:https://www.jianshu.com/p/e58437f39f65 和 https://my.oschina.net/u/876354/blog/1622896

  D.Loss

 

 

  交叉熵损失方面的原理可参考:https://blog.csdn.net/u014313009/article/details/51043064和 https://blog.csdn.net/chaipp0607/article/details/73392175

  E.说明

  EAST是一个单阶段的快速而精准的场景文字检测框架。它主要利用一个全卷积模型来产生单词或者文本线级别的密集预测,相比于以前的复杂场景文字检测算法减少了许多冗余操作。对于文本的预测结果,既可以是旋转的矩形表示,也可以是任意的四边型表示,最后再经过非极大值抑制(NMS)的处理然后输出结果。整个框架主要借鉴DenseBox的网络框架,把图片输入全卷积网络当中,然后对文本区域进行多通道的像素级别的预测。其中一个通道用来输出文本的置信分数,而另外的通道则用来输出文本的几何坐标信息。

网络基础结构如图所示,首先,图像经过多层的全卷积网络(如左边黄色区域所示),即基础网络,得到不同深度的卷积特征();接着,通过反卷积(unpool)、不同的卷积、合并等操作,多层的卷积特征融合成在一起();最后,网络根据任务的不同,输出对像素点文本概率置信度的预测以及文本边框的预测。

  2.Refinet

  A.网络结构图

  

  B.说明

  目前深度卷积网络在目标识别和图像分割等问题上表现突出,但频繁的下采样丢失了原图像的信息。RefineNet网络,使用残差链接显式将各个下采样层和后面的网络层结合在一起。这样网络高层的语义特征可以直接从底层的卷积层中获得精炼。一个RefineNet单元使用残差链接和identity映射,对于端对端的训练很有效。RefineNet还引入了一种链接残差池化,它可以捕获大量背景信息。

如图所示,一样是将不同大小的特征图融合在一起,RefineNet的融合方式会比较复杂。RefineNet具体结构如图2.2所示,网络可以融合多个不同大小的特征图。首先,特征图先经过俩个卷积单元块(b);接着小的特征图经上采样操作获得与大特征图一样的大小,最终求和得到一个特征图(c);最后,特征图会经过一个链式残差池化(d)操纵,其结构类似于残差网络的快捷链接,只不过经过的不是卷积操作,而是池化操作。作者称,这样的操作有利于网络识别出属于背景的像素点,这将有利于文字检测中判定像素属性。我们将图1中原本简单的特征融合,替换成RefineNet。

  3.带过滤的多尺度检测

  当文本的尺寸过大时,由于训练数据样本不均匀的问题,大的文本往往会检测不全或者被忽略。而文本尺寸过小时,往往不能较精确的定位文本的边界。通过多尺寸检测的方法,一张图像往往被缩放到不同尺度进行文本检测,最终将检测到的文本框通过非极大值抑制处理得到最后的结果。然而因为缩放导致的文本过大或过小将会对多尺寸检测产生负面的影响。于是我们在多尺寸检测的基础上加入了过滤原则:缩小的图像做完文本检测后要过滤小面积小的框;放的的图像做完文本检测后要过滤掉面积大的框。我们在验证集上通过对比找到了最佳的缩放尺寸和过滤阈值。

  (2)文字检测以往其他方法

  参考:https://www.cnblogs.com/lillylin/p/6207119.html

(3)比赛

1.网址和任务

A.ICPR MTWI2018挑战赛二:网络图像的文本检测,训练集10000张,测试集10000张,标注四点坐标。https://tianchi.aliyun.com/competition/information.htm?raceId=231651

B.百度-西交大大数据竞赛:商家招牌的分类与检测。http://dianshi.baidu.com/gemstone/competitions/detail?raceId=17%20

分类:共100类,每类10-30张训练数据,5-10张测试数据,训练数据2725张,测试数据1000张

检测:9000张训练,4351张测试。

2.实验细节.

A.实验分为两个阶段:第一个阶段,我们将训练集分为9000张的训练样本和1000张的验证样本,以0.001学习率,以8的batch_size,512的输入大小训练模型50万次。第二阶段,我们将1万张图片都作为训练样本,以0.0005的学习率,6的batch_size,544的输入大小继续训练模型20万次。

B.分类用Resnet152,增加高斯模糊、旋转、缩放、翻转、裁剪、灰度和彩色进行投票。

C.一些尝试:

预训练、采用多个网络进行融合、把图像进行加强,组成五个通道再训练和测试、放大预测所用的特征图、阈值设低提高召回率,再用规则过滤、加大训练尺度、改成二阶段的、变形卷积、空洞卷积、Resnet_inception、anchor。

3.结果

A.f值=0.695,acc=0.75,recall=0.647

B.分类=0.994,检测=0.815

(4)对EAST做的改进

1.focal loss

参考:https://blog.csdn.net/qq_34564947/article/details/77200104

2.feature map*2

3.多尺度

4.数据扩充

5.规则过滤

6.多层融合方式

(5)代码心得

1.单阶段速度快,训练慢,效果没双阶段好,原因可能是样本不平衡。

2.改进的模型不要在原来的基础上继续训练,要在最初的基础上重新训练,因为学习率可能会衰减到没有改进的空间。

3.做好实验记录,分析变量。

二、文本语种识别

  1.方法

  VGG16+全局平均池化方式

VGG图:                                                      识别方法网络图:

            

  2.特点

  A.采用focal loss

   B.采用两个模型进行加权,一个是正常数据,一个是过采样的数据

  C.全局平均池化,解决图像大小不一致的问题

三、ICDAR15上结果

 

算法 recall precision f-measure
EAST 0.735 0.836 0.78
+resnet 0.749 0.841 0.792
+Focal loss 0.778 0.861 0.817
+refinenet 0.762 0.885 0.819
f*2 0.779 0.878 0.826

转载于:https://www.cnblogs.com/EstherLjy/p/9278314.html

文字检测与识别项目整理相关推荐

  1. 文字检测与识别资料整理

    博主关注文字检测和识别,资料整理和论文解读都非常详细: https://www.cnblogs.com/lillylin/p/6893500.html#4033329 博主的阅读习惯,积累和输出输出: ...

  2. 【项目实践】中英文文字检测与识别项目(CTPN+CRNN+CTC Loss原理讲解)

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:opencv学堂 OCR--简介 文字识别也是图像领域一 ...

  3. 金连文:“文字检测与识别:现状及展望” | CAAI AIDL 演讲实录

    点击我爱计算机视觉标星,更快获取CVML新技术 CAAI原创 丨 作者金连文 转自中国人工智能学会,52CV获得金老师授权转载,严禁二次转载. 8月31日-9月1日,由中国人工智能学会主办,华中科技大 ...

  4. 百度人脸检测与识别项目资源

    百度人脸检测与识别项目资源 https://blog.csdn.net/PaddlePaddle/article/details/104386123?depth_1-utm_source=distri ...

  5. 基于YOLOv3 与CRNN的中文自然场景文字检测与识别

    (欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 52CV君曾经分享过多篇关于文字检测与识别的文章: 华科白翔老师团队ECCV2018 OCR论文:Mask Tex ...

  6. OpenCV 文字检测与识别模块

    OpenCV 文字检测与识别模块 该模块在扩展模块中,需自行下载 下载地址:https://github.com/opencv/opencv_contrib/tree/4.0.0 说明文档: 文字检测 ...

  7. 中文文字检测及识别(ORC)

    中文文字检测及识别(ORC) https://github.com/471417367/chinese_ocr_api 首先基于CTPN检测到文字(可以是中英文以及数字),然后基于RCNN进行文字识别 ...

  8. 基础 | OCR文字检测与识别

    作者|Gidi Shperber   编译|AI公园 导读 OCR中的研究,工具和挑战,都在这儿了. 介绍 我喜欢OCR(光学字符识别).对我来说,它代表了数据科学,尤其是计算机视觉的真正挑战.这是一 ...

  9. 文字检测与识别1-MSER

    导语 文字识别在现实场景中的用途非常广泛,现在已经有很多公司将这项技术用于实际中.比如车牌识别,图片转换成文档,拍照搜题,拍照翻译等.这让很多人有了错觉,感觉文字识别的技术已经炉火纯青,可以广泛应用. ...

最新文章

  1. C++ Priemer目录索引
  2. java有关问题,java经典有关问题!
  3. Sun公司网站上的Swing实例,想学Swing的不看后悔
  4. 符号库匹配不对的原因_整理了几种离合器打滑的原因,再安装调试时可别弄错了...
  5. 中国互联网公司员工平均年龄出炉,你怎么看?我躺着看
  6. [转载] python数字类型(一)
  7. 2021CSP复赛学生家长备忘
  8. java 量化指标_SAR指标配合阶段高低价的量化交易策略
  9. 工信部发布八项互联网新通用顶级域名服务技术要求
  10. 关于把数据库放在阿里云上,实现共享
  11. 通过瑞利判据对显微镜物镜进行分辨率研究
  12. 滴滴夜莺发布v3.3.0版本
  13. 统统卸载!再见了,流氓顽固软件!
  14. 深度强化学习落地方法论(7)——训练篇
  15. 马尔可夫链及其平稳状态
  16. 2020亚洲品牌500强榜单发布 ;肯德基中国门店将限时发售植物肉汉堡 | 美通企业日报...
  17. 洛谷 P1914 小书童——凯撒密码
  18. 如何将统一参考文献的格式?
  19. 解决DBConCurrencyException并发冲突异常(收藏)
  20. 随印自助打印机,微信文档文件校园共享无人自助打印方案

热门文章

  1. 苹果平板做ppt方便吗_有没有苹果手机和安卓平板之间方便复制粘贴的工具啊?...
  2. 爬虫入门-爬取有道在线翻译结果(2)
  3. 迷途中的融担:在下沉与专注中寻找未来
  4. 神经网络加深和加宽的影响
  5. 新版仿58转转闲鱼网站源码+二手商品交易平台系统
  6. 报错(SQLite 3.8.3 or later is required (found 3.7.17).)的解决办法
  7. GIN 3-封装数据库
  8. 2020年网络搭建与应用——国赛samba答案
  9. 各种小芯片Chiplet的机遇
  10. 3年收10亿,普陀山悄悄改名重启IPO 1