上文链接 https://blog.csdn.net/dzcera/article/details/122955738

4实验结果及设置

4.1数据集

本文采用ICDAR2013,ICDAR2015数据集并将ICDAR2013,ICDAR2015 dataset 转化为 PASCAL_VOC dataset 格式对于模型进行训练和验证。其中ICDAR2013数据集样本多为自然场景水平字符,同时包含字符图片和单词图片,训练集共有3567张裁剪后的图片,测试集共有1439张裁剪后的图片。ICDAR2015数据集样本多为复杂自然场景中倾斜模糊等受背景影响较大的图片。

4.2本文实验环境

本文实验开发环境为Intel i7-9750h,GPU为NVIDIA GTX1050
lmdb0.97
numpy1.17.2
Pillow6.1.0
six1.12.0
torch1.2.0
torchvision0.4.0

4.3实验结果及分析

根据Faster R-CNN中的“image-centric”采样策略,RPN通过反向传播(BP,back-propagation)和随机梯度下降(SGD,stochastic gradient descent)进行端到端(end-to-end)的网络训练。依照RPN和Faster R-CNN两者之间的特征共享技术,两个网络共享一个相同的卷积层,构成一个统一的网络。Faster R-CNN模型分别用转化为PASCAL_VOC dataset格式后的ICDAR2013和ICDAR2015中的自然图像进行训练。同时VGG16 是基于大量真实图像的 ImageNet 图像库预训练的网络,本项目训练时将学习好的 VGG16 的权重迁移到Faster R-CNN上作为网络的初始权重,通过迁移学习的方式提高了训练速度。本文训练的模型经过多次训练后的文字检测方法识别准确率为90.91%,检测精度高。
为了测试本项目的性能,实验模型测试采用多张自然场景,不同干扰因素的文字图片。以其中的三个样本为例,首先我们选取三个样本中场景干扰因素较小,文字较为清晰的图片进行测试。可以看到训练好的模型可以准确的检测识别出文字的内容,遮挡部分文字的干扰因素并没有对识别结果造成严重的影响。检测结果逐词分割,有较高的识别率。其次选取一张常见的自然场景文字图片,以自然环境为场景文字识别图片的主体,文字所占图片中的空间占比较小且较为分散,由不同颜色的文字组成,并有类似文字的告示牌图样干扰。可以看到训练后的网络可以准确识别该类文字,基本不受自然场景干扰因素的影响。最后一个样本中,训练模型选择了场景内容较为复杂的自然场景图片,该图片中自然场景较为复杂,有人为建筑和人群等干扰因素。图中有多处文字片段,且文字的颜色、样式、倾斜程度和文字所处光照条件均不相同,占据图片中的空间比例极小。训练后的模型在检测这张图片的时候仅能检测识别到一处图片占比空间较大的文字。而将图片裁剪后,所有文字内容均可识别检测出,这也是目前需要进一步改进的地方。


图 1场景干扰因素较小,文字较为清晰的文字图片


图 2场景干扰因素较大,文字较为清晰的文字图片



图 3场景干扰因素较大,文字较为模糊的文字图片

文字检测识别是一种通用识别技术,特别是自然场景的检测与识别近些年已成为深度学习计算机视觉方向的研究热点。如今传统的文字识别技术已经相对成熟,但自然场景文字识别准确率较低,至今还未能达到实用的程度。本文实验尝试从不同于现有方法的角度,利用Faster R-CNN和CRNN结合的方法提高了检测精度。通过考虑文字特征实现文本检测定位,利用卷积神经网络检测自然场景中的英文文本,操作步骤简单,可行度高。实验测试图片来自已公开的训练集和网络,包括背景干扰、倾斜弯曲、低分辨率、模糊等极端场景,实验结果证明本文采用的方法适应性强,在复杂场景下鲁棒性能好,在场景干扰情况,也能保证文字的准确检测和识别。本文未能实现多语言的混合文本识别,相关问题还需要进一步的研究。

基于深度学习的自然场景文字识别系统研究 faster-RCNN + CRNN (二)相关推荐

  1. 基于深度学习的自然场景文字识别

    声明:本文来源,详细内容请参考原博文https://blog.csdn.net/xiaofei0801/article/details/72778223 1.1引言 传统光学字符识别主要面向高质量的文 ...

  2. 基于深度学习的自然场景文字检测及端到端的OCR中文文字识别

    向AI转型的程序员都关注了这个号

  3. 【技术白皮书】第一章:基于深度学习的文本检测与识别的技术背景

    1.技术背景 1.1技术背景--什么是文本检测与识别 OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印 ...

  4. 基于深度学习的花卉检测与识别系统(YOLOv5清新界面版,Python代码)

    摘要:基于深度学习的花卉检测与识别系统用于常见花卉识别计数,智能检测花卉种类并记录和保存结果,对各种花卉检测结果可视化,更加方便准确辨认花卉.本文详细介绍花卉检测与识别系统,在介绍算法原理的同时,给出 ...

  5. 基于深度学习的水果检测与识别系统(Python界面版,YOLOv5实现)

    摘要:本博文介绍了一种基于深度学习的水果检测与识别系统,使用YOLOv5算法对常见水果进行检测和识别,实现对图片.视频和实时视频中的水果进行准确识别.博文详细阐述了算法原理,同时提供Python实现代 ...

  6. 基于深度学习的手写数字识别算法Python实现

    摘 要 深度学习是传统机器学习下的一个分支,得益于近些年来计算机硬件计算能力质的飞跃,使得深度学习成为了当下热门之一.手写数字识别更是深度学习入门的经典案例,学习和理解其背后的原理对于深度学习的理解有 ...

  7. 基于深度学习的手写数字识别Matlab实现

    基于深度学习的手写数字识别Matlab实现 1.网络设计 2. 训练方法 3.实验结果 4.实验结果分析 5.结论 1.网络设计 1.1 CNN(特征提取网络+分类网络) 随着深度学习的迅猛发展,其应 ...

  8. 【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

    作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文 摘要 实验数据:来源于网络公开的新闻文本数据:用随机欠采样和过采样的方法解决分类不均衡问题:使用BIO格式的标签识别5类命名实体,标注11 ...

  9. 基于深度学习的高精度交警检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度交警检测识别系统可用于日常生活中检测与定位交警目标,利用深度学习算法可实现图片.视频.摄像头等方式的交警目标检测识别,另外支持结果可视化与图片或视频检测结果的导出.本系统采用 ...

  10. 基于深度学习的高精度苹果检测识别系统(Python+Pyside6)

    摘要:基于深度学习的高精度苹果检测识别系统可用于日常生活中来检测与定位苹果目标,利用深度学习算法可实现图片.视频.摄像头等方式的苹果目标检测识别,另外支持结果可视化与图片或视频检测结果的导出.本系统采 ...

最新文章

  1. FastDFS为什么要结合Nginx?
  2. python post与get的区别_python中get和post有什么区别
  3. 计算机考研四大金刚,“四大金刚”考研一个都不少
  4. using用法是什么?
  5. JZOJ 5776. 【NOIP2008模拟】小x游世界树
  6. centos7 cuda测试_CentOS 7 安装 NVIDIA 显卡驱动以及CUDA驱动(自测可用)
  7. Java数组在方法区吗,Java数组的操作方法
  8. 【精华】Asp优化之缓存技术
  9. c++ 形参用指针 还是对象_Java 和 C/C++两大高手的对比
  10. 关于让div元素垂直居中的几种方法
  11. 原来微信还有隐藏代码,80%的用户还不知道!(附表白代码)
  12. 国产ADAS“再”突围
  13. 乒乓球十一分制比赛规则_乒乓球比赛规则完整版
  14. 计算机大赛网站设计,【计算机设计大赛】网站设计类决赛圆满落幕
  15. how to define the RASIC in a team
  16. otg烧写linux内核,Linux——OTG方式烧写镜像文件步骤总结
  17. C语言应用笔记(一):运算符优先级和使用问题
  18. robomongo_备忘
  19. 黑客常用入侵方式(12种)
  20. 2、Shell 脚本入门

热门文章

  1. word页眉页脚页码设置详解
  2. 计算log以二为底的x用计算机,计算器上怎么按出log以2为底的数
  3. css中的flow-root属性
  4. PTA 7-128 大于m的最小素数
  5. 路飞学城Python-Day23
  6. linux查看ddr时钟频率,RK3288 查看ddr频率
  7. 罗振宇2021跨年演讲6:山村小学的豆腐课到底在玩啥?
  8. PhotoShop导入webp格式图片
  9. cox回归模型python实现_Cox回归分析及其SPSS操作方法概述
  10. 4r照片尺寸是多大_4r照片尺寸(正常照片是5寸还是6寸)