keras优化算法_自然场景文本识别（OCR），keras-yolo3-densenet-ocr

自然场景文本识别

我之前是做自然语言的，但公司有个ocr的项目必须要做，因此开始学习ocr相关知识，边学边做两个多月，还有很多不太明白的地方，只能大概讲一讲经验教训。

自然场景文本分类包括两个步骤，1、文本检测：识别出文本框，2、文本识别：识别出字或者字符。

1、 文本检测：

文本检测和目标检测类似但又有不同，目标检测的物体形状一般是不固定的，而文本框一般是矩形，另外文本检测是二分类，而目标检测是多分类。成熟的文本检测算法有很多，我尝试了ctpn，east以及yolo3（包括yolo3-tiny）等三种文本检测算法。（目前只考虑水平文本，有很多其他算法可以检测非水平文本，包括east）

2、 文本识别：

文本识别尝试了crnn和densenet，总体来看性能差不多。

由于对qps有要求，因此尝试使用tensorrt对模型进行推理优化，keras转trt模型较好的路径还是keras→onnx→trt，而不是keras→uff→trt，因为有很多操作uff都不支持。使用tensorrt后时延从120ms降到了90ms，可以说达到了目的。但是tensorrt只支持定长，只能将图片压缩到固定值（例如608*608），会损失一定精度，tensorrt6以后应该是支持变长的，后面有时间会研究一下这个问题。

因为要综合考虑性能和效率，最终使用yolo3+densenet作为解决方案（从时延和性能上看yolo3都是远远好于ctpn和east（只考虑水平文本），这和我看到的一些信息不符，ctpn和east都是工业界运用比较多的算法了，但这里我没看到任何优势，如果有大神了解欢迎指正）。

使用tensorrt进行推理优化，平均时延大约90ms左右。程序是由python实现，改成c++，时延应该会更低一些。使用了10000条数据进行测试，使用hmean和编辑距离作为评价指标（https://github.com/liuheng92/OCR_EVALUATION.git），最好模型（yolo3-608-densenet）结果为：

"recall": 0.7576752977446645,

"precision": 0.7358534281487819,

"hmean": 0.7466049438527332

"distance": 28.814918508149184,

附代码地址：https://github.com/zhaogangthu/keras-yolo3-ocr-tensorrt.git

另外我对推理加速问题很感兴趣，如果有大神有过研究，欢迎指教。有其他问题也可一起讨论。

——————————————————————————————————————

2020年9月25日更新

tensorrt已经支持动态输入，请查看：

赵刚：tensorRT动态输入（python）zhuanlan.zhihu.com

keras优化算法_自然场景文本识别（OCR），keras-yolo3-densenet-ocr相关推荐

Opencv多语言自然场景文本识别系统（源码＆教程）
1. 研究背景人类在自然场景中可以快速定位并识别看到的文字信息,但是想要计算机做到和人类一样是比较困难的.开发人员一直想要让机器也能识别图像中的文字信息.当然,对于自然场景来说,图像中的信息复杂甚至 ...
基于注意力模型和卷积循环神经网络的中文自然场景文本识别
最近,在进行相关中文文本识别的工作,查阅了许多论文.最终决定参考谷歌的基于注意力机制的街景文本识别的论文:"Attention-based Extraction of Structured ...
keras优化算法_目标检测算法 - CenterNet - 代码分析
代码出处吃水不忘打井人,分析github上的基于keras的实现: xuannianz/keras-CenterNetgithub.com 代码主体结构模型训练的主函数流程如下所示,该流程也是使 ...
【文本检测与识别白皮书-3.2】第一节：基于分割的场景文本识别方法
3.2技术背景--文本识别方法 3.2.1 基于分割的场景文本识别方法基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderber ...
自然场景文本检测识别技术集合（转）
本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接书的勘 ...
自然场景文本检测识别技术综述【转】
转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565 番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑 ...
自然场景文本检测识别技术综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接书的勘误,优化,源代码资源番外青蛇 ...
论文翻译：自然场景文本检测与识别综述
论文翻译:自然场景文本检测与识别综述引言介绍文章回顾文本检测文本识别实验结果总结和未来工作展望引言自然图片的检测和识别是计算机视觉领域的两个主要的问题,在运动视频分析,自动驾驶,工业 ...
怎样快速识别英文地址中包含非英文字符_[论文笔记]端到端的场景文本识别算法--CRNN 论文笔记...
本文大约 4000 字,阅读大约需要 10 分钟论文地址:https://arxiv.org/abs/1507.05717 开源代码:https://github.com/bgshih/crnn 1 ...

keras优化算法_自然场景文本识别（OCR），keras-yolo3-densenet-ocr

keras优化算法_自然场景文本识别（OCR），keras-yolo3-densenet-ocr相关推荐

最新文章

热门文章