点击我爱计算机视觉标星,更快获取CVML新技术


52CV君曾经向大家推介过开源OCR文字识别软件Calamari,其使用了目前最先进的OCR技术,非常值得参考。

通过查看“我爱计算机视觉”网站(www.52cv.net)后台数据,52CV君发现,在来自搜索引擎的自然流量中,该文开源OCR文字识别软件Calamari是网站上所有单项技术博文里被阅读次数最多的(虽然当时写的文章并不详细),可见该软件的确很受欢迎。

近日,该软件的作者即来自德国维尔茨堡大学的几位学者在投稿于DHd 2019的论文《State of the Art Optical Character Recognition of 19th Century Fraktur Scripts using Open Source Engines》中再次展现了其强大能力,在19世纪印刷体古籍文字识别任务中,基于此软件Calamari和新发明的一种训练方法训练出的新模型,不仅打败了目前主流的开源软件,甚至大大好于著名的OCR商业软件ABBYY。

作者信息:

该文没有讲任何算法,作者最重要的阐述是如何利用各种语料训练模型。

下面的表格很好的反映了其使用的数据和训练的顺序。

该文要解决的问题是识别19世纪的印刷体文字,其首先使用了跨越15-20世纪的最全的各种语料训练模型,得到作者认为鲁棒性较好的预训练模型(可以理解为能用的数据都用上了),然后使用合成数据继续训练(合成数据因为可以人为生成,所以往往各种情况都有,数据分布较平衡),再然后使用19世纪的所有真实语料数据训练(这是识别的目的数据库),由于目的数据库样本分布可能不平衡,作者最后在19世纪语料数据集中每本书最多抽样50行,进行最后的训练提精,避免过拟合。

该文要识别的文本图像示例:

作者将训练得到的模型和主流的开源软件Tesseracts、OCRopus和商业软件ABBYY进行了比较,作者使用的评估数据集不再赘述,直接看看这漂亮的结果:

在大多数情况下Calamari都取得了压倒性优势!即使Calamari表现不是最好的情况,也仅仅是比商业软件ABBYY稍逊一点点。

如果你想做OCR方便的开发,不妨学习下Calamari!

值得注意的是,作者并不是说Calamari全面超越了ABBYY,只是在特定领域使用Calamari可以达到超越ABBYY的效果。在ABBYY擅长的办公自动化OCR领域,作者并没有公布有没有实验、结果如何,如果各位读者感兴趣可以试试。

思考一下作者使用的训练方法,不难总结出一些原则:

1.先追求数据大而全,再使用特定任务数据;

2.先合成数据,再真实数据;

3.真实数据抽样,模型提精训练,避免过拟合。

重点来了!

Calamari开源地址:

https://github.com/Calamari-OCR/calamari

论文下载:

在“我爱计算机视觉”公众号对话界面回复“最强开源OCR”,即可收到该文百度云下载地址。

你觉得本文对你有帮助吗?欢迎留言。


长按关注我爱计算机视觉

【点赞与转发】就是一种鼓励

最强开源OCR!印刷体古籍文字识别超越著名商业软件ABBYY相关推荐

  1. 基于 ocr 的屏幕文字识别 开源

    基于 ocr 的屏幕文字识别.运行时截屏区域,进行文字识别. 下图为运行截图,识别网页内文字并输出到软件edit控件 源码下载 点击打开链接 或git https://github.com/34471 ...

  2. 完全离线的OCR图片转文字识别工具Umi-OCR

    OCR图片转文字识别软件,完全离线.截屏/批量导入图片,支持多国语言.合并段落.竖排文字.可排除水印区域,提取干净的文本.基于 PaddleOCR . 免费:本项目所有代码开源,完全免费. 方便:解压 ...

  3. python调用百度接口实现ocr识别_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  4. python 百度ocr安装_Python调用百度OCR实现图片文字识别的示例代码

    百度AI提供了一天50000次的免费文字识别额度,可以愉快的免费使用!下面直接上方法: 首先在百度AI创建一个应用,按照下图创建即可,创建后会获得如下: 创建后会获得如下信息: APP_ID = '* ...

  5. python图片转文字easyocr_Easy Screen OCR for Mac(文字识别转换工具)

    原标题:Easy Screen OCR for Mac(文字识别转换工具) Easy Screen OCR for Mac(文字识别转换工具)带给大家!Easy Screen OCR文字识别转换工具可 ...

  6. Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别

    最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...

  7. 阿里云OCR本地图片文字识别

    参考官方文档: 阿里云OpenAPI门户通用文字识别.文字识别 安装: pip install -i https://pypi.douban.com/simple alibabacloud_ocr_a ...

  8. 按键精灵 百度文字识别(百度ocr)OCRSpace文字识别

    目录 1. 申请百度OCR服务 1.1. 百度OCR登录 1.2 创建新应用 1.3 免费领取次数 1.3 查看是否创建成功 2. 按键精灵运用百度OCR接口 2.1 通用文字识别(高精度版)文档 2 ...

  9. 超轻量级中文ocr,OcrLiteOnnx文字识别

    原项目地址:https://github.com/benjaminwan/OcrLiteOnnx 本文是基于原项目编译好后的OcrLiteOnnx文字识别系统,可以实现提取图片中的文字及文字中心点坐标 ...

最新文章

  1. ssh vim中不小心按下ctrl+s
  2. Android.mk 变量解释
  3. pyqt5讲解6:菜单栏,工具栏,状态栏
  4. eclipse手动安装alibaba代码规范插件
  5. [js] 在DOM上同时绑定两个点击事件(一个用捕获,一个用冒泡),事件总共会执行几次,先执行哪个事件?
  6. 【英语学习】【Daily English】U14 Transportation L03 Sorry for keeping you waiting
  7. spring知识点概述
  8. MySQL中外键定义级展现结果_MySQL高频面试60题含答案
  9. Adobe各种最新版本软件下载 PhotoShop Dreamweaver FW Ai Fl.....
  10. 请领导批阅文件怎么说_请领导批复文件怎么说
  11. linux进程线程-alarm闹钟函数
  12. Disconnected: No supported authentication methods available(server sent: publickey) 的解决办法
  13. 高阶无穷小量和低阶无穷小量 洛必达的使用条件 三阶导数的几何意义  阶乘的意义,0的阶乘为什么等于1 泰勒公式简单理解,麦克劳林级数 带拉格朗日余项的泰勒公式和带皮亚诺余项的泰勒公式区别
  14. 学习软件之epub阅读器推荐
  15. 01前端入门HTML5 +Css3+电商网页制作:HTML5
  16. 物联网创业项目(物联网创业点子大全500个)
  17. 网络安全-内网DNS劫持-ettercap
  18. YOLOv5 模型结构及代码详细讲解(一)
  19. Win10技巧:Win10任务管理器知识介绍
  20. 通达信历史期货数据接口源代码是怎样的?

热门文章

  1. QT [006][basic] explicit关键字详解
  2. 高德地图时间和实际差多少_高德打车,谁用谁上当,谁用谁吃亏
  3. python该怎样使用_Python 应该怎么去练习和使用?
  4. mysql 表级锁_MySQL行级锁和表级锁
  5. python流程自动化_基于Python的SAP流程自动化
  6. php七牛云rtmp直播推流,GitHub - jangocheng/FlutterQiniucloudLivePlugin: Flutter 七牛云直播云 推流/播放 SDK集成...
  7. tar命令打包时过滤特定文件夹
  8. python显示当前中文日期_Python--获取当前日期和时间(含中文格式)
  9. 润乾单查日期特别慢_SQL编写不合理导致历史日志查询特别慢
  10. 10打开没有反应_118个遇水反应化学品清单及高压反应釜操作经验