直接看效果对比

tesseract-ocr

该识别引擎最新版本tesseract4添加了支持神经网络(LSTM)的,该引擎专注于线条识别, 同时也保留了Tesseract OCR 引擎,该引擎通过识别字符模式来工作。
我们需求端的后台语言是go,因此我选择了tesseract-ocr/tesseract 的go语言版本------gosseract 来体验识别效果,我是直接下载了web版本来部署:https://github.com/otiai10/ocrserver, 部署后的识别效果如下图。

可以看到中文的识别能力一般,很多地方非常方正的中文也识别错了。
注意

  1. 要能识别中文的话需要安装中文训练模型,下载地址
    https://github.com/tesseract-ocr/tessdata
    中文语言不支持命令行安装

apt-get install apt-get install -y tesseract-ocr-chi-sim

因此需要手动下载,下载后修改Dockerfile文件,将中文预料模型安装到指定位置

FROM debian:bullseye-slim
LABEL maintainer="otiai10 <otiai10@gmail.com>"#ARG LOAD_LANG=chi_simRUN apt update \&& apt install -y \ca-certificates \libtesseract-dev=4.1.1-2.1 \tesseract-ocr=4.1.1-2.1 \golang=2:1.15~1ENV GO111MODULE=on
ENV GOPATH=${HOME}/go
ENV PATH=${PATH}:${GOPATH}/bin
## 将模型copy到指定的路径下
ENV TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata/
COPY ./tessdata/chi_sim.traineddata ${TESSDATA_PREFIX}chi_sim.traineddata
ADD . $GOPATH/src/github.com/otiai10/ocrserver
WORKDIR $GOPATH/src/github.com/otiai10/ocrserver
RUN go get -v ./... && go install .# Load languages
RUN if [ -n "${LOAD_LANG}" ]; then apt-get install -y tesseract-ocr-${LOAD_LANG}; fiENV PORT=8080
CMD ["ocrserver"]

TrWebOCR

这是一款国内作者开源的专门用于中文识别,clone下来后安装依赖包后就可以直接跑起来了。
我的是centOS 8.x系统,安装python依赖后运行出现了一下错误:

ImportError: libSM.so.6: cannot open shared object file: No such file or directory

缺少依赖包,安装sudo yum install libXext libSM libXrender 后解决,其他系统可以参考,这个回答:

https://stackoverflow.com/questions/47113029/importerror-libsm-so-6-cannot-open-shared-object-file-no-such-file-or-directo

运行后的效果如下图:

对比之前tesseract-ocr效果有比较明显的进步,特别是中文识别的效果好很多,tesseract-ocr识别错的地方,例如我的名字,还有编字这边都没有问题。

腾讯云OCR识别

体验demo入口:https://cloud.tencent.com/act/event/ocrdemo, 腾讯云OCR识别能力和TrWebOCR比感觉更好点,特别是签名的文字除了姓其他2个字都对了,而TrWebOCR就差别有点大,英文的识别腾讯云的OCR效果也更好些,上面

图片文字识别OCR调研-中文相关推荐

  1. python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...

    0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...

  2. 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR

    作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...

  3. 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用

    开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...

  4. 吴恩达《机器学习》第十八章:图片文字识别OCR

    文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...

  5. 轻量级图片文字识别 OCR Paddle 使用说明

    百度轻量级 图片文字识别OCR 1.原文链接:https://www.paddlepaddle.org.cn/hub/scene/ocr 2.快速安装     https://github.com/P ...

  6. 【图片识别】java 图片文字识别 ocr (转)

    http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...

  7. Java-基于百度API的图片文字识别(支持中文,英文和中英文混合)

    具体文档:http://ai.baidu.com/docs#/OCR-API/e1bd77f3 PS: 基于Java 1.8 版本控制:maven 使用之前需要获取对应的项目API_KEY,SECRE ...

  8. 图片文字识别OCR模型免费API接口工具及DEMO

    jiaying系列 网页版演示地址:ai.moneymeeting.club 一.简介: paddleocr是一个开源的图片文字识别工具​. 目前我们提供的免费在线API支持png.jpg​文件格式. ...

  9. Java基于百度API的图片文字识别(支持中文,英文和中英文混合)

    点击上方"好好学java",选择"置顶公众号" 优秀学习资源.干货第一时间送达! 精彩内容 java实战练习项目教程 2018微服务资源springboot.s ...

最新文章

  1. GitHub与PyCharm配置最新简单教程
  2. java之IO整理(中)
  3. inline-block代替浮动布局float:left列表布局最佳方案
  4. Marshal类的简单使用
  5. Spring @Import源码解析
  6. php 跨区域,如何构造PHP的内容包括在非安全(http://)和安全(https://)区域以及跨多个目录使用?...
  7. 如何使用GZip和Jersey压缩Java REST API中的响应
  8. 网易校园招聘历年经典面试题汇总:C++研发岗
  9. [SQL]实战之查找员工编号emp_no为10001其自入职以来的薪水salary涨幅值growth
  10. 第一个案例实操——WordCount
  11. 【WCF--初入江湖】12 WCF与Ajax编程
  12. jest (让人愉悦的测试框架)
  13. Testin云测平台使用
  14. linux开机自动执行脚本、运行程序
  15. java语言英语单词_Java常用英语单词
  16. python: 打包并生成可执行文件 exe
  17. 西电 操作系统课设 在Ubuntu18.04安装pintos
  18. Arduino Timer
  19. vagrant box命令
  20. 《途客圈创业记:不疯魔,不成活》一一2.7 愿景和使命

热门文章

  1. 我又来分享来了,发现一个好的ide,免费的国产的,优秀的,自带md阅读器.那就是uni-app
  2. 适用于iOS的远程桌面软件
  3. 基于深度学习的绘画风格迁移
  4. 有哪位仁兄可以告诉我,下载软件包的时候出现这种情况是怎么一回事呢?kali虚拟机,希望看见的前辈不吝赐教
  5. 应急响应-linux-webshell查查杀工具:河马webshell查杀和深信服Webshell
  6. Java语言每日一练—第11天:最优选择2
  7. 微信小程序介绍、区别
  8. 学习学习学习学习学习学习
  9. vue 动态显示图片报错 404
  10. 珠海金湾区红旗图书馆 WIFI 连接方法