介绍

  • 基于飞桨的OCR工具库,包含总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别。同时支持多种文本检测、文本识别的训练算法。

相关链接

  • PaddleOCR项目地址
  • 飞桨开源深度学习平台
  • 效果展示页面
  • 中文OCR在线体验地址
  • 中文OCR模型快速使用

特性

  • 超轻量级中文OCR模型,总模型仅8.6M

    • 单模型支持中英文数字组合识别、竖排文本识别、长文本识别
    • 检测模型DB(4.1M)+识别模型CRNN(4.5M)
  • 实用通用中文OCR模型
  • 多种预测推理部署方案,包括服务部署和端侧部署
  • 多种文本检测训练算法,EAST、DB
  • 多种文本识别训练算法,Rosetta、CRNN、STAR-Net、RARE
  • 可运行于Linux、Windows、MacOS等多种系统

算法介绍

文本检测算法

  • EAST
  • DB

文本识别算法

  • CRNN
  • Rosetta
  • STAR-Net
  • RARE

文档教程

快速安装

准备工作

  • 快速安装  提炼最核心的代码,此处仅仅使用最简单的CPU的方式进行安装,使用GPU的方式遇到了一些问题,需要解决
  • 切换到工作目录下面 cd /home/Projects  只要是自己可以记住的文件夹就可以
  • 如果先前没有安装过docker的需要先安装docker 不同系统的命令不一样,此处以centos为例子,yum install docker
  • docker相关简单命令 参考 我的博客 ,需要执行 docker -v 验证docker是否安装成功,如果安装成功,执行service docker start的命令,启动docker,然后才可以执行下面的命令

(建议)准备docker环境

  • 第一次使用这个镜像,会自动下载该镜像,请耐心等待
  • 在CPU环境下使用docker,使用docker而不是nvidia-docker创建docker
sudo docker run --name ppocr -v $PWD:/paddle --network=host -it hub.baidubce.com/paddlepaddle/paddle:latest-gpu-cuda9.0-cudnn7-dev /bin/bash
  • 小提示
# ctrl+P+Q可退出docker,重新进入docker使用如下命令
sudo docker container exec -it ppocr /bin/bash
  • 然后就会进行镜像的拉取操作,通过docker images检查是否加载了下载的镜像
docker images
  • 执行docker images后如果有下面的输出,则证明拉取镜像成功
  • hub.baidubce.com/paddlepaddle/paddle latest-gpu-cuda9.0-cudnn7-dev f56310dcc829

更改python3默认版本

  • docker中的python默认使用python3.5,PaddleOCR需要在Python3.7下执行(该版本下,对于第三方依赖库的兼容性更好一些)。进入docker后,可以编辑/etc/profile文件,但是你会发现docker镜像里面没有vim等编辑工具
  • 先执行apt-get update命令,同步 /etc/apt/sources.list 和 /etc/apt/sources.list.d 中列出的源的索引,这样才能获取到最新的软件包,这个时候系统由先前的centos使用yum换成了apt-get内核
  • 等更新完毕以后再敲命令:apt-get install vim,安装vim
  • 这次再编辑/etc/profile,在文件末尾添加
alias python3=python3.7
alias pip3=pip3.7
  • 保存之后,使用source /etc/profile命令使设置的默认Python生效

安装PaddlePaddle Fluid v1.7

  • 更新pip,使用命令pip3 install --upgrade pip
  • 如果您的机器是CPU,请运行以下命令安装
python3 -m pip install paddlepaddle==1.7.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

克隆PaddleOCR repo代码

git clone https://github.com/PaddlePaddle/PaddleOCR

安装第三方库

cd PaddleOCR
pip3 install -r requirments.txt

中文OCR模型快速使用

inference模型下载

  • 参考文档

  • 模板样例
mkdir inference && cd inference
# 下载检测模型并解压
wget {url/of/detection/inference_model} && tar xf {name/of/detection/inference_model/package}
# 下载识别模型并解压
wget {url/of/recognition/inference_model} && tar xf {name/of/recognition/inference_model/package}
cd ..
  • 以超轻量级模型为例
mkdir inference && cd inference
# 下载超轻量级中文OCR模型的检测模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_det_mv3_db_infer.tar && tar xf ch_det_mv3_db_infer.tar
# 下载超轻量级中文OCR模型的识别模型并解压
wget https://paddleocr.bj.bcebos.com/ch_models/ch_rec_mv3_crnn_infer.tar && tar xf ch_rec_mv3_crnn_infer.tar
cd ..
  • 解压完毕后应有如下文件结构:

验证结果

  • 需要在home/PaddleOCR文件夹下面执行这些命令

单张图片

  • 以下代码实现了文本检测、识别串联推理,在执行预测时,需要通过参数image_dir指定单张图像或者图像集合的路径、参数det_model_dir指定检测inference模型的路径和参数rec_model_dir指定识别inference模型的路径。可视化识别结果默认保存到 ./inference_results 文件夹里面
# 预测image_dir指定的单张图像
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_det_mv3_db/"  --rec_model_dir="./inference/ch_rec_mv3_crnn/"# 预测image_dir指定的图像集合
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/" --det_model_dir="./inference/ch_det_mv3_db/"  --rec_model_dir="./inference/ch_rec_mv3_crnn/"# 如果想使用CPU进行预测,需设置use_gpu参数为False
python3 tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_det_mv3_db/"  --rec_model_dir="./inference/ch_rec_mv3_crnn/" --use_gpu=False
  • 更为详细的内容请参见官网

Q&A

  • 参考网址
  • 关于推理速度
    图片中的文字较多时,预测时间会增加,可以使用--rec_batch_num设置更小预测batch num,默认值为30,可以改为10或其他数值。
  • 超轻量模型和通用OCR模型的区别
    目前PaddleOCR开源了2个中文模型,分别是8.6M超轻量中文模型和通用中文OCR模型。两者对比信息如下:

    • 相同点:两者使用相同的算法训练数据
    • 不同点:不同之处在于骨干网络通道参数,超轻量模型使用MobileNetV3作为骨干网络,通用模型使用Resnet50_vd作为检测模型backbone,Resnet34_vd作为识别模型backbone,具体参数差异可对比两种模型训练的配置文件.

搭建基于飞桨的OCR工具库,总模型仅8.6M的超轻量级中文OCR,单模型支持中英文数字组合识别、竖排文本识别、长文本识别的PaddleOCR相关推荐

  1. 周获 4700 Star 全球疫情数据可视化系统,超轻量级中文 OCR……GitHub 一周热点速览...

    作者 | HelloGitHub-小鱼干 来源 | HelloGitHub 摘要:连着两周成绩平平的 GitHub Trending 榜,终于和三月的天气一样进入全面变暖的模式,无论是本周刚开源搭乘 ...

  2. GitHub 热榜:文字识别神器,超轻量级中文 OCR!

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 整理 | AI 科技大本营 光学字符识别(OCR)技术已 ...

  3. 超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M

    整理 | AI科技大本营 光学字符识别(OCR)技术已经得到了广泛应用.比如发票上用来识别关键字样,搜题App用来识别书本上的试题. 近期,这个叫做chineseocr_lite的OCR项目开源了,这 ...

  4. Github标星3K+,超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 光学字符识别(OCR)技术已经得到了广泛应用.比如发票上用来识别关键字样,搜题Ap ...

  5. 超轻量级中文 OCR,你值得拥有!

    小伙伴们,大家好,今天给大家分享的开源项目是一个超轻量级中文 OCR. 随着人工智能的发展,图像识别越来越常用,生活中应用场景比如:发票,火车票,验证码识别,搜题 App 用来识别书本上的试题等等更多 ...

  6. GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理

    目录 1.项目简介 2.项目配置 3.问题解决 1.项目简介 近期GitHub上一位大神开源了一个叫做chineseocr_lite的OCR的项目,这是一个超轻量级中文OCR,支持竖排文字识别.NCN ...

  7. css表格文字超数量就竖排_绝了,超轻量级中文 OCR,你值得拥有

    大家好,我是章鱼猫.今天给大家分享的开源项目是一个今后大数据时代以及图像识别时代非常常用的一个技术. 随着人工智能的发展,图像识别越来越常用,所以,今天推荐的开源项目就是:OCR 相关的. 这个开源项 ...

  8. 牛逼,超轻量级中文 OCR,你值得拥有

    [公众号回复 "1024",免费领取程序员赚钱实操经验] 大家好,我是章鱼猫.今天给大家分享的开源项目是一个今后大数据时代以及图像识别时代非常常用的一个技术. 随着人工智能的发展, ...

  9. 超轻量级中文ocr,OcrLiteOnnx文字识别

    原项目地址:https://github.com/benjaminwan/OcrLiteOnnx 本文是基于原项目编译好后的OcrLiteOnnx文字识别系统,可以实现提取图片中的文字及文字中心点坐标 ...

最新文章

  1. leetcode342合理运用位操作判断4的幂
  2. SAP UI5 应用开发教程之五十五 - 如何将本地 SAP UI5 应用通过 Node.js Express 部署到公网上
  3. python之模块之shutil模块
  4. win10共享打印错误0x0000006_Win7打印机无法共享提示错误代码0x000006d9的解决方法...
  5. 长沙试水数字人民币:线下支持数字人民币支付的商家已达3404个
  6. 【NIO】dawn在buffer用法
  7. 请君入瓮:研究员找到 Emotet 的bug,并成功阻止传播
  8. 无心插柳,再次浅谈.net资源的回收
  9. 【车牌识别】基于matlab GUI模板匹配车牌识别(带面板)【含Matlab源码 1215期】
  10. 【thinking in java】学习笔记 三 初始化及权限控制
  11. 亿图图示专家 ((EDraw Max)V5.6 绿色特别版
  12. Ping命令返回错误信息说明
  13. Win10系统怎样让打开图片方式为照片查看器
  14. 红外接收二极管为什么正反都能通_为什么在电路板中测量二极管正反都通
  15. DEVICE_ATTR_RW 宏分析
  16. Ouino法国学习系统评价它是如何比其他学习软件
  17. php 在文本域中添加qq表情 createelement,仿微信在对话框文字中插入Emoji表情包
  18. 替代人工操作,模拟浏览器的“行为”
  19. TL-WDN5200H无线usb网卡在ubuntu18.04/16.04上的使用
  20. 详解one-hot独热编码

热门文章

  1. zookeeper 可视化_大厂,常用,四款,大屏可视化工具
  2. net能和python结合吗_如何不用安装python就能在.NET里调用Python库
  3. 【转】ABP源码分析十三:缓存Cache实现
  4. 【转】C# DataTable使用方法详解
  5. 第七节:Trigger(SimpleTrigger、CronTrigger)哑火(MisFire)策略 :
  6. REVERSE-PRACTICE-CTFSHOW-7
  7. 赢在CSDN —— 我们一起向前
  8. CCIE理论-第七篇-SD-WAN网络(二)
  9. 【机器学习】 - 使用dlib进行人脸定位,人脸检测,给人脸图片戴口罩
  10. 【牛客 - 1080E】tokitsukaze and Segmentation(dp,递推,思维)