点击左上方蓝字关注我们

导读

不得不说,2020年绝对是OCR开源界的丰收年,各种开源repo横空出世,一次又一次的刷新开源界的baseline,小编今天再次给大家种个草,介绍今年OCR开源领域 “真.良心之作”百度飞桨PaddleOCR。

先看下飞桨文字识别套件PaddleOCR自今年年中开源以来,短短几个月在GitHub上的表现:

  • 7月,8.6M超轻量模型发布,GitHub Trending 全球日榜榜单第一

  • 8月,开源CVPR2020顶会SOTA算法,再上GitHub趋势榜单!

  • 9月,GitHub Star数量已超过3.2K, 近期又带来哪些重磅更新?

果然,看9月最新更新,PaddleOCR再次诚意满满为大家带来真干货,直接看官方介绍:

数量上,这次PaddleOCR一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中3.5M超轻量文字识别模型,堪称目前业界开源的最轻量OCR模型了。

质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。

先看几个常见的通用场景识别效果:

3.5M的模型能达到这个识别精度,绝对是良心之作了!

再看一个非正常显示的图片:

文字倒着也能识别,没毛病(此处可以竖起大拇哥)。

想看更多效果?官方GitHub项目链接走起。

传送门

https://github.com/PaddlePaddle/PaddleOCR

论文下载链接:

https://arxiv.org/abs/2009.09941

激动的心,颤抖的手,相信有OCR玩家要问:

有Demo可以动手玩一玩吗?

快速体验PaddleOCR的

3.5M超轻量OCR模型

为了让用户快速上手,PaddleOCR也是做足了准备。

  • PC端快速尝试:(打开网页,选一张图片,即可实时看到结果)

https://www.paddlepaddle.org.cn/hub/scene/ocr

  • 手机端App安装体验

PaddleOCR在百度大脑EasyEdge上开放了文字识别APP demo。安卓手机可直接扫码下载:

iOS版本由于证书限制,需要登录百度EasyEdge网页扫码体验:

https://ai.baidu.com/easyedge/app/openSource?from=paddlelite

效果如下:

  • 通过PIP安装包快速体验PaddleOCR

# pip安装
pip install paddleocr# 快速使用
from paddleocr import PaddleOCR, draw_ocr
# Paddleocr目前支持中英文、英文、法语、德语、韩语、日语,可以通过修改lang参数进行切换,参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。
ocr = PaddleOCR(use_angle_cls=True, lang="ch")
# 输入待识别图片路径
img_path = 'PaddleOCR/doc/imgs/11.jpg'
# 输出结果保存路径
result = ocr.ocr(img_path, cls=True)

更多内容,可以进入

https://github.com/PaddlePaddle/PaddleOCR快速开始

模型小型化,why?

多个开源repo测试对比

对于OCR方向的开发者而言,开源repo最吸引人的莫过于

①高质量的预训练模型

②简单易上手的训练代码

③好用无坑的部署能力

简单对比一下目前主流OCR方向开源repo的核心能力:

从性能指标来看:

  • 针对OCR实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的300张图像,每张图平均有17个文本框,PaddleOCR的F1-Score超过0.5,这个性能已经很不错了。

从功能完备来看:

  • 预训练模型大小:EasyOCR目前暂无超轻量模型,chineseocr_lite最新的模型是4.7M左右,而PaddleOCR提供的3.5M无疑是目前业界已知最轻量的

  • PIP安装:目前仅PaddleOCR和EasyOCR支持。

  • 自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型Finetuning,目前只有PaddleOCR支持

  • 部署方面:EasyOCR模型较大不适合端侧部署,Chineseocr_lite和PaddleOCR都具备端侧部署能力。

开发者可以根据自己的实际需求,选择适合自己的开源方案。

对于PaddleOCR 3.5MB的超轻量模型,是如何做到的,repo中也给出了解释。

3.5M超轻量模型应用了一套超轻量OCR系统PP-OCR,主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身,最终得到整体大小为3.5M的超轻量中英文OCR模型和2M的英文数字OCR模型。

更多细节请参考文末PP-OCR技术文章。

其中,飞桨模型压缩库PaddleSlim为PaddleOCR超轻量化模型的实现提供了核心的技术支撑。PaddleSlim集成了模型剪枝、量化(包括量化训练和离线量化)、蒸馏和神经网络搜索等多种业界常用且领先的模型压缩功能。通过PaddleSlim对PP-OCR中检测、检测框矫正和识别模型的压缩,从超轻量模型8.1M的压缩到3.5M,模型大小降低了56.79%,再加上之前模型结构调整从8.6M降低到8.1M,最终模型大小降低了60%,其中检测模型速度提升21%,而且整体模型精度还有一定提升。

更多惊喜等着你

除了3.5M超轻量OCR模型,PaddleOCR还隐藏哪些惊喜,一睹为快:

1. 本次开源的超轻量英文数字识别模型,不得不说,考虑的真周到,英文场景用起来更溜。

2. 多语言支持,中、英、德、法、韩、日,据了解还在持续迭代更新并扩充中,欢迎体验。

PaddleOCR也提供了多语言的识别模型配置文件如下图所示:

用户可以根据自己需求重新训练,也可以在预训练基础上调优。

3. 文档教程,绝对是开源界的一股清流,对于OCR方向,能想到的内容,PaddleOCR应该都覆盖了吧。

其中的FAQ部分强烈推荐,面试OCR算法工程师岗位你应该用的到。

支持自定义训练,

丰富部署能力

开发者如果想要使用自定义数据训练超轻量模型,也可以从PaddleOCR提供的基础算法库中选择适合自己的文本检测、识别算法,进行自定义的训练。自定义训练的存在让开发者可以使用自己的数据集打造更为契合自身需求的产品,极大程度满足了不同开发者的需求。

除了贴心的自定义训练,满足开发者产业级训练的需求之外,百度PaddleOCR为了更好的方便开发者和企业应用,打造了一系列的模型部署组件,可以支持开发者和企业在服务端、移动端、嵌入式硬件,云端服务化等多个不同的硬件平台部署,最大化地满足OCR文字识别领域的企业应用。

招募活动预告

9月26日,飞桨将举办OCR方向的线下沙龙活动,欢迎北京OCR方向的开发者们,我们相聚中关村。

(扫描海报中的二维码即可报名获取直播链接或现场门票)

PP-OCR技术文章:

https://arxiv.org/abs/2009.09941

如在使用过程中有问题,可加入飞桨官方QQ群进行交流:1108045677。

如果您想详细了解更多飞桨的相关内容,请参阅以下文档。

·飞桨PaddleOCR项目地址·

GitHub: 

https://github.com/PaddlePaddle/PaddleOCR 

Gitee: 

https://gitee.com/paddlepaddle/PaddleOCR

·飞桨PaddleSlim项目地址·

GitHub: 

https://github.com/PaddlePaddle/PaddleSlim 

Gitee: 

https://gitee.com/paddlepaddle/PaddleSlim

扫描二维码 | 关注我们

微信号 : PaddleOpenSource

END

明晚精彩直播

体积再降60%,3.5M超轻量中英文OCR模型开源,性能效果同时提升相关推荐

  1. 再降64%,3.5M超轻量中英文OCR模型开源,身量缩减效果提升v4.1

    一.导读 不得不说,2020年绝对是OCR开源界的丰收年,各种开源repo横空出世,一次又一次的刷新开源界的baseline,小编今天再次给大家种个草,介绍今年OCR开源领域 "真.良心之作 ...

  2. PP-OCR: 3.5M超轻量中英文OCR模型详解(四) 文本识别优化瘦身策略

    PP-OCR: A Practical Ultra Lightweight OCR System 论文地址:https://arxiv.org/abs/2009.09941 代码地址:https:// ...

  3. Github Star 4.6K,3.5M超超轻量中英文OCR模型开源,火了!

    导读 如果你是OCR方向的工程师,你一定需要知道这个OCR开源项目:PaddleOCR 先看下PaddleOCR自今年开源以来,短短几个月在GitHub上的表现: 7月,8.6M超轻量模型发布,Git ...

  4. 8.6M超轻量中英文OCR模型开源,训练部署一条龙 | Demo在线可玩

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 要说生活里最常见.最便民的AI应用技术,OCR(光学字符识别)当属其中之一. 寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌 ...

  5. 好身材大姐姐学计算机惊喜用英语,重磅开源:超轻量3.5M中英文OCR模型,小小身材大大出乎意料...

    一.导读 不得不说,2020年绝对是OCR开源界的丰收年,各种开源repo横空出世,一次又一次的刷新开源界的baseline,小编今天再次给大家种个草,介绍今年OCR开源领域 "真.良心之作 ...

  6. 截屏就可以转文字?飞桨带您体验OCR超轻量中英文识别模型

    [飞桨开发者说]陈千鹤,华中科技大学计算机科学与技术学院大一在读 任务背景 目前很多实用小工具都趋向收费模式,即使免费,不是功能不完整,就是有很多约束条件,在应用时效果无法达到我们的预期.于是我萌生一 ...

  7. Github热榜:中英文识别OCR模型,百度开源媲美收费软件!

    近日,百度飞桨正式开源了业界最小的超轻量8.6M中英文识别OCR模型套件PaddleOCR,在模型大小.精度和预测速度上,甚至超过了之前一度登上GitHub热榜的chineseocr_lite(5.1 ...

  8. 华为云数据库自研黑科技,助推企业成本再降 50%

    有个笑话,说某日下班后,某君带着一只宠物乌龟开车回家,在北京二环路上遭遇堵车高峰,半天走不了几步.乌龟耐不住性子,坚持要先爬回家去,主人只好由它去了.不知过了多久,主人在车里听见有敲门声,打开一看,只 ...

  9. 大专程序员待遇吊打清华毕业的深圳老师!深圳老师即将第二次降薪,每月再降4000元!...

    之前,深圳老师是"高薪+稳定"的代名词,可如今却未必如此. 一位清华大学学生爆料:深圳龙岗区电话通知第二次降薪! 消息来源:一块打球的师兄对象,在坂田当老师,领导打电话通知每个月再 ...

最新文章

  1. 文本编辑器左边显示行数
  2. 上传问题分析1--文件保存位置
  3. word2003文档题注
  4. android 读取txt转为utf-8乱码,彻底解决android读取txt乱码终极方案
  5. 我的Python成长之路---第三天---Python基础(9)---2016年1月16日(雾霾)
  6. 统计学习方法 第八章总结
  7. 企业如何选择一个合适的可视化工具
  8. matlab/simulink中带参数的S-Function(S函数)的写法
  9. 整理最新java面试宝典2019
  10. HTML css把图片变圆,HTML+CSS:圆形和圆角图片格式
  11. Xib中设置view的BorderColor 及 ShadowColor
  12. 嵊州D5T1 鸡翅 chicken
  13. TypeError:Cannot read property 'bind' of underfined(React)
  14. Android 小米应用角标
  15. 加薪引发的难题 穆穆-movno1
  16. 多个图元合并其中相邻的图元
  17. 50个BBS经典签名
  18. Android可信执行环境TEE最全介绍
  19. 孙茂松等获钱伟长一等奖,倪光南、李生等入选CIPS首批会士
  20. ffmpeg 音频重采样

热门文章

  1. 解析精益产品开发(一)—— 看板开发方法
  2. html中英文文献,英文文献引用规范
  3. 怎么把ppt文字大小设置一致_课件类PPT怎么做才好看?我修改了6页PPT,总结了7个技巧...
  4. 飞剪机构运动仿真升级版
  5. 文本分类——NLV算法研究与实现
  6. MPSS异常引起系统无法休眠
  7. B2C电子商务系统研发——商品SKU分析和设计(二)
  8. introduction to deep learning--week1简单线性回归、梯度下降、模型正则化、和深度学习中的优化方法
  9. 国家开放大学计算机系统与维护毕业论文,国家开放大学本毕业论文答辩流程
  10. vue-video-player 播放m3u8视频