前几天,小编的一个朋友跟小编吐槽, 说起最近国内一些银行科技内部在用的比较流行的几种高科技技术,其中OCR一定是逃不过去的, 但凡哪家银行想做数字化转型,从行长到老总肯定第一句就说要做OCR,但到底什么是OCR,能做什么,可能说出的人并不知道,只是知道这个名字说出来就代表着智能项目。

OCR,全称optical character recognition,意思是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

但凡是对国内OCR方面有所了解的工程师,一定或多或说听说过 PaddleOCR 这个项目。其主要推荐的 PP-OCR 算法更是被国内外企业OCR开发者广泛应用。

尤其在GitHub上短短时间内已经积攒了15k+的星,频频登上了各种榜单前列。

小编来给大家粗略的算一下:

  • 2020年6月,发布OCR超轻量模型,登上GitHub Trending全球趋势榜日榜第一的宝座。

  • 同年8月,开源CVPR2020算法,再次登上GitHub趋势榜单。

  • 2个月后,PP-OCR算法发布,登上Paperswithcode趋势榜第一名。

  • 2021年1月,Style-Text文本合成算法发布,同时上线PPOCRLabel数据标注工具,被某主流报告评为中国GitHub Top20活跃项目。

  • 同年4月,开源了PGNet端到端识别算法。

  • 同年8月,开源了PP-Structure工具包,支持版面分析与表格识别。

  • 同一月,GitHub上Star突破15k+,截止发文时点,已经16K+!

然后就在这个月,PaddleOCR的项目团队宣布,根据之前项目中碰到的问题以及解决经验,经过整组团队人员的共同努力,构建并发布新一代的OCR系统PP-OCRv2

PP-OCRv2CPU推理速度相比于PP-OCR server提升220%;效果相比于PP-OCR mobile 提升7%

简单的说,就是更高更快更强

同时在功能加强的基础上,大小仅13M(检测(3.1M)+ 方向分类器(1.4M)+ 识别(8.5M)= 13.0M),可以轻松部署服务器端和移动端。

光说不练假把式,说了那么多我们先来一起看下PP-OCRv2的实际识别效果究竟如何:

看着的确不错,别急,还有各种其他不同的场景,例如:

中文识别模型

英文识别模型

多语言识别模型

光看效果是不错,但是如果程序猿小伙伴遇到问题不会用怎么办?

项目组考虑到这点,特地为众多好学的程序猿小伙伴准备了丰富详尽的教程文档。

从项目环境的准备,到项目的运行,快速开始,各种模型的设计训练,各种实际的部署以及常见的问题,光看看这个教程,就感觉受益匪浅了~

总的来说, PP-OCRv2是在PP-OCR的基础上,在5个方面重点优化:

  • 检测模型采用CML协同互学习知识蒸馏策略

  • CopyPaste数据增广策略

  • 识别模型采用LCNet轻量级骨干网络

  • UDML 改进知识蒸馏策略

  • Enhanced CTC loss损失函数改进

(如下图红框所示)进一步在推理速度和预测效果上取得明显提升。

对于上述更新内容有兴趣想深度钻研的小伙伴,这里还有一份长达8页的文档,可供研究学习(下载地址同项目地址一并关注公众号回复关键字后提供)

从下面项目的更新记录我们也可以看到,就在前几天,项目组还就新技术的发布做了直播,可谓用心良苦。

如此优秀的项目,怎能不让人心动呢!想加入体验OCR效果的小伙伴,别的不多说了,赶紧来关注获取项目地址及技术文档吧!

点击下方卡片,关注公众号“TJ君

回复“OCR”,获取仓库地址

GitHub 大热!也许会成为你心中的OCR开源工具NO1!相关推荐

  1. Github大热论文 | U-GAT-IT:基于GAN的新型无监督图像转换

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 生成对抗网络(GAN)在这几年的发展下已经渐渐沉淀下来,在网络的架构.训练的稳定性控制.模型参数设计上都有了指导性的研究成果.我们可以看出 1 ...

  2. 开源了!伯克利今年大热的DeepMimic开源了~

    问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI 你还记得几个月前大热的DeepMimic么? 现在这个框架开源了. 代码.数据.预训练的策略--所有你上手需要的一切,现在DeepMimic ...

  3. (4.2.32)各大热补丁方案分析和比较

    选自: [腾讯bugly干货分享]微信Android热补丁实践演进之路 各大热补丁方案分析和比较 继插件化后,热补丁技术在2015年开始爆发,目前已经是非常热门的Android开发技术.其中比较著名的 ...

  4. Go语言无孔不入的2016:跻身主流编程语言、国内大热、极速提升、尖端应用……

    2015,Go迎来了全迸发的一年.时隔一年,回头再看,Go已跻身主流编程语言行列.在国内,Go的热度更是不凡.2016,对于Go来说,又是怎样的一年? 前言 Go语言已经7岁了!今年8月,Go 1.7 ...

  5. 机器学习十大热文新鲜出炉,这个月你该读哪篇?

    翻译 | 林椿眄 编辑 | SuiSui 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:<2018年2月机器学习10大热文精选> ,这10篇文章是Mybridg ...

  6. 大热的“滑板底盘”会以什么节奏落地?

    作者 | 易咖智车CTO 柏俊波 2002年,通用汽车发布Autonomy概念车,被普遍认为是滑板底盘的肇始.沉寂近十年,随着Canoo.Rivian上市,Upower(悠跑)开启融资,"滑 ...

  7. DeFi Token 大热但我们想说:FOMO 是病,得治

    DeFi Token 火了,火的毫无道理,火的一塌糊涂. 从 6 月的 Compound 开始,到最近的 YAM.CRV,一个接着一个的 DeFi 币种此起彼伏的出现在大众的视野中,令人目不暇接. 和 ...

  8. 极客日报第5期:华为剥离荣耀 交易价格1000亿元;2020年十大热词出炉:开头看着想笑,后面感动到哭

    文章目录 互联网快讯 程序员专区 Github 每日精选 CSDN 社区优质博文精选 互联网快讯 1.华为剥离荣耀:交易价格1000亿元 管理层持股并做人员调整 3氪从多位知情人士处获悉,华为计划将荣 ...

  9. 大数据揭示网友新年愿望“十大热词”

    北京1月1日新媒体专电(记者白靖利)辞旧迎新时刻,网友们在微博上表达了各种各样的新年愿望.新华社"中国网事"联手数托邦创意分析工作室,通过对5307869条提及"新年愿望 ...

最新文章

  1. Win10下VisualStudio2019安装及测试
  2. Marine Life Science Technology(海洋生命科学与技术)被SCIE收录
  3. 【数据竞赛】Kaggle知识点:入门到进阶的10个问题
  4. Django从理论到实战(part31)--Django数据库查询操作
  5. java不要无限循环_java – 看似无限循环终止,除非使用System.out.println
  6. MongoDB 复制集的选举原理
  7. JDK8新特性(六)之Stream流的forEach()方法
  8. ssis工具_SSIS中的DTExec实用工具概述
  9. j2ee 上传下载 小记
  10. 5-32 说反话-加强版
  11. CDMA,GSM,WCDMA,TD-SCDMA,CDMA2000,3G的区别
  12. 【转载】GIS概念解析:大地高 | 海拔 | 正高 | 正常高
  13. 如何免费将XPS转Word格式
  14. React-Native-版高仿淘宝、京东商城首页、商品分类页面,android插件化和组件化
  15. 软件测试学习笔记(九)淘宝测试
  16. H5电玩城源码+玩法比较多+UI也特别好看+纯源码系列
  17. java面试死神之蛇形遍历
  18. 云计算机具有什么特点,云计算具有哪些特点?
  19. Unity Shader LOD详解
  20. Linux-Mysql 源码包安装初始化报错

热门文章

  1. Reboot与init 6的区别
  2. 谁说Vim不是IDE?(四)
  3. 去除Office 2010的右键“共享文件夹同步”菜单
  4. 首尔日记——5月25日,出发
  5. MyEclipse中配置Web Service Client可能遇到问题及解决方案(转)
  6. Druid连接池一个设置引发的血案
  7. Exception in thread main java.lang.IncompatibleClassChangeError: net/sf/cglib/core/DebuggingClassW
  8. docker 容器中yum网速慢报错 Operation too slow. Less than 1000 bytes/sec transferred the last 30 seconds 解决方法
  9. python3 错误 Max retries exceeded with url 解决方法
  10. linux ssh远程登录 配置文件 sshd_config 介绍