点击我爱计算机视觉标星,更快获取CVML新技术


几天前,52CV曾经向大家推荐百度家 OCR主题的飞桨博士会:

飞桨博士会第四期,中国深度学习技术俱乐部诚邀您加入

百度组织的这个会比较高端,很多52CV粉丝想去,可惜只允许博士参加。

本文是对这次会议的总结,对于想要了解该领域进展的同学,值得参考。

本期技术沙龙的主讲嘉宾为百度视觉技术部资深研发工程师孙逸鹏博士,分享主题为《看图识字:场景文字识别技术与应用》,围绕百度场景文字识别基础技术近一年的最新研究工作展开分享,如下为孙博士分享内容概要。

文字是人类传递信息的重要载体。在计算机视觉领域,文字识别是最重要的传统AI技术之一,打通了图像和文本的信息鸿沟,拥有广泛的应用场景和使用价值。例如随拍文档、街景、商品、证照、票据等场景文字识别。

近些年来,基于深度学习算法的文字识别技术不断演进,从多模型、多步骤的检测识别方法,逐步发展为单模型的端到端识别方法,系统更加数据驱动、步骤更简化、识别扩展能力更强。

下面对百度于2019年度公开发表的几个文字识别领域创新技术算法,进行简单介绍:

 

文字检测

基于主干、候选回归、候选区域及精细化二次回归,文字检测算法可对任意文字形状进行精确表示,解决任意形状长行文字检测问题,在公开数据集合达到SOTA检测定位效果。

详情请参见文章:C. Zhang, et al, Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes, in Proc. of CVPR’19

https://arxiv.org/abs/1904.06535

借鉴目标检测中的经验,为提升检测速度,研究者通过单阶段模型结构与多分支输出设计对文字候选区域表达,多任务学习、单阶段训练可以取得两阶段、多阶段相当的效果,并提升速度。

详情请参见文章:P. Wang, et al A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning, in Proc. of ACMMM’19 to appear

https://arxiv.org/abs/1908.05498

端到端识别

现有文字识别系统以两阶段、多阶段检测、序列识别模型级联为主,非规则文字识别效果精度不足。为克服同时识别规则和非规则文字效果不佳的问题,我们提出端到端OCR识别TextNet算法,通过共享主干、透视RoI变换实现文字检测、空间注意力机制序列识别耦合设计,同时提升非规则行的文字识别效果。

详情请参见文章:Y. Sun, et al, TextNet: Irregular Text Reading from Images with an End-to-End Trainable Network. In Proc. of ACCV’18 oral

https://arxiv.org/abs/1812.09900

针对中文大类别识别场景,我们引入弱标注数据的概念,针对街景场景只标注关键词信息,忽略非重要信息,无需精确位置标注,避免大量精标注全监督数据高成本低效率问题。

基于端到端-部分监督学习方法,弱标注成本是精标注的1/90,弱标识数据量从2万扩增到40万,单模型平均编辑距离AED错误率相对降低20%。取公开英文数据集,端到端部分监督学习在ICDAR 15端到端评测达到单模型尺度SOTA效果。

详情请参见文章:Y. Sun, et al, Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning, in Proc. of ICCV 2019, to appear,

https://arxiv.org/abs/1909.07808

大规模公开数据集:

为进一步推动中文场景文字识别领域发展,通过构建新的ICDAR 2019-LSVT大规模街景文字、ICDAR 2019-ArT任意形状文字集合,百度携学术界举办两项ICDAR 2019场景文字识别的国际赛事,提供源于百度真实场景图像数据45万,奖金17,800美金,吸引业内各大企业、知名高校研究单位118支参数队伍有效提交结果339个,各大主流媒体报道20余次。百度团队在ICDAR 2019国际会议期间受邀做总结报告并为获奖单位颁奖,展现近年来OCR识别技术的快速发展与应用新高度。

详情请参见文章:C. Chng, et al, ICDAR 2019 RobustReading Challenge on Arbitrary-Shaped Text-ArT,in Prof. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07741

Y. Sun, et al,ICDAR 2019 Competition on Large-scale Street View Text with Partial Labeling-LSVT,in Proc. of ICDAR 2019 Oral,

https://arxiv.org/abs/1909.07145

当前百度已将场景文字识别技术用于搜索、视频、金融、翻译、地图、百度云等业务,并将场景文字识别能力开源。

CV君曾经在项目中就使用了百度家的相关服务。

百度大脑提供场景文字识别的云端API供开发者们使用,同时证照识别SDK可用于端部署。

百度AI开放平台-卡证文字识别 https://ai.baidu.com/tech/ocr_cards

百度AI开放平台-票据文字识别 https://ai.baidu.com/tech/ocr_receipts

百度AI开放平台-汽车场景文字识别 https://ai.baidu.com/tech/ocr_cars

百度AI开放平台-其他文字识别 https://ai.baidu.com/tech/ocr_others

同时,常用OCR识别模型也已在PaddlePaddle上开源,了解详细介绍可至

https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ocr_recognition

本文转载自飞桨PaddlePadele。


OCR交流群

OCR交流群是52CV最活跃的技术交流群之一,关注文本检测、识别、风格化相关技术,聚集了大量学术界和产业界的朋友,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:OCR)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

场景文字识别的算法创新与应用,来自百度的技术前沿相关推荐

  1. 中文场景文字识别技术创新大赛,总奖池5.4万!

    点击我爱计算机视觉标星,更快获取CVML新技术 竞赛简介 为贯彻执行国家创新驱动发展战略,搭建人工智能领域综合性.集群化.市场化的产学研用综合协同创新平台,中国人工智能学会于2018年创办了首届中国& ...

  2. 识别中文_中文场景文字识别大赛官方baseline

    7月5日,由中国人工智能学会主办.百度深度学习平台飞桨(PaddlePaddle)承办的2019第二届中国"AI+"创新创业大赛-中文场景文字识别技术创新大赛启动.本届大赛围绕中文 ...

  3. PaddleOCR实践之飞桨常规赛:中文场景文字识别

    简介 本项目是参加飞桨常规赛:中文场景文字识别(已结束)的项目,项目score为85.87141. 生成的预测文件为work/PaddleOCR中的test2.txt文件 项目任务为识别包含中文文字的 ...

  4. 史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)...

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:刘崇宇 转载自:CSIG文档图像分析与识别专委会 本 ...

  5. CVPR 2020 | 旷视研究院探究优化场景文字识别的「词汇依赖」问题

    IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布 ...

  6. YunOS场景文字识别

    摘要: 该文章先介绍常见的文字识别方法,然后介绍YunOS在场景文字识别方面取得的进展.结果和技术方案.将重点讲解技术方案的两个主要部分:1)基于全卷积网络的从局部到整体的文字行检测方法:2)基于BL ...

  7. 基于深度学习的自然场景文字识别

    声明:本文来源,详细内容请参考原博文https://blog.csdn.net/xiaofei0801/article/details/72778223 1.1引言 传统光学字符识别主要面向高质量的文 ...

  8. php 点对点,浅析点对点(End-to-End)的场景文字识别

    一.背景 随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解. ...

  9. OpenVINO™场景文字识别与同步与异步推理

    场景文字检测与识别模型 OpenVINO2021.4支持场景文字检测是基于MobileNetV2的PixelLink模型,模型有两个分别是text-detection-0003与text-detect ...

最新文章

  1. 教你十分钟快速搭建springBoot项目实战
  2. 结构体指针需要申请指针内存,结构体对象不需要申请对象内存
  3. MyBatis中的注解
  4. MapXtreme2004 vs2005的官方回答
  5. hdu 3079水题
  6. TensorFlow 2.0 - Checkpoint 保存变量、TensorBoard 训练可视化
  7. css一个盒子里可以装3个图片并排吗_John: CSS浮动与清除浮动属性详解(CSS float clear)...
  8. Vue 页面加载闪现出现{{xxx}}问题
  9. 如何以 JAVA call 一個現有的 dll 檔?
  10. logstash收集TCP端口日志
  11. netbean 快捷键
  12. html加大字号代码,HTML网页字体大小的设置
  13. 百度地图迁徙大数据_百度地图发布春运大数据,2020年返程规模下降六成
  14. APIO 2017 考拉的游戏 题解
  15. 现行高考政策公平 辩论_辩论文:现行高考模式有(不)利于选拔入才
  16. 【vue+vue-area-linkage】三级联动省市区选择器
  17. originPro2021(4)origin导出图片且去除demo水印
  18. Windows系统设置定时任务
  19. Ceph _backfill and recovery 之间的不同以及 peering理解
  20. 银河麒麟系统安全机制-KYSEC

热门文章

  1. Goalng笔记——排序和查找
  2. 《汇编语言》王爽—第七章实验六详解
  3. Java 8 实战学习笔记
  4. http://syy7.com/a/33.php,CVE-2020-7062
  5. html隐藏并失效,如果元素开始隐藏,css过渡将不起作用
  6. xss 全编码两次_URL编码与XSS
  7. 思科计算机网络题目及翻译3,思科计算机网络题目及翻译1.doc
  8. php访问多重数组,PHP实现删除多重数组对象属性并重新赋值的方法
  9. python三维图的坐标_用Python 画个六维图,涨姿势了
  10. php findall,fleaphp常用函数findAll方法的使用和示例