文字识别&场景文字识别

一 大厂API
1阿里达摩院:
https://duguang.aliyun.com/experience?type=universal&subtype=general_text#intro
读光通用识别系列
读光通用文档类OCR识别产品,可将各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原。为了能够更好的还原文字信息和文档结构,读光文档识别在通用全文识别能力(文字定位、行分析、文字识别)的基础上,增加了文档结构的版面分析和文档图像处理能力,使得文档类图像也能按照结构化的方式进行文档元素提取,进一步提升文档识别的产品体验。

2腾讯
https://cloud.tencent.com/act/event/ocrdemo?from=14588

核心能力
支持图像整体文字的检测和识别,返回文字框位置与文字内容。相比通用印刷体识别接口,准确率和召回率更高。

3上海合合信息科技股份有限公司
https://ai.intsig.com/api/vision/text_recog_ch_en_coordinate

通用文本识别(中英)
上传图片识别全文结果,只支持中文,英文,返回包含文字块坐标

4讯飞开放平台
https://saas.xfyun.cn/ocr?ch=sa02
OCR文字识别(多语种)

5百度
https://cloud.baidu.com/doc/OCR/s/Nksg89dkc

6华为
https://support.huaweicloud.com/api-ocr/ocr_03_0127.html

场景文字检测和识别
https://www.zhihu.com/column/c_1318491540714078208

二 原理

文字检测:https://zhuanlan.zhihu.com/p/34757009
检测入门算法:https://zhuanlan.zhihu.com/p/353386150

识别:https://zhuanlan.zhihu.com/p/43534801
识别算法:https://zhuanlan.zhihu.com/p/353385040
1先检测和提取Text region
目标检测model:yolo家族(v12345)、fastrcnn等;
数据集:使用labelimg等软件手动标注文字区域;
2接着利用radon hough变换 等方法 进行文本校正
直线检测-Radon变换、Hough变换:
https://blog.csdn.net/qq_30815237/article/details/106405302
https://blog.csdn.net/yu132563/article/details/99228303
https://blog.csdn.net/kongxp_1/article/details/81448210
hough线检测的演示:
https://blog.csdn.net/xsjwangyb/article/details/10917945
hough线检测OpenCV实现参见:
https://blog.csdn.net/qq_30815237/article/details/86750576
3通过投影直方图分割出单行的文本的图片
https://blog.csdn.net/fengshuo000/article/details/106430884 对单行的OCR
第一种:分割字符的方法,用的最多的是基于投影直方图极值点作为候选分割点并使用分类器+beam search 搜索最佳分割点。具体可以参考tesseract 的 presentation;搜索到分割点之后对于单个字符,传统的就是特征工程+分类器。现在的 CNN(卷积神经网络)可以很大程度上免去特征工程。
第二种:无需分割字符,对于短长度的可以使用mutli-label classification 。比如像车牌,验证码,不过提前需要预测长度。

三 场景文字识别模型

https://zhuanlan.zhihu.com/p/337961086

场景文字识别(scene text recognition),简称为STR,具体而言,STR可以分为三个模块Image Rectifier、Image To Feature Sequence、Seq2seq。
Image Rectifier
这个模块隐式地学习如何把文字图像进行矫正,使得模型对于弯曲和视角具备一定的鲁棒性。该模块输入和输出均为图像。该模块是可选项,可要可不要。

Image To Feature Sequence
这个模块将图像映射为一个特征序列,即输入为图像,输出为特征序列。该模块可以使用CNNs、RNNs、self-attention等模块。比如只使用CNNs;或者前半部分CNNs,后半部分RNNs;或者前半部分CNNs,后半部分self-attention;或者各种排列组合。
CNNs部分,可以只使用类似VGG、ResNet这样的backbone,也可以在后面加一个类似于FPN这样的neck对不同satage的特征进行融合。
RNNs部分,一般使用LSTM或者GRU,可以只单向建模,也可以双向建模。
self-attention部分,可以使用简单的non-local或者使用Transformer的encoder。
Seq2seq
这个模块将特征序列转换为文字序列,即输入为特征序列,输出为文字序列。
一般方法有CTC、RNN decoder、transformer decoder,基本上机器翻译使用的方法这里都可以借用。

GITHUB资源:

  1. Image Rectifier
    1.1. STN + TPS
  2. Image to Feature Sequence
    2.1. CNNs
    2.1.1. Backbone
    2.1.1.1. VGG
    2.1.1.2. ResNet
    2.1.2. Neck
    2.1.2.1. FPN
    2.2. RNNs (bidirectional or unidirectional)
    2.2.1. LSTM
    2.2.2. GRU
    2.3. self attention
    2.3.1. non local
    2.3.1. Transformer encoder
  3. Seq2seq
    3.1. CTC
    3.2. RNNs
    3.2.1. vanilla
    3.2.2. equipped with attention module
    3.3. Transformer decoder
    3.4. ACE

四 CRNN论文分析(时间复杂度及模型大小容易落地)
https://www.bilibili.com/video/BV1HQ4y1Z74R?from=search&seid=11779022341727729308&spm_id_from=333.337.0.0(视频)

论文及复现:
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition | Papers With Code

五 摄像头分析
1.手机作为电脑摄像头(需要连入网络)
https://www.bilibili.com/video/BV1VE41177gM?from=search&seid=12962336968967749299&spm_id_from=333.337.0.0

2.高清摄像头
由100万像素(目前)换为200万像素摄像头

3.自动对焦摄像头
自动对焦(Auto Focus)是利用物体光反射的原理,将反射的光被相机上的传感器CCD接受,通过计算机处理,带动电动对焦装置进行对焦的方式叫自动对焦。它多分为二类:一是主动式,另一个则是被动式。
具备以下三点特性:以某种方式自动判断拍摄者所拍摄的主体;以某种方式测量被摄主体与相机感光元件之间的距离;驱动马达将镜头的对焦装置推到与之相应的距离刻度。
4.手机相机自动对焦的3种方式及原理
https://blog.csdn.net/weixin_33861800/article/details/92609377

文字识别场景文字识别相关推荐

  1. php 点对点,浅析点对点(End-to-End)的场景文字识别

    一.背景 随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取.检索和分享资讯已经逐步成为一种生活方式.基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解. ...

  2. 基于MATLAB的图片中文字的提取及识别

    基于MATLAB的图片中文字的提取及识别 一.引言 随着计算机科学的飞速发展,以图像为主的多媒体信息迅速成为重要的信息传递媒介,在图像中,文字信息(如新闻标题等字幕) 包含了丰富的高层语义信息,提取出 ...

  3. python自然场景文字识别_chineseocr

    本项目基于yolo3 与crnn 实现中文自然场景文字检测及识别 master分支将保留一周,后续app分支将替换为master 实现功能 文字方向检测 0.90.180.270度检测(支持dnn/t ...

  4. 场景文字识别的算法创新与应用,来自百度的技术前沿

    点击我爱计算机视觉标星,更快获取CVML新技术 几天前,52CV曾经向大家推荐百度家 OCR主题的飞桨博士会: 飞桨博士会第四期,中国深度学习技术俱乐部诚邀您加入 百度组织的这个会比较高端,很多52C ...

  5. 中文场景文字识别技术创新大赛,总奖池5.4万!

    点击我爱计算机视觉标星,更快获取CVML新技术 竞赛简介 为贯彻执行国家创新驱动发展战略,搭建人工智能领域综合性.集群化.市场化的产学研用综合协同创新平台,中国人工智能学会于2018年创办了首届中国& ...

  6. 基于YOLOv3 与CRNN的中文自然场景文字检测与识别

    (欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 52CV君曾经分享过多篇关于文字检测与识别的文章: 华科白翔老师团队ECCV2018 OCR论文:Mask Tex ...

  7. 识别中文_中文场景文字识别大赛官方baseline

    7月5日,由中国人工智能学会主办.百度深度学习平台飞桨(PaddlePaddle)承办的2019第二届中国"AI+"创新创业大赛-中文场景文字识别技术创新大赛启动.本届大赛围绕中文 ...

  8. 史上最全场景文字识别资源汇集(56篇重要论文 + 20 个开源代码 + 330 个实验结果 + 1882个统计信息)...

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:刘崇宇 转载自:CSIG文档图像分析与识别专委会 本 ...

  9. 场景文字识别论文阅读

    由粗到细的注意力机制 Image-to-Markup Generation with Coarse-to-Fine Attention 图片的多层卷积网络+结合了多行循环网络模型的encoder+基于 ...

  10. CVPR 2020 | 旷视研究院探究优化场景文字识别的「词汇依赖」问题

    IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布 ...

最新文章

  1. 李彦宏AI布局又下一城,成立生命科学公司“百图生科”
  2. It's Time to Say Goodbye (此刻告别)
  3. 长连接测试_如何选择好一根测试电缆组件?
  4. android平板安装python_Notepad++配置Python开发环境
  5. merge into on多个条件_“京沪二线”贯穿山东半岛,沿线多个城市将受益,来了解一下吧...
  6. minecraft pythonapl_Substance PythonAPI入门案例
  7. 关于ubuntu终端命令路径太长的问题
  8. Shadow Map阴影贴图技术之探 【转】
  9. Js 获取屏幕坐标值
  10. 自动更改IP地址反爬虫封锁,支持多线程(转)
  11. dlopen()失败怎么办?
  12. 腾讯云服务器安装redis、mysql
  13. 关于电脑端微信小程序不能启动解决
  14. linux安装或更新显卡驱动
  15. 文档类型字符集即HTML标签的语义化
  16. QT 小数位有效数显示
  17. 如何横扫棋坛?AlphaGo 先随机扔了一个骰子
  18. Springboot引入hibernate配置自动建表并进行增删改查
  19. Linux系统Centos7的虚拟机安装
  20. 元宇宙带来的游戏变革会是怎样的?

热门文章

  1. Word如何在表格里面插入行或者列
  2. 单片机实验五、外部中断实验
  3. 兴业银行研发中心笔试题_2019兴业银行笔试真题汇编(一)_考生回忆版
  4. 一文读懂什么是聚合支付
  5. 量子计算中几种常见量子比特介质研究
  6. python官网下载步骤-windows下载并安装Python的具体步骤
  7. win10,设定「键盘布局」为【日语键盘(106/109)】【英语键盘(101/102)】
  8. 圆面积公式积分法推导
  9. nssa和stub_OSPF stub,totally stub , NSSA , totally nssa
  10. Spell of the rising moon