中文识别利用crnn训练英文的网络来训练中文,字符个数5529左右,中文的顺序按照tesseract开源项目复制过来的。
  • 1

github:
https://github.com/bear63/sceneReco
model:
https://pan.baidu.com/s/1i5OLwt3 crnn文字识别模型
https://pan.baidu.com/s/1i4Hd9zv ctpn文字检测模型
1:样本获取

**算法论文:**Synthetic Data for Text Localisation in Natural ImagesGithub: https://github.com/ankush-me/SynthText
**词库:**https://pan.baidu.com/s/10anmu  + 英文词汇 经过处理后得到大约500兆6000万词组
**字体:**ubntu系统下支持中文的字体,选了大概10种字体左右
**背景图片库:**http://zeus.robots.ox.ac.uk/textspot/static/db/bg_img.tar.gz大约有一万张分割好的图片
**算法大致过程:**随机从背景图片库中选出一张图片,随机从词库中选出一些词组,与背景图片分割                 -      的块进行匹配,选好字体,颜色,大小,变换等信息,将词组写入背景块中。  扣取背景块矩形框作为一个个样本。
**样本类似**
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15





2:网络设计:


网络分析:
1:input: 输入文字块,归一化到32*w 即height缩放到32,宽度按高度的比率缩 放,当然,也可以缩放到自己想要的宽度,如128(测试时统一缩放到[32,128],训练时为批次训练,缩放到[32,Wmax])
下面以32*128(w,h)分析
2:conv3层时数据大小为256*8*32,两个pooling层宽高各除以4
3:pooling2层时 步长为(2,1) dilation (1,1)
所以此时输出为256*4*33
4:bn层不改变输出的大小(就是做个归一化,加速训练收敛,个人理解),同样p3层时,w+1,所以pooling3层时,输出为512*2*34
5:conv7层时,kernel 为2*2,stride(1,1) padding(0,0)
Wnew = (2 + 2 * padW - kernel ) / strideW + 1 = 1
Hnew = 33
所以conv7层输出为512*1*33
6: 后面跟两个双向Lstm,隐藏节点都是256
Blstm1输出33*1*256
Blstm2输出33*1*5530 5530 = 字符个数 + 非字符 = 5529 + 1
最终的输出结果直观上可以想象成将128分为33份,每一份对应5530个类别的概率

3:实验结果

自动生成差不多150万个样本,测试集1500张左右,测试集全对率62%左右。因为硬件限制,所以样本较少,感觉样本数量应该要几千万甚至上亿,模型才会比较稳定。150万个样本训练也没收敛,还有2.5左右的cost.

4:CTPN+CRNN整合场景文字检测识别结果

没有进行版面分析,所以识别结果没有按顺序输出
其中标点符号训练集较少,错得较多。整体识别率感觉还行,如果加大训练样本至几千万,上亿,模型应该会比较稳定,识别也会比较好

Crnn中文end-to-end识别相关推荐

  1. 【论文阅读】Attention 机制在脱机中文手写体文本行识别中的应用

    论文信息: 作者: 王馨悦,董兰芳 ( 中国科学技术大学计算机科学与技术学院,合肥230027) E-mail: wxy66@ mail. ustc. edu. cn 该方法在针对具有语义信息的CAS ...

  2. densenet tensorflow 中文汉字手写识别

    densenet 中文汉字手写识别,代码如下: import tensorflow as tf import os import random import math import tensorflo ...

  3. cnn验证码识别代码_中文项目:快速识别验证码,CNN也能为爬虫保驾护航

    原标题:中文项目:快速识别验证码,CNN也能为爬虫保驾护航 机器之心专栏 作者:Nick Li 随着卷积网络的推广,现在有各种各样的快捷应用,例如识别验证码和数学公式等.本文介绍了一个便捷的验证码识别 ...

  4. 开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset(CCKS2021)

    OpenKG地址:http://openkg.cn/dataset/rcwi-dataset 开放许可协议:CC BY-SA 4.0 (署名相似共享) 贡献者:北京语言大学(阙孟溪.张宇飞.于东) 1 ...

  5. 介绍几个专门面向中文的命名实体识别和关系抽取工具

    知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答.对话系统.推荐系统等.知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要.从 ...

  6. 美团将主办 ICDAR2019「中文门脸招牌文字识别」比赛,并公开首个真实场景招牌图像数据集...

    雷锋网 AI 科技评论按:国际文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR)是由国际模 ...

  7. NLPCC2013中文微博细粒度情感识别(一)

    既然是找到了不错的工作,自然不敢怠慢,作为入职前的准备自己找了个任务干,再熟悉一下语义识别&文本分类的整个过程. 数据使用的是NLPCC2013的第二个任务,中文微博细粒度情感识别,现在在官网 ...

  8. 中文文字检测及识别(ORC)

    中文文字检测及识别(ORC) https://github.com/471417367/chinese_ocr_api 首先基于CTPN检测到文字(可以是中英文以及数字),然后基于RCNN进行文字识别 ...

  9. 基于BERT+BiLSTM+CRF的中文景点命名实体识别

    赵平, 孙连英, 万莹, 葛娜. 基于BERT+BiLSTM+CRF的中文景点命名实体识别. 计算机系统应用, 2020, 29(6): 169-174.http://www.c-s-a.org.cn ...

最新文章

  1. java 接口 泛型示例,java泛型接口实现示例
  2. 解决Git中的fatal: refusing to merge unrelated histories
  3. eclipse下看android support v4源码
  4. maven的标准pom.xml详解
  5. mysql 复制权限不够_解决不能mysqldump备份权限不够的问题
  6. ca盘显示无证书_ca证书提示没有正确的安装驱动程序
  7. Ubuntu 截图工具
  8. Topshelf 打包部署Windows服务
  9. APP如何上架App Store?
  10. 手淘首页流量突然暴跌的原因,怎么办?
  11. 360随身wifi无线网卡linux,360随身wifi2代驱动,当usb无线网卡使用
  12. word2016撤销无效解决办法
  13. sharepoint bcs (bussiness connectivity services)
  14. jquery中的各种动画效果
  15. 包装类、自动装箱/自动拆箱
  16. 【文献阅读2020】 像素级自适应学习的超分辨率Pixel-Level Self-Paced Learning For Super-Resolution
  17. ⊱静心抄经,是对抗这个浮躁社会的最好武器
  18. 嵌入式系统考试题库(CSU)
  19. 有什么比较好用的视频录像软件
  20. 【笔记】29元microbit套装如何玩——套装硬件简介

热门文章

  1. VLAN间路由:每个VLAN一个物理连接,单臂路由,三层交换
  2. mysql dump xtrabackup_MySQL之备份和恢复(msyqldump、LVM、xtrabackup)
  3. Cocos2d-x Touch事件处理机制(better)
  4. InvocationTargetException 浅析
  5. 三维点云学习(4)5-DBSCNA python 复现-1- 距离矩阵法
  6. 开发提效小技巧分享(二)
  7. JAVA读取Properties文件对象常用方法总结
  8. javaWeb基础知识及注意事项
  9. mysql------事务
  10. 备份/恢复面临的问题与解决途径