【深度学习】CRNN 文字识别端对端模型 CTC损失
论文:https://arxiv.org/pdf/1507.05717v1.pdf
文章目录
- 1 论文摘要
- 2 模型结构
- 3 接受域
- 4 CTC loss
1 论文摘要
基于图像的序列识别是计算机视觉领域一个长期的研究课题。本文研究场景文本识别问题,这是图像序列识别中最重要和最具挑战性的任务之一。提出了一种新的神经网络结构,将特征提取、序列建模和转录集成到一个统一的框架中。与以往的场景文本识别系统相比,本文提出的体系结构具有四个独特的特性:(1)它是端到端可训练的,而现有的大多数算法都是单独训练和调优的。(2)它自然地处理任意长度的序列,不涉及字符分割或水平尺度归一化。(3)它不局限于任何预定义的词汇,在无词汇和基于词汇的场景文本识别任务中都取得了显著的性能。(4)它生成了一个有效但更小的模型,更适合实际应用场景。在标准基准上的实验,包括IIIT-5K、街景文本和ICDAR数据集,证明了本文算法相对于现有技术的优越性。此外,该算法在基于图像的乐谱识别任务中表现良好,明显验证了该算法的通用性。
2 模型结构
结构不难理解,CNN+双向 LSTM + CTC:
3 接受域
4 CTC loss
这个理解起来有些困难,这篇博文:https://xiaodu.io/ctc-explained/
CTC的核心思路主要分为以下几部分:
(1)它扩展了RNN的输出层,在输出序列和最终标签之间增加了多对一的空间映射,并在此基础上定义了CTC Loss函数
(2)它借鉴了HMM(Hidden Markov Model)的Forward-Backward算法思路,利用动态规划算法有效地计算CTC Loss函数及其导数,从而解决了RNN端到端训练的问题
(3)最后,结合CTC Decoding算法RNN可以有效地对序列数据进行端到端的预测
【深度学习】CRNN 文字识别端对端模型 CTC损失相关推荐
- OCR技术系列之四】基于深度学习的文字识别(3755个汉字)(转)
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
- python深度文字识别_【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)...
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
- 【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
- 基于深度学习实现语义识别和问答判断模型及算法优化-制造业-CSDN公开课-专题视频课程...
基于深度学习实现语义识别和问答判断模型及算法优化-制造业-1685人已学习 课程介绍 本次课程,邀请IBM研究院讲师就制造业语义识别及判断模型搭建.QA模型.词向量.句子量化.POWE ...
- 基于深度学习的脑电图识别 综述篇(三)模型分析
作者|Memory逆光 本文由作者授权分享 导读 脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义.而如今机器学习和深度学习的发展,大 ...
- 深度学习之 人脸识别(2) 模型
本篇文将介绍人脸识别原理,下文介绍实现实例. 1. 人脸识别模型 经过上一篇步骤后,已得到包含人脸的区域的图像了,接下来就要进行人脸识别了.这一步一般是使用深度卷积网络, 将人脸图像 ...
- 深度学习OCR | 文字识别网络 CRNN 论文翻译
前言 现在全行业转上云,很多东西需要变成数字化,离不开 OCR 的帮助,在 OCR 领域,文字需要经过定位再到识别,最终才能转成数字化,下面是在 OCR 很经典的 识别网络 -- CRNN 的论文. ...
- 表单识别(五)——票据识别-论文研读:基于深度学习的票据识别系统设计与实现,卞飞飞(上)
(论文研读:基于深度学习的票据识别系统设计与实现,卞飞飞:) 引言: 传统的文本检测与识别算法主要指利用数字图像处理等非深度学习技术进行文本检测的方法,依赖于数字图像特征(如颜色.纹理.轮廓.形状等特 ...
- 三篇论文,纵览深度学习在表格识别中的最新应用
本文从三篇表格识别领域的精选论文出发,深入分析了深度学习在表格识别任务中的应用. 表格识别是文档分析与识别领域的一个重要分支,其具体目标是从表格中获取和访问数据及其它有效信息.众所周知,本质上表格是信 ...
- 基于深度学习的车型识别系统(Python+清新界面+数据集)
摘要:基于深度学习的车型识别系统用于识别不同类型的车辆,应用YOLO V5算法根据不同尺寸大小区分和检测车辆,并统计各类型数量以辅助智能交通管理.本文详细介绍车型识别系统,在介绍算法原理的同时,给出P ...
最新文章
- spring27: bean装配-基于xml
- boost::contract模块日历的测试程序
- JAVAEE框架之Spring注解
- linux prc 时区,授时时区问题解决
- 发布-订阅消息常用通信方式
- 【OpenCV 例程200篇】06. 像素的编辑(img.itemset)
- git clone 出现fatal: unable to access ‘https://github 类错误解决方法
- 强化学习:7基于直接策略搜索的强化学习⽅法 之 策略梯度
- JavaScript:画廊案例
- 10个修复ie6下bug技巧[转]
- ajax 将整个表单提交到后台处理
- vmware workstation14密钥记录
- 计算机网络知识点总结
- 华为选用ServiceHot ITSM提升运维服务能力
- 开放API接口整合多元办公能力,企业微信助IT企业打造高效办公平台
- 2024年上海美博会-上海浦东美博会(上海CBE)
- 随便输入两个单词,两个单词之间以空格隔开,输出时每个单词的首字母变为大写。如输入:“hello java”,输出为“Hello Java”
- SQL SERVER中的汉字转拼音-实现根据拼音搜索汉字
- 教你用scratch2.0编程两种赛车游戏
- pytorch中repeat()函数理解
热门文章
- UEditor富文本编辑器图片粘贴和上传问题
- c++之QT软件封装(windows)
- 怎么修改服务器玩家等级级上限,GOM引擎等级限制了极限怎么办?传奇服务端突破等级限制的方法...
- 1. 软件开发流程与QA工作流程
- 大型网站技术架构 学习总结一(基础了解)
- java hsqldb_Java HsqlDB的初步使用和技巧总结
- 迅雷精简版 for Mac(迅雷下载器)v4.1.2中文版
- SkeyePlayer rtsp、rtmp低延迟播放器源码解析之64位编译方案
- 基于单片机的智能交通灯控制系统的设计
- next.js页面跳转