1 论文摘要

基于图像的序列识别是计算机视觉领域一个长期的研究课题。本文研究场景文本识别问题，这是图像序列识别中最重要和最具挑战性的任务之一。提出了一种新的神经网络结构，将特征提取、序列建模和转录集成到一个统一的框架中。与以往的场景文本识别系统相比，本文提出的体系结构具有四个独特的特性:(1)它是端到端可训练的，而现有的大多数算法都是单独训练和调优的。(2)它自然地处理任意长度的序列，不涉及字符分割或水平尺度归一化。(3)它不局限于任何预定义的词汇，在无词汇和基于词汇的场景文本识别任务中都取得了显著的性能。(4)它生成了一个有效但更小的模型，更适合实际应用场景。在标准基准上的实验，包括IIIT-5K、街景文本和ICDAR数据集，证明了本文算法相对于现有技术的优越性。此外，该算法在基于图像的乐谱识别任务中表现良好，明显验证了该算法的通用性。

2 模型结构

结构不难理解，CNN+双向 LSTM + CTC：

3 接受域

4 CTC loss

这个理解起来有些困难，这篇博文：https://xiaodu.io/ctc-explained/

CTC的核心思路主要分为以下几部分：
（1）它扩展了RNN的输出层，在输出序列和最终标签之间增加了多对一的空间映射，并在此基础上定义了CTC Loss函数
（2）它借鉴了HMM（Hidden Markov Model）的Forward-Backward算法思路，利用动态规划算法有效地计算CTC Loss函数及其导数，从而解决了RNN端到端训练的问题
（3）最后，结合CTC Decoding算法RNN可以有效地对序列数据进行端到端的预测

【深度学习】CRNN 文字识别端对端模型 CTC损失相关推荐

OCR技术系列之四】基于深度学习的文字识别（3755个汉字）（转）
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
python深度文字识别_【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）...
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...
基于深度学习实现语义识别和问答判断模型及算法优化-制造业-CSDN公开课-专题视频课程...
基于深度学习实现语义识别和问答判断模型及算法优化-制造业-1685人已学习课程介绍本次课程,邀请IBM研究院讲师就制造业语义识别及判断模型搭建.QA模型.词向量.句子量化.POWE ...
基于深度学习的脑电图识别综述篇(三)模型分析
作者|Memory逆光本文由作者授权分享导读脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义.而如今机器学习和深度学习的发展,大 ...
深度学习之人脸识别（2）模型
本篇文将介绍人脸识别原理,下文介绍实现实例. 1. 人脸识别模型经过上一篇步骤后,已得到包含人脸的区域的图像了,接下来就要进行人脸识别了.这一步一般是使用深度卷积网络, 将人脸图像 ...
深度学习OCR | 文字识别网络 CRNN 论文翻译
前言现在全行业转上云,很多东西需要变成数字化,离不开 OCR 的帮助,在 OCR 领域,文字需要经过定位再到识别,最终才能转成数字化,下面是在 OCR 很经典的识别网络 -- CRNN 的论文. ...
表单识别（五）——票据识别-论文研读：基于深度学习的票据识别系统设计与实现，卞飞飞（上）
(论文研读:基于深度学习的票据识别系统设计与实现,卞飞飞:) 引言: 传统的文本检测与识别算法主要指利用数字图像处理等非深度学习技术进行文本检测的方法,依赖于数字图像特征(如颜色.纹理.轮廓.形状等特 ...
三篇论文，纵览深度学习在表格识别中的最新应用
本文从三篇表格识别领域的精选论文出发,深入分析了深度学习在表格识别任务中的应用. 表格识别是文档分析与识别领域的一个重要分支,其具体目标是从表格中获取和访问数据及其它有效信息.众所周知,本质上表格是信 ...
基于深度学习的车型识别系统（Python+清新界面+数据集）
摘要:基于深度学习的车型识别系统用于识别不同类型的车辆,应用YOLO V5算法根据不同尺寸大小区分和检测车辆,并统计各类型数量以辅助智能交通管理.本文详细介绍车型识别系统,在介绍算法原理的同时,给出P ...

【深度学习】CRNN 文字识别端对端模型 CTC损失

文章目录

1 论文摘要

2 模型结构

3 接受域

4 CTC loss

【深度学习】CRNN 文字识别端对端模型 CTC损失相关推荐

最新文章

热门文章