• 1 引言
  • 2 用于孤立字符识别的卷积神经网络
  • 3 结果与其他方法的比较
  • 4 多模块系统和图变换网络
  • 5 多目标识别: HOS
  • 6 图变换网络的全局训练
  • 7 多对象识别:空间位移神经网络(SDNN)
  • 8 图变换网络和传感器
  • 9 在线手写识别系统
  • 10 支票阅读系统
  • 11 结论

Gradient−basedlearningappliedtodocumentrecognitionGradient-based\ _{}learning\ _{}applied\ _{}to\ _{}document\ _{}recognitionGradient−based ​learning ​applied ​to ​document ​recognition

YannLeCun,LeonBotton,YoshuaBengio,andPatrickHaffnerYann\ _{}LeCun,Leon\ _{}Botton, Yoshua\ _{}Bengio,and\ _{}Patrick \ _{}HaffnerYann ​LeCun,Leon ​Botton,Yoshua ​Bengio,and ​Patrick ​Haffner

基于梯度的学习在文档识别中的应用基于梯度的学习在文档识别中的应用基于梯度的学习在文档识别中的应用

  摘要:用反向传播算法训练的多层神经网络建立了一个成功的基于梯度的学习技术的最佳例子。给定适当的网络体系架构,可以使用基于梯度的学习算法来合成复杂的决策面,该决策面可以以最少的预处理对高维模式(例如手写字符)进行分类。本文回顾了应用于手写字符识别的各种方法,并将它们与标准的手写数字识别任务进行了比较。专门设计用于处理二维 (2-D) 形状的可变性的卷积神经网络被证明性能优于所有其他技术。
  现实生活中的文档识别系统由多个模块组成,包括字段提取,分割,识别和语言建模。一种称为图变换网络(GTN)的新的学习范式,允许使用基于梯度的方法对此类多模块系统进行全局训练,从而最大程度地降低总体性能指标。
  文中描述了两种用于在线手写识别的系统,实验证明了进行全局训练的优势以及图变换网络的灵活性。
  文中还描述了用于读取银行支票的图变换网络,其使用卷积神经网络字符识别器与全局训练技术相结合,以提供商务和个人支票记录的准确性。现已进行商业部署,每天读取数百万张支票。
  关键词:卷积神经网络,文档识别,有穷状态转换器,基于梯度的学习,图变换网络,机器学习,神经网络,光学字符识别(OCR)

1 引言

  • A.从数据中学习(Learning from Data)
  • B.基于梯度的学习(Gradient-Based Learning)
  • C.梯度反向传播(Gradient Back Propagation)
  • D.在实际手写识别系统中学习(Learning in Real Handwriting Recognition Systems)
  • E.全局训练系统(Globally Trainable Systems)

2 用于孤立字符识别的卷积神经网络

  • A.卷积网络(Convolutional Networks)
       卷积网络(CNN)通过三种结构来确保移位、尺度和旋转不变:局部感受野(local receptive fields)、权值共享(shared weights)和时间或空间下采样(sub-sampling)。
  • B. LeNet-5
    图2 LeNet-5(卷积神经网络)的体系架构,这里用于数字识别。每个平面都是一个特征映射,即一组权重被限制为相同的单位。

  LeNet-5共有7层,不包含输入,每层都包含可训练参数(连接权重)。输入图像为32 * 32大小,这要比数据集中最大的字符要大得多(最多20 * 20个像素位于28 * 28的中心区域)。
  C1层是一个卷积层,由6个特征图Feature Map构成。有156个可训练参数(每个滤波器5 * 5=25个unit参数和一个bias参数,一共6个滤波器,共(5 * 5+1) * 6=156个参数),共122,304个连接(26 * 28 * 28 * 6,每个神经元对应26个连接,每个feature map有28 * 28个unit,一共有6个feature map)。
  S2层是一个下采样层,有6个14 * 14的特征图,特征图中的每个单元与C1中相对应特征图的2 * 2邻域相连接,输入到激活函数时它们共用一个系数加一个偏置,所需的训练参数为(1+1)* 6=12个,连接参数为(4+1)* 6 * 14 * 14=5880个。
  C3层是一个有16个特征图的卷积层,每个特征图对S2中的特征图并非是全连接的。共有(25 * 3+1)* 6+(25 * 4)* 9+(25 * 6+1)=1516个训练参数,连接个数为1516 * 10 * 10=151600个。
  S4同样为下采样层,有16 * (1+1)=32个训练参数,有(2 * 2+1) * 25 * 16=2000个连接。
  C5层是一个卷积层,有120个特征图。每个单元与S4层的全部16个特征图的5* 5领域相连。由于S4层特征图的大小也为5 * 5(同滤波器一样),故C5特征图的大小为1 * 1,这构成了S4和C5之间的全连接。之所以仍将C5标示为卷积层而非全连接层,是因为如果LeNet-5的输入变大,而其他的保持不变,那么此时特征图的维数就会比1 * 1大。C5层有48120个可训练连接((5 * 5 * 16 + 1) * 120)。43
  F6层有84个单元(之所以选这个数字的原因来自于输出层的设计,下面会有说明),与C5层全相连。有10164个可训练参数。

  • C.损失函数(Loss Function)

3 结果与其他方法的比较

  • A.数据库:修改后的NIST集(Database: The Modified NIST Set)
  • B.结果(Results)
  • C.与其他分类器的比较(Comparison with Other Classifiers)
      1)线性分类器和成对线性分类器(Linear Classifier and Pairwise Linear Classifier)
      2)基线最近邻分类器(Baseline Nearest Neighbor Classifier)
      3)PCA和多项式分类器(PCA and Polynomial Classifier)
      4)RBF网络(RBF Network)
      5)一个隐藏层的全连接多层神经网络(One-Hidden-Layer Fully Connected Multilayer NN)
      6)两个隐藏层的全连接多层神经网络(Two-Hidden-Layer Fully Connected Multilayer NN)
      7)小型卷积网络——LeNet-1(A Small Convolutional Network—LeNet-1)
      8)LeNet-4
      9)Boosted LeNet-4
       10)切线距离分类器(Tangent Distance Classifier)
       11)支持向量机(SVM)
  • D.讨论(Discussion)
  • E.不变性和抗噪性(Invariance and Noise Resistance)

4 多模块系统和图变换网络

  • A.面向对象的方法(An Object-Oriented Approach)
  • B.特殊模块(Special Modules)
  • C.图变换网络(GTN’s)

5 多目标识别: HOS

  • A.细分图(Segmentation Graph)
  • B.识别变换和维特比变换(Recognition Transformer and Viterbi Transformer)

6 图变换网络的全局训练

  • A.维特比训练(Viterbi Training)
  • B.区分性维特比训练(Discriminative Viterbi Training)
  • C.前向得分和前向训练(Forward Scoring and Forward Training)
  • D.区分性前向训练(Discriminative Forward Training)
  • E.关于分辨训练的(Remarks on Discriminative Training)

7 多对象识别:空间位移神经网络(SDNN)

  • A.用GTN解释SDNN的输出(Interpreting the Output of an SDNN with a GTN)
  • B. SDNN实验(Experiments with SDNN)
  • C.SDNN的全局训练(Global Training of SDNN)
  • D.使用SDNN进行目标检测和定位(Object Detection and Spotting with SDNN)

8 图变换网络和传感器

  • A.以前的工作(Previous Work)
  • B.标准转换(Standard Transduction)
  • C.广义转换(Generalized Transduction)
  • D.关于图结构的说明(Notes on the Graph Structures)
  • E. 图变换网络(GTN)和隐马尔科夫模型(HMM)

9 在线手写识别系统

  • A.预处理(Preprocessing)
  • B.网络架构(Network Architecture)
  • C.网络训练(Network Training)
  • D.实验结果(Experimental Results)

10 支票阅读系统

  • A.支票金额识别的图变换网络(A GTN for Check Amount Recognition)
      1) The Field Location Transformer
      2) The Segmentation Transformer
      3) The Recognition Transformer
      4) The Composition Transformer
      5) The Viterbi Transformer
  • B.基于梯度的学习(Gradient-Based Learning)
  • C.拒绝低置信度检查(Rejecting Low Confidence Checks)
  • D.结果(Results)

11 结论

  在自动模式识别的短暂的历史中,增加学习的作用似乎总是会改善识别系统的整体性能。本文描述的系统更加证明了这一事实。卷积神经网络已被证明可以消除对手工特征提取器的需求。事实证明,GTN可以减少文档识别系统中对手工启发法、手动标记和手动参数调整的需求。随着训练数据的丰富、计算机速度的提高以及我们对学习算法理解的提高,识别系统将越来越依赖于学习,其性能也将得到改善。
  正如反向传播算法很好地解决了多层神经网络中的信用分配问题一样,本文介绍的基于梯度的GTN学习程序也解决了系统中功能分配随每个新输入动态变化的信用分配问题。从某种意义上讲,这里介绍的学习算法仅是复杂、动态体系结构中梯度下降的不寻常形式,并具有高效的反向传播算法来计算梯度。本文的结果有助于建立基于梯度的最小化方法作为在大型系统中学习的一般组织原则的有用性和相关性。
  结果表明,文档分析系统的所有步骤都可以表述为GT通过其可以反向传播梯度。即使在系统的不可训练部分中,图变换方面的设计理念也将特定领域的启发法(例如分割启发法)与通用的过程知识(广义转换算法)之间的界限清晰地分开了。
  值得指出的是,并未要求使用数据生成模型(例如HMM)和极大似然原理来证明本文所述的大多数结构和训练准则的合理性。应用于全局判别损失函数的基于梯度的学习可确保实现最佳的分类和拒绝,而无需使用“难以证明”的原则,这些原则对系统架构施加了强大的约束,通常会以牺牲性能为代价。
  更具体地说,本文介绍的方法和结构提供了针对模式识别系统中遇到的数量多的问题的通用解决方案。
    1)传统上,特征提取是固定变换,通常是从有关任务的一些专家的先验知识中得出的。这依赖于可能的错误假设,即人工设计人员能够捕获输入中的所有相关信息。我们已经证明,将基于梯度的学习应用于卷积神经网络可以使我们从样本中学习适当的特征。 在NIST数据库上广泛的比较数字识别实验证明了这种方法的成功。
    2)图像中目标的分割和识别无法完全解耦。与其过早做出艰难的分割决策,我们已经使用HOS并行生成和评估大量假设,将任何决策推迟到总体标准最小化为止。
    3)手工绘制图像以获得用于训练字符识别器的分段字符是昂贵的,并且没有考虑识别整个文档或字符序列的方式(尤其是某些分割候选可能甚至是错误的,甚至尽管它们看起来像真实的字符)。取而代之的是,我们训练多模块系统来优化性能的全局度量,这不需要耗时的详细操作,并且由于允许训练这些模块以实现共同的目标而获得了明显更好的识别性能。
    4)分割、字符识别和语言模型中固有的歧义应进行最佳集成。我们没有使用一系列依赖于任务的启发法来组合这些信息源,而是提出了一个统一的框架,在该框架中,将广义转换方法应用于表示关于输入的一组假设加权的图形。商业部署的支票读取系统每天可读取数百万笔业务和个人支票,证明了这种方法的成功:广义转换引擎仅在几百行代码中。
    5)传统的识别系统依靠许多手工制作的启发法来隔离可单独识别的目标。有前景的SDNN方法利用卷积神经网络的鲁棒性和效率来完全避免显式分割。可以使用基于梯度的学习方法同时实现分割和识别的自动学习。
  本文介绍了少l量样本的GT模块,但是很明显,该概念可以应用于许多领域,其中领域知识或状态信息可以用图表示。在许多音频信号识别任务和视觉场景分析应用中就是这种情况。未来的工作将尝试将GT网络应用于此类问题,希望允许更多的依赖自动学习,而较少的依赖细节工程。

《Gradient-based learning applied to document recognition》翻译相关推荐

  1. 《Git版本控制管理(第2版)》——4.3 Git在工作时的概念

    本节书摘来自异步社区<Git版本控制管理(第2版)>一书中的第4章,第4.3节,作者:[美]Jon Loeliger , Matthew McCullough著,更多章节内容可以访问云栖社 ...

  2. 【Git版本控制管理】Gitee(码云)和GitHub的使用

    远程仓库的使用 文章目录 远程仓库的使用 使用码云(Gitee) 使用GitHub 远程仓库是指托管在因特网或其他网络中的你的项目的版本库. 你可以有好几个远程仓库,通常有些仓库对你只读,有些则可以读 ...

  3. java中git版本控制,git版本控制管理是什么?git如何实现版本控制?

    大家好,今天要跟大家讲的是关于git版本控制管理的一点小知识,git相信程序员小伙伴们都已经很熟悉了,很多项目开发都需要git,所以,git版本控制管理到底是干嘛的呢?Git又如何实现版本控制呢?下面 ...

  4. Git 版本控制管理(一)

    Git 是一个分布式版本控制工具,它的作者 Linus Torvalds 是这样给我们介绍 Git  -- The stupid content tracker(傻瓜式的内容跟踪器) 关于 Git 的 ...

  5. Git版本控制管理——简介

    说明 在大型项目开发或者多人协作开发时,都希望可以对软件代码进行管理和追踪,以便确认开发的进度和方便问题追溯.这就需要使用到版本控制系统(VCS),比如Git就是一款很优秀的版本控制工具.如今很多项目 ...

  6. 3.git版本控制-管理修改、撤销、删除

    管理修改 第一次修改 -> git add -> 第二次修改 -> git commit,Git管理的是修改,当你用git add命令后,在工作区的第一次修改被放入暂存区,准备提交, ...

  7. Git版本控制管理——远程版本库

    之前提到的Git的所有操作都是在本地完成的,而实际项目开发并不是一个人就可以搞定的,通常需要团队的协作,而这些协作可能又不是在同一个地区的,这就涉及到Git的分布式特性了. Git的分布式特定会涉及到 ...

  8. Git版本控制管理(二)--git配置

    在系统上安装好 Git后,还需要配置Git 环境. 每台计算机上只需要配置一次,程序升级时会保留配置信息,也可以在任何时候再次通过运行命令来修改它们. 配置文件位置 Git 自带一个 git conf ...

  9. Git版本控制管理——版本库管理

    本文主要说明如何发布Git仓库. 发布版本库 对于Git来说,服务器并不是必需的.Git更乐于与同一台机器上的同级版本库直接交换文件,而不需要某个服务器来进行代理,或通过各种不需要上级服务器的协议与不 ...

  10. Git版本控制管理——基本Git概念

    基本概念 版本库 Git版本库(repository)只是一个简单的数据库,其中包括所有用来维护与管理项目的修订版本和历史信息.而Git版本不仅会维护项目整个生命周期的完整副本,还会提供版本库本身的副 ...

最新文章

  1. 流利说流年不利,市值跌去80%,AI教育第一股营收赚钱仍然依赖人工
  2. 关于UNION ALL与 UNION 用法和区别
  3. Java的poi的excel导入怎么验证整型格式的单元格
  4. springcloud都有什么组件?这个列表不得不看!
  5. Spring bean 标签加载、解析过程分析
  6. 开源RefreshListView下拉刷新效果
  7. [国嵌攻略][084][信号同步编程]
  8. vue 图片被背景色覆盖_如何使用纯css3打造有点意思的故障艺术(附React/Vue加强组件版)...
  9. html5 多文件选择
  10. 什么是web前端?Web前端好入门吗?
  11. 5.9 亿国内用户简历遭殃,数据库持续“裸奔”!
  12. python怎么读取excel-python怎么从excel中读取数据?
  13. 2020华为软件精英挑战赛-有向图找环
  14. Boxfilter 块滤波器
  15. 用计算机怎么计算税率表,个税计算器2016年税率表公式
  16. Android模仿微信语音聊天功能
  17. PaddleClas-SSLD知识蒸馏方法梳理(82.4%ResNet50系列模型养成之路)
  18. 2.海康威视-web3.0插件连接摄像头实现预览效果
  19. 《麦肯锡方法》第四部分 麦肯锡生存之道 第14-16章-思维导图
  20. sdk是什么_动态贴纸在美颜sdk中起着什么作用

热门文章

  1. 1750. 救生员 Lifeguards S
  2. 苹果iPad怎么录屏?简单易懂,1分钟学会
  3. 关于opencv fitLine直线拟合得斜率及截距
  4. WiFi穿墙完全指南
  5. 红黑树详解三:红黑树的删除
  6. 区块链公司依靠电信主网颠覆汇款行业
  7. 上传文件的几种主要方法。
  8. 未来智安CEO唐伽佳荣膺ISC十周年“代表性人物”
  9. imx6ull移植Linux系统第二篇——Linux内核的移植
  10. 蛙蛙推荐:蛙蛙教你解析网络包