OCR(Optical character recognition光学字符识别)技术自70年代后期出现至今已有近40年历史,现已在计算机自动录入、票据识别、信函分拣、资料分析等多方面获得了广泛应用。可以说OCR技术是模式识别和人工智能领域最为成功的应用之一。近十年来,它又被成功移植到证件行业上来,并制定出了相应的国际标准。由于其独特的技术特点,在护照、签证、身份证及大型会议代表证等ID(Identification)领域获得了广泛的应用。

OCR证件阅读机(OCR ID document reader)就是用于识读此类证件的计算机专用外部设备。该设备融光、机、电、计算机技术于一体,涉及模式识别、图像处理、人工智能等学科知识,全球仅有少数国家有能力研制、生产。

一、OCR证件及其研究内容 近年来,现代证件技术和OCR技术相结合产生了OCR证件技术。一般情况下,我们把采用此项技术的证件称为OCR证件,把OCR证件信息的读出设备称为OCR证件阅读机,并称适应于OCR证件的文字识别技术为证件OCR。OCR证件技术的研究涉及多项国际标准化组织(或某些领域的权威机构)颁发的统一标准,内容包括:制作工艺和颁发流程、专用的信息读出设备及证件信息管理系统。

1.OCR证件特点和相关标准 一般来说,适于采用OCR技术的证件主要是指一次颁发、长时期有效、信息不可改写的身份证件,如由政府机关颁发的护照、居民身份证、儿童证等。随着应用范围的不断扩大,OCR证件也逐步被其他一些领域采用,如用于出入口控制和大型会议的代表证、旅行证等。与传统证件相比,OCR证件具有信息直观、不可改写、庄重、耐污损、使用寿命长、成本低以及适于计算机化管理等特点。正因为如此,近些年OCR证件得到了迅猛的发展。 对于OCR证件的许多技术指标和常用格式,国际通用标准均有规定,有的已形成国际惯例。与OCR证件技术相关的标准很多,在此不可能一一列出,

下面仅介绍一些常用的标准: 目前,OCR证件主要有三种信息记录格式:ID-1(3行×30字)、ID-2(2行×36字)、ID-3(2行×44字),记录信息量都在80 字节左右,对普通身份证件比较适用。每种格式证件的尺寸规格和燃烧性、毒性、抗腐蚀性、温度/湿度特性、光谱反射率等物理特性都在ISO 7810中作了规定。

用于OCR证件印刷或打印的字体主要有OCR-A和OCR-B两种,字符的有关细节和大小尺寸在ISO1073/I和ISO1073/Ⅱ作了规定。 为保证良好的读出率,必须保证OCR证件机读码的打印/印刷质量(如打印灰度、油墨光谱、字符缺损和噪声控制等)。这些指标在ISO1831中有详尽的叙述。 机读护照的各种细节由ICAO DOC 9303/2给出,其中打印字符采用OCR-B SIZE 1类(细节引用ISO 1073/Ⅱ),打印质量采用ISO 1831中规定的X系列控制,其他的,如尺寸规格和所用材料的物理特性,均引用ISO 7810。

2.OCR证件的制作和颁发 对于不同的国家和部门、不同的应用场合,OCR证件的制做工艺和颁发程序都各不相同,典型的制作和发放流程大致可归纳为:

·办证人申请,主管部门审批; ·相关信息录入; ·高精度打印机输出; ·裁切/塑封或层压; ·成形证件质量控制; ·合格,发放。 在OCR证件的制做过程中,必须采用高精度的打印机,最好是分辨率在300DPI以上的激光打印机,纸张裁切装置的裁切精度至少应达到0.3mm以上。与一般证件不同,OCR证件在正式发放前必须进行质量检查,只有检查合格的才能发放。用于OCR证件发放前质量控制的设备称为OCR证件校验机,用于对机读扩照进行质量控制的机器是机读护照校验机。我国公安部第一研究所已研制出机读护照校验机。 OCR证件校验机的工作原理与阅读机基本一致。但它除了对证件上的机读码进行识读外,更重要的是对证件的各种参数如机读码位置、底纸反射率、字符浓淡和机读码字体是否符合标准进行测量。校验机参数测量,必须保证测量精度和测量准确性,如对机读码打印位置的测量至少应精确到0.1mm以上,最好能达到0.05mm数量级。校验机字符识别算法较阅读机简单,甚至可以简单地采用固定点阵模板匹配进行识别,其目的是对与标准字符差异较大的给予指示。至于速度,一般来说,校验机完成一本证件质量检查的时间小于4秒就可以接受。

3.OCR证件阅读机 OCR证件阅读机是OCR证件技术的核心之一,也是OCR证件是否能推广应用的关键所在。OCR证件阅读机的主要功能就是快速、准确地识读证件上的机读码信息。

一般地说,阅读一本证件的时间应小于2秒,按字符计识别准确率应达到99.9%以上。 与普通的OCR系统不同,OCR证件阅读机必须使用专用的图像扫描设备,其文字识别软件较普通OCR也有一些差异。 一般情况下,可以把OCR证件阅读机粗略地划分为图像扫描和字符识别两大部分。

普通扫描仪输出一般为多灰度图像,对于文字识别多灰度并没什么优势,相反采用二值化图像更为适合。普通OCR系统一般是在识别前利用人工设置阈值,通过软件方法对灰度图像进行二值化。

对于OCR证件阅读机,扫描部分直接输出二值图像,这样不但可大幅度减少数据量,而且可降低整机成本。但同时这也带来一个问题,部分OCR证件阅读机的应用对象比较复杂,如护照阅读机,除了要阅读本国的护照,还要阅读世界各国的护照(包括机读签证)。而各国护照的制作技术、印制工艺、底花和封膜各异,特别是各国选用的纸张和打印设备不同,字符浓谈和与底纸的灰度反差很难保持一致。如果黑白判断电路采用固定阈值,就很难保证图像质量,给图像处理和识别带来困难。 在这个问题上,国产OCR证件阅读机采用了自适应浮动二值方式,以保证对不同材料,不同塑封技术和打印质量的证件均能清晰、准确成像。此外,为尽量加大底纸与字符的反差,同时不影响证件上各种底花和防伪线的使用,OCR证件技术一般把光谱选在B900谱段。

4.证件OCR与普通OCR的比较 证件OCR与普通OCR系统相比,既有相通的部分又有其自身的特殊性。

首先,OCR证件机读码大都采用OCR-A或OCR-B字体(目前使用OCR-B的居多)字符种类一般包括:数字0~9,字母A~Z(大写),以及少数符号,总数通常在40个左右。因此,证件OCR属单体小字符集文字识别,从这点来说,分类相对容易。

其次,证件OCR处理范围限制在证件机读区内,幅面不大且文字信息都有相对固定的格式,版面分析和字符分割难度不大。但另一方面,证件OCR对识别率和识别速度的要求比普通OCR系统要高,因此所采用的识别算法不能过于复杂,但必须保证准确识别。

此外,证件OCR处理的对象是全世界各国质量不一的护照或签证,其制作技术、印制工艺、底花和封膜各异,即使采用了专用扫描设备,图像质量仍不稳定,所以用于证件OCR的识别算法必须有更强的适应能力。 依据上述特殊性,经过反复地分析比较和不断优化,确定了国产OCR证件阅读机的识别算法。对于印刷体字符识别,特别是单一字体的印刷体字符识别,最常用的算法应当首推相关匹配识别。其软件工作量不大、稳定性好,对硬件要求不高。实践证明,采用相关匹配识别为基本分类算法确实是行之有效的。当然,对于文字识别,单一的算法是不够的,对于形体上十分相近的字符或出现噪声或变形的情况,用模板匹配无法分类时,就应该对字符细部进行进一步的刻划,如进行结构分析或寻找相对稳定的轮廓特征,以达到细分类的目的。

二、OCR证件技术的现状和发展前景 OCR证件技术是近些年才产生和发展起来的一门新兴技术,与之相应的一些国际标准日趋完善,应用领域也日益扩大。尤其是在政府签发的具有法律效力的个人身份证上的应用已得到全世界各国的普遍重视,已有愈来愈多的国家和地区开始采用此项技术。从全球范围来说,加拿大AIT公司从事于此项技术研究已有十余年的历史,技术上也代表着时代潮流。最近几年,英国、德国、日本和澳大利亚也相继推出了同类产品。虽然我国在这方面起步较晚,但经过有关部门的努力,也已于1994年底推出了一系列相关产品,各项指标均已达到目前的国际水平。现在OCR证件技术又与人体生物特征识别结合起来,朝着人证合一的方向发展。我们相信,随着科学技术的不断发展,完全计算机化的、能体现高度社会文明的出入口管理时代即将到来。

==================================================================================================================================

OCR(Optical character recognition光学字符识别)技术出现于上世纪50年代中期,至今已有40余年的历史,70年代后期,由于LSI及CCD器件的出现使其进入了一个崭新的实用阶段,在计算机自动录入、票据识别、信函分拣、资料分析等很多方面获得了广泛应用。

OCR技术是随着模式识别和人工智能研究的发展而产生的文字识别技术,在国际上,文字识别目前主要指光学字符识别(OCR)。所谓光学字符识别,简言之就是用电子计算机自动辨别写或印在纸(或其他介质)上的文字。

近十几年来,它又被成功移植到证件行业上来,并制定出了相应的国际标准。由于其独特的技术特点,在护照、签证、身份证及大型会议代表证等ID(Identification)领域获得了广泛的应用。OCR证件阅读机(OCR ID document reader)就是用于识读此类证件的计算机专用外部设备。该设备融光、机、电、计算机技术于一体,涉及模式识别、图像处理、人工智能等学科知识。

OCR技术的识别原理可以简单地分为相关匹配识别、概率判定准则及句法模式识别三大类。相关匹配识别是根据字符的直观形象提取特征,用相关匹配进行识别。这种匹配既可在空间区域内及时间域内进行,同时也可在频率域内进行,相关匹配又可细分为图形匹法、笔划分析法、几何特征提取法等;利用文字的统计特性中的概率分布,用概率判定准则进行识别称概率判定准则法,如利用字符可能出现的先验概率,结合一些其它条件,计算出输入字符属于某类的概率,通过概率进行判别,根据字符的结构,用有限状态文法结构,构成形式语句,用语言的文法推理来识别文字的方法就是语句模式识别法。近年来,人工神经网络和模糊数学理论的发展,对OCR技术起到了进一步的推动作用。

广义OCR包含的内容十分广泛,按所处理的字符集可分为:西文识别(包括数字、字母和符号)和汉字识别,按识别文字类型可分为:单体印刷体识别、多体印刷体识别、手写印刷体识别和自然手写体识别;此外,如票据识别、图纸自动录入和理解、笔迹鉴别、印章鉴定等都可归为OCR技术范畴。

衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度等。

近些年来,现代证件技术和OCR技术相结合产生了OCR技术和证件技术的简单揉和,也不是普通OCR的简单化,而是一门受到有关各界广泛重视的,具有较大发展前途的新兴技术。一般情况下,我们把采用此项技术的证件成为OCR证件(OCR ID document)把OCR证件信息的读出设备成为OCR证件阅读机(OCR ID documents reader),并称适应于OCR证件的文字识别技术为证件OCR。OCR证件技术研究涉及多项国际标准化组织(或某些领域的权威机构)颁发的统一标准,研究内容包括:有别于传统证件的制作工艺和颁发流程、专用的信息读出设备,适用于OCR证件的证件信息管理系统。

一般来说,适于采用OCR技术的证件主要是一次性颁发,长时期有效,信息不可改写的身份证件,如由政府机关颁发的护照、签证、居民身份证、儿童证等。总之,随着应用范围的不断扩大,OCR 证件从1990年以来,已有加拿大,美国,日本,新加坡,泰国,南韩等十几个国家的国民护照上采用了光学字符(OCR),使护照证件能够机读,大大地加快了通关速度。此外,还有荷兰,法国,列支敦士登等国家颁发了含有OCR字符的身份证件。我国的因私护照也在92年推广了在资料页上打印OCR字符的工作,设计有三行OCR字符的"港澳居民往来内地通行证"也已正式启用。

OCR证件的许多技术指标和常用格式,均有国际通用标准规定或已形成国际惯例,与OCR证件技术相关的各种标准很多,目前,OCR证件主要有三种信息记录格式:ID-1(3行×30字)ID-2(2行×36字),ID-3(2行×44字)(记录信息量都在80BYTE左右,对普通身份证件比较适中)。每种格式证件的尺寸规格和燃烧性、毒性、抗腐蚀性、温度/湿度特性、光谱反射率等物理特性在ISO7801中规定。

用于OCR证件印刷或打印字体主要有OCR-A和OCR-B两种,字符的各种细节和大小尺寸在ISO1073/I和ISO1073/Ⅱ中规定。

为保证良好的读出率,OCR证件机读码的打印/印刷质量(如打印灰度、油墨光谱、字符缺损和噪音控制等)必须保证,这些指标在ISO1831中有详尽的叙述。

OCR证件生成流程中,打印设备必须采用高精度的打印机,最好是分辨率在300DPI以上的激光打印机,纸张裁切装置其裁切精度至少应达到0.3mm以上精度。与一般证件不同,OCR证件在正式发放前必须进行质量检查,只有检查合格的才能发放。用于完成OCR证件发放前质量控制的设备成为OCR 证件校验机,用于对机读护照进行质量控制的机器就是机读护照校验机。OCR证件校验机其工作原理与阅读机基本一致,但它除了对证件上的机读码进行识读外,更重要的功能是对证件的各种参数如机读码位置、衬纸反射率、字符浓淡和机读码字体是否标准等进行测量,从而达到剔除不合格证件的目的。正因为校验机和阅读机实现的功能不同,所以考核二者的指标也不一样,对于阅读机主要强调其识别正确率和识别速度。对于校验机参数测量是主要功能,必须保证测量精度和测量准确性,如对机读码打印位置的测量至少应精确到0.1mm以上,最好能达到0.05mm。相对而言,校验机字符识别方法较阅读机简单,甚至可以简单的采用固定点阵模板匹配进行识别,其目的是对与标准字符差异较大给予指示。至于速度,一般来说校验机完成一本证件质量检查的时间小于4秒就可以接受。

OCR证件阅读机是OCR证件是否能很好地推广应用的关键所在。OCR证件阅读机其主要功能是尽量快速、准确地识读证件上的机读码信息,一般地说,阅读一本证件的时间应2秒,按字符计识别准确率应达到99,9%以上。

与普通OCR系统不同,OCR证件阅读机不可能采用普通扫描仪扫描图像,必须有专用的图象扫描设备;此外,针对证件这一特殊对象,文字识别软件较普通OCR也存在一些差异。一般情况下,我们可以把OCR证件阅读机粗略地划分为由图象扫描和字符识别两大部分组成,不同的设计,其实现方案也不同。

普通扫描仪输出一般为多灰度图象,对于文字识别多灰度并没有什么优势,相反采用二值化图象更为适合,普通OCR系统一般是在识别前利用人工设置阈值,通过软件方法对灰度图象进行二值化。对于OCR证件阅读机,扫描部分直接输出二值图象,这样不但可大幅度减小数据量,而且可降低整机成本。同时这也带来一个问题,部分OCR证件阅读机其应用对象比较复杂,如机读护照阅读机,除了要阅读本国的护照外,还要阅读世界各国的护照(包括机读签证),因各国护照的制作技术、印刷工艺、底花和封膜各异,为尽量加大衬底纸与字符的反差,同时不影响证件上各种底花和防伪线的使用,OCR证件技术一般把光谱选在B900谱段。

OCR证件技术是近些年才产生和发展起来的一门新兴技术,仍在进一步发展,其相应的一些国际标准也日趋完善,应用领域也日益扩大,尤其在政府签发的具有法律效力的个人身份证应用上已得到全球各国普遍重视,愈来愈多的国家和地区开始采用此技术。从全球范围来讲,加拿大3M-AIT公司从事此项技术研究已有十余年的历史,技术上也代表着时代潮流。最近几年,英、德、日、澳也相继推出了同类产品。现在OCR证件技术又与人体生物学牲识别相结合起来,正朝着人证合一(即持证人与证件的一致性)的技术方向发展。

ID 发展新方向:OCR证件技术相关推荐

  1. Kyligence李扬:数据智能推荐成为技术发展新方向

    12月23-24日,2021数据技术嘉年华(DTC)将在北京丽都皇冠假日酒店盛大开启.围绕"智能·创新·新生态--数据智领未来 生态共创价值"这一主题,来自数据领域的领军人物.学术 ...

  2. 软件发展新方向-新技术革命

    [软件发展新方向] 近年来,由于企业的快速发展和行业间的特殊性以及企业个性化,软件大规模定制日渐成为市场需求,传统的管理软件开发上的开发效率以及实施过程已不能适应企业发展的需要.由此软件供应商大力发展 ...

  3. 电子纸导电油墨赋能双屏手机,手机发展新方向

    电子纸导电油墨赋能双屏手机,手机发展新方向 善仁新材利用公司的九大研发平台,开发出针对电子纸用的可拉伸低温固化导电油墨AS7121和纳米导电油墨AS9108以及透明导电油墨AS9605. 一 可拉伸导 ...

  4. 专家论道,把脉数据库技术发展新方向

    想知道国内数据库技术发展的新方向? 国产数据库哪些方面取得了技术新成就? 想向专家提出你的不解和疑问吗? 那么,这是你不得不看的一场直播↓↓↓ 活动概述 随着AI.5G等新技术的发展,各类数据库加快智 ...

  5. “技术驱动创新”正成为企业发展新方向,开发者该如何修炼自己?

    随着5G标准的落地,物联网将迎来更多的发展机会,而物联网和云计算的发展则是大数据爆发的主要原因,随着大数据的发展,人工智能领域也迎来了新的发展机遇.一系列新兴技术的发展,预示着企业想要在激烈的竞争中取 ...

  6. 未来高清显示器发展新趋势及代表技术解析

    有机电激发光(Organic Electroluminescence,以下简称OEL)技术,具有轻薄.可挠曲.自发光.高画质.省电等优点,它将成为未来高清显示器发展的新趋势. 一.物质如何自发光 我们 ...

  7. Bespin Global武文广:企业数字化转型进入深水区,Cloud IT成为云MSP发展新方向

    云原生的普及正在给企业对云的应用能力(Cloud IT)提出了更高要求,传统云MSP已经无法满足这些新要求. 出品 | 常言道 作者 | 丁常彦 从2020年初至今,疫情让整个世界不得不寻找一种新的方 ...

  8. 流媒体发展新趋势 p2p网络技术 p2p穿透 p2p音视频解决方案

    一. 流媒体系统及其发展趋势 所谓流媒体是指用户通过网络或者特定数字信道边下载边播放多媒体数据的一种工作方式.流媒体应用的一个最大的好处是用户不需要花费很长时间将多媒体数据全部下载到本地后才能播放,而 ...

  9. 蓝牙技术|AirPods Pro 2或将搭载运动传感器,TWS蓝牙耳机发展新方向

    新报告显示,得益于更新的运动传感器,苹果 AirPods Pro 2 无线耳机将首次具备健身追踪功能.去年,彭博社 Mark Gurman 表示,AirPods Pro 2 将配备更新的运动传感器,并 ...

最新文章

  1. Symfony 使用 hwi/oauth-bundle 实现第三方登录
  2. 光大银行分布式实战:国内最大缴费平台的数据库架构转型
  3. python--内置函数
  4. Harbor Docker 镜像仓库搭建
  5. python编写异常处理_Python 简明教程 --- 23,Python 异常处理
  6. 【随笔】express中间件系统的基本实现
  7. FreeBSD学习笔记15-FreeBSD下安装Apache
  8. 花书+吴恩达深度学习(二六)近似推断(EM, 变分推断)
  9. 数据结构——数组、单向链表、双向链表
  10. EnableQ在线问卷调查引擎在学校教学教评中的作用
  11. 创建MSN界面式的Ext JS布局
  12. 全球知名企业高管预测2019人工智能趋势
  13. 沉睡者 - 怎么样可以在网络上挣钱,告诉你网上挣钱的5种方法!
  14. 众所周知B站(哔哩哔哩)是一个学习软件
  15. 空手套白狼案例,18个月零成本开了 3 家健身房,分红400多万!
  16. Linux pv显示进度条命令
  17. 文本编辑--程序员专属技能
  18. 内存溢出如何Dump文件
  19. Unity 应用的消息推送《一》本地推送
  20. 【苹果相册推】增加家庭协议sendmail postfix MDA指示其AppID

热门文章

  1. 会议平板红外和电容触控区别,哪个好?
  2. turf生成缓冲区--maptalks缓冲区分析
  3. FL Studio12中Fruity Blood Overdrive插件使用教程
  4. 计算机学霸电视剧,好看的青春校园电视剧 十部好看的校园剧推荐
  5. 【USACO Open11】forgot
  6. Android Studio代码检查lint使用
  7. STM32—4线SPI驱动SSD1306 OLED
  8. 3.Sunday算法的一个小优化
  9. 「新拟物化」过时了!此刻你最应该拥抱的是「玻璃拟物化」
  10. 有一只兔子,从出生后第3个月起每个月都生一只兔子,小兔子长到第三个月后每个月又生一只兔子,假如兔 子都不死,问每个月的兔子总数为多少?