OCR(联机手写汉字识别)

本文转至：http://blog.csdn.net/byxdaz/article/details/469540

2 联机手写汉字识别——笔输入——笔输入

2.1 什么是笔输入——从键盘输入说起

笔（式）输入也叫做手写输入。它的用途是在一块跟计算机连接的书写板上写字，即时把字符输入计算机。必须指出的是，笔输入的作用不只是输入字符的图形，还要据此对该字符加以识别，并用机内代码来表示，以便于对输入的文字作进一步处理。

电子计算机是西方发明的，用键盘来打印拼音文字在西方已有很长的历史，因此采用键盘向计算机输入拼音文字和标点符号是很自然的事，把字母等符号变换为便于计算机处理的编码也不困难。1838年美国人莫尔斯就已发明用点和划两种符号来表示英文字母，用来传送电报信号，使电报机进入实用阶段。1844年美国建成从华盛顿到巴尔的摩全程64公里的电报线路，揭开了人类通信新的一页。这种莫尔斯电码现在还在通信领域（如无线电报）广泛应用。计算机用的内码虽然和莫尔斯电码有所不同，但原理上是一样的，只不过采用位数固定的(0,1)码来表示各个字母而已。因此，采用通常的QWERTY键盘、配以适当软件，就可以把拼音字母以编码的形式直接输入计算机，不需对输入信息再加以识别。当然，如果输入的是写在（或印在）纸上的拼音字母或符号，那就和输入其他手写文字一样，也需要用识别软件进行识别，否则计算机也不可能“懂得”这种手写字母、符号所代表的信息。

方块汉字和拼音字母完全不同，如何把汉字输入计算机呢？

20世纪70年代以前，我国曾仿照西文打字机的式样，研制几种用于打印汉字的大键盘打字机。这种汉字打字机采用一字一“敲”的汉字键盘。键盘的盘面安放着1000多个铅字，盘面上还有两根可分别在水平与垂直两个方向移动的杠杆。移动杠杆使打字用的卡具对准某个汉字，然后敲击按键，就可以把该字打印在纸上。由于汉字字量很大，使得键盘体积不可能太小，机械结构也不简单，操作相当不便。更突出的问题是：打字员还必须熟记每个汉字的位置，否则不但不能提高打印速度，甚至无法工作。此外，大键盘的盘面虽然很大，但一般也只能容纳1000多个铅字，仅占常用汉字的一半左右（国标GB 2312-80汉字基本集第一级的字数为3755个）。打字员打字时往往由于字盘上没有所需的铅字而不得不开个“天窗”，留个空格。这样的汉字字盘，很难满足实际应用的需要。

几十年来我国科技人员为了改善汉字打印工具做了大量极其艰苦但富有成果的研究工作。主要成果之一就是改造原用于西文打字的标准QWERTY打字机，使其能用于打印方块汉字。最早投入市场并广泛在我国应用的是王永民发明的五笔编码（即所谓王码）。这种键入方法所采用的是标准键盘，体积大大缩小，打字时不像大键盘那样一字一键，一般需击键数次才能打入一个汉字。但是打字人员如果熟练记住各个汉字的“编码”，就可以“盲打”，使打字速度大大提高。80年代以后，我国经常举行全国性的汉字打字竞赛，速度最快的专业打字人员每分钟可以打入250个汉字左右，相当于、甚至略高于西文打字的速度；一般非专业人员的打字速度也可以达每分钟几十个汉字，基本上满足实际应用的需要。五笔画王码键入方法的成功，不但初步解决了把汉字输入计算机的“瓶颈”问题，对文字工作者也是极大的鼓舞。近二三十年来，不少科技工作者为了改进汉字键入方法，提出了各式各样的编码，如王码、郑码、钱码、肖码、自然码、码根码等等。据估计，80年代的10年间，几乎每个月都有两三种汉字输入码问世，汉字编码输入法总计已有数百种之多，形成一派万“码”奔腾的壮观景象。

但是，近一两年来，这种万“码”奔腾的火爆局面悄然退潮。1999年2月1日《北京科技报》在“热门话题”栏目中，以“万码为何齐喑”的头条标题，报导了“曾经辉煌一时，突破我国汉字输入瓶颈的码型输入法在新技术浪潮下被淘汰出局”的消息。该文作者用“淘汰出局”来描述汉字键入方法在汉字输入领域的处境，并不恰当。键入方法在实际上还很有用武之地，例如一般的办公室今后仍会采用打字机，因为在办公桌上用打字机打字毕竟也很方便，而且也已适合许多人、特别是西方人的习惯。不过在有些场合，例如在室外工作，用打字机输入字符就很不方便，也不符合计算机小型化的潮流。小型计算机，如已有的个人数字助理PDA （personal digital assistant）或正在发展中的掌上电脑，其尺寸比常用的键盘小得多。目前的键盘不可能和掌上电脑等小型化计算工具配合使用；把键盘缩小也不是办法，因为人的手指不可能为适应键盘小型化而变小。寻找新的输入方法是科学技术发展的必然趋势和要求。笔输入和语音输入等更先进的方法就是在这种情况下随着科学技术的迅速发展应运而生的。

那么，人们能否像平时用笔写字那样，把手写字输入计算机？计算机又是怎样识别手写的文字呢？下面我们就来详细讨论这些问题。

2.2 计算机是怎样识别手写汉字的

联机手写汉字识别有时叫做“笔（式）输入”。顾名思义，这是用笔把汉字“写”入计算机，而不是用键盘“敲”入计算机。改敲为写，既不需要死记每个字的编码，而是像通常写字那样，用笔把字直接写入计算机，更符合中国人书写的习惯，也实现了汉字实时输入的要求；此外，这种输入方法既可以用于办公室内，也可以用于室外或其他特殊场合，是一种易学易用的较好的汉字输入方法。

图2.1是笔输入装置的照片。它的硬件主要是书写板和书写笔两部分。书写板跟计算机相连，书写笔在书写板上写字时，笔画信号按书写顺序输入。书写板分为有压感和无压感两种类型。有压感书写笔在书写时能给出着力的轻重、笔画的粗细、着“色”的浓淡，以及书写时间的长短等信息，既可用于输入汉字与各种字符，又具有书法、绘画、签名等功能，是一种用途比较广泛的输入工具。无压感的书写笔则只用于输入字符，价格较为便宜。此外，书写笔还分为有线和无线两种。无线书写笔中有一个发信装置，用来靠电磁波把信号传给计算机，用户使用比较方便。

笔输入系统中，由书写笔传送给计算机的信号是一个一维的笔画串，而不是方块汉字的二维图形。以汉字“女”字为例，在书写板写这个字时，它的笔画（包括笔画类型及其位置）就按书写顺序依次输入计算机，形成具有一定结构关系的笔画串：“く、丿、一”。从原理上说，把汉字集合每个汉字的笔画串存储在计算机中，就组成笔输入系统的“字典”（标准笔画串库）。在识别某一个待识汉字时，也利用书写板把该汉字的笔画串输入计算机，然后把它跟字典中所有的笔画串逐个加以比较，求得和它最相似的笔画串，就得到识别的结果。

上面扼要介绍了笔输入系统的工作原理，实际上如何建造用于识别的字典，以保证系统具有足够高的性能却是一个相当困难、必须认真研究的问题。下面将详细讨论这个问题，并介绍解决这个问题的一些方法。

2.3 联机手写汉字识别的困难

字符识别研究初期，有的科技人员对实际上可能发生的问题和困难，估计不足。当时不少人认为0～9十个阿拉伯数码的字形很简单，正确识别问题不难解决。实践表明，这些数码虽然只有十个，字形也不复杂，但是要保证100％的正确识别率却真是难之又难。因为不同的人所写的字形可以说是五花八门、各式各样。有的人写的数字，甚至文化水平很高的人也不认识，用计算机来识别就更为困难。

联机手写汉字识别的情况也是如此。在开展机器自动字符识别研究初期，也有人觉得：联机手写汉字识别应该比印刷汉字识别容易。因为后者的识别对象是二维图形，笔画交叉重叠，不容易分开。联机手写识别时，书写者用书写板写字，已经把原来方块汉字的笔画分开，一笔一笔地向计算机输入，形成了一个一维的笔画串。只要各笔画类型、相互关系等能正确判定，单字就可以正确识别。从理论上说这种看法是对的，但实际上却困难重重。这是因为：汉字除了字量多、字形复杂之外，手写汉字书写时的笔顺和连笔两个问题，对识别率影响很大。下面分别加以说明。

按照国家语言文字工作委员会《信息处理用GB 13000.1字符集》汉字部件规范的定义，所谓笔顺是指书写每个汉字时笔画的次序和方向。显然，书写时如果笔画的走向或顺序不规范，代表某一单字的笔画串就发生变化，从而影响对单字的正确识别：

1）笔画走向

汉字笔画的书写方向大多是从左至右或由上向下。但也有一些例外，例如“斤、看、毛、爱……”等字的第一笔都是从右至左的“撤”，但有的人往往把它写做由左至右的“横”画，这样笔画串就发生变化，可能导致单字错判。更容易发生错误的是“千”字。第一笔也是“撤”，如果写成“横”画，就变成“干”字。这些字在汉字集合中还不少，如“刀、刁”、“天、夭”、“王、壬”等。

2）笔画次序

笔画的书写顺序也是影响联机手写汉字识别性能的重要因素。例如“女”字，有的人先写“く”笔，有的则先写“一”笔。顺序不同，同一个字就有两种不同的“笔画串”；某些由几个字根组成的字，如果书写顺序不同，其笔画串变化就更大。例如“建”字，有人先写“廴”，有的人却先写“聿”；又如“回”字，有人先写外边的“口”，再写里面的小“口”；规范的写法应先写“冂”，再写小“口”，最后才写下边的一“横画”，把大口“封”起来。这些道理说起来简单，但千万人书写习惯要整齐划一就千难万难。显然这种笔顺问题，对联机手写汉字识别必然带来影响。

3）笔画数的变化

汉字的笔画形态也有规范。例如“女”字第一笔的く”只是一画，不能分为“丿”和“丶”而变成两画。又例如：左部首的“阝”和右部首的“阝”，都是两画，而不是三画。这些都是常识。但用户的文化水平、书写习惯千差万别，要求做到完全相同实际上并非易事。

4）连笔

这是影响联机手写汉字识别的一个重要因素，或许是最难克服的因素。人们书写时为了加快速度，往往连笔书写。文化程度越高，连笔书写的问题越突出。这是绝大多数联机手写汉字识别系统的识别率不易提高的原因，比笔顺问题更不易解决。

手写汉字分楷书、行书和草书三种字体，如图2.2所示。楷书笔画横平竖直，体形端正；草书字形十分潦草，有的字几乎是一笔呵成。晋代大书法家王羲之书写的草书，有的字几乎无人能够辨认；行书介于两者之间，笔画不完全平直，弧度较大，而且经常连笔书写。例如把原来是三画的“口”字，写成只有两画的“ ”字，不但笔画数目有所改变，笔画类型也不相同。这种情形不胜枚举，是影响联机手写汉字识别系统性能的主要因素。]

解决上述问题的途径有二：一是对用户提出要求，希望用户尽量按正楷字体书写，笔画要横平竖直，笔顺要规范，不连笔。按照这些要求书写的字通常名之为“限制性手写字”。日本电子技术综合研究所ETL-8标准汉字库，所收集的手写汉字，以及我国一些钢笔字帖的字基本上满足这些要求（图2.3，图2.4)。如果用户按照这些规定书写，那么一般的笔输入系统的识别率都可以在98以上。可惜，事实上用户的书写习惯和风格很难改变。如果对用户提出过高的要求，则既难做到，也不符合尽量使人机界面更为友好的原则。因此，解决上述问题的另一途径，也是主要途径，应该是在识别软件上多下功夫。这些问题将在下面结合具体情况讨论相应的解决办法。

2.4 国内外联机手写汉字识别研究简况

科学技术领域中对新问题的探讨不少是从大学研究生的研究工作开始的，联机手写汉字识别研究似乎也是如此。1966年美国麻省理工学院研究生J.Lin的学位论文，大概是最早的关于联机手写汉字识别研究的文章之一。20世纪70年代美欧等国在这方面发表的论文较少，可能是他们习惯于用打字机打字的缘故。80年代中期以后：“个人数字助理”（PDA）袖珍型处理器问世。这种装置体积很小，可以随身携带，但无法用键盘来输入字符，笔输入方式才重新在西方受到重视。

日本对联机手写汉字研究较为重视。在日本政府的支持推动下，大学和公司做了很多工作，发表了不少文章。80年代研制成若干种联机手写汉字识别系统，除英文字母、日本假名、数码和标点符号外，能识别的汉字字数约有2000～3000个。1992年夏普公司推出笔输入电子笔记本，可识别5000多个汉字，识别率达95％，使用者可按常规笔顺书写，但对连笔限制较严。该产品代表了日本当时联机手写汉字识别技术的最高水平。

我国关于汉字识别技术研究开展较晚。80年代初个人计算机才在国内逐步得到应用。一些大学和研究机构认识到汉字输入的重要性，积极开展有关研究。1983年中文信息学会第二届全国学术会议在武汉召开，哈工大、江西冶金工程学院、上海仪器仪表研究所等单位在大会宣读了有关联机手写汉字识别的论文，开我国汉字识别研究的先河。1984年11月在北京举办的高科技成果展览会上，哈工大和总参61所联合展出了联机手写汉字识别实验系统，引起了与会学者的高度重视，大大促进了这方面的研制工作。此后哈工大、总参通信部、清华大学与西安交大等单位均有研究成果通过鉴定，但大都属于实验系统，识别汉字字数采用我国国标GB2312-80基本字符集所规定的两级汉字，即3755个或6763个，大大超过当时日本研制的系统所能识别的字数，使我国自己研制的系统较接近于实用要求。1992年由总参通信部与中科院自动化研究所联合研制成功的联机手写汉字识别系统，以“汉王笔”为名正式投入市场，识别字数为676312000字。用户初次使用时识别率约为80％，经常使用后可达到95％，对笔顺要求也不严格，部分字连笔书写时也能正确识别。在当时计算机速度尚不太高的情况下，识别速度基本上能跟上书写速度。这种产品当时不但在我国内地和香港销售，还销往台湾地区，以至新加坡等国。我国实行改革开放政策以来，国家对汉字识别研究十分重视，先后把它列入国家“七五”、“八五”等重点攻关项目和“863”高科技研究计划中，大大促进我国有关研究工作的发展。90年代以来，若干种联机手写汉字识别系统，如上述中自公司的汉王笔，以及后来的北大方正的如意笔、清华文通公司的文通笔和哈工大的万通笔等纷纷投入市场，取得了很好的社会效益和经济效益。

近几年来，台湾的“蒙恬笔”、美国摩托罗拉的“慧笔”等笔输入装置，也先后进入我国市场。尤其是摩托罗拉公司仗其雄厚资本，开展巨大宣传攻势，企图抢占我国笔输入的市场，对我国有关企业增加了不小压力。值得我们引以为荣的是：在1995年12月和1998年4月前后两次由我国“863计划智能组主题专家组”组织的实测评比中（这种评比由863专家组主持，每两年举办一次），清华文通笔和中自公司的汉王笔的性能都居于领先地位；对329309个汉字测试的综合结果，我们的识别率比台湾蒙恬笔和摩托罗拉的慧笔高5～6个百分点。但是，竞争的帷幕刚刚揭开，我国研制的系统目前已有的优势不大，而境外公司，包括台湾地区的有关单位，却已大张旗鼓，投入更大的人力物力，在研究和宣传方面和我们竟争。他们除了在改进笔输入系统性能方面下功夫之外，还配合语音输入，进一步改善人—机接口的功能，抢占我国市场更大的份额。我国宋代诗人杨万里诗云：“莫言下岭便无难，赚得行人错喜欢。正人万山圈子里，一山放出一山拦。”今后将困难重重，任重而道远。我们必须做更艰苦的工作，才能保持我们在汉字识别方面研究工作的优势。

2.5 笔画编码法

上面讲过，笔输入系统是利用书写板把方块汉字图形变换成笔画串，送入计算机来识别汉字的。如何根据笔画串来设计识别特征库，使系统的识别率和识别速度足够高，而且，鲁棒性好、开销少等等，都是设计者应考虑的问题。30多年来，国内外科技工作者围绕这些问题做了不少工作，提出了多种识别方案。这些方案有的虽因效果不尽理想而未能付诸应用，但它们仍各有特点和参考价值。为了使读者对前人的工作有所了解，我们先介绍一种典型的结构识别法——笔画编码法。这种方法的工作原理简单、易懂，对初学者了解联机手写汉字的工作过程和问题也许会有所帮助。

笔画编码法是IBM公司的E.F.Yhap等人1981年提出的。这种识别方法的基本思想是：汉字结构分为笔画、字根和单字三个层次。笔画是构成单字的基本单元（基元），若干笔画构成一个字根；字根是组成汉字的基本部件，相当于拼音文字中的字母，按照一定规律把若干个字根加以组合，就构成一个单字。

图2.5是识别系统的框图。由书写板输出的笔尖移动轨迹（笔画）的信号，经去噪声等预处理后，送入笔段分析器。笔段分析器的作用是确定每一笔画各个笔段的性质及相互关系；笔画分类器则根据这些笔段确定该笔画的类型及其位置；之后字根判定模块把笔画串按一定规则组成字根；最后在确知待识单字各个字根已书写完毕之后，将它们的编码同机内字典标准编码匹配，完成识别过程。

图2.5是书写“女”字时，书写板输出的笔画串。按照规范的写法，这个字包括“く、丿、一”三笔画。如果按规范顺序书写，对各笔画的判别也都正确，那么根据这一笔画串就可以正确地识别“女”字。

怎样选用组成汉字的笔画和字根，是设计手写汉字识别系统的关键问题之一。

汉字的笔画和字根过去没有严格的定义，其形态和结构也没有统一的规范。近年来我国文字工作委员会对汉字字形结构做了很多研究工作，制订了一些标准，对今后有关汉字处理和识别都将起重要的指导作用。但30多年前这些标准还未建立。当时从事汉字键（盘输）入与汉字信息处理研究的科技人员，只能按照工作需要和自己的经验，各自制定一些规则，否则无法开展工作。

为了适应联机手写汉字识别的需要。IBM公司定义了42种“标准”笔画和72种字根。

通常认为，汉字笔画有数十种。如何确定笔画类型及数量是汉字结构识别法必须解决的头一个问题。显然，笔画类型不宜过多，否则笔画判别比较困难，笔顺问题也更为复杂；但是笔画类型也不宜过少，否则难以构成足够数量的单字（例如6000～10000个字），识别系统的应用范围将受到限制。IBM在他们研制的系统中定义了42种笔画，并把它们

分为单笔段和多笔段两种类型。单笔段笔画的判定比较容易，多笔段笔画如

“フ、く、、乙”等需先判定该笔画各笔段的类型、走向及相互关系、然后按笔画加以编码，就可以建立这种笔画的模板，作为匹配、判定待识笔画类型的依据。必须指出的是：笔画位置是一个十分重要的参数。例如“太、犬”、“玉、主”等字的笔画类型及数量都相同，但“丶”的位置十分重要。点“丶”的位置不同，单字的意义就完全不一样。对于多笔段的笔画来说，位置（坐标）也是一个极其重要的属性。

关于字根：我国GB13000.1字符集“汉字部件规范”的《汉字基础部件表》确定的部件（字根）共560个。“这本规范对中文信息处理、特别是对汉字键盘输入方法，具有规范作用”。但这是1998年才发布的标准，而且它所制定的字根数量太多，用于计算机汉字识别很不合适。针对联机手写汉字识别的情况，IBM公司采用当时他们所规定的42种标准笔画，构成72种字根，并依照拼音文字的方法，把这种字根叫做字母，利用树结构逻辑方法，按照一定的编码规则，把字根“拼成”单字。

限于篇幅，这里不能列举IBM公司所规定的42种标准笔画和72种字根。下面以两个四根字为例来说明单字编码方法，为此需先引入一些符号：

句号“。”表示左右。例如：（木）。（艮）→“根”字

逗号“，”表示上下。例如：（日），（十）→“早”字

星号“*”表示该位置暂时“空缺”。例如：（*），（白）表示字根“白”的左边的字根暂缺。

利用上述符号，可以把字根“拼成”单字。例如，四根字“哼”和繁体字“樂”的编码串分别是：

（口）。（（亠），（口），（子））→“哼”字

（（（*。白）（么。*））。么），（木）→“樂”字从上述例子可以看出，利用所规定的72种字根和它们的相对位置关系，可以拼成各种汉字。但是根据上述的拼字规则，同一个单字可能有不同的拼法。例如“集”字，如果书写笔顺与习惯不同，则可能得到如下的字根序列：

（（么）。（白））。（么），（本）→“樂”字

笔顺是联机手写汉字的特殊问题，在用笔画构成字根时，这个问题尤其突出。关于如何解决笔顺问题以后再作讨论。

IBM公司采用上述方法来识别联机手写汉字。对

920个汉字的实验结果是、正确识别率为91.1％；当识别字量增加至2260个时，九个用户第一次书写试验的平均识别率为79. 9％；第二次试验时提高到96. 4％。结果表明，这种方法在原理上是可行的，识别字量增加不影响原来的处理方法，只需扩充模板的容量和相应的单字编码系统。但这种方法过于麻烦，笔段和笔画都是图形符号，编码方法相当复杂，计算机运算处理不太方便。此外，他们没有深入考虑笔顺与连笔的影响，问题较多，因而未见其付诸实用。

2.6 汉王笔

汉王笔是中国科学院自动化所研制成功的一种笔式输入系统，它是．国内外最早投入市场、获得广泛应用的产品。

上面介绍的笔式输入系统采用笔画为基元，按笔画的书写次序（笔顺）进行排序，构成一维的笔画串，作为单字判决识别的依据。由于笔画种类较多，而笔顺又没有严格规范，因此，如果要求识别字典所存储的标准笔画串尽量包括各种可能的笔顺，则识别字典将十分庞大；如果在匹配运算时使用句法误差分析的方法来校正笔顺，则运算时间将大大增加，降低识别速度。这一矛盾很难解决，这是以笔画为基元的联机手写汉字识别方法较难用于实际的重要原因。考虑到笔段的类型较少，在二维汉字图形空间有较稳定的顺序，而且这种顺序与书写的次序无关。因此，汉王笔的研制者提出以笔段为基础，根据汉字字形结构排序，可得到和笔顺基本无关的、代表每个汉字的笔段串。这是汉王笔的主要思想。

图2.6是汉王笔所采用的笔段，共11种，叫做广义笔段，所有楷书汉字都由这些广义笔段以不同长短和不同结构组成。根据对汉字字形分析可以看出，组成汉字的笔段的相互位置可分为连接型与分离型两大类：两个分离笔段的相对关系有左上、中上、右上、右中、右下、中下、左下和左中，共8种；相连两个笔段则有9种连接方式。利用这17种笔段之间的稳定关系，可以建立一种规则来确定两个笔段的优先次序。这种规则可以表示为一种映射。这样，一个汉字的笔段串只与该汉字中的各笔段的类型、笔段关系以及映射有关，而与笔顺没有关系。基于上述方法实现的联机手写汉字识别系统能适应不同的笔顺变化，而且具有“学习”功能，除能识别约12000个手写楷书汉字（包括国标6763个字和部分繁体字）以及各种字母、符号之外，使用者还可以任意定义1000～1500个字模，以不同文件名存放在软盘中，随时调出使用。例如，用户可以定义某一种图形代表一个汉字词、组，书写时只要在书写板上画这个简单图形，就可输入相应的词组。这样既提高了识别速度，也可使识别率有所改善。这种笔输入技术最近又扩展到日文和韩文识别，效果甚佳。

目前在市场上销售的汉王笔有三种搭配。一种是一般的“汉王笔”，能识别繁、简和常用的异体字共约13000多个，正楷书写时识别率达99％；系统还具有词组联想、前后联想功能，以及签名、绘画、保留手迹和替代鼠标等作用。第二种产品“汉王听写”，把汉王手写汉字识别技术跟IBM Viavoice语音识别核心集成在一起，形成互补的、既能“手写”，又能“口说”的非键盘汉字输入方式，正常语速时每分钟可输入150个汉字。第三种产品“汉王读写听”，是汉王笔、汉王OCR和语音多种系统的集成，主要用于将书写文稿或印刷资料输入计算机，识别有错误时，可以用手写输入进行修改，同时还可以对输入材料进行排版和编辑，等等。

2.7 文通笔

笔顺和连笔是影响联机手写汉字识别系统识别率的两个主要因素。前面讲过，解决笔顺问题的方法有二：一是对使用者提出严格的要求，希望他们按“标准”的笔顺、一笔一画地写字。这种要求，实际上很难做到。这是因为，事实上我国还没有统一的笔顺标准或规定；即使有一种标准，每个人的受教育程度和习惯不尽相同，要求做到都按标准笔顺写字，实际上几乎是不可能的。另一种办法是：对于容易出现笔顺不同的每一个汉字，设置若干标准模板。例如“女”字，有的人先写“く”笔，有的人则先写“一”笔，这个字就可能有两种不同的笔顺。在“字典”中可设置两个模板，它们的笔画相同，而笔顺不一样，但都代表“女”字。这样做会使字典的容量大大增加。在集成电路规模还不够大、速度也不够高的年代，这种办法不容易推广应用。

连笔是一个更为困难的问题，实际上也很难解决。人们为了提高书写速度，写字时往往是一笔呵成。要求他们一笔一画、按部就班地书写，也几乎是不可能的。这个问题比笔顺问题更不易处理，这是目前市场上出售的笔式输入装置的识别率尚难进一步提高的主要原因。

最近投入市场的“文通笔”在解决上述笔顺和连笔的两个问题上做了一些努力，取得了一些成果，并在全国评测中获得较好的评价。取得这些进展的原因，一方面是由于计算机技术的迅速发展，机器资源已经不是制约识别算法的主要矛盾，设计者不必过分担心计算机的容量和速度的问题，可以更大胆地设计一些具有较高的抗干扰能力的算法；另一方面，在识别算法上，文通笔的研制者提出了一种富有创造性的结构法与统计法相结合的新技术，较好地解决了单纯的结构识别方法难以适应手写汉字字形及笔顺变化的问题。下面扼要介绍这种算法的要点。

上面讲过，结构模式识别比较充分地描述被识别对象的结构信息。但是这种方法也有不少缺点：

①模式的描述是基于符号而不是基于数值，抗干扰能力差。

②描述基元关系的语法规则一般需由人工编写，难以利用机器自学习方法获得。

③句法分析较为复杂，运算量大。

针对上述问题，文通笔在汉字字形建模方面做了一些创新性工作，包括：

①在比较严格的概率基础上建立了一种模式统计模型，可用于描述联机手写字形的空间信息，并易于用统计方法进行训练，建立手写汉字的二维模型。

②对隐马可夫模型(HMM)做了改进，提出控制状态转移路径的概念，使模型较适用于联机手写汉字的描述，较好地反映手写汉字的时间信息，还给出了这种模型的路径搜索算法及参数训练方法。

③将上述两种模型结合起来，用于联机手写汉字识别，在很大程度上解决了连笔和笔顺变化对识别系统性能的影响，使系统具有较高的鲁棒性。

采用上述方法研制成功的“文通笔”，在近年两次“863计划”智能机主题专家组组织的评测会上名列前茅。系统可识别6763个简体汉字和5401个繁体汉字，对于书写比较工整的字，识别率在95％～99％之间；书写比较潦草的字也可达到87％～93％，前十位累加识别率仍达98％～99％；采用主流微机的识别速度大于3字／秒，能满足实际应用要求。

2.8 书写板及其他

书写板是笔式输入系统主要部件之一（参看图2.1）。

图2.7是显示器窗口的照片（文通笔的用户界面）。书写笔由电缆联至计算机。书写时笔画即时输入计算机并显示于屏幕窗口上，如“制”字所示。这个字经识别之后，即转录至其左边的文件、或用户事先指定的文件中。由于识别器第一个输出的单字可能不正确，所以在窗口“制”字的上面有一组“候选字，”（制刮利到列……）。当第一个识别输出的字不正确时，用户可从这些候选字中挑出所需的字代替原来输出的字。利用这种办法，可以立刻改正错误，提高系统的正确识别率。候选字通常有十个，这十个候选字中含有正确字的概率通常叫做“前十字累加识别率”，简称“十字识别率”。显然十字识别率比只有一个候选字的识别率高。在手写汉字识别系统中经常采用这种方法来即时改正识别错误，使识别率进一步提高。

“候选字”，右边一行字是跟第一个候选字声音相同的字（同音字）。例如“芝枝支吱知……”，等等。使用者对有的字不知道怎样写时可以不再按常规方法输入，只要输入一个同音字，再在合适的字上“点”一下就输入所需的字了。

在屏幕所示“制”字的右侧还有一块空白板，使用者在写好“制”字之后，可以立即在该白板上继续写下一个字，不必停顿，这样可以提高输入速度。

为了方便用户输入，屏幕上还设置了一些其他功能的算法，如可能的词组（见“智能联想”栏）、外文书写区等，这里不一一列述。

老式的书写板在每一次写好一个待识字以后，需按一按钮表示这个字已经写完。现有的书写板大多预先设置好书写一个字所需的时间（例如0.5秒），用户必须在规定时间内把每个字写好。预置时间可以按情况随意调节，比较方便。

书写板有许多新的花样和用途。例如可代替鼠标，可以画图，可以保留手迹，如签名和签名确认等。有的书写板把与计算机连接的小电缆去掉，采用无绳输入，使用比较方便，但价格较高。以文通笔软件为核心的紫光笔Unispen可无绳输入，目前的售价为1800元左右。

据《科技日报》1997年11月14日报导，IBM公司开发了一种新的计算机书写系统，这种系统采用一支特制的书写笔和一块书写板。书写笔除了装墨水外，还有一个线圈和电池；书写板则由传感器、16位的微处理器和一个1兆字节的存储器组成。书写时，书写板上的传感器将笔尖移动的信号传输给微处理器，进行数据处理，经处理后的数字化信息被存储起来。在写满一页纸之后可以按书写板的按钮，启用一页新纸以便继续书写。这种特殊的书写板可存储大约50页的内容，写满后可以把它转存到计算机中保留。书写时间也会被准确记录下来。采用这种书写记录方法，手书不必转化为印刷文本即可保留原件，在需要时再利用附加的识别软件，可获得相应的印刷文本。这种特殊的书写板使用方便，用户不必坐在计算机前面即可随时随地输入汉字和其他文字。这是很有应用前景的书写工具。

2.9 个人数字助理和智能通信手机

个人数字助理（PDA）是一种袖珍式的能够存储约会时间、地点，常用通信地址与电话号码，以及某些重要数据的电子记事本。它还带有“笔输入”的小型书写板和笔，用户可以记录有关信息。对于事务缠身、责任繁重的公务人员或商家来说，这无疑是一种很得力的“电子助理”。最先推出这种产品的是Apple公司，它们开发了一种叫做Newton MessagePad的产品，原来希望先在一家美国大型医药公司试用，然后在市场上推广。可惜早期笔输入的性能还不够理想，PDA与台式电脑之间也缺乏应有的接口装置，文件级的数据传送仍需依靠手工处理，很不方便。因而这种PDA机问世不久即销声匿迹。日本也曾开发这种产品，1993年笔者在日本访问时曾在市场上见到这种袖珍记事机，价格为10000日元左右。但其后在市场中也很少见到，陷于夭折。究其原因，这种PDA只能记录一些数据，却不能对数据做进一步处理；而且由于当时技术条件的限制，其存储量也不大，笔输入的误差也较高，因而难于推广。

近几年来，随着微软公司Windows CE操作系统的问世，情况发生实质性的变化，许多硬件厂商开始研发基于小型核心操作系统的手持PC机。新型的手持电脑将配备更强的处理器、兼容多种数据格式、具有大家熟悉的界面和标准的开发工具，并能更好地与台式机或笔记本电脑进行信息交换。U.S.Roboties公司于1996年推出重量仅为5.7盎司（1盎司≈28克）的Palm Pilot是这种崭新产品的标志。它不但能记录地址、日期、约会、做摘要和备忘录，还具有一个Hotsync应用程序和配套的底座。用户只需把手持PC机放入底座，然后揿动按钮就可实现数据同步；Palm Pilot还装置有屏上键盘和该公司的Graffiti手书识别软件，用户可以在1平方英寸(1英寸=25.4毫米）的屏幕上书写文字或字符，随时随地录入信息，必要时还可以和功能更强大的主流机联接，对数据进一步处理，使原来只有记录功能的PDA摆脱了“孤立无援”的局面，有人认为这将是第三代PC机的雏形，用途未可限量。

2.10 智能笔

鉴别签名的真伪是日常工作一件极其重要的事情。由于因特网的广泛使用，电子购物、电子银行、电子商务正迅速走向家庭和企业，正确鉴别财务交易、合同协议等当事人的签章是至关重要的问题，如有差错后果不堪设想。

签名的真伪通常只是根据笔迹（字形）来鉴别的。事实证明，不少假签名可以乱真，使人真假难辨。

为了解决这种冒名顶替的签字，比利时科学家研制成功一种能认识自己主人的“智能笔”。这种笔既可以是笔式输入的工具，又是一种可靠性极高的签字笔。该笔除了具有一般书写功能之外，还带有收发信机、微型存储器、模拟／数字转换器、倾角传感器、坐标传感器、笔尖压力、运动速度与加速度传感器等部件。用户书写时，这些部件将书写过程的笔尖压力、书写速度及加速度等参数由收发信机传送到PC机。后者在鉴别客户的签名时，不仅要判别签字的字形，还要审查客户书写时．用力和运笔的特点，这些特点其他人是很难模仿的，因而对签名真伪的鉴别更为准确、可靠。

上述关于保障签名安全的方法早已有人研究。笔者于1980年初在国外访问时，曾在某大学见过类似的“签名笔”。跟该笔的笔尖相连的压力及加速度传感器采用航天器测量重力的精密部件，价格昂贵。这种特制的书写笔当时可能只用于机要部门。随着因特网的迅速发展，网上安全问题更为突出，而且涉及千家万户。“智能笔”的出现，对因特网解决安全保障问题会起很好的作用。

随着电子技术的迅猛发展，有关科技人员又进一步考虑如何把上述手提式电脑加上通信功能，并跟因特网联接。这种设想近来已成为很多研究人员和厂商努力奋斗的目标。“一个让你在旅途中能访问你的台式 PC 机和公司网络的产品”，将是今后电器市场上的“骄子”。这种名为“智能电话” (Smart Phone) 的产品，将是移动电话、手持电脑和因特网访问三者巧妙结合的珍品。芬兰的 Nokia 公司已经推出这种产品，命名为 Nokia 900 Communicator ，声称它具有电子邮件、话音和万维网（ WWW ）浏览等功能；其他一些知名厂商，如瑞典 Ericsson, 美国 Motorola 等也都有研制智能电话的计划。不过有的人认为，使智能电话机具有万维网浏览功能只是为了宣传，因为它需要相当的带宽。智能电话主要用途应是能收发电子邮件报文，并能跟主流 PC 机互联操作，既有通信和人网的功能，又能记录，处理信息，真正发挥“万能”的“个人数字助理”的作用。在这一发展进程中，努力改进“笔输入”的性能，使其在条件较为困难的“袖珍式”手机中更好地发挥作用，是一项十分重要的研究工作。

OCR(联机手写汉字识别)相关推荐

OCR(脱机手写汉字识别与印刷汉字识别)
4 "最后的堡垒"--脱机手写汉字识别 4.1 攻克堡垒待创新脱机手写汉字识别的用途是把手写字符用字符阅读器自动输入计算机,常用于信函分拣.银行支票识别和统计报表处理以及手写文稿 ...
联机手写汉字识别，基于新型RNN网络结构的方法
本文简要介绍2019年4月Pattern Recognition录用论文"RecognizingOnline Handwritten Chinese Characters Using RNN ...
联机与脱机手写汉字识别
1. 知识了解 1.1 汉字识别的两类主流方法 Online recognition: 联机识别,基于笔画轨迹 Offline recognition: 脱机识别, 基于图像 ( 联机手写汉字识别所处 ...
【手写汉字识别】基于深度学习的脱机手写汉字识别技术研究
写在前面最近一段时间在为本科毕业设计做一些知识储备,方向与手写识别的系统设计相关,在看到一篇2019年题为<基于深度学习的脱机手写汉字识别技术研究>的工学硕士论文后,感觉收获比较大,准备 ...
非特定人脱机手写汉字识别
陈友斌丁晓青吴佑寿一.汉字识别概述汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋,并将继续发挥重要的.其它文字形式难以取代的作用.然而, ...
halcon识别ocr汉字_手写汉字识别——手写文本快速电子化的好方法
最近在试着把之前手写的一些文本录入电脑,在动手敲打之前,我就想会不会已经有很好的工具能够解决这个问题了呢?一搜索一尝试,我才发现原来手写汉字识别已经发展到很实用的地步啦-连我这..一手烂字都能有很高的 ...
商汤OCR文本检测+识别开源(FOTS),TF实现NBA记分牌识别
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx 常见的深度学习OCR过程中,会把文本检测与文本识别拆分成两个部分,通过先检测后识别的方法对图片 ...
tensorflow 中文字体训练集_TensorFlow与中文手写汉字识别
来源: 小石头 www.duanshishi.com/?p=1753 这里我会拿到所有的数据集来做训练与测试,算作是对斗大的熊猫上面那篇文章的一个扩展. Batch Generate 数据集来自于中科 ...
TensorFlow与中文手写汉字识别
转自:http://hacker.duanshishi.com/?p=1753 GitHub: https://github.com/burness/tensorflow-101/tree/maste ...
手写汉字识别怎么操作？几个步骤轻松掌握
最近我的小伙伴遇到一个麻烦,由于之前比较喜欢手动写字做会议记录,平时在笔记本上对会议内容记录的密密麻麻的,最近他的上司要求他讲近段时间的会议记录内容整理到单子文档中发送过去.这可给我的小伙伴难住了,难 ...

OCR(联机手写汉字识别)

OCR(联机手写汉字识别)相关推荐

最新文章

热门文章