杨俊叶++王训伟

摘要:文章首先对OCR技术的发展背景进行了介绍,指出了OCR文字识别系统在扫描仪、文字编辑等领域的应用及优势。通过对OCR技术工作原理的介绍,重点论述了OCR文字识别系统主要的图像处理模块、版面分析模块、文字识别模块、文字校对模块及输出模块的功能、实现方式以及技术要点。文章最后从更精准的文字编码库和一种到多种算法的改进两个方面就OCR文字识别技术未来的发展趋势进行了分析。

关键词:OCR技术;图像识别;功能模块;文字编码库

一、概述

OCR(Optical Character Recognition) 技术的中文名称是光学字符识别,通常是指通过扫描仪、数码相机等电子输入设备将纸质文档上的信息,如文字、表格和图像等信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用字符格式存储在文本文档中。随着移动internet网、高级智能手机以及微信和QQ等社交网络的发展带来了海量图片信息,图片成为internet网信息交流主要媒介之一,如果信息是由文字作为载体我们可以通过搜索引擎进行检索,但是图像和表格文字我们却无能为力,在这种情况下,计算机的OCR图像识别技术就可以解决这个难题。OCR实际上就是让计算机去识别图像为可编辑的文字,实现图像到文字的转换,通过图像处理和模式识别技术对光学字符进行识别,这是自动识别技术研究和应用领域中的一个重要方面。目前大部分的扫描仪制造商将OCR技术集成到扫描仪软件中,实现边扫描边进行OCR文字识别,扫描仪与OCR文字识别技术的完美结合,大大方便了人们对扫描图像上的文字编辑需求,OCR文字识别技术己成为绝大多数扫描仪软件的标配。

二、OCR文字识别的原理

OCR文字识别的原理是计算机对图像进行版面分析、处理和模式识别。图像版面分析是指通过对图像文字的预处理,文字图像的分割和坐标定位;文字模式识别是通过检测暗、亮的模式,放大图像确定其形状特征并进行提取和判断,最终通过图像黑白点二进制与字符编码进行匹配,根据最相近的匹配度将文字图像特征进行文字的转换。

标准的OCR文字识别系统主要包括图像处理模块、版面分析模块、文字识别模块、文字校对模块和输出模块。

(一)图像处理模块

主要是通过扫描仪设备将纸质的期刊、学位等文献数据进行扫描,一般建议扫描成线图模式(灰图或彩色图识别率低),扩展名为tif图格式,图像分辨率为300DPI,图像要进行去污点、去黑边、图像居中和图像纠偏等工作,最好不要有底纹,总之保持图像为白底黑字,图像页面整洁从而提高文字识别率。

(二)版面分析模塊

可以分为自动和手工两种方式,自动版面分析程序主要使用黑白二值法,逐页将所有文字区域部分进行画框定位并存储相应的区域块坐标;手工版面分析是指人工通过鼠标在图像文字区域进行画框,选择特定区域进行文字识别,这种方式主要应用于需要从图像提取特定区域的文字,有针对性的文字识别。另外还可以设置图像文字的横竖排版方式以及中外文字体信息等以提高文字识别率。版面分析模块原理主要是对版面划分、更改划分,即对版面的理解、字切分、归一化等,可选择自动或手动两种版面划分方式。目的是告诉OCR软件将同一版面的中英文字体、图像、表格、横版竖版方式等分开,以便于分别处理,并按照怎样的顺序进行识别。

(三)文字识别模块

文字识别模块是OCR软件的核心部分,文字识别主要使用了黑白二值法,以单个汉字“一”为例,将文字颜色取反,也就是白变成黑,黑变成白,以单字图像区域分为上下两部分,这种方式将每个字都可以划分为不同区域,将不同区域的反选区域用二进制的方式进行转换,将每个文字区域划分后生成一个二进制编码,我们预先对每个标准的文字进行二进制编码存放到数据库中,用OCR文字识别完的结果与标准数据库中的二进制编码进行比对,从而选择最接近的二进制编码文字,最终得到文字识别结果,如果没有找到相似度高的编码,则系统识别认为有误文字会以醒目的红色显示,提示用户需进行人工修改。文字识别模块主要对单个图像文字进行识别,所以必须对图像进行逐行切割,对每行汉字通常也是逐字进行识别,即单字识别,再进行归一化处理。

(四)文字校对模块

文字校对主要分纵向校对和横向校对,纵向校对是指按照顺序把文字识别结果进行排列,将识别结果所有相同文字进行调用,显示识别结果中所有相同的文字,调用识别结果同时调出对应原图进行人工比对。横向校对是指按照我们的阅读习惯逐行进行校对,显示一行识别结果和对应的原图进行校对,发现错字进行人工修改,对识别结果经常出错的文字,需要重新进行标准文字编码库改写,以达到文字精准识别。

(五)输出模块

将校对无误的文字可以输出为文本或XML等格式,输出的文本文字完全可以编辑了,同时原图像文档可以输出PDF文档用于浏览原图,也可输出符合移动阅读的电子出版ePub格式等。

三、OCR文字识别未来发展趋势

目前的OCR发展技术主要是从图像处理进行图像清洁、去污点、图像纠偏等,然后对图文进行分析进行文字切割、图文分离等最终进行黑白二值法取得二进制编码,但是对文字进行黑白二值法,用什么方法进行文字特征抽取,成为影响OCR文字识别率的关键,所以目前文字特征提取主要是统计的特征提取方法,即通过文字区域的黑白点数,当一个图像文字分为几个区域时,一个文字切割的多个区域黑白点数进行联系,就成为空间数量组合,这种算法是目前OCR文字特征的主流算法,文字识别率几乎能达到95%以上正确率。但对于我们中国汉字特征是由象形字演变而来,所以我们还可以从汉字的笔划入手来提取文字的特征,简单说就是取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对。当然无论用哪种识别算法,识别完后最终需要通过对比标准编码二进制文字数据库,当输入文字算完特征后,须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组,标准编码库精准也将直接影响OCR文字识别正确率。

所以,OCR文字识别技术未来发展趋势,一方面将在文字编码库方面更加精准,利用精准的文字编码库与识别结果进行比对,选择最优的文字识别结果,另一方面将从一种算法向多种算法进行转换,并且我们还可以利用多种算法得到的文字识别结果之间再进行比对,最终选择最优的文字识别结果,这样将大大提升OCR文字识别率。

汉字进行计算机识别的原理,计算机OCR文字识别技术的原理和未来发展趋势相关推荐

  1. 用计算机录入稿件,如何利用OCR文字识别软件快速录入信息到电脑上?

    原标题:如何利用OCR文字识别软件快速录入信息到电脑上? 如何利用OCR文字识别软件快速录入信息到电脑上?作为一名文员,一般需要从事文件处理工作,经常会遇到需要将手上的稿件资料录入到电脑上的工作.如果 ...

  2. 截图任意识别翻译--天若OCR文字识别大神纯净版

    截图任意识别并google翻译–天若OCR大神纯净版 文章目录 截图任意识别并google翻译--天若OCR大神纯净版 一.前言 二.软件安装教程 三.软件配置教程 四.软件使用教程 五.总结 一.前 ...

  3. ocr文字识别 php源码,OCR文字识别

    OCR文字识别 简介 HI,您好,欢迎使用学而思网校AI开放平台OCR文字识别接口服务. 本文档主要针对需要集成HTTP API的技术研发工程师,详细描述OCR文字识别能力相关的技术内容.您可以通过 ...

  4. 中安OCR文字识别系统V5.0 ——OCR文字识别开发包SDK

    一.中安OCR文字识别系统V5.0简介 中安OCR文字识别系统V5.0是一种光学字符识别(OCR)软件开发包(OCR SDK):中安OCR文字识别系统V5.0为软件开发人员.系统集成商.数据加工商(B ...

  5. 百度 php 图片文字识别,PHP实现百度OCR文字识别

    OCR的百度定义 (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法 ...

  6. php 图片 字母识别,PHP+百度AI OCR文字识别实现了图片的文字识别功能

    第一步可定要获取百度的三个东西 要到百度AI网站(http://ai.baidu.com/)去注册 然后获得 -const APP_ID = '请填写你的appid'; -const API_KEY ...

  7. 迅捷OCR文字识别软件的功能介绍

    办公软件的出现,确实为我们的工作带来了很多的便利,那么今天小编就来为大家分享一款办公神器,迅捷OCR文字识别软件. OCR技术是现在很盛行的一种应用技术,在很多软件中都有所应用,而迅捷OCR文字识别软 ...

  8. 行业洞察 | OCR文字识别技术都有哪些用途

    现在连一支笔也卷起来了. 近期,网易有道先后发布了新一代词典笔,此前科大讯飞也发布了智能录音笔.这些科技含量满点的笔不仅可以支持高质量的录音和高效率的文字转写,同时能够识别众多语种和方言,中文在线转写 ...

  9. OCR文字识别原理及应用

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 前言 文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文 ...

最新文章

  1. c++ cout头文件_C/C++知识分享:C++常用内置函数你会几个,使用过几次呢?
  2. 第十周 11.1-11.7
  3. Spring : 异步注解 @EnableAsync 和 @Async
  4. error: 'vector' does not name a type
  5. Linux环境入侵应急与排查
  6. 《神经网络与深度学习》——邱锡鹏(读书笔记_C2_1)
  7. 局域网 如何连接主机_局域网远程操控电脑方法
  8. 计算机原理阅读,计算机原理与应用作业
  9. HTML制作3D樱花漫天飞舞及浪漫信封
  10. c 语言 合并多个excel,C#操作Excel合并多个Excel文件
  11. 科技驰援 攻坚战疫 | 用友助力武汉协和医院部署捐赠物资管理系统,保证“物尽其用”...
  12. 鸿蒙系统推广时间,鸿蒙系统将全面推广,目标覆盖3亿台设备,第三方IoT可达1亿台...
  13. 开发也可以如此简单!华为云发布两款开发工具
  14. JS的onBlur事件与onfocus事件
  15. 【BLE】nrf connect配置为服务端进行蓝牙主从通信实验
  16. 什么是自动出价?它的优势是什么?
  17. sd和sem啥区别_SD与SEM有区别吗
  18. 提升python运行效率_如何让python运行速度提高3倍
  19. 计算机网络的功能有哪些?
  20. QT与Symbian 3 , Meego,TCL彩电

热门文章

  1. Vue项目中 sass安装
  2. 关于Linux下面移动硬盘读不出来
  3. C++Primer笔记——拷贝控制
  4. 对比两张excel的不同
  5. 新形势下关于光伏发电市场监管的思考
  6. 小米与vivo相争,高通成为最大受益者
  7. 逻辑智力测试-----让你怀疑人生!!
  8. QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读
  9. 构建高并发高可用的电商平台架构实践(一)
  10. python分行读取excel xslx 格式的方法