Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）

OCR(Optical character recognition) —— 光学字符识别，是图像处理的一个重要分支，中文的识别具有一定挑战性，特别是手写体和草书的识别，是重要和热门的科学研究方向。可惜国内的科研院所，基本没有几个高识别率的训练集——笔者联系过北京语言大学研究生一篇论文的作者，他们论文说有%90的正确识别率，结果只做了20个笔画简单的汉字(20/6753 = %0.3 常用简体汉字的千分之三)，然后找了20个学生，各自手写了一遍。真的是为了论文而论文，而且很会选择样本(小而简单)

斯坦福大学有个工程项目，专门做中文汉字的识别——欧美发达国家的科研院所更有研究精神

提高识别率，训练集是关键！

提高识别率，训练集是关键！！

提高识别率，训练集是关键！！！

下载训练集—traineddata请移步：

https://github.com/tesseract-ocr/tessdata

中文请选如下4个：

chi_sim.traineddata (简体— 对于宋体，像素>= 300dpi:识别率高达%100，同时对英文及阿拉伯数字识别率高达百分之90以上)chi_sim_vert.traineddata (简体，竖排)chi_tra.traineddata (繁体)chi_tra_vert.traineddata(繁体，竖排)【CoderBaby】

如何做自己的测试数据集

请参考官网: how to train tesseract

经过测试得出如下结论：

对于宋体，白色背景，非倾斜等，像素大于等于300dpi—识别率%100
英文和数字，识别率超过90%
特殊字符识别率不高
像素太低，识别率急剧下降
多种背景颜色变化，识别率极低
字体换成草书等，识别率大幅降低
电影屏幕字幕和网页截图识别率较低
扫描件如果字体太淡，太小，完全识别不出来
提高识别率，需要自己做训练集，工作量巨大的体力活(简体汉字最少6753个，混合一些复杂的，至少要10000个字符；不同字体要重新做，因为本质上是图形几何计算，国内科研院所和开源的做的不多)

Java源码实现，tika结合Tesseract-OCR

(1)源码如下(支持多个图片识别)

    @Testpublic void testCode() throws IOException, SAXException, TikaException, InterruptedException {List<String> fileNames = new ArrayList<>();fileNames.add("chi_eng.png");fileNames.add("chi_eng01.png"); fileNames.add("chi_old.png"); fileNames.add("chi-scan-75dpi.jpg"); fileNames.add("chi-scan-100dpi.jpg"); fileNames.add("chi-scan-300dpi.jpg"); fileNames.add("chi-smartphone.jpg"); fileNames.add("chi-subtitle-v1.jpg"); fileNames.add("english00.png"); fileNames.add("pdf_shaomiao.png"); fileNames.add("test.tiff"); fileNames.add("weather.png"); // 转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/tika-support-Tesseract-OCR-with-source-code-and-test-data.html TesseractOCRParser parser = new TesseractOCRParser(); TesseractOCRConfig config = new TesseractOCRConfig(); // 设置简体中文训练集 config.setLanguage("chi_sim"); // 设置Tesseract 安装路径 config.setTesseractPath("C:/Program Files/Tesseract-OCR"); // 设置train data 路径 config.setTessdataPath("C:/Program Files/Tesseract-OCR/tessdata"); ParseContext context = new ParseContext(); context.set(TesseractOCRConfig.class, config); context.set(TesseractOCRParser.class, parser); fileNames.forEach(filename -> { BodyContentHandler handler = new BodyContentHandler(); File file = new File("E:/tika/testData" + File.separator + filename); if (file.exists()) { Metadata metadata = new Metadata(); try (InputStream stream = new FileInputStream(file)) { parser.parse(stream, handler, metadata, context); } catch (Exception e) { } handler.toString(); } }); } }

测试数据(图片)说明及下载地址

具体说明及测试效果请参见：https://ocr.space/blog/2015/03/best-ocr-software-for-chinese.html

相关测试图片请参见：https://github.com/A9T9/OCR-Benchmark

(2)原始图片及效果 ()

基于“chi_sim.traineddata ”— 即简体中文训练集

图1

转换效果如下：

【结论】

300dpi，识别率：%100

图2

转换效果如下：

Brief history

Tesseractwes orginally developed at HewlettPackard Laboratones Bristol and
atHewettPackard Co Greeley Colorado beween 1985 and 1994 wthsome
more changes made in 1996 to portto Windows and some C++zing in1998
In2005 Tesseract was open sourced by HP Since 2006 itis developed by Goosgle

Thelatest (LSTM based]j stableversionis4.10, released on July 7.2019.Latest source codes avaable from
master branch on GlHub.Openissues can be foundin ssue racker and Planning iki

Thelatest35 version 5 3.05.02 released onjune 19,2018.Latestsource code for3.055 avaable from
305 branch on GlHHub.There sno development forthisversion,butitcan be used forspecial cases .
see Regression offeatures from 30x

See Release Notes and Change Log formore detas ofthe releases-
Installing Tesseract

You can ettherInstall Tesseractvia prepulltbinary package or pulld iLfrom sourcey
Supported Complersare:

* GCC48 and above
* ang34and above
* MSVC 2015.2017.2019

Othercompllersmightwork butare notofially supportedl
Running Tesseract
Basiccommand line usage:

tesseract inagenane outputbase [-1 ]ang】 [--osn ocrenginenode] [--psn pagesegnode
[configfiles...]

Formore information aboutthe various command line options use esseract --henp or man tesseract .

Examples can befoundin thewiki
For developers

Developers can use Tbtessaract Cor

【结论】
英文，特殊符号等会识别失败。识别率：>%80

图3.

转换效果如下：

E g 气

Even as Tvanja praised 8e parties Envoyed i 功 i5 7el gzamt7 comgpi 地 08
Qchieveze1 Q 7W7Der- Ofsocial media lsers appeared crilical of er as-
Sesszet 0f 加 e Trip adiistration「5 role 加功 i5 endeavou7
IBM 表示不服 ,Google 不 care。下而让我们逐字逐句来看他们的论文
吧 , 对于争论的事情 , 自己下功夫搞清楚。

松贵莹坊办少
忠 : https:/ww.cnblogs-com/NaughtyCatpytranslate-of-google-
Quantum-supremacy-article-published-on-nature.html

Quantum supremacy using
a programmable

superconducting
processor

基于可编程的超导处理器实现的量子霸
权

动关盘源 ,https://doorg/10.1038/s41586-019-1666-5
煌收船 2019 乐 7 历 20 历
旋准 8 船 2019 乐 9 历 20 厂
坊终发疗 2019 知 10 月 23 厅

Abstract
引言

量子计算机吹牛遢说 , 对于特定的计算任务 , 基于量子处理器的计算
机 , 其速度相较于经典处理器呈指数级增长。根本的挑战在于构建一

【结论】
宋体，加粗，黑色——识别率%100；倾斜，绿色等——识别率：%70

图4(扫描件).

转换效果如下：

节 P a
为客户服务是华为存在的睢一理由” 从公司层面
看 , 为客户创造价值的主业务流只有一个!

Ipo - nisgniedProductDevelopment

B croeis PaFA 4 辜蒙扁)

Unc - LomdTocash
芸 a npe waa8 2 菅墨

E Ig - ssueToResoliton 林
P L a 颤〉

n i t t

6 P: 01

IP0 主业务流包括 : MW 流程、0R 流程、IPD 流程

D
4 一

【结论】
pdf扫描件，只有比较大，比较粗的字能识别出来，颜色较淡的识别不出来
识别率：约%10

图5.

转化效果如下：

大行佳孔当自弼不。

。

巧者劳而春者忱 , 无能者无所必 , 作食而邀
游 , 陆若不系之舟。

。

Chacgyuisdt.

。

124565.

。
12256 dogdogunnn
。
。

【结论】
汉字、英文、数字混合
识别率：%60~%70

图6(天气网页截图)

转换效果如下：

L f

全国 > 囚川 > 尿膳 > 坂区
今夺伟 8-15 天

llc/4rc

208 238 028 058
人 [ [ 92
s
c E E
无 RR 无 RR 无 RR 无 RR

< < < <

【结论】
背景颜色(蓝色，灰色，黑色、橙色)；字体颜色(黑色、白色)。识别率：不到%10

图7.

转换效果如下：

机器人餐厅

cra arenzanmu nnanmes
seeu xraguagpt. ssepumes
人吊 pahs ztpznaapsus anea
an sro an sessuassnet
e ssoangm crmazees aas
iusiaanorg.mmouz rpeae
snreenatesezur eeae t
+ngszensenapenecieme
矿 svapgzanohat

【结论】
75dpi，识别率：约为%5 【CoderBaby】

图8(电影字幕截图).

转换效果如下：

E
1 30
E
55

【结论】

背景颜色(渐变灰)，字体为白色——识别率：%0

图9(古籍).

转换效果如下：

茂长万灰咆
恍 “ 望泷 “ 松驱
明匹一图抚札狐
东非 “ 柳一吴
埕跃 X“ 埋煌弟
仪怀坂称鸟场 “
下泊聪遇林固 “
| 靴犹 “

【结论】

竖排，古籍版 (需要“chi_tra.traineddata及“chi_tra_vert.traineddata”)——识别率：%0

图9(手机拍照图片).

转换效果如下：

在中国 , 餐厅里的菜通常很特别 , 但是有时候做菜和服务
的人也很特别 : 不久前昆山一家餐厅开业 , 这家餐厅从欢迎宰
人、点菜、制作到上菜 , 大部分工作都由机器人完成。餐厅经理
宋育刚对他的 “ 员工 “ 很满意。这些机咤人能理解 40 句日常生

活用语 , 因此可以与顾客交流。让宋育刚最满意的是 , 他的这些
员工们既不会生病也不会请假。充电两个小时后 , 它们就又能
投入使用了 , 因此它们要比普通员工优秀。对于顾客来说 , 技术
水平有没有达到能使这些机蹇人厨师很好地调味还不得而知。
不过 , 机器人厨师倒是非常令人期待。

【结论】
手机拍照图片，还算清晰的——识别率：%100

转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/tika-support-Tesseract-OCR-with-source-code-and-test-data.html

参考：

1)https://stackoverflow.com/questions/23792373/installing-tesseract-ocr-on-centos-6

2)http://www.zmonster.me/2015/04/17/tesseract-install-usage.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

************************************************************************

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址...相关推荐

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码实现及真实测试数据和训练集下载地址...
OCR(Optical character recognition) -- 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向.可 ...
【汉字识别】汉字精准识别【含GUI Matlab源码 2197期】
⛄一.汉字识别简介汉字作为中华民族文化的信息载体,与人们的日常学习和工作密不可分.在网络信息交流中,需要输入大量的中文信息 ,重复.单调的传统键盘手工输入方式效率低下,已逐渐不能满足迅速发展的信息化 ...
【光学】基于matlab涡旋光产生【含Matlab源码 1927期】
⛄一.获取代码方式获取代码方式1: 完整代码已上传我的资源:[光学]基于matlab涡旋光产生[含Matlab源码 1927期] 点击上面蓝色字体,直接付费下载,即可. 获取代码方式2: 付费专栏物 ...
【光学】基于matlab模拟拉盖尔高斯【含Matlab源码 2167期】
⛄一.获取代码方式获取代码方式1: 完整代码已上传我的资源:[光学]基于matlab模拟拉盖尔高斯[含Matlab源码 2167期] 点击上面蓝色字体,直接付费下载,即可. 获取代码方式2: 付费专 ...
【光学】基于matlab GUI杨氏双缝干涉【含Matlab源码 001期】
一.获取代码方式获取代码方式1: 完整代码已上传我的资源:[光学]基于matlab GUI杨氏双缝干涉[含Matlab源码 001期] 点击上面蓝色字体,直接付费下载,即可. 获取代码方式2: 付费 ...
Tesseract OCR图片提取中文并转换为Excel的示例（附Python代码）
1.背景描述: 日常工作会遇到这样的问题,工作群中收到以截图方式转发的表格或文字信息,需要将其中大量的数据.文字等信息从图片中摘取下来,并以Excel表格的方式进行存储和统计处理. 2.流程简述: 识 ...
『带你学AI』一文带你搞懂OCR识别算法CRNN：解析+源码
目录前言一.CRNN 1.1 CRNN 介绍 1.2 CRNN 网络结构 1.2.1 CNN 1.2.2 Map-to-Sequence 1.2.3 RNN 1.2.4 CTC Loss 1.3 ...
asp写的百度ocr识别文字-通用文字识别（高精度版）源码下载
今天接到一个客户需求,需要用ASP写一个百度OCR文字识别代码,他的程序都是用ASP写的,所以我们也需要用ASP给他实现百度OCR文字识别,我们在百度AI网站上启用了通用文字识别高精度版,利用高精度板 ...
Tesseract OCR与文本智能识别
博主简介博主是一名大二学生,主攻人工智能研究.感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享. 如果有需要的小伙伴可以关注博主,博主会继续更新 ...

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址...

Tika结合Tesseract-OCR 实现光学汉字识别（简体、宋体的识别率百分之百）—附Java源码、测试数据和训练集下载地址...相关推荐

最新文章

热门文章