一、工具使用

tesseract-ocr-setup-3.02.02.exe下载安装http://code.google.com/p/tesseract-ocr/downloads/list

将tesseract-ocr-3.02.chi_sim.tar.gz(中文训练库)下载解压之后将chi_sim.traineddata文件拷贝到tesseract-安装目录的tessdata下面就可以进行中文的识别

命令格式为:

tesseract    [-l lang] [configfile [[+|-]varfile]...]

命令行cd 到图片所在目录

如:tesseract  1.jpg result  -1 chi_sim   -psm 7

-psm 7意思是只有一行文本,加上能够提高识别准确度

所识别的结果就在图片所在文件夹下一个result.txt的文件中

二、C++编程

1、http://code.google.com/p/tesseract-ocr/downloads/list

下载tesseract-3.02.02-win32-lib-include-dirs.zip

2、配置C++目录,添加include、lib。

3、创建工程将lib下的dll文件拷到工程目录下

运行如下代码:

#include "strngs.h"
#include <iostream>
using namespace std;#pragma  comment(lib,"libtesseract302.lib")string UTF8ToGBK(const std::string& strUTF8);int _tmain(int argc, _TCHAR* argv[])
{char * str = "1.jpg";tesseract::TessBaseAPI  api;  api.Init(NULL, "chi_sim", tesseract::OEM_DEFAULT);  //初始化,设置语言包,中文简体:chi_sim;英文:eng;也可以自己训练语言包//api.SetVariable( "tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" );  STRING text_out;  if (!api.ProcessPages(str, NULL, 0, &text_out))  {  return 0;  }   string out = UTF8ToGBK(text_out.string());cout<<"output: "<<out.c_str()<<endl;int a;cin>>a;return 0;
}
string UTF8ToGBK(const std::string& strUTF8)
{int len = MultiByteToWideChar(CP_UTF8, 0, strUTF8.c_str(), -1, NULL, 0);unsigned short * wszGBK = new unsigned short[len + 1];memset(wszGBK, 0, len * 2 + 2);MultiByteToWideChar(CP_UTF8, 0,LPCSTR(strUTF8.c_str()), -1, LPWSTR(wszGBK), len);len = WideCharToMultiByte(CP_ACP, 0,LPCTSTR(wszGBK), -1, NULL, 0, NULL, NULL);char *szGBK = new char[len + 1];memset(szGBK, 0, len + 1);WideCharToMultiByte(CP_ACP,0, LPCTSTR(wszGBK), -1, szGBK, len, NULL, NULL);//strUTF8 = szGBK;string strTemp(szGBK);delete[]szGBK;delete[]wszGBK;return strTemp;
}

4、提示缺少liblept168d.dll,下载英文语言库tesseract-ocr-3.02.eng.tar.gz(为vs2008编译),如果是vs2010重新编译liblept168d.dll,

这里提供别人编译好的http://download.csdn.net/detail/zhymax/4928137,照样配置lib路径,拷贝dll文件到工程目录下。

如用下图测试

可以得到

可以显示识别的汉字。

Tesseract使用日记相关推荐

  1. Python机器学习:训练Tesseract

    训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...

  2. Python:机器视觉与Tesseract介绍

    机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域. 我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 P ...

  3. 《帝企鹅日记》观后感

    第一次看到是在高中的英语周报上,那时候蛮好奇的,企鹅也写日记,呵呵,后来想了想应该是纪录片,时隔三年,发现当初的猜测果然不假. 我觉得那些企鹅很可爱,也很漂亮.最重要的是,那一条条小生命有着顽强的毅力 ...

  4. axure 模板_《惢客创业日记》2019.09.03(周二) 用Axure管理项目流程

    今天,花了一整天的时间,搭建了一个本地服务器,并且,把Axure生成的网页系统部署在了IIS上.之所以,用Axure来把整个项目的资源做一个汇总,主要目的有三个: 第一.用Axure实现基于网页的项目 ...

  5. Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

    Windows安装用于OCR的Tesseract及使用命令行参数进行OCR 1. 效果图 2. Tesseract 安装及验证 参考 这篇博客将介绍如何安装和使用光学字符识别(OCR Optical ...

  6. [UWP小白日记-10]程序启动屏(ios解锁既视感)

    [UWP小白日记-10]程序启动屏(ios解锁既视感) 原文:[UWP小白日记-10]程序启动屏(ios解锁既视感) 讲一下 微软爸爸的开发者大会2016又暴了个表达式动画和Windows.UI.Co ...

  7. 我先了解一下博客园创建随笔/文章/日记的过程与三者的区别(隐私等级,是否审核等)...

    我先了解一下博客园创建随笔/文章/日记的过程与三者的区别(隐私等级,是否审核等) 转载于:https://www.cnblogs.com/Totooria-Hyperion/p/5260289.htm ...

  8. 网络工程师成长日记333-某城市政府项目

    网络工程师成长日记333-某城市政府项目 这是我的第333篇原创文章,记录网络工程师行业的点点滴滴,结交IT行业有缘之人 直接上干货,拓扑图: 工程目的:排除故障 配置如下: LinWei#show ...

  9. Tesseract 3 语言数据的训练方法

    OCR,光学字符识别 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业 ...

最新文章

  1. 限制程序只打开一个实例(转载)
  2. 将excel中的数据写入xml
  3. python turtle 颜色数字_python的绘图利器--海龟绘图turtle
  4. git pull命令执行时,命令框不可操作的问题
  5. 0811-按钮操作(加法计算器)(拖控件找控件代码属性名称)(frame center bounds)(上下左右移动button图片)...
  6. 线程魔术技巧:Java线程可以做的5件事
  7. 认证考试介绍之RHCE篇
  8. 作者:孔新川,杭州迈宁数据科技有限公司创始人、CEO。
  9. WordPressmodown收费模板
  10. 写了人生中第一个完整模块的用例
  11. ArchLinux简明安装教程
  12. 阿里巴巴创新中心联手上海市经信委在沪搞大事情了!
  13. 一年级美术下册教案(新人美版)
  14. 怎么把word压缩到最小?
  15. 小游戏 版本提交审核, 资质提交审核指引
  16. IOS8 keyboardWillShow 在UIKeyboardWillShowNotification 调用两次 问题解决
  17. 物联网-电力监控平台(汇总)
  18. P2P技术详解(一):NAT详解——详细原理、P2P简介(转)
  19. css3软键盘不盖住输入框的方法
  20. python爬虫爬微信数据可信吗_我用 Python 爬取微信好友,最后发现一个大秘密

热门文章

  1. python Pandas SettingwithCopy 警告解决方案
  2. 四张图揭秘中国AI人才现状
  3. 在Eclipse中进行HotSpot的源码调试--转
  4. 大战C100K之-Linux内核调优篇--转载
  5. Hadoop基于Protocol Buffer的RPC实现代码分析-Server端--转载
  6. extremeComponents(ec)源码分析
  7. 单机redis 主从实例
  8. 机器学习算法基础——决策树和随机深林
  9. 【模型开发】构建风控评分卡模型介绍(WOE/KS/ROC)
  10. 谷歌开源机器学习可视化工具 Facets:从全新角度观察数据