jTessBoxEditor下载地址

http://vietocr.sourceforge.net/training.html

以下翻译自安装(解压)后的Readme文件

jTessBoxEditor

简介

jTessBoxEditor是一个Tesseract OCR的Box编辑器,提供Tesseract 2.0x and 3.0x 格式的Box数据编辑功能。可以读取包括multi-page TIFF在内的通用图片格式。

系统需求

Java Runtime Environment 6.0 or later.

说明

双击JAR文件启动程序,或者通过如下的命令行方式,Windows下有run.bat批处理文件,可以通过修改启动参数,增加分配给java虚拟机的内存

java -Xms128m -Xmx512m -jar jTessBoxEditor.jar

需要把TIFF/Box文件作为这个程序的输入。

格式要求:

训练用的图片:300DPI, 1 bpp(bit per pixel), 黑白或8位灰度, 无压缩的TIFF格式

Box文件:UTF-8编码, 通过Tesseract命令行+相应的命令行选项生成(参考 Tesseract Wiki)。

训练操作可以通过附带的train.ps1 Windows PowerShell脚本自动化。

注意:Box文件使用的坐标系统把左下作为(0,0),而计算机图形设备上把左上定义为(0,0)。 jTessBoxEditor使用并显示参考图形设备坐标。编辑的Box文件仍然在读写时参考自己的坐标。

这个软件中包含一个转换功能,会把字符文本字段的数字字符引用(NCR)和转义序列转换为Unicode字符。

Merge TIFF功能,可以把含有相同的字体的文本多个图像保存到一个单一的多页TIFF文件中,用于后续训练。

Generate TIFF/Box功能由一个输入的UTF-8文本文件生成供Tesseract训练用的一对TIFF/Box文件。生成的图像是一个二进制或者灰度的无压缩多页300DPI的TIFF图像,依赖抗锯齿模式是否有效(?)。

为了消除box边界重叠问题,字符追踪或字符间距可以通过Tracking微调器来进行调整。

注意,某些框的坐标可能会与由TESSERACT自己生成的略有不同(偏差1或2个像素)。但是,所生成的Box文件可以用如WinMerge的支持Unicode的文本比较工具进行比较验证。

提示:实验表明,Generate TIFF/Box功能使用字体大小24pt或更大生成的图像会有较高的训练质量。

结合符号或变音符号(如梵文或印度语 ),需要与主、基本字符结合使用,可以由用户指定一个UTF-8的文本文件,例如data目录下的 combiningsymbols.txt文件。此文件可以被Generate TIFF/Box功能读取,这种设置使用户可以为他们的语言脚本灵活定义结合符号/变音符号。

-- end --


转载于:https://www.cnblogs.com/rakuhin/p/3307342.html

jTessBoxEditor for Tesseract OCR相关推荐

  1. android自动识别文字,Android文字识别tesseract ocr -训练样本库 识别字库

    目录 安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片 将图片转为tif格式的样本图片 合并样本图片 修改box文件 ...

  2. Tesseract OCR简介(三)--安装及参数使用

    参考:AI-Tesseract-OCR简介_花熊的博客-CSDN博客_tesseract坐标 一.windows 1.1 Tesseract安装 适用于Tesseract 3.05和Tesseract ...

  3. 关于Tesseract OCR 中文训练识别小试(java调用Tess4j)

    2017.9.20日小结 最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...

  4. Tesseract OCR 训练字库

    Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用.除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自 ...

  5. tesseract ocr训练样本库以及样本库使用

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.tesseract ocr训练样本库 二.样本库的使用 总结 前言 这篇报告主要介绍两个内容: 1.tessera ...

  6. Tesseract——OCR图像识别 入门篇

    近期leader给了我一个任务,让我研究图像识别,从我们项目的screenshot中识别文字信息,so我開始了学习.与大家分享下. 我看到眼下OCR技术有非常多,最基本的是Asprise OCR,Te ...

  7. Tesseract OCR——Windows 10 + CMake-GUI + Visual Studio 2019下编译和使用解决方案

    基本概念 Tesseract OCR:Tesseract-OCR 引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.然而,HP不久便决定放弃OCR业务 ...

  8. C#使用Tesseract OCR 解析验证码

    下面介绍一个开源的OCR引擎Tesseract2.值得庆幸的是虽然是开源的但是它的识别率较高,并不比其他引擎差劲.网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是G ...

  9. [转]tesseract OCR Engine overview字符识别学习

    原文地址:http://blog.csdn.net/viewcode/article/details/7790065 正文: 原文: An Overview of the Tesseract OCR ...

最新文章

  1. 最新以及历史各版本 .NET Framework 的下载
  2. axios.post提交的三种请求方式
  3. sencha touch调试时Please close other application using ADB: Monitor, DDMS, Eclipse
  4. c++如何快速写出get set_如何快速写出一篇合格的毕业论文
  5. 【android自定义控件】属性动画 五
  6. android的开机动画,设置安卓开机动画、开机logo
  7. 【mosek.fusion】Primal SVM
  8. 最小二乘法曲线拟合原理
  9. cocosCreator 骨骼动画
  10. 新手lbw + 《软件工程(C编码实践篇)》MOOC课程作业http://mooc.study.163.com/course/USTC-1000002006
  11. 并发和并行的区别?一个很容易混淆,被忽略的问题
  12. cannot be loaded because running scripts is disabled on this system.
  13. Java将图片处理成背景透明的圆形图片
  14. 云原生数据仓库AnalyticDB Mysql(ADB分析型数据库)-DML语法之新增插入数据详解
  15. RadRails插件在 MyEclipse的安装(转http://wayfarer.blog.51cto.com/1300239/329290)
  16. 景安mysql主机_景安国内虚拟主机空间如何创建数据库
  17. S3C6410裸机AC97驱动
  18. 用JGroups实现一个分布式任务分发系统
  19. 工银e生活开发脱坑日志(2)AES解码后乱码
  20. 【学习小记1】Python mitmproxy 监控浏览器

热门文章

  1. 【C/C++多线程编程之六】pthread互斥量
  2. S5PV210开发 -- I2C 你知道多少?(三)
  3. linux 网卡是块设备吗,什么是网络块设备(Network Block Device)?
  4. java 线程状态 jstack_jstack查看jvm线程状态
  5. gRPC学习记录(三)--proto3知识
  6. Deep Exploit:结合机器学习的全自动渗透测试工具
  7. CURL NDK 交叉编译
  8. 区块链学堂(7):Geth 搭建私有网络-实战
  9. 网站假设php,PHP个人网站架设连环讲(一)
  10. python采集_Python采集实例1