1.图像处理

tesseract内置了一些图像处理方法(基于leptonica library)。
如果我们想要观察tesseract如何处理图片可以将tessedit_write_images变量设置为true。

改变尺度

tesseract默认dpi是300,最好把图片的dpi设置为300

二值化

将图片二值化,tesseract虽然内置了改方法,但是可能结果并不理想,所以最好在ocr之前先进行二值化。使用pillow。

二值化的作用是去掉噪声,比如黑点或者颜色。

旋转/抗扭斜

将倾斜的文章旋转称垂直。

除边界

2.页面分割方法

默认的tesseract将一个图片当成一个文档来看。如果只需要指定的区域可以使用不同的分割模式,使用psm参数。

  0    Orientation and script detection (OSD) only.1    Automatic page segmentation with OSD.2    Automatic page segmentation, but no OSD, or OCR.3    Fully automatic page segmentation, but no OSD. (Default)4    Assume a single column of text of variable sizes.5    Assume a single uniform block of vertically aligned text.6    Assume a single uniform block of text.7    Treat the image as a single text line.8    Treat the image as a single word.9    Treat the image as a single word in a circle.10    Treat the image as a single character.11    Sparse text. Find as much text as possible in no particular order.12    Sparse text with OSD.13    Raw line. Treat the image as a single text line,bypassing hacks that are Tesseract-specific.

3.词典,单词列表和模式

默认的tesseract尽可能识别普通的句子。如果想要识别
收入,价格或者代码等则需要以下步骤
1.选择合适的分割方法。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality#page-segmentation-method

2.禁用字典。如果我们需要识别的字符大多不是字典单词。通过将load_system_dawgload_freq_dawg设置为false
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams
3.将词语店家到词语列表,将提升Tesseract的识别准确率,或者添加字符模式。参考
https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-data
4.如果只想识别语料库中的一部分字符,比如只需要识别数字,则可以设置tessedit_char_whitelist参数。
参考:
https://github.com/tesseract-ocr/tesseract/wiki/ControlParams

参考文献:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
https://blog.csdn.net/hechaojie_com/article/details/81560153

tesseract 提升识别质量相关推荐

  1. IJCAI 2019 | 通过交互提升机器翻译质量

    自从神经网络模型在机器翻译任务(Machine Transoformer,MT)得到了应用,该任务得到了飞速的发展,机器翻译的质量也在不断地提高.尽管如此,机器翻译的质量也难以与人类译者相提并论.但是 ...

  2. 自媒体关键词布局怎么做,快速提升文章质量?

    自媒体人如何提升文章质量?应该怎样堆积关键词呢?很多小伙伴经常说,感觉自己文章质量不过关,文章的阅读量一直上不去,有没有什么提升的办法,今天就给大家介绍一下,自媒体关键词布局怎么做,让你快速提升文章质 ...

  3. 华为如何生成日志_华为应用市场AppGallery Connect开发者沙龙:全面提升应用质量...

    在繁多设备类型.机型.系统下,在复杂的网络环境下,在多样用户群和使用场景下,常规测试无法解决所有真实环境中的问题.应用发布后,发生崩溃和性能问题非常影响用户的体验.为了更高效地发现和解决问题,华为应用 ...

  4. android注解的作用,Android 用注解来提升代码质量

    Android 用注解来提升代码质量 Android,注解,annotation 2018.07.13 Android 提供了一个注解的 support 包,这个注解包配合 IDE 可以用来提升我的代 ...

  5. 12种提升视频质量的方法

     点击上方"LiveVideoStack"关注我们 翻译.编辑 | Alex 技术审校 | 章琦 本文来自OTTVerse,作者为Krishna Rao Vijayanagar. ...

  6. python代码标识码_代码分享:使用Python和Tesseract来识别图形验证码

    原标题:代码分享:使用Python和Tesseract来识别图形验证码 *本文原创作者:ipenox,本文属FreeBuf原创奖励计划,未经许可禁止转载 各位在企业中做Web漏洞扫描或者渗透测试的朋友 ...

  7. 企业如何提升数据质量

    在这个大数据时代,数据资产逐渐成了构成成企业核心竞争力的关键要素,然后,大数据的应用必须建立在高质量的数据上才有意义,因此提供数据质量是企业需要迅速解决的问题,那么企业如果提升数据质量? 数据质量一般 ...

  8. python应用内部审计_基于大数据技术提升内部审计质量的路径

    龙源期刊网 http://www.qikan.com.cn 基于大数据技术提升内部审计质量的路径 作者:彭德锦 方智 来源:<中国内部审计> 2019 年第 07 期 [ 摘要 ] 随着大 ...

  9. 百家号自媒体如何提升文章质量,百家号怎么写好文章,百家号写文章技巧

    2018年是自媒体时代,内容爆发的时代,依然是内容为王的时代,标题决定打开率,内容决定转发,只要你的内容质量足够好,就会吸引粉丝的关注.百家号文章如何提升内容质量,可以从以下几点出发,认真做好每一点. ...

最新文章

  1. Grails 1.2参考文档速读(15):验证
  2. 【最小费用最大流】Going Home
  3. 【BIEE】BI Publisher下拉菜单设置
  4. vscode安装设置go
  5. 页面自动刷新html实现
  6. NewRandomAccessFile failed to Create/Open问题解决
  7. [转]详解HTTP包
  8. 桌面级linux推荐,七大顶级桌面比较!Linux平台自由选择
  9. JavaScript Promise查缺补漏
  10. pythons实现信号分帧
  11. HTML5开发APP有哪些优点和缺点?HTML5优势和劣势大对比
  12. python 连接 oracle 循环,4.使用cx_Oracle连接Oracle(高级篇)
  13. zz JQuery 插件
  14. 常见8种无线通信协议简介
  15. 7z解压crc错误_.7z解压文件末端错误 如何解压分卷压缩包 - 电脑故障 - 服务器之家...
  16. MongoTemplate 聚合查询
  17. table如何正确的隐藏一列
  18. 典型的多层神经网络模型,多层变量神经网络分析
  19. Java SE 第四十八,九,五十讲 Map深入详解及遍历Map的两种实现手段 Map.Entry详解与作业要求,作业讲解...
  20. Google Earth Engine(GEE)——ERA5-数据计算逐年全球潜在蒸发量PET

热门文章

  1. android studio 分页,Android Paging codelab
  2. 微课|中学生可以这样学Python(例4.3):百钱买百鸡
  3. 微课|中学生可以这样学Python(2.3.4节):例2-1
  4. 详解Python中的生成器表达式(generator expression)
  5. Python读写CSV格式文件
  6. php判断平年和闰年,平年和闰年的三种判断方法
  7. 如何用命令行写java程序_如何用java实现doc命令行
  8. python error loading package_Pycharm Available Package无法显示/安装包的问题Error Loading Package List解决...
  9. python日期对照表_2020年日期表-python实现
  10. 力扣93. 复原 IP 地址(JavaScript)