先把Tesseract的基础部分放上来。

由于对游戏的文案非常感兴趣,所以希望可以将游戏中图片截图,识别图片上的文字转成txt,基于此记录一下学习过程,简单记录。

环境说明:

Mac 10.13

python 2.7

Tesseract 3.05.01github地址

因为对这些也不懂所以都是按照网上的教程来得

英文识别

Tesseractgithub有安装教程

相关API参照Python:文本识别抛弃pytesser,直接使用Tesseract

也就是说,当安装好后Tesseract之后,可以在终端直接操作

主要命令操作:

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

-l后的字库文件可以切换为中文,默认是英文

-psm是对于识别模式的一些设置

按照wiki的说法

tesseract 图片路径 输出文件名//eg:tesseract x.png out

即可在终端对应目录下输出out.txt 里面是对文字的识别,按照如上试了以下两张图片

test.jpg

这张图片的识别结果未成功,并未生产任何txt文件,终端报错如下

Tesseract Open Source OCR Engine v3.05.01 with Leptonica

Warning. Invalid resolution 0 dpi. Using 70 instead.

//关于为什么会报这一行还没有查明白,因为发现无论成功与否都会报这一行

//简单搜索一下大概于tif什么之类的有关系,还没有查找

当换成另一张图片

4979037-c4469cd2356e5a06.jpg

识别且产生txt,内容如下

Y" ‘ WWIHBNEISM H8 3

ORGAN

NICHOLSON FREEMAN

MUM’VHHIIV-HUN’N/DflmhnAMENUMMME UWUFDW WM TIFEUEKEMT A

¢ WWW!“ HUBEEWWMWFW .

zzrmmn Jmmmu JWMHH ‘ ,

mum _. v _ mm“

now

从以上看出,识别还是要看图片背景等,在tesseract总默认是英文识别,且涉及到参数psm的问题,关于参数psm请在终端直接输入tesseract

Page segmentation modes:

0 Orientation and script detection (OSD) only.

1 Automatic page segmentation with OSD.

2 Automatic page segmentation, but no OSD, or OCR.

3 Fully automatic page segmentation, but no OSD. (Default)

4 Assume a single column of text of variable sizes.

5 Assume a single uniform block of vertically aligned text.

6 Assume a single uniform block of text.

7 Treat the image as a single text line.

8 Treat the image as a single word.

9 Treat the image as a single word in a circle.

10 Treat the image as a single character.

11 Sparse text. Find as much text as possible in no particular order.

12 Sparse text with OSD.

13 Raw line. Treat the image as a single text line,

bypassing hacks that are Tesseract-specific.

初步的文字识别还是ok的,因为最终要的结果是中文识别,所以要看一下如何进行中文识别。

中文识别

tesseract提供了中文的文字识别,下载地址https://github.com/daheicode/chi_sim

下载之后将chi_sim.traineddata文件拷贝到中文文件存放地址:

/usr/local/Cellar/tesseract/3.05.01/share/tessdata

//我在mac上存放到这里时有效的,如果无效就需要再查查了

//这个文件进去后可以看到英文的识别文件`eng.traineddata`)

开启终端进行中文文字识别

tesseract 输入图片路径 -l chi_sim 输出文件名字

这里测试了一下,识别结果一言难尽吧,对于阴阳师的传记识别很差,周围有一些文字进行干扰

图片j

如果对于图片进行裁剪到如下程度

x.jpeg

识别结果是很一言难尽的,。这个结果的误差率挺高的。

待1己二 lw

桢言宛一次出现耱诀盯町倪 衅

也只是笑笑、 并没有责怪这个骧子

D 但是幔憧地. 贵怪也开始了' 篷

篝还有打骂. 骥子的靴上遍布伤痕

害怕受列惩罚的孩子. 哭*预知著

一切. 预言却还是耧未趟不准口

终于. 有人操乱 这孜子既然己经

失去T倾知的能九 不如就放弄这

个孩子, 将他献给淹礼 或许还能

平息灾祝 纂一次听到这个提议时.

人4fl纷汾反对, 认为这对璩子太瀵

忍了口 可是巢二炎 第三次的时伉

反对的人罐毅赭叽

尝试了一下微博的截图

t.png

结果为

全球健身中心-喧

11分钟前来目 微博淝伽咖

拿去参考-下0

@全球装饰大全 - 甜

我敢说这是我见过最漂亮最实用的室内设计了,绝对没有比这更简美了.迸门就是原木地板,

客厅就简单的布艺沙发搭配原木电器柜.迸门两边做的是嵌入式柜体,牧纳更是做到了极致;

住在这样纯夫然酌冢里简直不要不要的m 喜欢就关注@全球装饰大全 胗微博全景图片

微博全景图片

我敢说这是我见过最室内设计了, 绝对没有比这更简美了° 布艺沙发

搭配原木电器柜° 迸门两边做的是嵌入式柜体, 底面整体原木地板,

12分钟前 来自 微博 weibo.oom 区 97 臼 6 凸 35

到这里看一下我自己的需求是可以将图片中的文字转换,而且需求图片没有阴阳师背景那么杂乱,所以转换结果很好,因此没有继续看如何提高识别准确度。

这里一直讲的是通过终端进行图片转文字。但其实最后是通过python调用的Tesseract

未完待续

那最后的实现过程是

python控制安卓截图=>截图后裁图到合适区域=》图片转换文字存储=》模拟点击进行下一页面 【循环此过程】

(循环过程还没写 程序大概就是借鉴跳一跳的那个来~~~毕竟还不会python……)

终于告别手敲文案啦!还是很棒的!撒花~

个人博客:

进击的程序茗

python 最准确的图片转文字_使用Tesseract+python进行图片转文字记录相关推荐

  1. python识别图片文字_如何利用Python识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  2. python将照片转文字_如何使用Python把图片变成文字

    为什么要让孩子学编程?看了这篇文章,你就知道编程的强大之处了! 你遇到以下的情况吗? 你负责整理一些文件,结果发现文件没有word存档,这又需要我们把图片变成word. 或者是在今日头条上看到了某片好 ...

  3. python如何让图片镜像翻转_如何用 Python 增量备份 Roam Research 笔记图片?

    消除后顾之忧,轻松输入卡片笔记. 题图:Photo by Markus Spiske on Unsplash 前些日子,我用视频的方式给你介绍了 Roam Research 这款工具.如果你还没有来得 ...

  4. python批量识别图片中文字_如何用Python识别图片中的文字?

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  5. python图片鉴黄_鉴黄师专用 Python 轮子之 PornDetective

    前言 这两天跨年,就想将自己的 Python 组织和表达能力再提高一下,当然最好的方式自然是读大师的源码,我也就看到实验楼上面的那篇关于色情图片识别的文章,因此依葫芦画瓢才建了这个库. 0x01 色情 ...

  6. python批量读取图片gps位置_某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置!...

    原标题:某少儿不宜网站图片拍摄位置分析,Python批量读取图片GPS位置! 1. python读取图片exif属性中的GPS信息 智能手机或平板如果在拍照时开启定位服务,照片中就会记录拍照位置信息和 ...

  7. 微信小程序图片转换成文字_微信小程序中用canvas将文字转成图片,文字自动换行...

    onReady: function () { wx.showLoading({ title: '生成图片中...', }) var that = this const ctx = wx.createC ...

  8. python绘制动漫人物图片女生可爱_日本动漫人物图片女生可爱图片大全

    日本动漫一直都是动漫行业的领军者,日本是一个全民都喜欢可爱事物的国家,因此日本动漫里的可爱女生自然不在少数,下面是学习啦小编整理的日本动漫人物图片女生可爱图片大全,欢迎欣赏. 日本动漫人物图片女生可爱 ...

  9. python制作会动的表情包_有趣的python小项目,自动生成有趣的表情包!

    加小编QQ群:832339352即可自动获取大量Python视频教程以及各类PDF! 作为一个数据分析师,应该信奉一句话--"一图胜千言".不过这里要说的并不是数据可视化,而是一款 ...

最新文章

  1. Java学习day011(oop):
  2. Mysql INSERT INTO .. ON DUPLICATE KEY更新多行记录
  3. linux 问题 value too large for defined data type 解决方案
  4. 函数组:SPO1/2/3/4/5/6/8
  5. 《看门狗》真人版跑酷!
  6. [设计模式] 8 组合模式 Composite
  7. ofstream写文件
  8. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
  9. 【Elasticsearch】所有可用 Qbox 插件的概述:第二部分
  10. 栈在括号匹配中的应用
  11. python在线朗读-使用python编写一个语音朗读闹钟功能的示例代码
  12. 机械专业向机器人工程专业转型的可行性与前景分析
  13. 案例 | 基于JMP的机器学习,解决半导体良率问题
  14. 我的时间管理类培训PPT
  15. 台式电脑主板插线步骤图_机箱上的跳线接在主板那些位置?台式电脑主板接线示意图解教程...
  16. 网页设计如何排成一列_网页排版设计中对齐技巧能让网站产生高端感(下)
  17. php faker,faker php伪造填充数据
  18. 服务器修改bios中uefi,服务器bios uefi设置
  19. [转] 当猫爱上蝴蝶
  20. 运用深度学习技术检测转移性乳腺癌

热门文章

  1. 仓央嘉措 ❤《见与不见》的全文 ❤
  2. C# WinForm和Sherlock进行对接
  3. html调用wrl,html 的 ContentType 小结
  4. 2021谷歌员工工资
  5. 阿里又孵出一只2000亿猛兽,马云当年的眼光太狠了
  6. SQL Server 2005系列教学(11) 约束
  7. Pytorch DEEP LEARNING WITH PYTORCH: A 60 MINUTE BLITZ
  8. [work] pytorch切片
  9. linux安装make
  10. 【CSDN云IDE】个人使用体验和建议(含超详细操作教程)(python、webGL方向)