#一:环境配置:
##1、安装pytesseract库和OCR识别软件
cmd 中通过pip 下载安装OCR 的调用模块,命令如下:
pip install pytesseract
pip install pillow
##2、下载安装Tesseract,Tesseract是一个用于文字识别的工具,OCR识别软件;
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
下载安装完成需要配置OCR的环境变量: 我的电脑 ->属性 -> 高级系统设置 ->环境变量 ->系统变量 ,在 path 中添加 OCR 安装路径
##3、Tesseract默认是不支持中文的,如果想要识别中文或者其它语言需要下载相应的语言包,
下载地址如下: https://tesseract-ocr.github.io/tessdoc/Data-Files
我们下载Chinese-Simplified
为简体中文即可,下载完成后我们需要将文件内chi_sim.traineddata放到Tesseract的路径下的tessdata目录下
以上的环境配置完级就可以写代码实现文字识别啦;
#二:代码的实现

import os
import pytesseract
# 文字图片的路径
path = 'text_img/'
# 获取图片路径列表
imgs = [path + i for i in os.listdir(path)]
# 打开文件
f = open('pic_name.txt', 'w+', encoding='utf-8')
# 将各个图片的路径写入pic_name.txt文件当中
for img in imgs:f.write(img + '\n')
# 关闭文件
f.close()
# 文字识别
string = pytesseract.image_to_string('text.txt', lang='chi_sim')
f = open('text.txt', 'w+', encoding='utf-8')
# 将图片识别到的文字写入text.txt文件当中
f.write(string)
f.close()
print(string)

python 实现文字识别提取相关推荐

  1. 人口普查分析:利用python+百度文字识别提取图片中的表格数据

    今天发布了最新的人口普查结果,笔者拿到的文件是pdf格式(网上应该有).之前就一直想实现从pdf提取表格数据,输出为excel.正好这次有公开数据,因此打算用来练个手. 尝试了两种方法: 1.pyth ...

  2. Python 图像文字识别提取的两种简单方案(Windows)

    百度文字识别API参考:https://www.jianshu.com/p/816cc6ef571b 本地tesseract_ocr参考:https://blog.csdn.net/jclian91/ ...

  3. 【2】Python 视频文字识别提取 - Mp3 文字识别

    网络上没有很好的库用来文字识别,并且文字识别效率很低,这里我用了剪映接口 jianying.py from datetime import dateimport requests import jso ...

  4. Python图片文字识别——Windows下Tesseract-OCR的安装与使用

    Python图片文字识别--Windows下Tesseract-OCR的安装与使用 前言 Windows下Tesseract-OCR的安装与配置 Tesseract-OCR简介与版本选择 tesser ...

  5. C语言 提取软件文字,使用OCR文字识别软件如何将图中文字识别提取出来

    有时候我们上网看见了一些文字图片,上面的内容自己很喜欢,想要将文字保存下来,但是大家都知道图片上面的文字是不可以直接进行复制粘贴的,那这时候就需要识别提取图中文字了,具体怎样去操作呢?下面小编将在文字 ...

  6. python识别文字软件_|python图片文字识别扫描工具下载免费版 - 欧普软件下载

    python图片文字识别扫描工具是一款文字识别软件,软件基于Python和百度识别接口设计而来,可快速识别图片中的文字,写入TXT文件,支持快捷键F1截屏,虽说是基于命令行的操作,但是操作也算简单,需 ...

  7. Python编程:通过百度文字识别提取表格数据

    百度文字识别文档: https://ai.baidu.com/docs#/OCR-Python-SDK/top 安装sdk pip install baidu-aip 先创建应用,得到appid 要识 ...

  8. python ocr 文字识别软件,Python文字截图识别OCR工具实例解析

    一.简介 你一定用过那种"OCR神器",可以把图片中的文字提取出来,极大的提高工作效率. 今天,我们就来做一款实时截图识别的小工具.顾名思义,运行程序时,可以实时把你截出来的图片中 ...

  9. python实现文字识别软件_文字识别(OCR)CRNN(基于pytorch、python3) 实现不定长中文字符识别...

    文字识别(OCR)CRNN(基于pytorch.python3) 实现不定长中文字符识别 发布时间:2018-09-26 19:40, 浏览次数:1265 , 标签: OCR CRNN pytorch ...

  10. python屏幕文字识别_Python文字截图识别OCR工具实例解析

    一.简介 你一定用过那种"OCR神器",可以把图片中的文字提取出来,极大的提高工作效率. 今天,我们就来做一款实时截图识别的小工具.顾名思义,运行程序时,可以实时把你截出来的图片中 ...

最新文章

  1. python的控件text的文本属性_只需6行Python代码就给图片加上水印——你一看就会了...
  2. flink 本地_Flink原理Apache Flink漫谈系列 State
  3. 人工智能加速期:算法为王还是场景落地优先 ?
  4. Spring Boot文档阅读笔记-构建Restful风格的WebService
  5. cocos2d-x之读取plist文件
  6. 华为P Smart Z海外上架:搭载弹出式前置摄像头
  7. X86汇编语言从实模式到保护模式09:32位x86处理器编程架构
  8. com和dll(一)
  9. c语言课外读书笔记谭浩强,谭浩强C语言读书笔记
  10. android 锁屏 定时器,屏幕锁屏 定时器就停了
  11. excel字符串和单元格拼接_单元格引用问题(引用的单元格与字符串变量连接)...
  12. Roaring64NavigableMap(Bitmap)简单使用
  13. Java对接阿里云短信平台(快速上手)
  14. 华为交换机常见的ACL操作
  15. iOS 快速接入腾讯虚拟人特效 Avatar
  16. 计算机一级excel操作题百分比,计算机一级excel操作练习题
  17. 新媒体运营的日常工作如何?真的很有趣吗?
  18. 如何使用计算机闹铃,梦畅电脑闹钟怎么用 梦畅电脑闹钟使用教程
  19. linux下u盘如何将分割的合在一起,我又一个8g的U盘,想分两个区,一个区装系统,用PE引导,另一个分割槽用来存放档案,有什么工具,怎么操作,...
  20. 强制6点下班不再996?腾讯回应。。。

热门文章

  1. 郭天祥的10天学会51单片机_第四节
  2. rust修改礼包时间_Rust Async: futures-timer源码解析
  3. 给LaTeX表格加脚注时的奇怪问题(使用PDFLaTeX)
  4. Package inputenc Error: Unicode character , (U+FFØC) (inputenc) not set up for use with L aTeX. See
  5. 16进制颜色代码#FF000000 (css颜色值)
  6. 包含类别变量的中介模型检验方法
  7. [转帖]「白帽黑客成长记」Windows提权基本原理(上)
  8. 四大开源IaaS软件云中较力
  9. Xp计算机同步时间,windows xp时间不准不能自动同步的解决办法
  10. 亲戚关系关系算法java程序_亲戚关系计算器 算法实现