Python3.6实现图片文字识别和PDF转WORD

  • 图片文字提取
    • - - 需求来源 - -
    • - - 代码实现 - -
  • PDF转WORD
    • - - 需求来源 - -
    • - - 代码实现 - -
  • 窗口实现
    • - - 使用PyQt5创建 - -
    • - - 使用tkinter 创建 - -
  • 最终实现
    • - - 实现说明 - -
    • - - 完整代码(百度AI账号自申)- -
  • 程序打包
    • - - 使用pyinstaller - -

图片文字提取

- - 需求来源 - -

因为朋友抱怨图片提取文字都是限制图片且付费的,于是就想利用Python开源的优势做一个免费的程序,可以实现图片中文字的提取。

- - 代码实现 - -

参考百度图片文字识别过程:
https://blog.csdn.net/XnCSD/article/details/80786793

忽略图片压缩过程,只识别一张图片

import sys
import os
import glob
from os import path
from aip import AipOcr
from PIL import Image
def baiduOCR(picfile, outfile):"""利用百度api识别文本,并保存提取的文字picfile:    图片文件名outfile:    输出文件"""filename = path.basename(picfile)APP_ID = '***' # 刚才获取的 ID,下同API_KEY = '***'SECRECT_KEY = '***'client = AipOcr(APP_ID, API_KEY, SECRECT_KEY)i = open(picfile, 'rb')img = i.read()#print("正在识别图片:\t" + filename)message = client.basicGeneral(img)   # 通用文字识别,每天 50 000 次免费#message = client.basicAccurate(img)   # 通用文字高精度识别,每天 800 次免费#print("识别成功!")i.close();with open(outfile, 'a+') as fo:fo.writelines("+" * 60 + '\n')fo.writelines("识别图片:\t" + filename + "\n" * 2)fo.writelines("文本内容:\n")# 输出文本内容for text in message.get('words_result'):fo.writelines(text.get('words') + '\n')fo.writelines('\n'*2)#print("文本导出成功!")#print()picfile = 'path of picture' #图片路径
outfile = 'result.txt'
if path.exists(outfile):os.remove(outfile)
#lb.config(text = "图片识别...");
baiduOCR(picfile, outfile)
#lb.config(text = "图片文本提取结束!文本输出结果位于"+outfile+"文件中");

PDF转WORD

- - 需求来源 - -

微软Office和金山WPS都可以免费实现word转pdf,但是PDF转word文档需要会员或者一定费用实现全部pdf的转换。
一些在线的网站以可完成免费的pdf 转 word:
50M以内的PDF转换: 便捷PDF转换器
== 如果只是想提取PDF中的文字(不包含格式),可以使用此程序进行转换。==

- - 代码实现 - -

import sys
import importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed'''
解析pdf文件,获取文件中包含的各种对象
'''# 解析pdf文件函数
def parse(pdf_path):fp = open(pdf_path, 'rb')  # 以二进制读模式打开# 用文件对象来创建一个pdf文档分析器parser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象parser.set_document(doc)doc.set_parser(parser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 用来计数页面,图片,曲线,figure,水平文本框等对象的数量num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0# 循环遍历列表,每次处理一个page的内容for page in doc.get_pages(): # doc.get_pages() 获取page列表num_page += 1  # 页面增一interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()for x in layout:if isinstance(x,LTImage):  # 图片对象num_image += 1if isinstance(x,LTCurve):  # 曲线对象num_curve += 1if isinstance(x,LTFigure):  # figure对象num_figure += 1if isinstance(x, LTTextBoxHorizontal):  # 获取文本内容num_TextBoxHorizontal += 1  # 水平文本框对象增一# 保存文本内容with open(r'test.doc', 'a',encoding='utf-8') as f:    #生成doc文件的文件名及路径results = x.get_text()f.write(results)f.write('\n')print('对象数量:\n','页面数:%s\n'%num_page,'图片数:%s\n'%num_image,'曲线数:%s\n'%num_curve,'水平文本框:%s\n'%num_TextBoxHorizontal)if __name__ == '__main__':pdf_path = r'test.pdf'  #pdf文件路径及文件名parse(pdf_path)

参考PDF转WORD过程:
https://blog.csdn.net/Initiallysunny/article/details/79960838

窗口实现

- - 使用PyQt5创建 - -

PyQt5 创建文件选择窗口
最开始了解到 PyQt5 在最近的Python图形界面实现领域较为流行,就采用了PyQt5。
但在最终的打包实现阶段出现了问题,即使在自己的电脑上打包成功,也无法在其他电脑上成功运行。详见 PyQt5打包失败建议使用tkinter
PyQt5创建文件选择窗口参考代码:
https://blog.csdn.net/humanking7/article/details/80546728

- - 使用tkinter 创建 - -

代码实现:

from tkinter import *
import tkinter.filedialog
windows = tkinter.Tk() #创建主窗口
windows.title("功能选择") #设置窗口标题
windows.geometry("400x120") #设置窗口大小
'''
活动代码部分
'''
windows.mainloop() #程序窗口循环

因为tkinter是Python自带安装的库,所以打包时可以直接pyinstall -F -w #.py

最终实现

- - 实现说明 - -

窗口负责完成文件的选择,包括图片和PDF文件。

将图片文字识别和PDF转WORD的函数,关联窗口的按钮响应,文件确定后进行相应的操作。

- - 完整代码(百度AI账号自申)- -

import sys
import os
from tkinter import *
import tkinter.filedialogimport glob
from os import path
from aip import AipOcr
from PIL import Imageimport importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowedroot = Tk() #创建主窗口
root.title("功能选择") #设置窗口标题
root.geometry("400x120")def baiduOCR(picfile, outfile):"""利用百度api识别文本,并保存提取的文字picfile:    图片文件名outfile:    输出文件"""filename = path.basename(picfile)APP_ID = '**' # 刚才获取的 ID,下同API_KEY = '**'SECRECT_KEY = '**'client = AipOcr(APP_ID, API_KEY, SECRECT_KEY)i = open(picfile, 'rb')img = i.read()#print("正在识别图片:\t" + filename)message = client.basicGeneral(img)   # 通用文字识别,每天 50 000 次免费#message = client.basicAccurate(img)   # 通用文字高精度识别,每天 800 次免费#print("识别成功!")i.close();with open(outfile, 'a+') as fo:fo.writelines("+" * 60 + '\n')fo.writelines("识别图片:\t" + filename + "\n" * 2)fo.writelines("文本内容:\n")# 输出文本内容for text in message.get('words_result'):fo.writelines(text.get('words') + '\n')fo.writelines('\n'*2)#print("文本导出成功!")#print()# 解析pdf文件函数
def parse(pdf_path):fp = open(pdf_path, 'rb')  # 以二进制读模式打开# 用文件对象来创建一个pdf文档分析器parser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象parser.set_document(doc)doc.set_parser(parser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 用来计数页面,图片,曲线,figure,水平文本框等对象的数量num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0# 循环遍历列表,每次处理一个page的内容for page in doc.get_pages(): # doc.get_pages() 获取page列表num_page += 1  # 页面增一interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()for x in layout:if isinstance(x,LTImage):  # 图片对象num_image += 1if isinstance(x,LTCurve):  # 曲线对象num_curve += 1if isinstance(x,LTFigure):  # figure对象num_figure += 1if isinstance(x, LTTextBoxHorizontal):  # 获取文本内容num_TextBoxHorizontal += 1  # 水平文本框对象增一# 保存文本内容with open(r'test.doc', 'a',encoding='utf-8') as f:    #生成doc文件的文件名及路径results = x.get_text()f.write(results)f.write('\n')print('对象数量:\n','页面数:%s\n'%num_page,'图片数:%s\n'%num_image,'曲线数:%s\n'%num_curve,'水平文本框:%s\n'%num_TextBoxHorizontal)def pic():picfile = tkinter.filedialog.askopenfilename(initialdir='C',title='选择图片',filetypes=(("所有图片",("*.jpg","*.jpeg","*.png")),('All file','*.*')))if picfile != '':lb.config(text = "开始文字识别处理...");outfile = 'result.txt'if path.exists(outfile):os.remove(outfile)lb.config(text = "图片识别...");baiduOCR(picfile, outfile)lb.config(text = "图片文本提取结束!文本输出结果位于"+outfile+"文件中");else:lb.config(text = "您未选择文件!");def pdf():file = tkinter.filedialog.askopenfilename(initialdir='C',title='选择PDF文件',filetypes=(("PDF文件",("*.pdf")),('All file','*.*')))if file != '':parse(file)lb1.config(text = "图片文本提取结束!文本输出结果位于test.doc文件中");else:lb1.config(text = "您未选择文件!");
lb = Label(root,text = '')
lb.pack()
btn1 = Button(root,text='图片识别文字提取',command = pic)
btn1.pack()
lb1 = Label(root,text = '')
lb1.pack()
btn2 = Button(root,text='PDF转WORD文档',command = pdf)
btn2.pack()
root.mainloop()

程序打包

- - 使用pyinstaller - -

  1. 将源代码和程序需要的第三方库放置在同一个文件夹下,准备打包。
    命令行pip安装的第三方库位于 *:/Python/Lib/site-packages/文件夹下
    Anaconda 安装的第三方库位于 *:/Anaconda/Lib/site-pacbkages/文件夹下
    然后将使用到的第三方库相应的文件夹复制到和源码同一个文件夹下面。
  2. 进入命令行,进入创建的文件夹下面开始打包。
  3. 打包完成,程序会在dist文件夹下面 newform.exe


    ** 双击 newform.exe 就可以运行程序,还可以发送给好友。**

Python制作一个简单的图片文字提取+PDF转WORD的软件相关推荐

  1. Python制作一个简单的抽奖软件(二)

    Python制作一个简单的抽奖软件(二) 认识QT 因为都对 QT和tkinter都没用过,之前简单使用tkinter后发现,界面调整不太好弄.然后度娘了之后,QT是强大GUI库之一,很多人都推荐它. ...

  2. python实现一个简单的图片浏览器

    上一个博客中学习了如何在网页上进行简单的图片爬取,目的是制作一个简单的图片浏览器,然后可以选择喜欢的图片筛选到另一个文件夹中. 爬取图片的博客链接:https://blog.csdn.net/yql_ ...

  3. 如何用Python制作一个简单的二维码生成器

    目录 前言 1.安装第三方库 2.QRCode参数解释 3.自定义二维码生成器 4.给二维码加图片 5.全部代码 6.结果 前言 二维码又称二维条码,常见的二维码为QR Code,QR全称Quick ...

  4. python自动上传图片_使用Python实现一个简单的图片上传存储服务

    使用flask实现的一个简单的图片上传服务 设计初衷 对于图片的存储,有很多选择,一般采用云服务如(七牛,又拍等),但是国内的服务像七牛 自定义域名竟然需要域名备案(Excuse me,当初就是因为备 ...

  5. 利用EasyDL制作一个简单的图片识别小项目

    主要是利用EasyDL制作一个简单的傻瓜式猫狗图片识别,利用EasyDL,只需要几步简单的点击即可 *主要的步骤: 1.准备数据 2.训练模型 3.部署 4.H5 * 1.首先创建两个文件夹cat和d ...

  6. (python)实现一个简单的图片文字识别脚本

    文章目录 截图 文字识别## 访问剪切板 总结 快毕业了,除了准备答辩之外,就是看看书,各种瞎晃~ 那么,这两天在看书的时候遇到这么个问题: 首先,部分电子版的书籍是以扫描图片的形式展现的,在阅读过程 ...

  7. 使用Python制作一个简单的刷博器

    呵呵,不得不佩服Python的强大,寥寥几句代码就能做一个简单的刷博器. import webbrowser as web import time import oscount=0 while cou ...

  8. 用python做一个简单的图片浏览器竟如此简单

    用了106行代码就做了一个图片浏览器,python真的太强大了.废话少说,看看效果先! 106行代码中还有不少代码是美化用的,真正功能的代码就没几句了.还是说说功能吧: 1. 打开文件夹,并只打开特定 ...

  9. 教你如何使用 python 制作一个简单的密码本

    不知道大家了解不了解暴力破解?我稍微解释下: 假如有个无聊的人用锁把我的电驴锁了,我并不知道与之匹配的钥匙长什么样,但是我有几乎无数把钥匙可以去试开这把锁. 这样看来,只有我肯浪费时间用一把把钥匙去开 ...

  10. 用Python制作一个简单的球球大作战

    大家好,我是查理.今天教大家制作一个简化版球球大作战 话不不多说,上代码 # -*- coding: utf-8 -*- # @Time : 2018/7/30 16:19 # @Author : G ...

最新文章

  1. Pytorch使用GPU
  2. 在目录下所有文件中查找字符串
  3. ProjectManagement::Redmine备份与恢复
  4. malloc和calloc的区别
  5. Spring Boot笔记-jQuery使用load进行异步调用
  6. Linux 命令(138)—— nc 命令
  7. box-shadow属性四个值_flex笔记1——flex-direction属性
  8. 动态规划计算字符相似度感觉棒棒哒
  9. 微信小程序获取位置信息
  10. 这难道是原子、比特and供应链的新内涵?京东如是说……
  11. android sync 文件夹,如何使用FolderSync在安卓手机上同步文件夹到坚果云?
  12. 雷电模拟器一直android正在启动,雷电安卓模拟器启动后没反应、无法启动、闪退的3种解决办法-针对2020年4月4号出现的...
  13. c++语言杨辉三角,杨辉三角 (C++代码)
  14. 哈尔滨信息应用计算机,[哈尔滨工业大学]计算机应用技术
  15. 英语练习95 Computers
  16. Swipe 移动端滑动插件使用详解
  17. 企业服务器系统怎么做,如何搭建一个小型企业服务器机房?6个步骤学起来!...
  18. 7-45 航空公司 VIP 客户查询(25 分)
  19. Xdebug中文文档-基础特性
  20. [bugku]web后面的部分 【脚本,正则 md5 】(疯狂补题qaq) 重点是搞会了 而不是写博客 m...

热门文章

  1. JAVA开发路线走向高级开发工程师
  2. 思科路由器基本配置命令
  3. linux添加变色龙引导,变色龙引导界面屏蔽多余盘符并默认启动Mac _ 黑苹果乐园...
  4. windows系统上删除顽固文件
  5. C语言构建连连看游戏(矩阵方式)
  6. 小米开源文件管理器MiCodeFileExplorer-源码研究(9)-入口分析
  7. 浅谈医院HIS系统审计
  8. weblogic10.3.6安装漏洞补丁
  9. 【java工具类】将明文密码转成MD5密码
  10. java print argc_【转】main 函数参数 argc argv env 与命令行