近期需要做个读取文档内容的功能，于是发现了好用的python东西，挺多坑的，做个记录

1.准备好python环境

2.准备好依赖库

# 安装依赖库
# pywt可能要重启内核
pip install pywt -i https://mirror.baidu.com/pypi/simplepip install "paddleocr>=2.2" --no-deps -r requirements.txt
# 安装依赖库
pip install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whlpip install PyMuPDF==1.20.2pip install Flask (web才需要用到)pip install paddleocr==2.6.0.1版本号这里安装了指定的版本，是因为前面因为几个版本的问题导致了不少坑

最后py附上代码

# -*- coding=utf-8 -*-
from flask import Flask, jsonify
from flask import request
import fitz
from paddleocr import PaddleOCR
import time
app = Flask(__name__)
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False)@app.route("/resume", methods=['POST'])
def convertText():start_time = time.time()# function()   运行的程序file = request.files.get('file')result = []pdfdoc = fitz.open("pdf",file.read())for pg in range(pdfdoc.page_count):page = pdfdoc[pg]rotate = int(0)# 每个尺寸的缩放系数为2，这将为我们生成分辨率提高四倍的图像。zoom_x = 2.0zoom_y = 2.0trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pm = page.get_pixmap(matrix=trans, alpha=False)pm._writeIMG('temp.jpg', 1)# ocr识别list = ocr.ocr('temp.jpg', cls=True)result.append(list)end_time = time.time()  # 程序结束时间run_time = end_time - start_time  # 程序的运行时间，单位为秒print(run_time)return jsonify({"data": result})if __name__ == "__main__":app.config['JSON_AS_ASCII'] = Falseapp.run(host='0.0.0.0',port=8059)

1.这里用了Flask作为搭建web基础，快速搭建

指定的config是因为编码问题，转为JSON的时候会乱码，需要指定不启用ASCII编码

还有host需要指定0.0.0.0，若不指定，则无法在局域网访问

通过PaddleOCR识别PDF相关推荐

用软件如何识别pdf文字
用软件如何识别pdf文字近来得到一个好东西是可以辨认图画文字的软件--捷速ocr图画辨认软件,我也是一次偶然的时机遇上该软件.公司的电脑慢的跟驴相同,所以计划来个大扫除,将一些不需求的东西悉数删掉, ...
PaddleOCR 识别数据制作
PaddleOCR 识别数据制作 OCR 常见数据集准备生成PaddleOCR识别数据集 Python常见转义符号 ChineseOCR 数据集转PaddleOCR 数据集训练格式以PaddleO ...
matlab获取图片上的字,基于MATLAB图片中文字提取及识别.pdf
基于MATLAB图片中文字提取及识别.pdf 数字图象处理 DigitalImageProgressing 基于MATLAB的图片中文字的提取及识别邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅 (西安 ...
PaddleOCR识别繁体中文和其他国家文字
关于PaddleOCR识别简体中文的介绍大家可以看公众号文章,MFC Demo查看知识星球链接https://t.zsxq.com/6M3j623 即可. 这里简单介绍一下如何识别繁体中文和其他国家文 ...
OCR识别PDF文件
1现有解析pdf的方法使用org.apache.pdfbox读取pdf,只能读取pdf中的文字,有些纸件扫描成的pdf文字会错乱,有些字还是图片的方式显示的,导致读取的内容不全,常常会获取不到想要的 ...
PaddleOCR 识别使用遇到的问题
PaddleOCR 识别使用遇到的问题文章目录 PaddleOCR 识别使用遇到的问题前言错误1:AttributeError: module 'paddle.distributed' has ...
使用PaddleOCR识别文字（一）安装过程问题及解决
安装paddlepaddle python -m pip install paddlepaddle==1.8.5 -i https://mirror.baidu.com/pypi/simple 安装完 ...
利用PaddleOCR识别增值税发票平台验证码（开箱即用）
前言:全国增值税发票查验平台验证码没什么好说的,根据指定的颜色识别验证码中的文字,图片如下下面直接讲解利用paddleocr识别的思路,为什么使用paddleocr,因为paddle中集成了较好的o ...
武汉大学计算机学院曹瑀,利用人体部位特征重要性进行行人再识别.pdf
利用人体部位特征重要性进行行人再识别.pdf (7页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分第42卷第1期2017年1月武汉 ...

通过PaddleOCR识别PDF

1.准备好python环境

2.准备好依赖库

最后py附上代码

通过PaddleOCR识别PDF相关推荐

最新文章

热门文章