近期需要做个读取文档内容的功能,于是发现了好用的python东西,挺多坑的,做个记录

1.准备好python环境

2.准备好依赖库

# 安装依赖库
# pywt可能要重启内核
pip install pywt -i https://mirror.baidu.com/pypi/simplepip install "paddleocr>=2.2" --no-deps -r requirements.txt
# 安装依赖库
pip install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whlpip install PyMuPDF==1.20.2pip install Flask (web才需要用到)pip install paddleocr==2.6.0.1版本号这里安装了指定的版本,是因为前面因为几个版本的问题导致了不少坑

最后py附上代码

# -*- coding=utf-8 -*-
from flask import Flask, jsonify
from flask import request
import fitz
from paddleocr import PaddleOCR
import time
app = Flask(__name__)
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False)@app.route("/resume", methods=['POST'])
def convertText():start_time = time.time()# function()   运行的程序file = request.files.get('file')result = []pdfdoc = fitz.open("pdf",file.read())for pg in range(pdfdoc.page_count):page = pdfdoc[pg]rotate = int(0)# 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。zoom_x = 2.0zoom_y = 2.0trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)pm = page.get_pixmap(matrix=trans, alpha=False)pm._writeIMG('temp.jpg', 1)# ocr识别list = ocr.ocr('temp.jpg', cls=True)result.append(list)end_time = time.time()  # 程序结束时间run_time = end_time - start_time  # 程序的运行时间,单位为秒print(run_time)return jsonify({"data": result})if __name__ == "__main__":app.config['JSON_AS_ASCII'] = Falseapp.run(host='0.0.0.0',port=8059)

1.这里用了Flask作为搭建web基础,快速搭建

指定的config是因为编码问题,转为JSON的时候会乱码,需要指定不启用ASCII编码

还有host需要指定0.0.0.0,若不指定,则无法在局域网访问

通过PaddleOCR识别PDF相关推荐

  1. 用软件如何识别pdf文字

    用软件如何识别pdf文字 近来得到一个好东西是可以辨认图画文字的软件--捷速ocr图画辨认软件,我也是一次偶然的时机遇上该软件.公司的电脑慢的跟驴相同,所以计划来个大扫除,将一些不需求的东西悉数删掉, ...

  2. PaddleOCR 识别数据制作

    PaddleOCR 识别数据制作 OCR 常见数据集准备 生成PaddleOCR识别数据集 Python常见转义符号 ChineseOCR 数据集转PaddleOCR 数据集训练格式 以PaddleO ...

  3. matlab获取图片上的字,基于MATLAB图片中文字提取及识别.pdf

    基于MATLAB图片中文字提取及识别.pdf 数字图象处理 DigitalImageProgressing 基于MATLAB的图片中文字的提取及识别 邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅 (西安 ...

  4. PaddleOCR识别繁体中文和其他国家文字

    关于PaddleOCR识别简体中文的介绍大家可以看公众号文章,MFC Demo查看知识星球链接https://t.zsxq.com/6M3j623 即可. 这里简单介绍一下如何识别繁体中文和其他国家文 ...

  5. OCR识别PDF文件

    1现有解析pdf的方法 使用org.apache.pdfbox读取pdf,只能读取pdf中的文字,有些纸件扫描成的pdf文字会错乱,有些字还是图片的方式显示的,导致读取的内容不全,常常会获取不到想要的 ...

  6. PaddleOCR 识别使用遇到的问题

    PaddleOCR 识别使用遇到的问题 文章目录 PaddleOCR 识别使用遇到的问题 前言 错误1:AttributeError: module 'paddle.distributed' has ...

  7. 使用PaddleOCR识别文字 (一) 安装过程问题及解决

    安装paddlepaddle python -m pip install paddlepaddle==1.8.5 -i https://mirror.baidu.com/pypi/simple 安装完 ...

  8. 利用PaddleOCR识别增值税发票平台验证码(开箱即用)

    前言:全国增值税发票查验平台验证码没什么好说的,根据指定的颜色识别验证码中的文字,图片如下 下面直接讲解利用paddleocr识别的思路,为什么使用paddleocr,因为paddle中集成了较好的o ...

  9. 武汉大学 计算机学院 曹瑀,利用人体部位特征重要性进行行人再识别.pdf

    利用人体部位特征重要性进行行人再识别.pdf (7页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分 第42卷 第1期2017年1月武 汉 ...

最新文章

  1. Java中Set巧用,去掉重复数据
  2. linux中配置jmeter环境变量,linux java 和jmeter 环境变量配置文件笔记(原)
  3. JEESZ-SSO解决方案
  4. java构造块_java中的静态代码块、构造代码块、构造方法详解
  5. 内推学弟进了腾讯,看看他的标杆简历!
  6. Linux多网口绑定配合华为5700 eth-trunk技术,提高网络性能
  7. 配置cacti 监控squid
  8. 看看async,await 是如何简化异步的调用WCF!
  9. .net core精彩实例分享 -- 基础篇
  10. 提取mkv文件中的字幕
  11. 魔百盒CM201-2-YS代工-刷机固件及教程
  12. c#学习笔记之八 函数的代表delegate的用法:c# 求 三角函数 指数函数 积分
  13. 倪光南思考中关村问题
  14. 汽车厂VIN码生成软件
  15. java使用egl_EGL 作用及其使用
  16. 模拟电路9(微变等效电路法对共射基本放大电路进行分析)
  17. win7系统自带的录像在哪里 Win7问题步骤记录器教程详解
  18. 502粘到手上变硬了怎么办_502胶水粘手如何处理?五种小技巧帮你轻松去胶!
  19. 计算机网络钟中PCF,请问,为什么我向时钟芯片PCF8563中写入初始化数据后,读出来...
  20. LBS:利用IP地址,获取地理位置

热门文章

  1. MIKE 21 教程 1.3 网格搭建界面介绍之网格生成 (Mesh Generator 工具)
  2. 【Java基础】Java输入输出(IO)流
  3. 【算法】动画图解Dijkstra算法及其实现代码
  4. 【破文标题】久其2005年度部门决算报表软件绿化
  5. vc2015/2010整型转字符串-字符串转整型 vc++
  6. 1-氨丙基-3-甲基咪唑溴盐离子液体修饰碳量子点(L-CQDs)负载TiO2纳米颗粒(试剂)
  7. libxml2创建xml
  8. SecureCRT8.5的下载、安装和注册(详细图解)
  9. 计算机作文我的职业理想300字,我理想的职业小学生作文范文(精选3篇)
  10. php 手机号码三要素实名查询