前言

最近想做一个小的功能,将PDF文字提取,并转换为HTML页面 ,但苦苦找寻没有合适好用简单的方法。Google一下,马上知道,接下来就是学习的结果,分享给大家,以免踩坑

含泪分享,希望大家喜欢,直接上代码

本文仅用于知识分享!

第一个版本,简单实现了HTML输出

import fitz
from tqdm import tqdmdef pdf2html(input_path,html_path):doc = fitz.open(input_path)for page in tqdm(doc):html_content = page.getText('html')print("开始输出html文件")with open(html_path, 'w', encoding='utf8', newline="") as fp:fp.write(html_content)input_path = r'G:\back\pyfile\翻译\pdf_translate-master\3.pdf' # 如果报错 就用绝对路径
html_path = r'G:\back\pyfile\翻译\pdf_translate-master\input.html'
pdf2html(input_path,html_path)

第二个版本,优化了HTML输出的样式(做了居中对齐)

import fitz
from tqdm import tqdmdef pdf2html(input_path, html_path):doc = fitz.open(input_path)print(doc)html_content = "<!DOCTYPE html><html lang=\"en\"><head><meta charset=\"UTF-8\"><title>Title</title></head><body style=\"display: flex;justify-content: center;flex-direction: column;background: #0e0e0e;align-items: center;\">"for page in tqdm(doc):html_content += page.getText('html')print("开始输出html文件")html_content += "</body></html>"with open(html_path, 'w', encoding='utf8', newline="") as fp:fp.write(html_content)input_path = r'/Users/guoyi/Desktop/report123.pdf'  # 如果报错 就用绝对路径
html_path = r'/Users/guoyi/Desktop/report123.html'
pdf2html(input_path, html_path)

安装

pip install PyMuPDF
或者pip3 install PyMuPDFpip install tqdm
或者pip3 install tqdm

有任何疑问评论咨询我~

【Python | PDF】如何使用Python将PDF转换为HTML页面?相关推荐

  1. python批量pdf转word,python批量实现Word文件转换为PDF文件

    本文为大家分享了python批量转换Word文件为PDF文件的具体方法,供大家参考,具体内容如下 1.目的 通过万能的Python把一个目录下的所有Word文件转换为PDF文件. 2.遍历目录 作者总 ...

  2. python pdf报告_python生成pdf报告、python实现html转换为pdf报告

    1.先说下html转换为pdf:其实支持直接生成,有三个函数pdfkit.f 安装python包:pip Install pdfkit 系统安装wkhtmltopdf:参考 https://githu ...

  3. python快速入门 pdf-Python 快速入门 PDF 第3版

    给大家带来的一篇关于Python入门相关的电子书资源,介绍了关于Python.Python入门方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小9.73 MB,娜奥米·塞德编写,目前豆瓣. ...

  4. 【Python】用于在 Python 中处理 PDF 文件的 PyPDF2 库

    作者 | megha152 编译 | Flin 来源 | analyticsvidhya 介绍 PDF 代表便携式文档格式.它使用 .pdf 扩展名.这种类型的文件主要用于共享目的.它们不能被修改,从 ...

  5. python实现pdf转word详解_手把手|20行Python代码教你批量将PDF文件转为Word格式(包教包会)...

    在日常工作或学习中,经常会遇到这样的无奈: "小任,你把这个PDF中的文件码出来发我" 倒霉,2M的PDF12点也完不了啊! 很多时候在学习时发现许多文档都是PDF格式,PDF格式 ...

  6. python docx 合并文档 图片_不再为处理PDF烦恼,python处理操作PDF全攻略

    本篇聊下Python对pdf的各种操作,包含pdf转word,pdf转图片,pdf翻转,加密,加水印等. pdf转换word文档 保留格式 pdf转换为word文档,被大众经常使用的是纯Python库 ...

  7. Python办公自动化--Word、Excel、PDF

    一.Python自动化之Excel python操作excel主要用到openpyxl库.其主要针对xlsx格式的excel进行读取和编辑.下面简单介绍其使用方法及命令.除openpyxl库外,还有x ...

  8. 【python自动化办公】Python自动化之pdf——PyPDF2、pdfplumber、fitz、pdf2image库介绍

    目录 前言 1. 学习python自动化办公目的 2. 未来持续打卡内容 3. 资料来源与思维导图 一.PDF处理库 1.PyPDF2--基础操作 2.pdfplumber--表格抽取 3.fitz- ...

  9. python把pdf转word_手把手|20行Python代码教你批量将PDF文件转为Word格式(包教包会)...

    作者:菜鸟分析 Python爱好者社区--专栏作者 个人介绍:一个痴迷于Python语言的业余程序猿,未来的理想是能够与一群痴迷于Python语言的程序猿改变世界 知乎专栏: https://zhua ...

最新文章

  1. 工业机器人发展现状:硬件制造大同小异,视觉感知绘新蓝图
  2. POJ 1611 -The Suspects (并查集)
  3. 开关电源PCB排版基本要点概述
  4. 安装meme_我见过的最好JavaScript Meme,详细说明了
  5. ubuntu之路——day9.2 Covariate shift问题和Batch Norm的解决方案
  6. linux系统man命令空白键,man查看帮助命令
  7. 迅为-iMX6ULL开发板原创嵌入式开发文档系统化学习
  8. windows server 2008 R2 补丁下载地址
  9. struts1 和struts 2区别
  10. win7 增加Internet时间服务器
  11. 硬盘播放器和pc计算机,电脑可不可以用来当电影播放器用
  12. 给大家分享一下我的数字化转型研究资料
  13. 机器学习笔记之 K-NEAREST NEIGHBORS
  14. 《认知设计》-提升学习体验的艺术
  15. 贝壳找房app使用Glide替换Picasso
  16. 游戏软件寄售官网源码带后台
  17. 基于SpringBoot的校园志愿者管理系统
  18. getDate方法的妙用(js判断闰年)
  19. ARM裸机——2.ARM体系结构(1)
  20. canpro脚本_AE/PR脚本-文件自动导入导出 Aescripts Pro IO v2.15.8

热门文章

  1. 安卓手机来电防火墙_iPhone 超酷炫的来电闪光秀,安卓手机也可以玩了。
  2. 报错 Unsatisfied dependency expressed through field ‘cruisePlanMapper‘ 解决方案
  3. 我国最新贫富标准线出炉,看看你属于哪个阶级?
  4. 百度与谷歌搜索结果差异
  5. 数据库的可用性衡量指标
  6. java 仿qq 聊天工具(基于mvc三层架构,附 mvc架构模式pdf说明文档)支持开源
  7. 银行信贷管理系统(C#)
  8. Charterstone for Mac 契约石 中文版 好玩的桌游棋盘战略游戏
  9. C++ 小学生计算机辅助教学系统
  10. 第一章 复数 1-3-复平面上的点集