python获取pdf和word文档页数
python获取word文档和pdf文档页数的方法
1、获取pdf页码数
这里要使用到 pdfplumber 这个库,首先导入
没有安装的同学还需要先安装
pip install pdfplumber
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
官方教程
https://codechina.csdn.net/mirrors/jsvine/pdfplumber?utm_source=csdn_github_accelerator
代码如下:
#获取pdf文档页数
def get_pdf_page(pdf_path):try:f = pdfplumber.open(pdf_path)page = len(f.pages)except PDFSyntaxError:page = 0return page
2、获取word文档页码数
这里我们需要用到pythoncom和win32com这两个库,先导入
import pythoncom
import win32com
代码如下
#获取word文档页数
def get_word_page(word_path): pythoncom.CoInitialize()# 调用word程序,不在前台显示w = win32com.client.Dispatch("Word.Application")w.Visible = 0w.DisplayAlerts = 0# 打开一个word文档doc = w.Documents.Open(word_path)# 获取总页数w.ActiveDocument.Repaginate()pages = w.ActiveDocument.ComputeStatistics(2)print(pages)# 保存并关闭doc.SaveAs('test.docx')doc.Close()return pages
python获取pdf和word文档页数相关推荐
- 如何使用Python将PDF转换为Word文档?
PDF是一种常用的文件格式,用于共享和打印文档.但是,在某些情况下,PDF 文件会转换为 Word DOCX或DOC格式以解析文本或使文档可编辑.对于此类场景,本文介绍了如何使用 Python 将 P ...
- java 获取office文件页数_java如何获取word文档页数
满意答案 XWPFDocument docx = new XWPFDocument(POIXMLDocument.openPackage(电月度例会会议纪要.docx)); int pages = d ...
- python 获取word文档页数
# -*- coding: utf-8 -*- # @Time : 2022年04月14日 13时58分 # @Email : cf200908@126.com # @Author : Chenfen ...
- 基于pdf2docx模块Python实现批量将PDF转Word文档(安装+完整代码教程)
PDF文件是一种常见的文档格式,但是在编辑和修改时不太方便,因为PDF本质上是一种静态的文档格式.因此,有时候我们需要将PDF文件转换成Word格式,以便更好地编辑和修改文档.在本篇文章中,我们将介绍 ...
- Python学习之批量word文档转pdf并统计其页码
pypdf2是一个Python模块,可以用来读取.写入和操作PDF文件.要安装pypdf2模块,请按照以下步骤操作: 确保你已经安装了Python.你可以在终端或命令提示符中输入python --ve ...
- 《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章 处理PDF和Word文档(1)】
PDF 和 Word 文档是二进制文件. 1. PDF 文档 PDF表示Portable Document Format(可移植文档格式),使用.pdf文件扩展名.用于处理PDF的模块是PyPDF2 ...
- 2021-01-26 Python自动化办公-处理word文档
Python自动化办公-处理word文档 年底项目投标,需要整理大量的内容,标书的很多内容是其实是之前的标书重复的,可以把对应的各个部分内容合并,然后再处理格式等.如果采用常规操作每次操作需要打开子目 ...
- 爬虫系列:读取 CSV、PDF、Word 文档
上一期我们讲解了使用 Python 读取文档编码的相关问题,本期我们讲解使用 Python 处理 CSV.PDF.Word 文档相关内容. CSV 我们进行网页采集的时候,你可能会遇到 CSV 文件, ...
- PDF转word文档(java)
PDF转word文档的具体步骤 第一:导入正确的对应的jar包 第二,定义一个字符串是存储PDF文件的路径,代码如下: String pdfFile = "D:/BaiduNetdiskDo ...
最新文章
- Spring - BeanDefinition的注册顺序 DeffredImportSelector
- java二维数组高纬低纬_2018-05-17 第十一天
- 盒马鲜生颠覆传统生鲜市场的胜算几何?
- SpringCloud Stream消息驱动
- java StringUtils方法全览
- html ready 调用函数,Chrome和JQuery问题 - $(document).ready(function(){});在页面加载之前调用...
- python module错误_修复python的ModuleNotFoundError
- uniapp php接口如何写,uni-app入门教程之接口的基本使用
- mysql sql语句递归查询语句_SQL实现MYSQL递归查询的方法
- 手机版q群管机器人_手机QQ机器人怎么用,QQ机器人手机版怎么设置
- 离合器膜片弹簧的优化设计matlab,汽车离合器膜片弹簧结构优化设计(本科毕业论文设计)...
- 住户水电费计算c语言程序,(小区水电费管理系统C语言.doc
- QT画贝塞尔曲线 和 曲线与斜率、一阶导数 、二阶导数的关系
- 微信逆向分析(一)——逆向分析的原理
- 1118 Birds in Forest (25分)
- openwrt 做二级路由 同网段无线桥接教程 relayd
- Bellman_Ford的负环
- CTFSHOW 菜狗杯--WEB
- python dataframe dropna_在Python中使用熊猫在两个DataFrame之间进行值...
- 影评(一):《寄生虫》韩国(2019)