python获取word文档和pdf文档页数的方法

1、获取pdf页码数

这里要使用到 pdfplumber 这个库,首先导入
没有安装的同学还需要先安装

pip install pdfplumber
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

官方教程
https://codechina.csdn.net/mirrors/jsvine/pdfplumber?utm_source=csdn_github_accelerator

代码如下:

#获取pdf文档页数
def get_pdf_page(pdf_path):try:f = pdfplumber.open(pdf_path)page = len(f.pages)except PDFSyntaxError:page = 0return page

2、获取word文档页码数

这里我们需要用到pythoncom和win32com这两个库,先导入

import pythoncom
import win32com

代码如下

#获取word文档页数
def get_word_page(word_path):   pythoncom.CoInitialize()# 调用word程序,不在前台显示w = win32com.client.Dispatch("Word.Application")w.Visible = 0w.DisplayAlerts = 0# 打开一个word文档doc = w.Documents.Open(word_path)# 获取总页数w.ActiveDocument.Repaginate()pages = w.ActiveDocument.ComputeStatistics(2)print(pages)# 保存并关闭doc.SaveAs('test.docx')doc.Close()return pages

python获取pdf和word文档页数相关推荐

  1. 如何使用Python将PDF转换为Word文档?

    PDF是一种常用的文件格式,用于共享和打印文档.但是,在某些情况下,PDF 文件会转换为 Word DOCX或DOC格式以解析文本或使文档可编辑.对于此类场景,本文介绍了如何使用 Python 将 P ...

  2. java 获取office文件页数_java如何获取word文档页数

    满意答案 XWPFDocument docx = new XWPFDocument(POIXMLDocument.openPackage(电月度例会会议纪要.docx)); int pages = d ...

  3. python 获取word文档页数

    # -*- coding: utf-8 -*- # @Time : 2022年04月14日 13时58分 # @Email : cf200908@126.com # @Author : Chenfen ...

  4. 基于pdf2docx模块Python实现批量将PDF转Word文档(安装+完整代码教程)

    PDF文件是一种常见的文档格式,但是在编辑和修改时不太方便,因为PDF本质上是一种静态的文档格式.因此,有时候我们需要将PDF文件转换成Word格式,以便更好地编辑和修改文档.在本篇文章中,我们将介绍 ...

  5. Python学习之批量word文档转pdf并统计其页码

    pypdf2是一个Python模块,可以用来读取.写入和操作PDF文件.要安装pypdf2模块,请按照以下步骤操作: 确保你已经安装了Python.你可以在终端或命令提示符中输入python --ve ...

  6. 《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章 处理PDF和Word文档(1)】

    PDF 和 Word 文档是二进制文件. 1.  PDF 文档 PDF表示Portable Document Format(可移植文档格式),使用.pdf文件扩展名.用于处理PDF的模块是PyPDF2 ...

  7. 2021-01-26 Python自动化办公-处理word文档

    Python自动化办公-处理word文档 年底项目投标,需要整理大量的内容,标书的很多内容是其实是之前的标书重复的,可以把对应的各个部分内容合并,然后再处理格式等.如果采用常规操作每次操作需要打开子目 ...

  8. 爬虫系列:读取 CSV、PDF、Word 文档

    上一期我们讲解了使用 Python 读取文档编码的相关问题,本期我们讲解使用 Python 处理 CSV.PDF.Word 文档相关内容. CSV 我们进行网页采集的时候,你可能会遇到 CSV 文件, ...

  9. PDF转word文档(java)

    PDF转word文档的具体步骤 第一:导入正确的对应的jar包 第二,定义一个字符串是存储PDF文件的路径,代码如下: String pdfFile = "D:/BaiduNetdiskDo ...

最新文章

  1. Spring - BeanDefinition的注册顺序 DeffredImportSelector
  2. java二维数组高纬低纬_2018-05-17 第十一天
  3. 盒马鲜生颠覆传统生鲜市场的胜算几何?
  4. SpringCloud Stream消息驱动
  5. java StringUtils方法全览
  6. html ready 调用函数,Chrome和JQuery问题 - $(document).ready(function(){});在页面加载之前调用...
  7. python module错误_修复python的ModuleNotFoundError
  8. uniapp php接口如何写,uni-app入门教程之接口的基本使用
  9. mysql sql语句递归查询语句_SQL实现MYSQL递归查询的方法
  10. 手机版q群管机器人_手机QQ机器人怎么用,QQ机器人手机版怎么设置
  11. 离合器膜片弹簧的优化设计matlab,汽车离合器膜片弹簧结构优化设计(本科毕业论文设计)...
  12. 住户水电费计算c语言程序,(小区水电费管理系统C语言.doc
  13. QT画贝塞尔曲线 和 曲线与斜率、一阶导数 、二阶导数的关系
  14. 微信逆向分析(一)——逆向分析的原理
  15. 1118 Birds in Forest (25分)
  16. openwrt 做二级路由 同网段无线桥接教程 relayd
  17. Bellman_Ford的负环
  18. CTFSHOW 菜狗杯--WEB
  19. python dataframe dropna_在Python中使用熊猫在两个DataFrame之间进行值...
  20. 影评(一):《寄生虫》韩国(2019)

热门文章

  1. Simple Schnorr Multi-Signatures with Applications to Bitcoin 学习笔记
  2. python 输出plot函数的动图,并保存为gif文件
  3. 软件开发的打怪升级攻略
  4. Word页码设置-减去封面
  5. python xlwt设置单元格格式(字体,对齐,边框等)
  6. Visio、Matlab高清图片插入word文档的几种方法。
  7. rsync远程数据同步工具
  8. ssh设置socks5代理,curl代理下载及yum配置代理
  9. spring定时任务Scheduled之动态开关,动态core表达式
  10. java网页版加好友功能实现思路