Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去:

1、首先,要安装PyPDF2库,利用以下命令即可:

pip install PyPDF2

2、接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下:

from PyPDF2 import PdfFileReader

def get_num_pages(file_path):

"""

获取文件总页码

:param file_path: 文件路径

:return:

"""

reader = PdfFileReader(file_path)

# 不解密可能会报错:PyPDF2.utils.PdfReadError: File has not been decrypted

if reader.isEncrypted:

reader.decrypt('')

page_num = reader.getNumPages()

return page_num

3、这样就可以获得该pdf文件的总页数了,但是需要传递文件路径进去,因为需要读取这个文件。

4、以上内容仅供学习参考,谢谢!

补充知识:使用python合并pdf文件带书签

1、需求:

将几本纸质书进行了扫描,可是扫描的每页生成一个pdf文件。需要怎么才能把这些pdf文件合成一个呢?adoba acrobat工具支持,可是收费。我们平时用的都是adoba reader,只有读pdf的功能没有合并等高级功能。网上的一些免费工具又担心有病毒或绑定程序。

所以考虑看看pyton实现。网上找了下python合并pdf的脚本,发现也没有添加书签的功能的,有添加书签的也不是很灵活。

所有对网上找的一个python程序进行了升级,可以实现合并pdf并每个章节加入书签。

文件准备:

先将扫描的pdf文件,每一章放到一个文件夹中,文件夹名字用章节名命名。这样最终程序就能将章节名作为书签了,而不是默认将每页都生成书签。

2、程序代码

代码运行环境:python3

需要安装PyPDF2包:pip install PyPDF2

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

'''

本脚本用来合并pdf文件,支持带一级子目录的

每章内容分别放在不同的目录下,目录名为章节名

最终生成的pdf,按章节名生成书签

'''

import os, sys, codecs

from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger

import glob

def getFileName(filepath):

'''

获取当前目录下的所有pdf文件

'''

file_list = glob.glob(filepath+"/*.pdf")

# 默认安装字典序排序,也可以安装自定义的方式排序

# file_list.sort()

return file_list

def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]):

# 遍历filepath下的所有目录

for dir in os.listdir(filepath):

dirpathlist_out.append(filepath + '\\' + dir)

return dirpathlist_out

def merge_childdir_files(path):

'''

每个子目录下合并生成一个pdf

'''

dirpathlist = get_dirs(path)

if len(dirpathlist) == 0:

print("当前目录不存在子目录")

sys.exit()

for dir in dirpathlist:

mergefiles(dir, dir)

def mergefiles(path, output_filename, import_bookmarks=False):

# 遍历目录下的所有pdf将其合并输出到一个pdf文件中,输出的pdf文件默认带书签,书签名为之前的文件名

# 默认情况下原始文件的书签不会导入,使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中

merger = PdfFileMerger()

filelist = getFileName(path)

if len(filelist) == 0:

print("当前目录及子目录下不存在pdf文件")

sys.exit()

for filename in filelist:

f = codecs.open(filename, 'rb')

file_rd = PdfFileReader(f)

short_filename = os.path.basename(os.path.splitext(filename)[0])

if file_rd.isEncrypted == True:

print('不支持的加密文件:%s'%(filename))

continue

merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)

print('合并文件:%s'%(filename))

f.close()

# out_filename = os.path.join(os.path.abspath(path), output_filename)

merger.write(output_filename + ".pdf")

print('合并后的输出文件:%s'%(output_filename))

merger.close()

if __name__ == "__main__":

# 每个章节一个子目录,先分别合并每个子目录文件为一个pdf,然后再将这些pdf合并为一个大的pdf,这样做目的是想生成每个章节的书签

# 1.指定目录

# 原始pdf所在目录

path = "D:\spdf"

# 输出pdf路径和文件名

output_filename = "D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

# 2.生成子目录的pdf

# merge_childdir_files(path)

# 3.子目录pdf合并为总的pdf

mergefiles(path, output_filename)

3、程序使用

将要生成的pdf文件目录导入到程序指定目录下,例如我程序中的path是“D:\spdf”,然后指定最终输出的文件路径及文件名,我上面的output_filename是"D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

数据结果如下:

以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

python读取pdf文档书签 bookmark_Python利用PyPDF2库获取PDF文件总页码实例相关推荐

  1. python读取扫描形成的pdf_Python利用PyPDF2库获取PDF文件总页码实例

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...

  2. Python利用PyPDF2库获取PDF文件总页码

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...

  3. python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签

    平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲.那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书 ...

  4. python生成word文档的表格_2018-10-04 [日常]用Python读取word文档中的表格并比较

    演示如下. 两个简单的word文档, 各有一个表格: 读取文档中的表格到列表(为演示只对单列表格操作): import docx def 取表格(文件名): 文件 = docx.Document(文件 ...

  5. python读取doc文件_Linux 下Python 读取Word文档内容的方法

    如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...

  6. python读取word文档并做简单的批量文档筛选

    python读取word文档并做简单的批量文档筛选 最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了pytho ...

  7. python——读取docx文档wordcloud生成词云并进行词频统计

    文章目录 环境准备 导入库 读取docx并进行分词 词频 词云 设置背景图片(可选) 生成词云 保存词云并显示 环境准备 # 不是docx,是python-docx!!!!!!! pip instal ...

  8. Python读取.txt文档内容/读取text文件内容

    Python读取.txt文档内容/读取text文件内容; 读取txt后缀文件的内容的两种方式,简约易懂,复制粘贴即可食用,节约你宝贵的时间 文档全部数据一次性读取 # -*- coding: UTF- ...

  9. python读取excel文档的sheet

    python读取excel文档的sheet 1. 使用xlrd import xlrd # 打开文件方式1: work_book = xlrd.open_workbook('F:\\Course\\d ...

最新文章

  1. 深度学习常用损失函数总览:基本形式、原理、特点
  2. Python将classification_report的结论转化为字典(dict)形式并提取模型的灵敏度(sensitivity)、特异度(specificity)、PPV和NPV指标、混淆矩阵图
  3. ASP.NET 第五天 CSS在支付宝中的应用
  4. SFTP Net Drive
  5. 悼念传奇,约翰询问#183;纳什和他的妻子艾丽西亚致敬,创建一个传奇,爱数学...
  6. openresty火焰图安装
  7. 洛谷 2449 [SDOI2005]矩形
  8. Feature Layer with selection(ArcGIS JS Api 图上点选)
  9. 选择用户-显示已选用户
  10. 怎样打开.jar格式文件,怎样运行.jar格式文件
  11. 专访Token经济设计专家叶开:Token设计画布与10大设计模式
  12. Mysql 1864 主从错误解决方法
  13. 思科路由器——静态路由超级详细
  14. Linux网卡丢包分类整理(1)——网卡篇
  15. Magic value如何解决?
  16. 中缀表达式 后缀表达式
  17. 单晶高温合金晶体取向的影响因素及调控机制
  18. java计算机毕业设计课外创新实践学分认定管理系统源码+数据库+lw文档+系统
  19. ubuntu gcc 安装 使用
  20. 基于图片识别的 UI 自动化测试工具 SikuliX

热门文章

  1. JavaSE各阶段练习题----IO流
  2. NumPy之:ndarray中的函数
  3. Python基础之:struct和格式化字符
  4. jcmd:JDK14中的调试神器
  5. java 8 stream reduce详解和误区
  6. Spring Boot JPA的查询语句
  7. Kafka Without ZooKeeper ---- 不使用zookeeper的kafka集群
  8. matlab线性拟合和非线性拟合,matlab多元非线性拟合
  9. 算法训练营01-学习总览
  10. 数据结构(6) -- 查找