Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去:

1、首先,要安装PyPDF2库,利用以下命令即可:

pip install PyPDF2

2、接着,就是直接编写代码了,其中我新建了一个py文件,名为file_utils.py,代码如下:

from PyPDF2 import PdfFileReader

def get_num_pages(file_path):

"""

获取文件总页码

:param file_path: 文件路径

:return:

"""

reader = PdfFileReader(file_path)

# 不解密可能会报错:PyPDF2.utils.PdfReadError: File has not been decrypted

if reader.isEncrypted:

reader.decrypt('')

page_num = reader.getNumPages()

return page_num

3、这样就可以获得该pdf文件的总页数了,但是需要传递文件路径进去,因为需要读取这个文件。

4、以上内容仅供学习参考,谢谢!

补充知识:使用python合并pdf文件带书签

1、需求:

将几本纸质书进行了扫描,可是扫描的每页生成一个pdf文件。需要怎么才能把这些pdf文件合成一个呢?adoba acrobat工具支持,可是收费。我们平时用的都是adoba reader,只有读pdf的功能没有合并等高级功能。网上的一些免费工具又担心有病毒或绑定程序。

所以考虑看看pyton实现。网上找了下python合并pdf的脚本,发现也没有添加书签的功能的,有添加书签的也不是很灵活。

所有对网上找的一个python程序进行了升级,可以实现合并pdf并每个章节加入书签。

文件准备:

先将扫描的pdf文件,每一章放到一个文件夹中,文件夹名字用章节名命名。这样最终程序就能将章节名作为书签了,而不是默认将每页都生成书签。

2、程序代码

代码运行环境:python3

需要安装PyPDF2包:pip install PyPDF2

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

'''

本脚本用来合并pdf文件,支持带一级子目录的

每章内容分别放在不同的目录下,目录名为章节名

最终生成的pdf,按章节名生成书签

'''

import os, sys, codecs

from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger

import glob

def getFileName(filepath):

'''

获取当前目录下的所有pdf文件

'''

file_list = glob.glob(filepath+"/*.pdf")

# 默认安装字典序排序,也可以安装自定义的方式排序

# file_list.sort()

return file_list

def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]):

# 遍历filepath下的所有目录

for dir in os.listdir(filepath):

dirpathlist_out.append(filepath + '\\' + dir)

return dirpathlist_out

def merge_childdir_files(path):

'''

每个子目录下合并生成一个pdf

'''

dirpathlist = get_dirs(path)

if len(dirpathlist) == 0:

print("当前目录不存在子目录")

sys.exit()

for dir in dirpathlist:

mergefiles(dir, dir)

def mergefiles(path, output_filename, import_bookmarks=False):

# 遍历目录下的所有pdf将其合并输出到一个pdf文件中,输出的pdf文件默认带书签,书签名为之前的文件名

# 默认情况下原始文件的书签不会导入,使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中

merger = PdfFileMerger()

filelist = getFileName(path)

if len(filelist) == 0:

print("当前目录及子目录下不存在pdf文件")

sys.exit()

for filename in filelist:

f = codecs.open(filename, 'rb')

file_rd = PdfFileReader(f)

short_filename = os.path.basename(os.path.splitext(filename)[0])

if file_rd.isEncrypted == True:

print('不支持的加密文件:%s'%(filename))

continue

merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)

print('合并文件:%s'%(filename))

f.close()

# out_filename = os.path.join(os.path.abspath(path), output_filename)

merger.write(output_filename + ".pdf")

print('合并后的输出文件:%s'%(output_filename))

merger.close()

if __name__ == "__main__":

# 每个章节一个子目录,先分别合并每个子目录文件为一个pdf,然后再将这些pdf合并为一个大的pdf,这样做目的是想生成每个章节的书签

# 1.指定目录

# 原始pdf所在目录

path = "D:\spdf"

# 输出pdf路径和文件名

output_filename = "D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

# 2.生成子目录的pdf

# merge_childdir_files(path)

# 3.子目录pdf合并为总的pdf

mergefiles(path, output_filename)

3、程序使用

将要生成的pdf文件目录导入到程序指定目录下,例如我程序中的path是“D:\spdf”,然后指定最终输出的文件路径及文件名,我上面的output_filename是"D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

数据结果如下:

以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持python博客。

python读取扫描形成的pdf_Python利用PyPDF2库获取PDF文件总页码实例相关推荐

  1. python读取pdf文档书签 bookmark_Python利用PyPDF2库获取PDF文件总页码实例

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...

  2. Python利用PyPDF2库获取PDF文件总页码

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...

  3. 使用PyPDF2库对pdf文件进行指定页面删除操作

    平台:win10家庭版,python 3.7,PyPDF2 思维过程: 方法一:将pdf文件通过拆分为单页,放入一个文件夹,再删除其中不要的文件,最后再把剩余的文件进行合并为一个pdf文件 第一步:使 ...

  4. 使用python的PyPDF2 库删除pdf文件中的空白页

    参考文章:https://blog.csdn.net/xingxtao/article/details/79056341 pdf中的第4页和第10页是空白页.为了将其删除,使用以下代码: from P ...

  5. python读取csv最后一行_python – 尝试使用seek()获取csv文件的最后一行时的AttributeError...

    我试图从csv文件返回最后一行.我正在修改我之前写的另一个函数,它返回文本文件的最后一行.它似乎首先按预期工作,但现在当我调用该函数时它会抛出一个错误. reader.seek(0, os.SEEK_ ...

  6. python常用库 自动化办公类 —— PyPDF2(处理pdf文件)

    python常用库 自动化办公类 -- PyPDF2(处理pdf文件) 摘要 PyPDF库的安装 PyPDF库的常用功能 文字提取 合并pdf文件 旋转pdf页面 pdf文件加密 摘要 本文主要介绍了 ...

  7. 【python脚本系列】利用mido库解析midi文件

    [python脚本系列]利用mido库解析midi文件       Hallo大家好~~我是Lampard猿奋       昨天写了关于Midi数字化乐器接口的文章,介绍了midi是一组代表音乐参数( ...

  8. 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件

    程序功能: 用python将小册子打印扫描的A3幅面双页乱码的PDF文件转换A4幅面顺码的PDF文件         问题:A3幅面的双面打印的在中间用骑马钉装订成小册子, 拆开中间装订的订书钉由复印 ...

  9. python解析apk文件_Python获取apk文件URL地址实例

    Python获取apk文件URL地址实例 更新时间:2013年11月01日 10:22:39   作者:   我要评论 需要提取apk文件的特定URL地址的朋友可以看一下这个代码实例. 工作中经常需要 ...

最新文章

  1. 《C#精彩实例教程》小组阅读11 -- C#结构与类
  2. urbansound8k下载地址
  3. 雷观(十六):帮人写项目,不如教会别人写项目的方法
  4. hiho 1318 非法二进制数 dp
  5. Windows系统MySQL8.0的安装教程
  6. textview文本超出部分用省略号表示
  7. mysql存儲過程_Mysql存儲過程 | 學步園
  8. 视图与表之间的异同点_视图和表的区别和联系
  9. 根据周次显示日期范围_Elasticsearch根据日期价格范围搜索酒店且排序
  10. 设置Exchange 通讯组接收外部组织邮件
  11. springcloud-config-client的那些坑
  12. paip.c++ qt C:\iwmake\build_mingw_opensource _Unwind_Resume的问题
  13. c++ qt qlistwidget清空_Qt音视频开发16-mpv通用接口
  14. Java实现QQ机器人
  15. Android编程 不显示菜单,网易MuMu模拟器不显示Menu(菜单)键的解决办法
  16. JTAG,PLL ,ICE
  17. SpringBoot事务详解
  18. 电脑蓝屏原因?及其解决办法
  19. 用c语言编写程序,求∑(k=1~100)k+∑(k=1~50)k2,c语言程序,求(100∑k=1 k)+(50∑k=1 k^2)+(10∑k=1 1/k) 这...
  20. 车轴山中学新食堂大揭秘!

热门文章

  1. java中类型转换的造型_Java总结篇系列:类型转换/造型
  2. Linux下find命令使用
  3. FineReport报表和J2EE应用的集成
  4. swoole之代码热更新实现
  5. 成功驱动HD4600-Clover引导
  6. Windows SDK笔记(三):定制控件消息处理函数
  7. Taro+react开发(93):判断是否是H5端
  8. [css] 使用纯css来创建一个滑块
  9. 工作284:理解绑定逻辑
  10. 工作100:v-model自定义是父亲组件得值