办公自动化应该算是打工人上班摸鱼的极致追求了,况且对于 Python 爱好者来说,办公自动化简直是太简单了

比如,今天的办公自动化主题:Python 操作 PDF

关于 Python 与 PDF 的操作,前面也有提到几篇,文末也会 列出相关几篇文章,感兴趣的可以都学习一下

今天的具体内容将会从以下几个小节展开:

  1. 相关介绍

  2. 批量拆分

  3. 批量合并

  4. 提取文字内容

  5. 提起表格内容

  6. 提起图片内容

  7. 转换为PDF图片

  8. 添加水印

  9. 加密与解码

上述操作比较常用,也可以解决较多的办公内容,下面直接开始本节内容:

1. 相关介绍

Python 操作 PDF 会用到两个库,分别是:PyPDF2 和 pdfplumber

其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件,而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格

对应的官网分别是:

PyPDF2:https://pythonhosted.org/PyPDF2/

pdfplumber:https://github.com/jsvine/pdfplumber

由于这两个库都不是 Python 的标准库,所以在使用之前都需要单独安装

win+r 后输入 cmd 打开 command 窗口,依次输入如下命令进行安装:

pip install PyPDF2

pip install pdfplumber

安装完成后显示 success 则表示安装成功

2. 批量拆分

将一个完整的 PDF 拆分成几个小的 PDF,因为主要涉及到 PDF 整体的操作,所以本小节需要用到 PyPDF2 这个库

拆分的大概思路如下:

  • 读取 PDF 的整体信息、总页数等

  • 遍历每一页内容,以每个 step 为间隔将 PDF 存成每一个小的文件块

  • 将小的文件块重新保存为新的 PDF 文件

需要注意的是,在拆分的过程中,可以手动设置间隔,例如:每5页保存成一个小的 PDF 文件

拆分的代码如下:

import os
from PyPDF2 import PdfFileWriter, PdfFileReaderdef split_pdf(filename, filepath, save_dirpath, step=5):"""拆分PDF为多个小的PDF文件,@param filename:文件名@param filepath:文件路径@param save_dirpath:保存小的PDF的文件路径@param step: 每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件@return:"""if not os.path.exists(save_dirpath):os.mkdir(save_dirpath)pdf_reader = PdfFileReader(filepath)# 读取每一页的数据pages = pdf_reader.getNumPages()for page in range(0, pages, step):pdf_writer = PdfFileWriter()# 拆分pdf,每 step 页的拆分为一个文件for index in range(page, page+step):if index < pages:pdf_writer.addPage(pdf_reader.getPage(index))# 保存拆分后的小文件save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')print(save_path)with open(save_path, "wb") as out:pdf_writer.write(out)print("文件已成功拆分,保存路径为:"+save_dirpath)split_pdf(filename, filepath, save_dirpath, step=5)

以“易方达中小盘混合型证券投资基金2020年中期报告”为例,整个 PDF 文件一共 46 页,每5页为间隔,最终生成了10个小的 PDF 文件

3. 批量合并

比起拆分来,合并的思路更加简单:

  • 确定要合并的 文件顺序

  • 循环追加到一个文件块中

  • 保存成一个新的文件

对应的代码比较简单:

import os
from PyPDF2 import PdfFileReader, PdfFileWriterdef concat_pdf(filename, read_dirpath, save_filepath):"""合并多个PDF文件@param filename:文件名@param read_dirpath:要合并的PDF目录@param save_filepath:合并后的PDF文件路径@return:"""pdf_writer = PdfFileWriter()# 对文件名进行排序list_filename = os.listdir(read_dirpath)list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))for filename in list_filename:print(filename)filepath = os.path.join(read_dirpath, filename)# 读取文件并获取文件的页数pdf_reader = PdfFileReader(filepath)pages = pdf_reader.getNumPages()# 逐页添加for page in range(pages):pdf_writer.addPage(pdf_reader.getPage(page))# 保存合并后的文件with open(save_filepath, "wb") as out:pdf_writer.write(out)print("文件已成功合并,保存路径为:"+save_filepath)concat_pdf(filename, read_dirpath, save_filepath)

4. 提取文字内容

涉及到具体的 PDF 内容 操作,本小节需要用到 pdfplumber 这个库

在进行文字提取的时候,主要用到 extract_text 这个函数

具体代码如下:

import os
import pdfplumberdef extract_text_info(filepath):"""提取PDF中的文字@param filepath:文件路径@return:"""with pdfplumber.open(filepath) as pdf:# 获取第2页数据page = pdf.pages[1]print(page.extract_text())# 提取文字内容
extract_text_info(filepath)

可以看到,直接通过下标即可定位到相应的页码,从而通过 extract_text 函数提取该也的所有文字

而如果想要提取所有页的文字,只需要改成:

with pdfplumber.open(filepath) as pdf:# 获取全部数据for page in pdf.pagesprint(page.extract_text())

例如,提取“易方达中小盘混合型证券投资基金2020年中期报告” 第一页的内容时,源文件是这样的:

运行代码后提取出来是这样的:

5. 提取表格内容

同样的,本节是对具体内容的操作,所以也需要用到 pdfplumber 这个库

和提取文字十分类似的是,提取表格内容只是将 extract_text 函数换成了 extract_table 函数

对应的代码如下:

import os
import pandas as pd
import pdfplumberdef extract_table_info(filepath):"""提取PDF中的图表数据@param filepath:@return:"""with pdfplumber.open(filepath) as pdf:# 获取第18页数据page = pdf.pages[17]# 如果一页有一个表格,设置表格的第一行为表头,其余为数据table_info = page.extract_table()df_table = pd.DataFrame(table_info[1:], columns=table_info[0])df_table.to_csv('dmeo.csv', index=False, encoding='gbk')# 提取表格内容
extract_table_info(filepath)

上面代码可以获取到第 18 页的第一个表格内容,并且将其保存为 csv 文件存在本地

但是,如果说第 18 页有多个表格内容呢?

因为读取的表格会被存成二维数组,而多个二维数组就组成一个三维数组

遍历这个三位数组,就可以得到该页的每一个表格数据,对应的将 extract_table 函数 改成 extract_tables 即可

具体代码如下:

# 如果一页有多个表格,对应的数据是一个三维数组
tables_info = page.extract_tables()
for index in range(len(tables_info)):# 设置表格的第一行为表头,其余为数据df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])print(df_table)# df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

以“易方达中小盘混合型证券投资基金2020年中期报告” 第 xx 页的第一个表格为例:

源文件中的表格是这样的:

提取并存入 excel 之后的表格是这样的:

6. 提取图片内容

提取 PDF 中的图片和将 PDF 转存为图片是不一样的(下一小节),需要区分开。

提取图片:顾名思义,就是将内容中的图片都提取出来;

转存为图片:则是将每一页的 PDF 内容存成一页一页的图片,下一小节会详细说明

转存为图片中,需要用到一个模块叫 fitz,fitz 的最新版 1.18.13,非最新版的在部分函数名称上存在差异,代码中会标记出来

使用 fitz 需要先安装 PyMuPDF 模块,安装方式如下:

pip install PyMuPDF

提取图片的整体逻辑如下:

  • 使用 fitz 打开文档,获取文档详细数据

  • 遍历每一个元素,通过正则找到图片的索引位置

  • 使用 Pixmap 将索引对应的元素生成图片

  • 通过 size 函数过滤较小的图片

实现的具体代码如下:

import os
import re
import fitzdef extract_pic_info(filepath, pic_dirpath):"""提取PDF中的图片@param filepath:pdf文件路径@param pic_dirpath:要保存的图片目录路径@return:"""if not os.path.exists(pic_dirpath):os.makedirs(pic_dirpath)# 使用正则表达式来查找图片check_XObject = r"/Type(?= */XObject)"check_Image = r"/Subtype(?= */Image)"img_count = 0"""1. 打开pdf,打印相关信息"""pdf_info = fitz.open(filepath)# 1.16.8版本用法 xref_len = doc._getXrefLength()# 最新版本xref_len = pdf_info.xref_length()# 打印PDF的信息print("文件名:{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))"""2. 遍历PDF中的对象,遇到是图像才进行下一步,不然就continue"""for index in range(1, xref_len):# 1.16.8版本用法 text = doc._getXrefString(index)# 最新版本text = pdf_info.xref_object(index)is_XObject = re.search(check_XObject, text)is_Image = re.search(check_Image, text)# 如果不是对象也不是图片,则不操作if is_XObject or is_Image:img_count += 1# 根据索引生成图像pix = fitz.Pixmap(pdf_info, index)pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')"""pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""# if pix.size < 10000:#     continue"""三、 将图像存为png格式"""if pix.n >= 5:# 先转换CMYKpix = fitz.Pixmap(fitz.csRGB, pix)# 存为PNGpix.writePNG(pic_filepath)# 提取图片内容
extract_pic_info(filepath, pic_dirpath)

以本节示例的“易方达中小盘混合型证券投资基金2020年中期报告” 中的图片为例,代码运行后提取的图片如下:

这个结果和文档中的共 1 张图片的 结果符合

7. 转换为图片

转换为照片比较简单,就是将一页页的 PDF 转换为一张张的图片。大致过程如下:

安装 pdf2image

首先需要安装对应的库,最新的 pdf2image 库版本应该是 1.14.0

它的 github地址 为:https://github.com/Belval/pdf2image ,感兴趣的可以自行了解

安装方式如下:

pip install pdf2image

安装组件

对于不同的平台,需要安装相应的组件,这里以 windows 平台和 mac 平台为例:

Windows 平台

对于 windows 用户需要安装 poppler for Windows,安装链接是:http://blog.alivate.com.au/poppler-windows/

另外,还需要添加环境变量, 将 bin 文件夹的路径添加到环境变量 PATH 中

注意这里配置之后需要重启一下电脑才会生效,不然会报错

Mac

对于 mac 用户,需要安装 poppler for Mac,具体可以参考这个链接:http://macappstore.org/poppler/

详细代码如下:

import os
from pdf2image import convert_from_path, convert_from_bytesdef convert_to_pic(filepath, pic_dirpath):"""每一页的PDF转换成图片@param filepath:pdf文件路径@param pic_dirpath:图片目录路径@return:"""print(filepath)if not os.path.exists(pic_dirpath):os.makedirs(pic_dirpath)images = convert_from_bytes(open(filepath, 'rb').read())# images = convert_from_path(filepath, dpi=200)for image in images:# 保存图片pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')image.save(pic_filepath, 'PNG')# PDF转换为图片
convert_to_pic(filepath, pic_dirpath)

以本节示例的“易方达中小盘混合型证券投资基金2020年中期报告” 中的图片为例,该文档共 46 页,保存后的 PDF 照片如下:

一共 46 张图片

8. 添加水印

添加水印后的效果如下:

在制作水印的时候,可以自定义水印内容、透明度、斜度、字间宽度等等,可操作性比较好。

前面专门写过一篇文章,讲的特别详细:Python快速给PDF文件添加自定义水印 

9. 文档加密与解密

你可能在打开部分 PDF 文件的时候,会弹出下面这个界面:

这种就是 PDF 文件被加密了,在打开的时候需要相应的密码才行

本节所提到的也只是基于 PDF 文档的加密解密,而不是所谓的 PDF 密码破解。

在对 PDF 文件加密需要使用 encrypt 函数,对应的加密代码也比较简单:

import os
from PyPDF2 import PdfFileReader, PdfFileWriterdef encrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):"""PDF文档加密@param filepath:PDF文件路径@param save_filepath:加密后的文件保存路径@param passwd:密码@return:"""pdf_reader = PdfFileReader(filepath)pdf_writer = PdfFileWriter()for page_index in range(pdf_reader.getNumPages()):pdf_writer.addPage(pdf_reader.getPage(page_index))# 添加密码pdf_writer.encrypt(passwd)with open(save_filepath, "wb") as out:pdf_writer.write(out)# 文档加密
encrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

代码执行成功后再次打开 PDF 文件则需要输入密码才行

根据这个思路,破解 PDF 也可以通过暴力求解实现,例如:通过本地密码本一个个去尝试,或者根据数字+字母的密码形式循环尝试,最终成功打开的密码就是破解密码

上述破解方法耗时耗力,不建议尝试

另外,针对已经加密的 PDF 文件,也可以使用 decrypt 函数进行解密操作

解密代码如下:

def decrypt_pdf(filepath, save_filepath, passwd='xiaoyi'):"""解密 PDF 文档并且保存为未加密的 PDF@param filepath:PDF文件路径@param save_filepath:解密后的文件保存路径@param passwd:密码@return:"""pdf_reader = PdfFileReader(filepath)# PDF文档解密pdf_reader.decrypt('xiaoyi')pdf_writer = PdfFileWriter()for page_index in range(pdf_reader.getNumPages()):pdf_writer.addPage(pdf_reader.getPage(page_index))with open(save_filepath, "wb") as out:pdf_writer.write(out)# 文档解密
decrypt_pdf(filepath, save_filepath, passwd='xiaoyi')

解密完成后的 PDF 文档打开后不再需要输入密码,如需加密可再次执行加密代码。

推荐阅读:
入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街!唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!|  再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|

年度爆款文案

  • 1).卧槽!Pdf转Word用Python轻松搞定!

  • 2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃

  • 3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密

  • 4).80行代码!用Python做一个哆来A梦分身

  • 5).你必须掌握的20个python代码,短小精悍,用处无穷

  • 6).30个Python奇淫技巧集

  • 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货

  • 8).再见Python!我要学Go了!2500字深度分析!

  • 9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片

点阅读原文,领廖雪峰视频资料!

最强的Python 办公自动化之 PDF 攻略来了(全)相关推荐

  1. 第19天---python办公自动化---操作PDF文件

    第19天-python办公自动化-操作PDF文件 在Python中,可以使用名为PyPDF2的三方库来读取PDF文件,可以使用下面的命令来安装它. pip install PyPDF2 读取PDF并抽 ...

  2. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  3. 用Python操控手机APP攻略一

    [转自https://mp.weixin.qq.com/s/m5NVrayleQWztpJNbZ7mEA为了防止文章失效特此备份] 史上最全的用Python操控手机APP攻略!建议收藏! 原创 大刘  ...

  4. DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略

    DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘[5+6+6+4+4+1]步骤)的全流程最强学习路线讲解之详细攻略 导读:本文章是博主在数据科学和机器学习领域,先后实战 ...

  5. Python办公自动化 - 4 PDF办公自动化

    这是一个Python编程简单入门的系列教程,课程所有资料(代码.测试文件)可以从百度网盘下载: 链接:https://pan.baidu.com/s/1oS27bE9Pyns4Patf05ehLA 提 ...

  6. IT工程师志强追剧《延禧攻略》后,竟然……

    志强是一名IT工程师,传说中的"话少钱多.996".但在工作之余,只要一有时间,他就会秒变"迷弟"一般狂追宫斗剧.所以呢,最近那部人见人爱.风靡朋友圈的宫斗大戏 ...

  7. 用Python做【游玩攻略】之上海四日游,假期旅游不用愁啦~

    导语: 哈喽铁汁们~这不马上元旦吗小假期有准备来个短期旅行(疫情期间还是注意安全尽量不出门)却还没做游玩攻略的友友们这期可不能错过了噢~ 这期呢我们就先"去一趟"上海吧~ ​​ 人 ...

  8. python challenge 7-12关 攻略

    第7关 http://www.pythonchallenge.com/pc/def/oxygen.html 没有提示,源代码也是什么都没有.好吧.只有一张图片,而且这张图片也挺奇怪的,为什么中间有一横 ...

  9. python爬去哪儿攻略

    Python爬取去哪儿的攻略 入门教程 不需要html和css的相关知识也可以做 代码实现的步骤 1.向目标网页发送网络请求 2.获取数据,网页源代码 3.筛选我们要的数据 4.向每一个详情页链接发送 ...

  10. python challenge 0-6关 攻略

    在逛北邮人论坛python版时看到暖神推荐的python challenge这个编程通关小游戏,挺有意思的,还能用来练python.一直觉的自己会的太少,但是又不知道该从哪补起,该看些什么.这个编程小 ...

最新文章

  1. D - Silver Cow Party POJ - 3268
  2. 前端每日实战:164# 视频演示如何用原生 JS 创作一个数独训练小游戏(内含 4 个视频)...
  3. SpringMVC学习03之使用注解开发SpringMVC
  4. Linux 操作命令记录
  5. JavaScript 更新对象属性
  6. IOS开发基础之微博项目
  7. java学习(20):巩固练习
  8. jquery动态绑定事件的方法_Jquery绑定事件及动画效果
  9. android 短信优先级,Android-消息机制
  10. php如何修改xml中的数据,php如何修改xml内容
  11. FCKeditor配置和使用(转)
  12. 百度服务器临时文件多久一删,百度站长提醒:11月9日前尽快删除超出站点配额的历史sitemap文件...
  13. python做数据可视化的优势_用Python进行数据可视化的10种方法
  14. 服务器上文件共享有哪些协议,访问局域网共享文件使用的是什么协议
  15. 大咖联袂发布 《慧技术·惠金融——2022金融科技趋势研究报告》开放下载
  16. 二分图匹配Hopcroft-Carp算法介绍
  17. 编程环境和软件工具安装手册
  18. 单集群10万节点 走进腾讯云分布式调度系统VStation
  19. Adobe Flash Player安装遇上错误:未能初始化的解决方法
  20. android的输出流和剪裁python实现以下原理

热门文章

  1. centos安装bzip2
  2. 大佬们用代码写的故事,代码你打算写到几岁?
  3. switch 无法启动软件,请在HOME菜单中再试一次
  4. 六子棋AI程序---核心讲解
  5. 毕设外文文献查找方法
  6. java redis 删除整个hash_redis中hash表内容删除的方法代码
  7. 矩阵连乘(动态规划)
  8. linux 时间戳几字节,字节转换跟时间戳转换
  9. 动态比较器蒙特卡洛(mente carlo)仿真失调电压
  10. Linux NTP服务器配置