利用python处理pdf文本，帮我省下不少钱

你是不是经常被PDF烦恼？？？

在现有库中，pdf的代码操作大致分为页面提取以及文字获取两个方面。在页面处理上，有pypdf2可以使用，在提取文本上有pdfminer可以处理。

这里举两个简单的例子：

1,利用pypdf提取pdf文件前5页文件：

from PyPDF2 import PdfFileReader, PdfFileWriter
import os
def split_pdf(infn, outfn):pdf_output = PdfFileWriter()with open(infn, 'rb')  as f:pdf_input = PdfFileReader(f)#页面数量page_count = pdf_input.getNumPages()print(page_count)# 将 pdf 前5页for i in range(5):pdf_output.addPage(pdf_input.getPage(i))with open(outfn, 'wb') as f:pdf_output.write(f)
def merge_pdf(pdf_folder, outfn):"""将多个文件合并为一个文件"""pdf_output = PdfFileWriter()#这里文件夹中只有pdf文件pdfs = os.listdur(os.path.join(pdf_folder))for infn in infnList:pdf_input = PdfFileReader(open(infn, 'rb'))# 获取 pdf 共用多少页page_count = pdf_input.getNumPages()print(page_count)for i in range(page_count):pdf_output.addPage(pdf_input.getPage(i))pdf_output.write(open(outfn, 'wb'))

2,根据关键字利用pdfminer获取文本，并返回该页面

例如，我想从一堆文本PDF文件中抽出某些含有关键字的文本，并返回带有这些关键字的页面，那么改如何处理？

# -*- coding: utf-8 -*-
"""
目标：从pdf文件中抽取出含有关键字的页面，并将这些页面合并一个新的pdf文件
"""
from PyPDF2 import PdfFileReader, PdfFileWriter
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import *
from pdfminer.converter import PDFPageAggregator
fp = open('mypdf.pdf', 'rb')
import re
import os
#来创建一个pdf文档分析器
parser = PDFParser(fp)
#创建一个PDF文档对象存储文档结构
document = PDFDocument(parser)
# 检查文件是否允许文本提取
if not document.is_extractable:raise PDFTextExtractionNotAllowed
else:# 创建一个PDF资源管理器对象来存储共赏资源rsrcmgr=PDFResourceManager()# 设定参数进行分析laparams=LAParams()# 创建一个PDF设备对象# device=PDFDevice(rsrcmgr)device=PDFPageAggregator(rsrcmgr,laparams=laparams)# 创建一个PDF解释器对象interpreter=PDFPageInterpreter(rsrcmgr,device)# 处理每一页pageindex = []i = 0pattern = re.compile("collinear")for page in PDFPage.create_pages(document):interpreter.process_page(page)# # 接受该页面的LTPage对象layout=device.get_result()   # return text image line curvefor x in layout:if isinstance(x,LTText):if pattern.search(x.get_text()):pageindex.append(i)i +=1
pdf_output = PdfFileWriter()
pdf_input = PdfFileReader(fp)
# 获取 pdf 共用多少页
for  j in pageindex:pdf_output.addPage(pdf_input.getPage(j))
final_path =os.path.join(r"C:\Users\tc\Desktop\final.pdf")
with open(final_path,"wb") as f:pdf_output.write(f)
fp.close()

好吧，到此结束？？？很多人会说，这些有什么意思，我随便点击一下鼠标就完事了？

----------------------------------垃圾分割线-------------------------------------------

别急，以上仅仅作为演示，干货在下面

-----------干货1-------------

技术：文章的封面是经过笔者仔细研究pypdfminer之后做出的图，理清了该库的主要逻辑。

----------干货2---------------

场景：A君为证券公司IPO小兵，近来在研究[共同实际控制人]问题，然而，这问题并不常见，通过网络关键搜索-即使派上了全文搜索以及牛逼哄哄的google-以及肉眼式的轰炸，仅仅找到了几个老旧的案例。这显然不是A君要的东西，对此他苦恼不堪。难道就没有捷径？

有的，不过，捷径通常掌握在思考者手里！

我们来思考刚刚提到的窘境

问题：搜寻共同实际控制人案例

问题的根本解决之路：从众多IPO公司招股书中查找

手段：”人生苦胆，我学python“

思路：

1，利用爬虫下载证监会招股说明书--PDF格式文件

2，利用pdfminer解析文本，获取含有【共同实际控制人】招股书公司名字

PART ONE

以是下载证监会反馈意见scrapy项目的主要spider代码：

# -*- coding: utf-8 -*-
import scrapy
import  os
import  urllib.request
from scrapy.selector import Selector
from .tools import alreay_exit,create_worddoc,get_para
from .tools import get_start_urls
class YxplSpider(scrapy.Spider):name = 'yxpl'allowed_domains = ['http://www.csrc.gov.cn']start_urls = get_start_urls()exit_files = alreay_exit()def parse_page(self,response):final_dir =r"C:\Users\tc\PycharmProjects\yxpl\files"item = SeoItem()pre = "/".join(response.url.split("/")[:-1])title = response.xpath("//head/title/text()").extract()[0]item["title"] = title#to get the pdf urlurls = response.xpath('//div[@class="content"]/a/@href').extract()if len(urls) > 0:for j  in urls:final_url = pre + j[1:]   #最终网址if item["title"] not in self.exit_files:try:item["content"] =urllib.request.urlopen(final_url).read()file = open(os.path.join(final_dir, item["title"] + ".pdf"), mode="wb")file.write(item["content"])file.close()except urllib.request.HTTPError:print("Error with HTTPErro" + item["title"])else:print(title)return itemdef parse(self, response):pre  = r"http://www.csrc.gov.cn/pub/newsite/fxjgb/zrzfkyj/"urls =  response.xpath('//ul[@id="myul"]/li/a/@href').extract()for i in urls:new_url = "http://www.csrc.gov.cn/pub/" + "/".join(i.split("/")[3:]yield scrapy.Request(new_url,callback=self.parse_page,dont_filter=True)

PART TWO

2，返回含有关键子的文件名

对于下载好的PDF,仅仅只需要打开文件并对比关键字即可。由于过程简单，这里就不展示代码了。（实际上并不是我不愿意展示，而是因为运行速度太慢了！，一个400页的PDF大概需要一分多钟才能运行完毕，下载的文件有1500份，最少需要15个小时，so，python库确实慢！慢！慢！）

含有【共同实际控制人】招股书名称截图

结语：对于PDF的操作介绍就到此结束。本文仅仅作为一种运用库展示代码编写过程，具体技术还需要有兴趣的朋友自己专研。

---------------ps-------------------

好吧，我还是透露在项目中发现的一个pycharm的一个重要功能--类的层级关系图，并将它与官方网站的模型图进行对比。

pycharm 层级图

官网层级图

提示：层级关系图，可以比较快的把握库的层次关系，有利于摸清库的对象之间的关系

pdfminer的优势和劣势

优势

提供页面上对象最底层的详细信息，使用者可以灵活使用这些信息，做进一步的加工

劣势

运行速度慢
无高阶api，用于特定场景，例如提取表格
只能是文本类型的pdf，扫描版的pdf无效

其他pdf解析库

pdfplumber

基于pdfminer，用于提取表格信息

tabula-java

一个用java写的pdf解析器，用于提取表格信息

invoice2data

专门用于提取发票

camelot

基于tabula做解析，抽取表格信息

pdftabextract

基于ocr提取表格信息

最后祝大家天天进步！！学习Python最重要的就是心态。我们在学习过程中必然会遇到很多难题，可能自己想破脑袋都无法解决。这都是正常的，千万别急着否定自己，怀疑自己。如果大家在刚开始学习中遇到困难，想找一个python学习交流环境，可以加入我们，领取学习资料，一起讨论。