一、文件处理与pdf处理思维导图

二、补充说明：pdf的读取、合并、转换、水印添加（自学，如有错误烦请指正）

1、pdf的读取

1. 对pdf文本内容的读取

主要使用的是pdfplumber库

库的安装：(以 anaconda为例）

如果出现error,建议根据出错的类型百度，我出错的原因是pip太旧了啥啥的，更新就好了
安装完成后，请看代码及注释

import pdfplumber  #导入库
with  pdfplumber.open("D:/ps/test.pdf") as pdf :  pdf_len = len(pdf.pages)  #获取pdf所有页数print(pdf_len)   #输出pdf所有页数first_page = pdf.pages[0]  #获取pdf页面信息列表的第一页的内容print(first_page)  #输出print(first_page.chars[0])   #输出第一页的独立的字符的属性first_page.extract_text()  #获取当前页面文本值for i in range(0,pdf_len):  # 遍历所有页面，获取文本值并输出print(pdf.pages[i].extract_text())

2、读取pdf表格内容转化为EXCEL

部分代码：

import pdfplumber  #导入库
import pandas as pd   #导入库
import os    #导入库old_dir_path = 'D:/tools/python/study/datafile/txtpdf/oldfiles'   #路径
old_pdf_path = os.path.join(old_dir_path,'first.pdf')   #旧处理文件的地址pdf = pdfplumber.open(old_pdf_path)     #打开旧的需要进行处理的文件，命名为pdfpdf_pages = len(pdf.pages) #获取pdf的页数
pdf_pages#获取第一页的表格，若没有表格，会返回错误
pdf.pages[1].extract_table()all_content = []  #创建一个列表，获取pdf的所有表格for i in range(0,pdf_pages):    #0到最后一页循环for j in pdf.pages[i].extract_tables():   #返回[[每一行内容]]的嵌套格式的内容，没有表格，返回空字符串的列表for k in j:   #对每一行内容进行遍历if ' ' not in k:  #判断是否有空字符串all_content.append(k)   #在建立原列表的基础上添加内容print(k) #输出data = pd.DataFrame(all_content)  #转成DataFrame(),二维的有行有列的表
print(data)
data.to_excel('pdf_tables.xlsx',index = False, header = None)   #生成xlsx文件，即excel里面的表格

2、pdf的合并

代码（非完全自创代码段）：

from PyPDF2 import PdfFileReader  #导入库
from PyPDF2 import PdfFileWriter
import os    old_dir_path = 'D:/tools/python/study/datafile/txtpdf/oldfiles'   #写入路径pdf_paths = []  #定义一个列表保存所有pdf路径for file_name  in os.listdir(old_dir_path):  #使用os模块，获得该路径下所有文件if '.pdf' in file_name:  #判断是否是pdf文件，是的话则加入列表pdf_paths.append(os.path.join(old_dir_path,file_name))  #  增加了路径
new_pdf = PdfFileWriter()  # 类 支持将pdf文件写出，给定由另一类产生的页面（通常为 PdfFileReader)
#记录 pdf总页数
numPages = 0
for pdfpath in pdf_paths:   #循环获取路径old_pdf = PdfFileReader(open(pdfpath,'rb'))       #初始化pdfPages = old_pdf.getNumPages()#获取当前pdf页数numPages += pdfPages    #增加pdf页数for i in range(old_pdf.getNumPages()) :   #增加所有页面合并后的内容new_pdf.addPage(old_pdf.getPage(i))
with open(os.path.join(new_pdf_path,new_name),'wb') as p:    new_pdf.write(p)  #写入pdf

3、word转pdf（没仔细看）

4、pdf添加水印

pdf添加水印，其实我认为就是pdf和水印的pdf进行合并而产生的效果，所以代码也是从这个思路走的
代码段+注释：

from PyPDF2 import PdfFileReader,PdfFileWriter   #导入库
pdf = PdfFileReader('D:/tools/python/study/datafile/txtpdf/oldfiles/first.pdf')
water_pdf = PdfFileReader('D:/tools/python/study/datafile/txtpdf/water.pdf')water = water_pdf.getPage(0)
writer = PdfFileWriter()for i in range(pdf.getNumPages()):pdf.getPage(i).mergePage(water)writer.addPage(pdf.getPage(i))writer.write(open('newnew.pdf','rwb'))

python还可以对pdf进行很多操作，这里只是列举了常见得几种，对于有密码得pdf，我选择手动解个密（狗头），文件批量处理就当我没说，作为初学者，还有很多地方不是太懂，希望后续可以更新改进。

数据分析学习笔记—文件处理与pdf处理相关推荐

数据分析学习笔记——数据可视化
数据分析学习笔记系列--数据可视化总第45篇 ▼ 写在前面: 本篇来源于书籍<数据之美-一本书学会可视化设计>的学习后整理所得.全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步 ...
Python数据分析学习笔记：使用SciKit-Learn进行数据规范化
Python数据分析学习笔记:使用SciKit-Learn进行数据规范化数据规范化是数据挖掘的一项基础工作.不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果 ...
Python数据分析学习笔记：计算向量夹角
Python数据分析学习笔记:计算向量夹角通过计算两个向量夹角了解两个向量之间的相关性. # 计算向量夹角import numpy as npdef included_angle(a, b):a_n ...
Python数据分析学习笔记：计算相关系数
Python数据分析学习笔记:计算相关系数 1.相关系数概念相关系数,或称线性相关系数.皮氏积矩相关系数(Pearson product-moment correlation coefficient ...
Python数据分析学习笔记05：用户画像
Python数据分析学习笔记05:用户画像一.用户画像用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...
python客户画像_Python数据分析学习笔记05：用户画像
Python数据分析学习笔记05:用户画像一.用户画像用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...
数据分析学习笔记-数据分析预备知识
数据分析学习笔记数据分析预备知识
数据分析学习笔记（二）数据分析三思维七技巧
数据分析学习笔记(二) What 三种核心思维结构化公式化业务化 Why 数据分析的思维技巧象限法多维法假设法指数法二八法对比法漏斗法总结 How 如何在业余时间锻炼分析能力好 ...
大数据分析学习笔记（Z检验，分类器以及Association Rule）
大数据分析学习笔记(Z检验,分类器以及Association Rule) Task 1 – Hypothesis Testing To improve student learning perform ...

数据分析学习笔记—文件处理与pdf处理

文章目录

一、文件处理与pdf处理思维导图

二、补充说明：pdf的读取、合并、转换、水印添加（自学，如有错误烦请指正）

1、pdf的读取

1. 对pdf文本内容的读取

2、读取pdf表格内容转化为EXCEL

2、pdf的合并

3、word转pdf（没仔细看）

4、pdf添加水印

数据分析学习笔记—文件处理与pdf处理相关推荐

最新文章

热门文章