环境python2.7

# coding=utf-8
import PyPDF2def read_pdf_test1(file_path):with open(file_path, 'rb') as f:reader = PyPDF2.PdfFileReader(f)if reader.isEncrypted:reader.decrypt('')page_num = reader.getNumPages()contents = ''for page_num in xrange(page_num):contents += reader.getPage(page_num).extractText()contents = contents.replace('\n', '').replace(' ', '').replace('\r', '')print("contents = {}".format(contents))def test2(file_path):import pdfplumber  # pdfplumber==0.5.13contents = ''with pdfplumber.open(file_path) as pdf:# page_count = len(pdf.pages)# print(page_count)  # 得到页数for page in pdf.pages:print('---------- 第[%d]页 ----------' % page.page_number)# 获取当前页面的全部文本信息,包括表格中的文字contents += page.extract_text()print("contents = {}".format(contents))if __name__ == "__main__":# file_path = './dlp_dengxian.pdf'# file_path = './dlp_yuanyue.pdf'file_path = './dlp_yuanyue2.pdf'# read_pdf_test1(file_path)passtest2(file_path)

python 读取PDF内容(推荐pdfplumber)相关推荐

  1. Python读取PDF内容

    1,引言 晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...

  2. python读取pdf内容转word_Python实现PDF转Word

    "阅读此篇需要三分钟" 首先来看看来个PDF文件 我们来选择其中一个论文摘要: 使用我们的python代码转化后: 是不是很神奇? 现在网络上大部分的PDF转Word都是收费的,基 ...

  3. PDFMiner:python 读取 pdf 内容

    PDF的格式不是规范的,很多情况下没有逻辑结构,不能自适应页面大小的调整.PDFMiner是通过尝试猜测PDF的布局来重建其结构,有时候效果并不理想. import importlib import ...

  4. python读取pdf内容转word_【python】python实现PDF转word

    又是美好的一天,如果大家因为PDF转word而烦恼的话可以尝试用用Python的PDFMiner3K,这是一个非常好用的库,下面是把任意PDF读成字符串,然后用stingio转化成文件对象: #!/u ...

  5. python爬虫读取pdf_Python读取PDF内容

    1,引言 晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...

  6. python读取pdf文件_深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  7. 数据导入与预处理-第4章-数据获取python读取pdf文档

    数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...

  8. python读取pdf表格_Python使用Tabula提取PDF表格数据

    今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...

  9. Python读取PDF文档(或TXT)

    字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...

  10. python读取pdf文件

    使用python读取pdf文件的内容 读取第1页的内容: import PyPDF2 pdfFileObj = open('a.pdf', 'rb') pdfReader = PyPDF2.PdfFi ...

最新文章

  1. ESLint问题记录
  2. 招聘|青岛旭升招聘高级软件工程师、3D视觉算法工程师
  3. 购物车的实现 ajax
  4. 16年寒假随笔(2)
  5. 领域设计基本理论知识总结(转)
  6. Keil uVision2 简介
  7. ACCESS 文本文件导入和导出指定字段类型的方法
  8. c语言数字排列和算法思路,冒泡排序、快速排序算法理解及C程序实现
  9. python求圆柱体的体积_Python 常见优化技巧,让你的程序溜溜的跑起来!
  10. C++智能指针的实现与使用(详解)
  11. 为什么做网站一般不用服务端控件?
  12. processing一个作品_当你触摸到一束光| 交互灯光装置课程学员作品回顾
  13. Spring中定义Bean的6种方式(声明式+编程式)
  14. html网页设计优秀作品和代码,优秀的网页设计作品(一)
  15. linux向苹果手机传文件,堪比 AirDrop,iPhone 与 Windows 电脑互传文件的三种方式
  16. 计算机论文格式要求吗,计算机论文格式(写作要求详细介绍)
  17. C++ friend和protected
  18. 手机屏幕材料区别 TFT和OLED
  19. JavaScript实例-文字特效1-文字滚动
  20. org.wltea.analyzer.lucene.IKAnalyzer(IK分词器)

热门文章

  1. MulT: An End-to-End Multitask Learning Transformer 多任务共享注意力
  2. 开源硬件USB抓包及协议分析工具分享
  3. 2015阿里天池大数据竞赛-Solution
  4. 安卓手机使用远程软件TeamViewer
  5. 分支定界法求解旅行商问题
  6. CCF-CSP刷题网站推荐(含100分答案)
  7. ccf csp 题目:门禁系统
  8. 小程序图片实现自适应大小,超过部分自动裁剪
  9. Kaptcha 验证码框架使用
  10. matlab产生过渡矩阵,浅谈向量空间和矩阵