1,引言

晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。

2,把pdf转换成文本的Python源代码

下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3,展望

这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。

4,集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

5,文档修改历史

2016-05-26:V2.0,增补文字说明

2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址

python爬虫读取pdf_Python读取PDF内容相关推荐

  1. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  2. python爬虫获取百度贴吧内容

    python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...

  3. Python 爬虫 - 获取百度关键字搜索内容

    Python 爬虫 获取百度关键字搜索内容 https://www.cnblogs.com/w0000/p/bd_search_page.html Github headers内的参数,仅有UA时,返 ...

  4. io python 读取pdf_Python读取PDF文件--pdfminer

    作者使用的是Python3.6版本. pdfminer在Python2和Python3中的安装和使用有一定的区别,本文以Python为例. 首先安装pdfminer pip install pdfmi ...

  5. 超详细Python爬虫自学整理从基础内容开始到进阶(不断更新)(Anaconda中的Spyder)

    本文通过学习其他网站的内容,展示自己学习的过程,标出出现的问题并给出解决方案.本文多数是引用,也含有大量自己查找资料和试错进行的补充. 引用内容的链接: 核心引用: Python爬虫入门教程:超级简单 ...

  6. Python 爬虫:获取 JS 动态内容——应用宝搜索应用

      本内容主要介绍如何获取网页中 JS 动态生成的内容. 文章目录 1.1 Ajax 异步加载生成网页内容 1.2 从网页响应中找到 JS 脚本返回的数据 1.2.1 找到 JS 请求的数据接口 1. ...

  7. python利用win32com读取doc和pdf内容,并保存到文件

    将使用win32com包进行处理 读取doc文件 # coding=utf-8 import os, fnmatch from win32com import client as wc from wi ...

  8. go语言爬虫解析html,Python爬虫【如何爬取内容(html)和解析内容】-Go语言中文社区...

    1 基础 HTML解析:定位基础是xpath,了解下面的链接的基本知识. 在python中使用HTML解析等操作时,需要安装lxml包,在pycharm的terminal下:pip install l ...

  9. Python爬虫【如何爬取内容(html)和解析内容】

    1 基础 HTML解析:定位基础是xpath,了解下面的链接的基本知识. http://www.w3school.com.cn/xpath/xpath_syntax.asp 在python中使用HTM ...

最新文章

  1. 一个研发团队是如何坚持7年技术分享的?
  2. java获取服务器状态_获取远程服务器上 Java 进程的运行状态
  3. html在线音频播放器实训总结,HTML5音乐列表播放器SMusic开发总结
  4. Spring MVC和Spring Boot的概念以及比较
  5. 【一步一步学习spring】spring入门
  6. JSP 页面 jstl 时间戳 long型转时间
  7. Swift 面向协议编程 基础篇 (一) 介绍
  8. WinForm播放视频
  9. Jmeter安装及简单使用
  10. 使用Origin从图片中准确提取数据
  11. 能模仿韩寒小四写作的神奇循环神经网络
  12. java inflate deflate_Python:Inflate和Deflate实现
  13. 建设银行上海住房公积金业务网点
  14. 英仕曼235年传奇之路从CTA策略鼻祖到全球最大上市对冲基金
  15. 一招教你使用微信隐藏表情!
  16. ECharts饼图实例
  17. Python界面编程第二课:Pyside2 创建窗口 (Python GUI)
  18. 抽油烟机CCC认证介绍以及CCC认证申请
  19. Hyperledger Fabric 超级账本 区块链技术 概述 优点
  20. 体积只有2M,屎上最好用的免费开源电脑录屏软件!

热门文章

  1. 2016年linux认证考试,2016年Linux认证考试模拟练习及答案
  2. PyQt5系列教程(二)利用QtDesigner设计UI界面
  3. spring常见面试题(2023最新)
  4. 在计算机中公式运算符有哪些,Excel在公式中使用运算符号
  5. Labelme使用——数据集标注详解
  6. 计算机通讯技术核心期刊有哪些,通信类核心期刊汇总.doc
  7. 第一天-1-markdown笔记学习
  8. createCriteria的用法
  9. 如何使用百数批量打印二维码?
  10. 选择器优先级如何排列?