python爬虫读取pdf_Python读取PDF内容
1,引言
晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。
从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。
2,把pdf转换成文本的Python源代码
下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。
3,展望
这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。
4,集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源
5,文档修改历史
2016-05-26:V2.0,增补文字说明
2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址
python爬虫读取pdf_Python读取PDF内容相关推荐
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫获取百度贴吧内容
python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...
- Python 爬虫 - 获取百度关键字搜索内容
Python 爬虫 获取百度关键字搜索内容 https://www.cnblogs.com/w0000/p/bd_search_page.html Github headers内的参数,仅有UA时,返 ...
- io python 读取pdf_Python读取PDF文件--pdfminer
作者使用的是Python3.6版本. pdfminer在Python2和Python3中的安装和使用有一定的区别,本文以Python为例. 首先安装pdfminer pip install pdfmi ...
- 超详细Python爬虫自学整理从基础内容开始到进阶(不断更新)(Anaconda中的Spyder)
本文通过学习其他网站的内容,展示自己学习的过程,标出出现的问题并给出解决方案.本文多数是引用,也含有大量自己查找资料和试错进行的补充. 引用内容的链接: 核心引用: Python爬虫入门教程:超级简单 ...
- Python 爬虫:获取 JS 动态内容——应用宝搜索应用
本内容主要介绍如何获取网页中 JS 动态生成的内容. 文章目录 1.1 Ajax 异步加载生成网页内容 1.2 从网页响应中找到 JS 脚本返回的数据 1.2.1 找到 JS 请求的数据接口 1. ...
- python利用win32com读取doc和pdf内容,并保存到文件
将使用win32com包进行处理 读取doc文件 # coding=utf-8 import os, fnmatch from win32com import client as wc from wi ...
- go语言爬虫解析html,Python爬虫【如何爬取内容(html)和解析内容】-Go语言中文社区...
1 基础 HTML解析:定位基础是xpath,了解下面的链接的基本知识. 在python中使用HTML解析等操作时,需要安装lxml包,在pycharm的terminal下:pip install l ...
- Python爬虫【如何爬取内容(html)和解析内容】
1 基础 HTML解析:定位基础是xpath,了解下面的链接的基本知识. http://www.w3school.com.cn/xpath/xpath_syntax.asp 在python中使用HTM ...
最新文章
- 一个研发团队是如何坚持7年技术分享的?
- java获取服务器状态_获取远程服务器上 Java 进程的运行状态
- html在线音频播放器实训总结,HTML5音乐列表播放器SMusic开发总结
- Spring MVC和Spring Boot的概念以及比较
- 【一步一步学习spring】spring入门
- JSP 页面 jstl 时间戳 long型转时间
- Swift 面向协议编程 基础篇 (一) 介绍
- WinForm播放视频
- Jmeter安装及简单使用
- 使用Origin从图片中准确提取数据
- 能模仿韩寒小四写作的神奇循环神经网络
- java inflate deflate_Python:Inflate和Deflate实现
- 建设银行上海住房公积金业务网点
- 英仕曼235年传奇之路从CTA策略鼻祖到全球最大上市对冲基金
- 一招教你使用微信隐藏表情!
- ECharts饼图实例
- Python界面编程第二课:Pyside2 创建窗口 (Python GUI)
- 抽油烟机CCC认证介绍以及CCC认证申请
- Hyperledger Fabric 超级账本 区块链技术 概述 优点
- 体积只有2M,屎上最好用的免费开源电脑录屏软件!