Python使用lxml模块和Requests模块抓取HTML页面的教程

Web抓取

Web站点使用HTML描述，这意味着每个web页面是一个结构化的文档。有时从中获取数据同时保持它的结构是有用的。web站点不总是以容易处理的格式，如 csv 或者 json 提供它们的数据。

这正是web抓取出场的时机。Web抓取是使用计算机程序将web页面数据进行收集并整理成所需格式,同时保存其结构的实践。

lxml和Requests

lxml（http://lxml.de/）是一个优美的扩展库，用来快速解析XML以及HTML文档即使所处理的标签非常混乱。我们也将使用 Requests （http://docs.python-requests.org/en/latest/#）模块取代内建的urllib2模块，因为其速度更快而且可读性更好。你可以通过使用 pip install lxml 与 pip install requests 命令来安装这两个模块。

让我们以下面的导入开始：

from lxml import html
import requests

下一步我们将使用 requests.get 来从web页面中取得我们的数据，通过使用 html 模块解析它，并将结果保存到 tree 中。

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：579817333
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
tree = html.fromstring(page.text)

tree 现在包含了整个HTML文件到一个优雅的树结构中，我们可以使用两种方法访问：XPath以及CSS选择器。在这个例子中，我们将选择前者。

XPath是一种在结构化文档（如HTML或XML）中定位信息的方式。一个关于XPath的不错的介绍参见 W3Schools 。

有很多工具可以获取元素的XPath，如Firefox的FireBug或者Chrome的Inspector。如果你使用Chrome，你可以右键元素，选择 ‘Inspect element’，高亮这段代码，再次右击，并选择 ‘Copy XPath’。

在进行一次快速分析后，我们看到在页面中的数据保存在两个元素中，一个是title是 ‘buyer-name’ 的div，另一个class是 ‘item-price’ 的span：

知道这个后，我们可以创建正确的XPath查询并且使用lxml的 xpath 函数，像下面这样：

让我们看看我们得到了什么：

恭喜！我们已经成功地通过lxml与Request，从一个web页面中抓取了所有我们想要的数据。我们将它们以列表的形式存在内存中。现在我们可以对它做各种很酷的事情了：我们可以使用Python分析它，或者我们可以将之保存为一个文件并向世界分享。

我们可以考虑一些更酷的想法：修改这个脚本来遍历该例数据集中剩余的页面，或者使用多线程重写这个应用从而提升它的速度。

Python使用lxml模块和Requests模块抓取HTML页面的教程相关推荐

[229]python3的requests类抓取中文页面出现乱码的解决办法
这种乱码现象基本上都是编码造成的,我们要转到我们想要的编码,先po一个知识点,嵩天老师在Python网络爬虫与信息提取说到过的:response.encoding是指从HTTP的header中猜测的响 ...
Python练习 requests+BeautifulSoup抓取ZD页面
import requests from bs4 import BeautifulSoup #保存url列表为文件with open('a.txt', 'w') as f: def url_list( ...
Python requests 多线程抓取出现HTTPConnectionPool Max retires exceeded异常
Python requests 多线程抓取出现HTTPConnectionPool Max retires exceeded异常参考文章: (1)Python requests 多线程抓取出现H ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)...
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
用requests获取网页源代码 python-Python3使用requests包抓取并保存网页源码的方法
本文实例讲述了Python3使用requests包抓取并保存网页源码的方法.分享给大家供大家参考,具体如下: 使用Python 3的requests模块抓取网页源码并保存到文件示例: import r ...
Python之 - 使用Scrapy建立一个网站抓取器，网站爬取Scrapy爬虫教程
Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...
Python爬虫：抓取多级页面数据
前面讲解的爬虫案例都是单级页面数据抓取,但有些时候,只抓取一个单级页面是无法完成数据提取的.本节讲解如何使用爬虫抓取多级页面的数据. 在爬虫的过程中,多级页面抓取是经常遇见的.下面以抓取二级页面为例, ...
Python爬虫 | 斗图网表情包抓取
Python爬虫 | 斗图网表情包抓取 1.数据来源分析 2.制作div_list 3.发起请求 4.保存图片 5.批量获取 6.完整代码声明 1.数据来源分析打开斗图吧的主页,发现网址非常有 ...
python实现食品推荐_通过Python语言实现美团美食商家数据抓取
首先,我们先来打开美团美食商家页面,来分析一下. 如上面所提供的URL即为美团美食商家页面.或者我们通过美团官网打开一个美团美食商家页面,打开步骤如下:1.打开浏览器,输入即可打开美团北京首页 2. ...

Python使用lxml模块和Requests模块抓取HTML页面的教程

Python使用lxml模块和Requests模块抓取HTML页面的教程相关推荐

最新文章

热门文章