《Python3 网络爬虫开发实战》：parsel 的使用

前文我们了解了 lxml 使用 XPath 和 pyquery 使用 CSS Selector 来提取页面内容的方法，不论是 XPath 还是 CSS Selector，对于绝大多数的内容提取都足够了，大家可以选择适合自己的库来做内容提取。

不过这时候有人可能会问：我能不能二者穿插使用呀？有时候做内容提取的时候觉得 XPath 写起来比较方便，有时候觉得 CSS Selector 写起来比较方便，能不能二者结合起来使用呢？答案是可以的。

这里我们就介绍另一个解析库，叫做 parsel。
注意：如果你用过 Scrapy 框架（后文会介绍）的话，你会发现 parsel 的 API 和 Scrapy 选择器的 API 极其相似，这是因为 Scrapy 的选择器就是基于 parsel 做了二次封装，因此学会了这个库的用法，后文 Scrapy 选择器的用法就融会贯通了。

1. 介绍

parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。功能灵活而又强大，同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。

2. 准备工作

在本节开始之前，请确保已经安装好了 parsel 库，如尚未安装，可以使用 pip3 进行安装即可：

3. 初始化

首先我们还是用上一节的示例 HTML，声明 html 变量如下：
接着，一般我们会用 parsel 的 Selector 这个类来声明一个 Selector 对象，写法如下：

这里我们创建了一个 Selector 对象，传入了 text 参数，内容就是刚才声明的 HTML 字符串，赋值为 selector 变量。

有了 Selector 对象之后，我们可以使用 css 和 xpath 方法分别传入 CSS Selector 和 XPath 进行内容的提取，比如这里我们提取 class 包含 item-0 的节点，写法如下

我们先用 css 方法进行了节点提取，输出了提取结果的长度和内容，xpath 方法也是一样的写法，运行结果如下：

可以看到两个结果都是 SelectorList 对象，它其实是一个可迭代对象。另外可以用 len 方法获取它的长度，都是 3，提取结果代表的节点其实也是一样的，都是第 1、3、5 个 li 节点，每个节点还是以 Selector 对象的形式返回了，其中每个 Selector 对象的 data 属性里面包含了提取节点的 HTML 代码。

不过这里可能大家有个疑问，第一次我们不是用 css 方法来提取的节点吗？为什么结果中的 Selector 对象还输出了 xpath 属性而不是 css 属性呢？这是因为 css 方法背后，我们传入的 CSS Selector 首先被转成了 XPath，XPath 才真正被用作节点提取。其中 CSS Selector 转换为 XPath 这个过程是在底层用 cssselect 这个库实现的，比如 .item-0 这个 CSS Selector 转换为 XPath 的结果就是 descendant-or-self: