文章目录

2 网络爬虫进阶
- 2.1 Xpath
- - 2.1.1 Xpath解析原理
  - 2.1.2 信息提取
  - - 2.1.2.1 获取所有结点
    - 2.1.2.2 获取子节点
    - 2.1.2.3 获取父节点
    - 2.1.2.4 获取文本
  - 2.1.3 属性匹配
  - - 2.1.3.1 单个属性匹配
    - 2.1.3.2 多个属性匹配
- 3.1 Selenium
- - 3.1.1 概述
  - 3.1.2 安装
  - 3.1.3 元素定位
  - 3.1.4 元素信息
  - 3.1.5 交互
  - 3.1.6 Chrome handless

2 网络爬虫进阶

2.1 Xpath

虽然正则表达式处理字符串的能力很强，但是在编写正则表达式的时候代码还是比较麻烦的，如果不小心写错一处，那么将无法匹配页面中所需要的数据，因为网页中包含大量的节点，而节点中又包含id、class等属性。如果在解析页面中的数据时，通过Xpath来定位网页中的数据，将会更加简单有效。

相比于bs4，Xpath功能更加强大，不仅提供非常简洁明了的路径选择表达式，还提供了超过 100 个内建函数，用于字符串、数值、时间比较、序列处理、逻辑值等，几乎所有定位的节点都可以用 Xpath 来选择。

2.1.1 Xpath解析原理

在使用Xpath解析时，我们首先要做的是导入etree模块，且需要使用etree下的方法将被解析的页面源码数据加载到etree对象中。在实例化完成后，我们可以调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获。

这里需要注意的是，etree模块是在lxml包下的模块，导入方式为：

from lxml import etree

如何将HTML数据加载到etree模块中？

如果是本地的html文档，那么通过etree.parse(filepath)方法可以将源码数据加载到etree对象中。
如果是互联网的源码数据，则使用etree.HTML(‘page_text’)，其可以将源码数据加载到etree对象中。

2.1.2 信息提取

当将解析后的HTML页面加载到etree对象后，想要获取某个标签的信息，就需要用到定位。

2.1.2.1 获取所有结点

如果不加筛选，想要获取所有信息，则xpath方法中的表达式只需填入//*即可。

from lxml import etreeTesthtml = """<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>心得体会——尘鱼</title>
</head>
<body><h1>浮世三千</h1><hr><h2>文章内容</h2><p>无非两种人：一种是做了，没成功，所以焦虑；一种是没做，要迎接失败了，所以焦虑。人常常会把自己的所得经验告诫未得之人，就如同许久之前高中的恩师一般念叨；人常常会抱怨世间的不公，想要改变眼前的一切；而人在经历了大起大落后回望，他们总是能发现：自己的付出不像童话里的那般美好，总能得到意外的对待。很少有些许的沉思，或者来自内心深处的拷问：自己至此，该干什么，身边的人说了那么多，自己该不该反思什么。致命的慵懒总是带来成堆的接口，漫天的抱怨似乎幽怨的黑洞，似乎解决的方法就像是时光隧道中那一丝薄弱的亮光微不可及；避开自己心里的拷问，避开一切的一切，似乎拖着拖着生活的美好就能如期而至。</p><img src="https://images.cnblogs.com/cnblogs_com/blogs/710924/galleries/2086847/o_220115052557_5af17f7f881b11ebb6edd017c2d2eca2.jpg" alt="图片加载失败" title="该图片来源于尘鱼好美" weight="480" height="360"><p>“日常所得焦虑，无非是三天打鱼两天晒网，时而努力时而颓废所致。”</p><p>约莫些许人同此言，却又忘却其 “人生的悲欢并不相同，他们只觉得你吵闹。<br>弃浮沉往事，探前方长路坎坷；弃勿须情感，奔自己心中所想。<br>繁琐的慥词现已无人愿细细品味，只愿将心中所得能与伯乐共享，足矣。</p>如果喜欢该案例可以关注我的网站<br><a href="https://www.cnblogs.com/ChengYuHaoMei/">点此前往</a><audio src="https://audio04.dmhmusic.com/71_53_T10051752137_128_4_4_0_sdk-cpm/cn/0103/M00/10/B5/ChR45F8hdhCAJ_unAAdXW5beNxE239.mp3?xcode=e20e7d6d765a63dc97d12357a8578f3cc746bc4" controls autoplay loop>
</body>
</html>
"""tree = etree.HTML(Testhtml)
nodeall = tree.xpath("//*")
print("数据内容：", nodeall)

out：

/和//的不同

/表示的是从根节点开始定位，表示的是一个层级。

//表示的是多个层级，可以表示从任意位置开始定位

比如说想要获取所有p标签，则无需从body开始，直接//p即可。

2.1.2.2 获取子节点

如果想要获取一个节点中的子节点，则使用/可以实现定位，如想要定位html标签下的head标签下的div标签，则可以写成

//html/head/div

我们试一下敲一下下面的代码：

from lxml import etreeTesthtml = """<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>心得体会——尘鱼</title>
</head>
<body><h1>浮世三千</h1><hr><h2>文章内容</h2><p>无非两种人：一种是做了，没成功，所以焦虑；一种是没做，要迎接失败了，所以焦虑。人常常会把自己的所得经验告诫未得之人，就如同许久之前高中的恩师一般念叨；人常常会抱怨世间的不公，想要改变眼前的一切；而人在经历了大起大落后回望，他们总是能发现：自己的付出不像童话里的那般美好，总能得到意外的对待。很少有些许的沉思，或者来自内心深处的拷问：自己至此，该干什么，身边的人说了那么多，自己该不该反思什么。致命的慵懒总是带来成堆的接口，漫天的抱怨似乎幽怨的黑洞，似乎解决的方法就像是时光隧道中那一丝薄弱的亮光微不可及；避开自己心里的拷问，避开一切的一切，似乎拖着拖着生活的美好就能如期而至。</p><img src="https://images.cnblogs.com/cnblogs_com/blogs/710924/galleries/2086847/o_220115052557_5af17f7f881b11ebb6edd017c2d2eca2.jpg" alt="图片加载失败" title="该图片来源于尘鱼好美" weight="480" height="360"><p>“日常所得焦虑，无非是三天打鱼两天晒网，时而努力时而颓废所致。”</p><p>约莫些许人同此言，却又忘却其 “人生的悲欢并不相同，他们只觉得你吵闹。<br>弃浮沉往事，探前方长路坎坷；弃勿须情感，奔自己心中所想。<br>繁琐的慥词现已无人愿细细品味，只愿将心中所得能与伯乐共享，足矣。</p>如果喜欢该案例可以关注我的网站<br><a href="https://www.cnblogs.com/ChengYuHaoMei/">点此前往</a><audio src="https://audio04.dmhmusic.com/71_53_T10051752137_128_4_4_0_sdk-cpm/cn/0103/M00/10/B5/ChR45F8hdhCAJ_unAAdXW5beNxE239.mp3?xcode=e20e7d6d765a63dc97d12357a8578f3cc746bc4" controls autoplay loop>
</body>
</html>
"""tree = etree.HTML(Testhtml)
imgnode = tree.xpath("//body/img")
print("数据内容：", imgnode)

out：

2.1.2.3 获取父节点

有时候从最外面的标签一步一步走里面可能会比较麻烦，从里面的标签一步一步走外面也不失为一种较好的方法。当我们想要获取一个节点的父节点时，可以使用..来实现。

from lxml import etreeTesthtml = """<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>心得体会——尘鱼</title>
</head>
<body><h1>浮世三千</h1><hr><h2>文章内容</h2><p>无非两种人：一种是做了，没成功，所以焦虑；一种是没做，要迎接失败了，所以焦虑。人常常会把自己的所得经验告诫未得之人，就如同许久之前高中的恩师一般念叨；人常常会抱怨世间的不公，想要改变眼前的一切；而人在经历了大起大落后回望，他们总是能发现：自己的付出不像童话里的那般美好，总能得到意外的对待。很少有些许的沉思，或者来自内心深处的拷问：自己至此，该干什么，身边的人说了那么多，自己该不该反思什么。致命的慵懒总是带来成堆的接口，漫天的抱怨似乎幽怨的黑洞，似乎解决的方法就像是时光隧道中那一丝薄弱的亮光微不可及；避开自己心里的拷问，避开一切的一切，似乎拖着拖着生活的美好就能如期而至。</p><img src="https://images.cnblogs.com/cnblogs_com/blogs/710924/galleries/2086847/o_220115052557_5af17f7f881b11ebb6edd017c2d2eca2.jpg" alt="图片加载失败" title="该图片来源于尘鱼好美" weight="480" height="360"><p>“日常所得焦虑，无非是三天打鱼两天晒网，时而努力时而颓废所致。”</p><p>约莫些许人同此言，却又忘却其 “人生的悲欢并不相同，他们只觉得你吵闹。<br>弃浮沉往事，探前方长路坎坷；弃勿须情感，奔自己心中所想。<br>繁琐的慥词现已无人愿细细品味，只愿将心中所得能与伯乐共享，足矣。</p>如果喜欢该案例可以关注我的网站<br><a href="https://www.cnblogs.com/ChengYuHaoMei/">点此前往</a><audio src="https://audio04.dmhmusic.com/71_53_T10051752137_128_4_4_0_sdk-cpm/cn/0103/M00/10/B5/ChR45F8hdhCAJ_unAAdXW5beNxE239.mp3?xcode=e20e7d6d765a63dc97d12357a8578f3cc746bc4" controls autoplay loop>
</body>
</html>
"""tree = etree.HTML(Testhtml)
imgnode = tree.xpath("//img/..")
print("数据内容：", imgnode)

out：

2.1.2.4 获取文本

如果想要使用XPath获取HTML代码中的文本时，可以使用text()方法。

敲一下下面的代码，体会上述的话。

from lxml import etreeTesthtml = """<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>心得体会——尘鱼</title>
</head>
<body><h1>浮世三千</h1><hr><h2>文章内容</h2><p>无非两种人：一种是做了，没成功，所以焦虑；一种是没做，要迎接失败了，所以焦虑。人常常会把自己的所得经验告诫未得之人，就如同许久之前高中的恩师一般念叨；人常常会抱怨世间的不公，想要改变眼前的一切；而人在经历了大起大落后回望，他们总是能发现：自己的付出不像童话里的那般美好，总能得到意外的对待。很少有些许的沉思，或者来自内心深处的拷问：自己至此，该干什么，身边的人说了那么多，自己该不该反思什么。致命的慵懒总是带来成堆的接口，漫天的抱怨似乎幽怨的黑洞，似乎解决的方法就像是时光隧道中那一丝薄弱的亮光微不可及；避开自己心里的拷问，避开一切的一切，似乎拖着拖着生活的美好就能如期而至。</p><img src="https://images.cnblogs.com/cnblogs_com/blogs/710924/galleries/2086847/o_220115052557_5af17f7f881b11ebb6edd017c2d2eca2.jpg" alt="图片加载失败" title="该图片来源于尘鱼好美" weight="480" height="360"><p>“日常所得焦虑，无非是三天打鱼两天晒网，时而努力时而颓废所致。”</p><p>约莫些许人同此言，却又忘却其 “人生的悲欢并不相同，他们只觉得你吵闹。<br>弃浮沉往事，探前方长路坎坷；弃勿须情感，奔自己心中所想。<br>繁琐的慥词现已无人愿细细品味，只愿将心中所得能与伯乐共享，足矣。</p>如果喜欢该案例可以关注我的网站<br><a href="https://www.cnblogs.com/ChengYuHaoMei/">点此前往</a><audio src="https://audio04.dmhmusic.com/71_53_T10051752137_128_4_4_0_sdk-cpm/cn/0103/M00/10/B5/ChR45F8hdhCAJ_unAAdXW5beNxE239.mp3?xcode=e20e7d6d765a63dc97d12357a8578f3cc746bc4" controls autoplay loop>
</body>
</html>
"""tree = etree.HTML(Testhtml)
TextNode = tree.xpath("//body/p/text()")
print("数据内容：", TextNode)

out：

2.1.3 属性匹配

2.1.3.1 单个属性匹配

如果想要获取通过标签中的属性来进行匹配，可以使用[@标签属性]来进行匹配。

敲一下下面的代码，体会这里所讲的知识点。

from lxml import etreeTesthtml = """<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>Document</title>
</head>
<body><div><h1>《自然》评选改变科学的10个计算机代码项目</h1><div class="top"><span id = "time">2077年01月28号日14:58</span> <span id = "source">新浪科技 </span>     <a href="#">收藏本文</a><hr><p class="text">北京时间 1 月 26 日消息，据国外媒体报道，从 Fortran 到 arXiv.org，这些计算机编码和平台让生物学、气候科学和物理学等学科的发展达到了真正 “日新月异”的速度。</p><p class = "text">2019 年，事件视界望远镜团队让世界首次看到了黑洞的样子。不过，研究人员公布的这张发光环形物体的图像并不是传统的图片，而是经过计算获得的。利用位于美国、墨西哥、智利、西班牙和南极地区的射电望远镜所得到的数据，研究人员进行了数学转换，最终合成了这张标志性的图片。研究团队还发布了实现这一壮举所用的编程代码，并撰文记录这一发现，其他研究者也可以在此基础上进一步加以分析。</p></div></div>
</body>
</html>"""tree = etree.HTML(Testhtml)
TextNode = tree.xpath("//span[@id ='time']")
print("数据内容：", TextNode)

out：

2.1.3.2 多个属性匹配

如果你匹配的标签上面有多个属性，那么你可以通过@[属性1 and 属性2]来实现更加精确的定位，这个很简单，自己试试即可，这里不过多赘述。

3.1 Selenium

3.1.1 概述

Selenium是一个用于web应用程序测试的工具，其测试直接运行在浏览器中，就像真正的用户在操作一样。

Selenium还支持各种驱动，如IE驱动，谷歌驱动，火狐驱动等等，驱动真实浏览器完成测试。当然，其也支持无界面浏览器操作。

使用selenium可以达到真实打开浏览器操作的效果，还能使得网页中的js代码自动执行，实现动态加载。

3.1.2 安装

由于edge近年来给程序员的体验不错，故这里采用我使用edge而不是谷歌。

edge安装官方有详细介绍，这里不过多赘述。详见使用 WebDriver 自动执行 Microsoft Edge - Microsoft Edge Development | Microsoft Docs

如果看不懂也可以在这个博主里面学着安装(1条消息) Selenium驱动Edge浏览器_snrxian的博客-CSDN博客_edge selenium驱动

安装完成后试着打开一个py文件输出下面的代码运行一下。

from selenium import webdriver//创建驱动对象
browser = webdriver.Edge()
browser.get('https://www.baidu.com')
browser.quit()

如果可以让脚本自己打开一个浏览器就安装成功了。

如果你想要返回浏览器打开页面后加载的源码，可以使用其驱动对象.page_source属性，可以返回源码。

3.1.3 元素定位

Selenium可以自动化模拟鼠标和键盘来操作这些元素，点击、输入等。而操作这些元素前需要先找到它们，WebDriver提供很多定位元素的方法。

方法解释 find_element_by_class_name() 通过节点的 class 属性值定位 find_element_by_name() 通过节点的 name 属性名定位 find_element_by_id() 通过节点的 id 属性值定位 find_element_by_link_text() 通过超链接节点的文本定位 find_element_by_partial_link_text() 通过超链接节点包含的部分文本定位 find_element_by_tag_name() 通过节点名定位 find_element_by_xpath() 通过 Xpath 语法定位 find_element_by_css_selector() 通过 CSS 选择器定位

实际上，在以前老版本中find_element_by_[标签] ()可以用于查找对应的web表单组件，但是现在统一被归结为find_element("标签","标签值")。

如果你还是听不懂，可以试着敲一下下面的代码，体会我说的意思。

from selenium import webdriver# 1 创建对象
browser = webdriver.Edge()# 2 获取网页
url = "https://www.baidu.com/"
browser.get(url)# 3 元素定位
button = browser.find_element("id", "su")
print(button)

甚至于你前面学过了Xpath，你还可以使用find_element_by_xpath(“xpath表达式”)来进行定位。

如果你要获取多个表单组件，可以使用find_elements(“标签”,“标签值”)，这里就不一一介绍了，在自己的脚本中改一改试一试就能懂了。

3.1.4 元素信息

如果想要获取某个表单组件的属性值，可以使用get_attribute(属性值)方法。演示如下：

from selenium import webdriver# 1 创建对象
browser = webdriver.Edge()# 2 获取网页
url = "https://www.baidu.com/"
browser.get(url)button1 = browser.find_element_by_id("su")print(button1.get_attribute("class"))

out：

如果想要获取标签名，则可以使用tag_name()方法。

如果想要获取元素文本，则可以使用text()方法。这里需要稍加说明，元素文本指的是开始标签和结束标签中间夹着的文本。

3.1.5 交互

Selenium允许对Web页面进行简单的交互，如点击、滑动鼠标、前进、后退等操作。其适用于爬取一些滑到底部才能加载下一页的一些页面。

这里的知识点我也不做讲解，试着敲一下下面的脚本，你可以体会到点击、文本框输出、滑动页面等诸多操作。

from selenium import webdriver
import time# 1 创建对象
browser = webdriver.Edge()# 2 获取网页
url = "https://www.baidu.com/"
browser.get(url)# 3 睡眠几秒
time.sleep(2)# 4 获取文本框对象
input = browser.find_element("id", "kw")
time.sleep(2)# 输入文本“周杰伦”
input.send_keys("周杰伦")
time.sleep(2)# 5 获取百度一下的按钮
button = browser.find_element("id", "su")# 6 点击百度一下按钮
button.click()
time.sleep(2)# 7 滑到底部
js_bottom = 'document.documentElement.scrollTop = 100000'
browser.execute_script(js_bottom)
time.sleep(2)# 8 获取下一页按钮
next = browser.find_element("xpath", "//a[@class = 'n']")# 9 点击下一页
next.click()
time.sleep(2)# 10 回到上一页
browser.back()
time.sleep(2)# 11 回去
browser.forward()
time.sleep(3)# 12 退出
browser.quit()

3.1.6 Chrome handless

Chrome-headless模式是Google针对其浏览器59版新增加的一种模式，可以让你在不打开UI界面的情况下使用Chrome浏览器，这无疑为Selenium的使用提高了运行速度。

由于我使用的是Edge浏览器，爬的东西一般也不多，所以关于这部分我就不细讲了，如果有需要的，自己查个博客学一学，很简单的，加油！

网络爬虫(二)——Xpath和Selenium的使用相关推荐

Python小姿势 - # Python网络爬虫之如何通过selenium模拟浏览器登录微博
Python网络爬虫之如何通过selenium模拟浏览器登录微博微博登录接口很混乱,需要我们通过selenium来模拟浏览器登录. 首先我们需要安装selenium,通过pip安装: ``` pip ...
python自动测试p-python网络爬虫之自动化测试工具selenium[二]
@ 前言 hello,大家好,在上章的内容里我们已经可以爬取到了整个网页下来,当然也仅仅就是一个网页. 因为里面还有很多很多的标签啊之类我们所不需要的东西. 额,先暂且说下本章内容,如果是没有丝毫编程 ...
2.爬虫之xpath选择器selenium模块
1. xpath选择器 1.1 xpath介绍 xpath: 是一门在xml/html文档中查找信息的语句. 安装: pip install lxml 导入: from lxml import etr ...
Python之网络爬虫（Xpath语法、Scrapy框架的认识）
文章目录一.Xpath语法二.Scrapy框架的认识一.Xpath语法 xpath是一门在XML文档中查找信息的语言 1. 节点(Node) 元素.属性.文本.命名空间.文档(根)节点 2. ...
C# 网络爬虫+HtmlAgilityPack+Xpath+爬虫工具类的封装的使用
目录 1 工具准备 2 思路准备 3 附加知识准备--XPath 简述看看例子用XPath来寻找标签获取所有同名的标签获取指定标签一个实例最后的补充 4 代码实现 5 爬虫工具类的封装 6 ...
网络爬虫--11.XPath和lxml
文章目录一. XML 1. XML 和 HTML 的区别 2. XML文档示例 3. HTML DOM 模型示例 4. XML的节点关系二. 什么是XPath? 1. 选取节点 2. 谓语(Pre ...
网络爬虫二十二-爬虫socket处理
Socket是进程之间交换数据的机制.这些进程既可以是同一台机器上的,也可以是通过网络连接起来的不同机器.一旦一个Socket连接建立,那么数据就能够双向传输,直到其中一端关闭连接. 通常,请求数据的 ...
python初学者之网络爬虫_Python初学者之网络爬虫(二)
到目前为止我新做了如下事情: 对MySql的读写操作进行了封装编码风格遵从PEP8 爬取沃米优选网(http://video.51wom.com/)的主播信息爬取一下网(http://www.yi ...
Python网络爬虫之Xpath详解
1.什么是Xpath XPath 是一门在 XML 文档中查找信息的语言. 所谓 Xpath,是指 XML path language,path 就是路径, Xpath 主要是通过路径来查找元素. 咱 ...

网络爬虫(二)——Xpath和Selenium的使用

文章目录

2 网络爬虫进阶

2.1 Xpath

2.1.1 Xpath解析原理

2.1.2 信息提取

2.1.2.1 获取所有结点

2.1.2.2 获取子节点

2.1.2.3 获取父节点

2.1.2.4 获取文本

2.1.3 属性匹配

2.1.3.1 单个属性匹配

2.1.3.2 多个属性匹配

3.1 Selenium

3.1.1 概述

3.1.2 安装

3.1.3 元素定位

3.1.4 元素信息

3.1.5 交互

3.1.6 Chrome handless

网络爬虫(二)——Xpath和Selenium的使用相关推荐

最新文章

热门文章