python爬虫--使用selenium--实战爬取虎牙直播平台

今天我们对虎牙平台的lol板块的主播信息进行爬取，主要爬取主播名称，以及观看人数。
下面我们先来分析一下网页源吧：
这张图片下面的翻页列表是动态的，随着上线的主播越来越多，翻页的列表也会越来越大。

通过XpathHelper工具我们可以找到主播网名对应的xpath路径，同理我们可以找到对应观看人数的xpath

下面我们开始编写代码吧。
本次爬虫练习，我们使用selenium模块进行爬取，使用selenium不用关注网页是静态的，还是动态的，直接进行加载就可以了

# 使用selenium不用关注网页是静态的，还是动态的，直接进行加载就可以了
from selenium import webdriver# 通过webdriver创建一个浏览器
driver = webdriver.Chrome()
url = "https://www.huya.com/g/lol"
# 通过创建的浏览器发送请求
driver.get(url)
# 获取网页源代码
html = driver.page_source# 进行网页解析
# 使用find_elements_by容易报错，最好还是用我们以前的xpath技术
names = driver.find_elements_by_xpath("//i[@class='nick']")
counts = driver.find_elements_by_xpath("//span[@class='num']")
for name, count in zip(names, counts):print(name.text, ":", count.text)

这样我们的爬虫代码1.0就写好了，不过缺陷是只能爬取一页内容。
下面我们来讲解如何在原有代码基础上爬取更多的页面。
我们先通过源码查看一下如何控制翻页的。
从图中可以看出翻页控制使用了

下面我们使用if判断条件进行翻页操作，当然这个操作要写在while循环中。

# 使用selenium不用关注网页是静态的，还是动态的，直接进行加载就可以了
from selenium import webdriver# 通过webdriver创建一个浏览器
driver = webdriver.Chrome()
url = "https://www.huya.com/g/lol"
# 通过创建的浏览器发送请求
driver.get(url)
while True:
# 获取网页源代码html = driver.page_source# 进行网页解析# 使用find_elements_by容易报错，最好还是用我们以前的xpath技术names = driver.find_elements_by_xpath("//i[@class='nick']")counts = driver.find_elements_by_xpath("//span[@class='num']")# 循环打印网名与人数for name, count in zip(names, counts):print(name.text, ":", count.text)# -1表示，找不到laypage_next元素字样if driver.page_source.find("laypage_next") != -1:# 针对“下一页”进行解析,这到这个元素进行点击操作即可driver.find_element_by_xpath("//a[@class='laypage_next']").click()else:break

写好代码后，运行发现出错了。
报错代码如下：

 raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: element is not attached to the page document(Session info: chrome=88.0.4324.104)

造成这种错误的原因是我们的网速太慢，导致网页加载速度跟不上网页解析速度，致使出现错误，我们只需在网页加载前面使用sleep(5)让其休眠等待即可。
最终修改的代码为：

# 使用selenium不用关注网页是静态的，还是动态的，直接进行加载就可以了
from selenium import webdriver
from time import sleep# 通过webdriver创建一个浏览器
driver = webdriver.Chrome()
url = "https://www.huya.com/g/lol"
# 通过创建的浏览器发送请求
driver.get(url)
num = 1
while True:print("第" + str(num) + "页-------------------------------------")num += 1
# 获取网页源代码sleep(5)html = driver.page_source# 进行网页解析# 使用find_elements_by容易报错，最好还是用我们以前的xpath技术names = driver.find_elements_by_xpath("//i[@class='nick']")counts = driver.find_elements_by_xpath("//span[@class='num']")for name, count in zip(names, counts):print(name.text, ":", count.text)# -1表示，找不到laypage_next元素字样if driver.page_source.find("laypage_next") != -1:# 针对“下一页”进行解析,这到这个元素进行点击操作即可driver.find_element_by_xpath("//a[@class='laypage_next']").click()else:break

终于一波三折编写好了这段代码。
下面看一下运行过程吧：

python爬虫--使用selenium--实战爬取虎牙直播平台相关推荐

使用selenium自动爬取斗鱼直播平台的所有房间信息
使用selenium自动爬取斗鱼直播平台的所有房间信息文章目录使用selenium自动爬取斗鱼直播平台的所有房间信息使用selenium实现动态页面模拟点击什么是selenium? selen ...
Python Selenium简单爬取虎牙直播弹幕（仅学习）
目录前言一.爬虫思路二.使用步骤 1.引入库 2.通过selenium进入直播间 3.分析HTML 4.实现伪监听总结前言学习python的第二周,在此记录学习进程: 这次有了需求,由于要 ...
Python爬虫：Selenium+ BeautifulSoup 爬取JS渲染的动态内容（雪球网新闻）
最近要有一个任务,要爬取https://xueqiu.com/#/cn 网页上的文章,作为后续自然语言处理的源数据. 爬取目标:下图中红色方框部分的文章内容.(需要点击每篇文章的链接才能获得文章内容) ...
python从网址爬图片协程_Python爬虫多任务协程爬取虎牙MM图片
查看: 4420|回复: 241 [作品展示] Python爬虫多任务协程爬取虎牙MM图片电梯直达发表于 2019-4-17 21:35:47 | 只看该作者 |倒序浏览 |阅读模式马上注册,结 ...
python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
【爬虫实战】python爬取虎牙直播间封面美女图片
Python爬虫爬取虎牙直播间封面美女图片本文目录 Python爬虫爬取虎牙直播间封面美女图片写作缘起上代码效果展示思路分析写作缘起这篇文章主要是介绍如何使用python爬虫来爬取虎牙直 ...
Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

python爬虫--使用selenium--实战爬取虎牙直播平台

python爬虫--使用selenium--实战爬取虎牙直播平台相关推荐

最新文章

热门文章