(1)首先分析‘’下一页‘’的class变化,如果不是最后一页的时候,‘下一页’的class如下

(2)如果到了最后一页,‘下一页’变为隐藏,点击不了,class变为如下

(3)找到个房间的名字和观众人数的class

(4)代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-import unittest
from selenium import webdriver
from bs4 import BeautifulSoup as bsclass douyu(unittest.TestCase):# 初始化方法,必须是setUp()def setUp(self):self.driver = webdriver.Firefox()self.num = 0self.count = 0# 测试方法必须有test字样开头def testDouyu(self):self.driver.get("https://www.douyu.com/directory/all")while True:soup = bs(self.driver.page_source, "lxml")# 房间名, 返回列表names = soup.find_all("h3", {"class" : "ellipsis"})# 观众人数, 返回列表numbers = soup.find_all("span", {"class" :"dy-num fr"})# zip(names, numbers) 将name和number这两个列表合并为一个元组 : [(1, 2), (3, 4)...]for name, number in zip(names, numbers):print u"观众人数: -" + number.get_text().strip() + u"-\t房间名: " + name.get_text().strip()self.num += 1#self.count += int(number.get_text().strip())# 如果在页面源码里找到"下一页"为隐藏的标签,就退出循环if self.driver.page_source.find("shark-pager-disable-next") != -1:break# 一直点击下一页self.driver.find_element_by_class_name("shark-pager-next").click()# 测试结束执行的方法def tearDown(self):# 退出Firefox()浏览器print "当前网站直播人数" + str(self.num)print "当前网站观众人数" + str(self.count)self.driver.quit()if __name__ == "__main__":# 启动测试模块unittest.main()

爬取斗鱼房间名,观众人数相关推荐

  1. 爬取斗鱼房间号信息-计算在线观看总人数

    早就对斗鱼等直播平台的观看人数好奇,今天进来爬取以下斗鱼到底有多少人观看,目前是新冠状病毒时期,看直播的人数应该不会太少,也希望各位保护好自己和自己的家人,祝身体健康.话不多说直接上过程: 第一步构想 ...

  2. python使用selenium爬取斗鱼房间数据并写入mongodb数据库

    本篇文章是对之前斗鱼爬虫的修改,将爬取到的数据直接写入mongodb数据库中 (今天学习到mongodb) from selenium import webdriver import time fro ...

  3. Python---20行代码爬取斗鱼平台房间数据(下)

    在上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格. 工具:Python3.6.5,Pycharm 1.模块介绍 XlsxWriter模 ...

  4. 利用python爬取飞猪信息_Python---20行代码爬取斗鱼平台房间数据(下)-阿里云开发者社区...

    在上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格. 工具:Python3.6.5,Pycharm 1.模块介绍 XlsxWriter模 ...

  5. python爬斗鱼直播_Python---20行代码爬取斗鱼平台房间数据(下)

    在上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格. 工具:Python3.6.5,Pycharm 1.模块介绍 XlsxWriter模 ...

  6. 利用斗鱼api学习爬取斗鱼直播间信息

    python爬取斗鱼房间的弹幕 斗鱼弹幕服务api:https://open.douyu.com/source/api/63 基本步骤: 连接斗鱼api服务器 构造登录请求 进入房间并构造获取弹幕请求 ...

  7. PYTHON爬取斗鱼英雄联盟所有在玩adc的主播房间信息

    Python爬取斗鱼英雄联盟所有玩adc的主播房间信息并用redis存储数据 最近想要用巩固下json数据的提取以及数据的存储,于是选了斗鱼作为研究对象.. 下面就是所有要爬取的adc,当然有个别ad ...

  8. 使用selenium自动爬取斗鱼直播平台的所有房间信息

    使用selenium自动爬取斗鱼直播平台的所有房间信息 文章目录 使用selenium自动爬取斗鱼直播平台的所有房间信息 使用selenium实现动态页面模拟点击 什么是selenium? selen ...

  9. 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!

    首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...

最新文章

  1. ie浏览器修复工具_电脑故障修复不求人!50个小工具可帮你一键修复
  2. java 当一个文本框有值时另一个文本框置灰_【农行DevOps进行时】基于PaaS的持续集成/持续交付实践 | IDCF...
  3. [转载]Flex 2.0 实现SWF全屏
  4. Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解
  5. IOS修改webView背景透明以及IOS调用前台js的方法
  6. Node.js安装及环境配置(windows)
  7. 20-40-020-安装-kafka-eagle-bin-1.3.3安装
  8. Eureka 配置参数说明
  9. php 类定义抽象方法吗,如何理解php的抽象类跟抽象方法
  10. PHP Overview
  11. NLTK was unable to find the megam file!
  12. 变分模态分解(VMD)运算步骤及源码解读
  13. 机器视觉的四大类应用
  14. 给重回正路的大二学生:戒急戒躁中前行
  15. C# 对象转Json和Json转对象
  16. 价值投资如何判断市场是否高估
  17. Linux网络服务-----测试网络命令与DHCP服务
  18. 三星s9android recovery,三星手机进入recovery模式的方法_三星各型号手机recovery模式怎么进入...
  19. shell统计pv和uv、独立ip的方法
  20. vue 外部字体图标使用,无须绝对路径引入办法

热门文章

  1. CNS级公众号推文汇总
  2. java就是我的幸福,经典幸福唯美句子锦集38句
  3. 重庆 成都 这附近哪个城市做开发比较好
  4. 教你用CSS3画一个透视、旋转的正方体
  5. python椭圆代码_Python实现霍夫圆和椭圆变换代码详解
  6. 谷歌与DIRECTV达成合作在电视节目中销售广告
  7. 2020--IDEA破解失败后无法打开(mac/win)【已解决】
  8. 看马化腾这些IT大佬们都毕业于什么大学
  9. 消防工程师 第二篇 建筑防火 5.2 防火分隔
  10. vue2,vue3-调用浏览器打印窗口,或者打印机