from selenium import webdriver
from lxml import etree
import csv# 创建浏览器对象,发请求
driver = webdriver.Chrome()
driver.get("https://www.douyu.com/directory/all")class DouyuSpider:def __init__(self):self.n = 0self.page = 1# 获取主播名称、观众数量def getData(self):# 创建xpath的解析对象parseHtml = etree.HTML(driver.page_source)names = parseHtml.xpath('//div[@id="live-list-content"]//span[@class="dy-name ellipsis fl"]/text()')numbers = parseHtml.xpath('//div[@id="live-list-content"]//span[@class="dy-num fr"]/text()')# names : ["主播1","主播2",....] # numbers:["90.8万","90万",...]# zip(L1,L2) : [(1,"A"),(2,"B"),(3,"C")]for name,number in zip(names,numbers):L = [name.strip(),number.strip()]self.writeData(L)self.n += 1# 保存到csv文件def writeData(self,L):with open("斗鱼直播.csv","a",newline="",encoding="gb18030") as f:writer = csv.writer(f)writer.writerow(L)# 主函数def workOn(self):for i in range(1,11):self.getData()print("第%d页爬取成功" % i)# 如果找不到不能点的下一页的class,去点击下一页if driver.page_source.find("shark-pager-next shark-pager-disable shark-pager-disable-next") == -1:driver.find_element_by_class_name("shark-pager-next").click()else:print("爬取完成")breakprint("一共有%d个主播" % self.n)if __name__ == "__main__":spider = DouyuSpider()spider.workOn()

爬取斗鱼主播名字和热度相关推荐

  1. 使用selenium,xpath,线程池爬取斗鱼主播信息

    使用xpath,线程池爬取斗鱼主播信息: 主要爬取主播昵称,直播内容分类,房间名称,房间号以及人气,共爬取了大概110多页数据,大概15000条,保存在txt文本中, import timefrom ...

  2. 利用xpath爬取斗鱼主播热度和房间标题

    import requests import pandas as pd from bs4 import BeautifulSoup import os import time import rando ...

  3. python爬取斗鱼主播图片

    今天闲来无事,爬取一下斗鱼女主播的图片,之前学习scrapy的时候写过一个找不到了,今天使用requests和bs4重新写了一份,闲话不多说,直奔主题. 首先用Chrome浏览器访问斗鱼官网: 当然是 ...

  4. python爬取斗鱼主播图片_F_hawk189_新浪博客

    今天闲来无事,爬取一下斗鱼女主播的图片,之前学习scrapy的时候写过一个找不到了,今天使用requests和bs4重新写了一份,闲话不多说,直奔主题. 首先用Chrome浏览器访问斗鱼官网: 当然是 ...

  5. 使用python爬取虎牙主播直播封面图片(scrapy)

    目的:使用Scrapy框架爬取虎牙主播直播封面图片 Scrapy(通过pip 安装Scrapy框架pip install Scrapy)和Python3.x安装教程可自行寻找教程安装,这里默认在Win ...

  6. 爬取虎牙主播,免费爬些想看的东西,咳咳(为什么要学python?)

    废话不多说,咱直接上代码: """ 导入相关的包(功能模块) """import requests #用来在代码里代替浏览器发送网络请求 f ...

  7. Python爬取美女主播图片适合初学者

    Python爬取虎牙女主播图片,非常适合初学者,代码少,思路清晰 开发环境Pycharm import time import requests from lxml import etree from ...

  8. Python爬取虎牙主播图片

    开发环境Pycharm import time import requests from lxml import etree from urllib import requesturl = " ...

  9. python熊猫小课成果_python实战之原生爬虫(爬取熊猫主播排行榜)

    """ this is a module,多行注释 """ import re from urllib import request # B ...

  10. 使用scrapy爬取手机版斗鱼主播的房间图片及昵称

    目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机 ...

最新文章

  1. 《数据挖掘导论》实验课——实验一、数据处理之Numpy
  2. 网络编程学习笔记(基本套接口选项)
  3. vue项目在IE中显示空白,报错:vuex requires a Promise polyfill in this browser
  4. sql 精读(四) 标准 SQL 中聚合分析功能示例
  5. 优秀程序员写代码一定会用的 11 条经验
  6. java元空间扩容_JVM元空间(Metaspace)
  7. 批量删除数据库中有特定开始字符的表、视图和存储过程
  8. SecureCRT出现 libpython2.7.so.1.0: cannot open shared object file
  9. C语言程序care用法,词汇精选:care的用法和辨析
  10. Spring MVC起步(一)
  11. Windows PowerShell 2.0语言开发之脚本块
  12. Qt中实现鼠标作图并且控制每一笔粗细和颜色的方法
  13. java计算机毕业设计宠物店管理系统源码+数据库+系统+lw文档+部署
  14. 从谷歌搜索结果页中提取url与域名
  15. mysql扫盲篇_MySQL小白扫盲(一)
  16. 影视广告创意与制作(四)
  17. Python每日一记192计算机组成原理之存储器存取周期、存储器带宽
  18. tomcat调优之启动参数
  19. 轮廓线扫描算法:Theo Pavlidis' Algorithm
  20. java设计模式_UML类图(上)

热门文章

  1. 三网快速充值话费通道源码
  2. 微博平台的RPC服务化实践
  3. OpenCV 角度计算
  4. VS Code下搭建开发51单片机的环境(基于Embedded IDE)
  5. Git 工具 - 储藏(Stashing)
  6. BUFF67 DM蓝牙5.2双模热插拔PCB
  7. Widows 和Linux 查看端口和杀掉进程的方法
  8. 中国25张金融牌照大全
  9. INNODB记录格式
  10. vue项目获取浏览器地址栏参数方法 ?aaa=111bbb=222(非路由传参)