爬取斗鱼主播名字和热度
from selenium import webdriver
from lxml import etree
import csv# 创建浏览器对象,发请求
driver = webdriver.Chrome()
driver.get("https://www.douyu.com/directory/all")class DouyuSpider:def __init__(self):self.n = 0self.page = 1# 获取主播名称、观众数量def getData(self):# 创建xpath的解析对象parseHtml = etree.HTML(driver.page_source)names = parseHtml.xpath('//div[@id="live-list-content"]//span[@class="dy-name ellipsis fl"]/text()')numbers = parseHtml.xpath('//div[@id="live-list-content"]//span[@class="dy-num fr"]/text()')# names : ["主播1","主播2",....] # numbers:["90.8万","90万",...]# zip(L1,L2) : [(1,"A"),(2,"B"),(3,"C")]for name,number in zip(names,numbers):L = [name.strip(),number.strip()]self.writeData(L)self.n += 1# 保存到csv文件def writeData(self,L):with open("斗鱼直播.csv","a",newline="",encoding="gb18030") as f:writer = csv.writer(f)writer.writerow(L)# 主函数def workOn(self):for i in range(1,11):self.getData()print("第%d页爬取成功" % i)# 如果找不到不能点的下一页的class,去点击下一页if driver.page_source.find("shark-pager-next shark-pager-disable shark-pager-disable-next") == -1:driver.find_element_by_class_name("shark-pager-next").click()else:print("爬取完成")breakprint("一共有%d个主播" % self.n)if __name__ == "__main__":spider = DouyuSpider()spider.workOn()
爬取斗鱼主播名字和热度相关推荐
- 使用selenium,xpath,线程池爬取斗鱼主播信息
使用xpath,线程池爬取斗鱼主播信息: 主要爬取主播昵称,直播内容分类,房间名称,房间号以及人气,共爬取了大概110多页数据,大概15000条,保存在txt文本中, import timefrom ...
- 利用xpath爬取斗鱼主播热度和房间标题
import requests import pandas as pd from bs4 import BeautifulSoup import os import time import rando ...
- python爬取斗鱼主播图片
今天闲来无事,爬取一下斗鱼女主播的图片,之前学习scrapy的时候写过一个找不到了,今天使用requests和bs4重新写了一份,闲话不多说,直奔主题. 首先用Chrome浏览器访问斗鱼官网: 当然是 ...
- python爬取斗鱼主播图片_F_hawk189_新浪博客
今天闲来无事,爬取一下斗鱼女主播的图片,之前学习scrapy的时候写过一个找不到了,今天使用requests和bs4重新写了一份,闲话不多说,直奔主题. 首先用Chrome浏览器访问斗鱼官网: 当然是 ...
- 使用python爬取虎牙主播直播封面图片(scrapy)
目的:使用Scrapy框架爬取虎牙主播直播封面图片 Scrapy(通过pip 安装Scrapy框架pip install Scrapy)和Python3.x安装教程可自行寻找教程安装,这里默认在Win ...
- 爬取虎牙主播,免费爬些想看的东西,咳咳(为什么要学python?)
废话不多说,咱直接上代码: """ 导入相关的包(功能模块) """import requests #用来在代码里代替浏览器发送网络请求 f ...
- Python爬取美女主播图片适合初学者
Python爬取虎牙女主播图片,非常适合初学者,代码少,思路清晰 开发环境Pycharm import time import requests from lxml import etree from ...
- Python爬取虎牙主播图片
开发环境Pycharm import time import requests from lxml import etree from urllib import requesturl = " ...
- python熊猫小课成果_python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...
- 使用scrapy爬取手机版斗鱼主播的房间图片及昵称
目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机 ...
最新文章
- 《数据挖掘导论》实验课——实验一、数据处理之Numpy
- 网络编程学习笔记(基本套接口选项)
- vue项目在IE中显示空白,报错:vuex requires a Promise polyfill in this browser
- sql 精读(四) 标准 SQL 中聚合分析功能示例
- 优秀程序员写代码一定会用的 11 条经验
- java元空间扩容_JVM元空间(Metaspace)
- 批量删除数据库中有特定开始字符的表、视图和存储过程
- SecureCRT出现 libpython2.7.so.1.0: cannot open shared object file
- C语言程序care用法,词汇精选:care的用法和辨析
- Spring MVC起步(一)
- Windows PowerShell 2.0语言开发之脚本块
- Qt中实现鼠标作图并且控制每一笔粗细和颜色的方法
- java计算机毕业设计宠物店管理系统源码+数据库+系统+lw文档+部署
- 从谷歌搜索结果页中提取url与域名
- mysql扫盲篇_MySQL小白扫盲(一)
- 影视广告创意与制作(四)
- Python每日一记192计算机组成原理之存储器存取周期、存储器带宽
- tomcat调优之启动参数
- 轮廓线扫描算法:Theo Pavlidis' Algorithm
- java设计模式_UML类图(上)