爬取篮球赛果开奖数据分析，如下所示：

一、网站分析

这个网站的数据不是静态的，是动态加载的（选取相应日期，点击”开始查询“后，数据从服务端加载到浏览器）

看一下网页的低端，发现数据并不是一次性加载的，而是通过分页的形式完成

进一步研究还发现，每个月份的分页数并不是一致的，最多有8页

对日期的输入框进行分析，发现它是可以直接通过键盘输入日期的

二：确定爬取方案

对于这种动态的网页，直接通过request库不太好爬取，而模拟人类操作浏览器的selenium对这种场景具有天然优势，所以我采用后者。对网页元素的定位则使用xpath。

大概的思路就是，先构建每月的开始月份、结束月份

date = [("2021-01-01", "2021-01-31"), ("2021-02-01", "2021-02-28"), ("2021-03-01", "2021-03-31"),("2021-04-01", "2021-04-30"), ("2021-05-01", "2021-05-31"), ("2021-06-01", "2021-06-30"),("2021-07-01", "2021-07-31"),("2021-08-01", "2021-08-30"), ("2021-09-01", "2021-09-31"), ("2021-10-01", "2021-10-30"),("2021-11-01", "2021-11-31"),("2021-12-01", "2021-12-24")]

再用这些数据分别输入到开始框和结束框内

点击查询

点击分页

特别注意到分页的xpath路径是有规律的，因而我们可以构造xpath路径，方便接下来的爬取

Xpath = [f'//*[@id="matchList"]/div/div/ul/li[{i}]' for i in range(2, 10)]

爬取内容

三：编码实现

from selenium.webdriver import Edge
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
import timedriver = Edge(executable_path="C:/WebDriver/bin/msedgedriver.exe")
date = [("2021-01-01", "2021-01-31"), ("2021-02-01", "2021-02-28"), ("2021-03-01", "2021-03-31"),("2021-04-01", "2021-04-30"), ("2021-05-01", "2021-05-31"), ("2021-06-01", "2021-06-30"),("2021-07-01", "2021-07-31"),("2021-08-01", "2021-08-30"), ("2021-09-01", "2021-09-31"), ("2021-10-01", "2021-10-30"),("2021-11-01", "2021-11-31"),("2021-12-01", "2021-12-24")]Xpath = [f'//*[@id="matchList"]/div/div/ul/li[{i}]' for i in range(2, 10)]# 判断xpath存不存在的函数
def NodeExists(xpath):try:driver.find_element_by_xpath(xpath)return Trueexcept:return Falsedef crawler():for item in date:# 打开网页driver.get("https://www.sporttery.cn/jc/lqsgkj/")# 等待加载WebDriverWait(driver, 10).until(lambda d: "篮球赛果开奖" in d.title)# 等待一秒后 先清空再输入开始日期time.sleep(1)driver.find_element(By.XPATH, '//*[@id="start_date"]').clear()driver.find_element(By.XPATH, '//*[@id="start_date"]').send_keys(item[0])# 再等一秒 先清空再输入结束日期time.sleep(1)driver.find_element(By.XPATH, '//*[@id="end_date"]').clear()driver.find_element(By.XPATH, '//*[@id="end_date"]').send_keys(item[1])# 点击查询driver.find_element(By.XPATH, '//*[@id="headerTr"]/div[1]/div[1]/div/a').click()print(f"开始爬取{item[0]}")with open(f"{item[0]}.csv", "w", encoding='ANSI') as fin:# 点击1-8页内容page = 1for this in Xpath:time.sleep(1)if NodeExists(this):driver.find_element(By.XPATH, this).click()else:print(f"没有{this}这个xpath")breaktime.sleep(1)content = driver.find_element(By.XPATH, '//*[@id="matchList"]/table').textfin.write("\n" + content)print(f"完成第{page}页的爬取,此时的xpath是:{this}")page += 1print(f"结束爬取{item[0]}")if __name__ == "__main__":crawler()

结尾：

大家喜欢的记得点点赞，需要完整的项目源码的可以私信我哟！点击这里也行哦！

Python爬取篮球比赛数据分析相关推荐

python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
python爬取足球比赛信息（一）
爬取可购买的比赛信息 import datetime import json import time import requests import pymysql from datetime impo ...
Python 爬取 B 站数据分析，宋智孝李光洙谁最受中国粉丝喜爱
作者 | 左伊雅责编 | 胡巍巍 <Running Man>是韩国SBS电视台在<星期天真好>单元推出的户外竞技真人秀节目. 节目致力于打造一个不同于Real variety ...
Python爬取某网站数据分析报告，不满十八岁禁止观看
声明:此文并不是标题党,如果你不满18岁,请马上关闭,在父母陪同下观看也不行. 本文的数据抓取自国内最大的亚文化视频社区网站(不,不是 B 站),其中用户出于各种目的会在发帖的标题中加入城市名称,于是 ...
使用python爬取足球比赛数据，关于足球预测策略模型，这是我见过唯一三年都盈利的
市场上有很多基于程序自动化的足球预测模型,我本人也不断摸索,自学python,最终实现了程序预测的自动化,并且验证了很多策略,几乎所有的模型都是阶段性表现很不错,但是长期总体下来,都达不到预期,很多时 ...
python爬取岗位数据并分析_Python年薪最高有50w|探秘全国近1600个Python岗位数据分析...
原创 xinxin 菜鸟学Python 阅读本文大概需要3分钟 Python学了这么久,相信很多小伙伴都想知道钱途如何,全国各大城市招聘Python的岗位有多少,都招哪些职位,年薪如何等等,我爬取了拉 ...
python实战（一）Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战（一）Python爬取猫眼排行前一百电影及简单数据分析可视化
python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化一.抓取数据需要的库 request库响应http请求 json库将文本保存成json形式 pyquery 类似JQ ...
python实战（一）Python爬取猫眼评分排行前100电影及简单数据分析可视化
python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化一.抓取数据需要的库 request库响应http请求 json库将文本保存成json形式 pyquery 类似JQ ...
python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...

Python爬取篮球比赛数据分析

一、网站分析

二：确定爬取方案

三：编码实现

结尾：

Python爬取篮球比赛数据分析相关推荐

最新文章

热门文章