一、业务分析

目标网站：NBA中国官方网站https://china.nba.com/statistics/
爬取字段：

使用到的库：requests， json，csv，pandas numpy ，matplotlib
其中requests，json进行数据抓取
cxv保存到本地
pandas，numpy进行数据分析
matplotlib可视化

二、步骤

1.找到数据

首先，我们要找到储存数据的json包，F12进入开发者模式

点击网络，选择XHR，进行刷新，就可以看到json包了

这里我们可以得到请求头信息以及json包

这就是一会儿要抓取的数据

2.抓取数据

这里我选择了抓取本赛季前50球员的数据，在json包中寻找，可以看到

这里存放的是本赛季的数据
导入库

import requests
import json
import csv
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

先定义抓取json包方法

def getJson(url):headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'}response = requests.get(url,headers=headers)json_data = json.loads(response.text)return json_data

定义抓取数据的方法

def  getData(json_data):playerList=[]for item in json_data['payload']['players']:player_dataDict={}#球员名字name=item['playerProfile']['code']#出场次数games=item['statAverage']['games']#先发gamesStarted=item['statAverage']['gamesStarted']#分钟mins=item['statAverage']['minsPg']#三分命中tpm=item['statAverage']['tppct']#罚球命中ftm=item['statAverage']['ftpct']#进攻offRebs=item['statAverage']['offRebsPg']#防守defRebs=item['statAverage']['defRebsPg']#篮板rebs=item['statAverage']['rebsPg']#助攻assists=item['statAverage']['assistsPg']#抢断steals=item['statAverage']['stealsPg']#盖帽blocks=item['statAverage']['blocksPg']#失误turnovers=item['statAverage']['turnoversPg']#犯规fouls=item['statAverage']['foulsPg']#得分points=item['statAverage']['pointsPg']player_dataDict['球员']=nameplayer_dataDict['场次']=gamesplayer_dataDict['先发']=gamesStartedplayer_dataDict['出场时间']=minsplayer_dataDict['三分命中率']=tpmplayer_dataDict['罚球命中率']=ftmplayer_dataDict['进攻效率']=offRebsplayer_dataDict['防守效率']=defRebsplayer_dataDict['篮板']=rebsplayer_dataDict['助攻']= assistsplayer_dataDict['抢断']=stealsplayer_dataDict['盖帽']=blocksplayer_dataDict['失误']=turnoversplayer_dataDict['犯规']=foulsplayer_dataDict['得分']=pointsprint(player_dataDict)playerList.append(player_dataDict) return playerList

接下来进行存储

def writeData(playerList):#写入数据with open('player_data.csv','w',encoding='utf-8',newline='')as f:write=csv.DictWriter(f, fieldnames=['球员','场次','先发','出场时间','三分命中率','罚球命中率','进攻效率','防守效率','篮板','助攻','抢断','盖帽','失误','犯规','得分'])write.writeheader()for each in playerList:write.writerow(each)

完整代码

import requests
import json
import csv
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
url='https://china.nba.com/static/data/league/playerstats_All_All_All_0_All_false_2021_2_All_Team_points_All_perGame.json'
def getJson(url):headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'}response = requests.get(url,headers=headers)json_data = json.loads(response.text)return json_data
def  getData(json_data):playerList=[]for item in json_data['payload']['players']:player_dataDict={}#球员名字name=item['playerProfile']['code']#出场次数games=item['statAverage']['games']#先发gamesStarted=item['statAverage']['gamesStarted']#分钟mins=item['statAverage']['minsPg']#三分命中tpm=item['statAverage']['tppct']#罚球命中ftm=item['statAverage']['ftpct']#进攻offRebs=item['statAverage']['offRebsPg']#防守defRebs=item['statAverage']['defRebsPg']#篮板rebs=item['statAverage']['rebsPg']#助攻assists=item['statAverage']['assistsPg']#抢断steals=item['statAverage']['stealsPg']#盖帽blocks=item['statAverage']['blocksPg']#失误turnovers=item['statAverage']['turnoversPg']#犯规fouls=item['statAverage']['foulsPg']#得分points=item['statAverage']['pointsPg']player_dataDict['球员']=nameplayer_dataDict['场次']=gamesplayer_dataDict['先发']=gamesStartedplayer_dataDict['出场时间']=minsplayer_dataDict['三分命中率']=tpmplayer_dataDict['罚球命中率']=ftmplayer_dataDict['进攻效率']=offRebsplayer_dataDict['防守效率']=defRebsplayer_dataDict['篮板']=rebsplayer_dataDict['助攻']= assistsplayer_dataDict['抢断']=stealsplayer_dataDict['盖帽']=blocksplayer_dataDict['失误']=turnoversplayer_dataDict['犯规']=foulsplayer_dataDict['得分']=pointsprint(player_dataDict)playerList.append(player_dataDict) return playerList
def writeData(playerList):#写入数据with open('player_data.csv','w',encoding='utf-8',newline='')as f:write=csv.DictWriter(f, fieldnames=['球员','场次','先发','出场时间','三分命中率','罚球命中率','进攻效率','防守效率','篮板','助攻','抢断','盖帽','失误','犯规','得分'])write.writeheader()for each in playerList:write.writerow(each)
if __name__ == "__main__":json_data = getJson(url)playerList=[]playerList += getData(json_data)writeData(playerList)

3.分析数据

数据都存放到本地了，我们当然可以为所欲为
这里我们选取了几个字段，生成了每个球员的雷达图，方便进行比较

import pandas as pd
import numpy as np
import matplotlib.pyplot as pltdf=pd.read_csv('player_data.csv')
for i in range(50):x=df.loc[i]name=x.loc[['球员']]y=x.loc[['犯规','篮板','助攻','抢断','盖帽','失误']]labels=np.array(['犯规','篮板','助攻','抢断','盖帽','失误'])data=np.array(y)plt.rcParams['font.sans-serif']=['SimHei']angles=np.linspace(0, 2*np.pi,len(labels),endpoint=False)labels=np.concatenate((labels,[labels[0]]))data=np.concatenate((data,[data[0]]))angles=np.concatenate((angles,[angles[0]]))plt.polar(angles, data,'bo-',linewidth=1)plt.thetagrids(angles*180/np.pi,labels)plt.fill(angles, data,facecolor='b',alpha=0.25)plt.title(str(name))plt.show()

就不一个个上图了

总结

Ajax动态数据还是非常容易爬取的，同时pandas和numpy库也非常值得学习
最后一句
“湖人总冠军”

python爬虫实操|爬取nba中国官网球员数据相关推荐

python 爬取NBA中国官网球员数据
现在很多网站的数据都是通过Ajax动态加载的,我认为这恰恰降低了我们爬取的难度,因为我们无需考虑如何解析数据,只需要将json文件转换为字典形式,通过字典的键就可以取得我们所需要的数据. 爬取网站:N ...
Python爬虫实战 | (1) 爬取猫眼电影官网的TOP100电影榜单
在本篇博客中,我们将使用requests+正则表达式来爬取猫眼电影官网的TOP100电影榜单,获取每部电影的片名,主演,上映日期,评分和封面等内容. 打开猫眼Top100,分析URL的变化:发现Top ...
Python爬虫之selenium爬取英雄联盟官网英雄皮肤图片下载到本地和保存到数据库
从英雄联盟皮肤网站的网页源代码中获取不到英雄的皮肤地址通过selenium可以轻松获取想要的内容源码展示 from selenium import webdriver from time impo ...
python爬取天眼查存入excel表格_爬虫案例1——爬取新乡一中官网2018届高考录取名单...
有一种非常常见并且相对简单的网络爬虫,工作流程大概是这样的: 访问目标网页提取目标网页内表格信息写入excel文件并保存初次实践,我决定尝试写一个这样的爬虫.经过一番构思,我准备把爬取新乡一中官 ...
【Python爬虫实战】爬取2021中国大学排名(简单)
目录一.准备工作二.进行分析三.完整代码一.准备工作引入如下库: import requests from bs4 import BeautifulSoup import bs4 二.进行分 ...
Python爬虫实战之爬取全国理工类大学数量+数据可视化
上次爬取高考分数线这部分收了个尾,今天咱们来全面爬取全国各省有多少所理工类大学,并简单实现一个数据可视化.话不多说,咱们开始吧. 第一步,拿到url地址第二步,获取高校数据第三步,地图可视化第四 ...
python爬虫初探，爬取我爱牙齿网，存取内容
最近散事特别多,讨厌这种每天忙碌又迷茫的生活,一直想把这篇博客写了,前几天因为一直再弄一篇OpenCv的论文,还好能发了,今天刚抽出空就写写吧. 1.栏目dom分析前几天有个医科学校做视频通话的项目 ...
python工商银行流水_python爬取银行名称和官网地址
话不多说直接上代码: import re from urllib import request from urllib.request import urlopen import pymysql as ...
Python爬虫实战演练：爬取微博大V的评论数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于IT共享之家 ,作者: IT共享者理论篇试想一个问题,如果我们要抓取某个微博大V ...

python爬虫实操|爬取nba中国官网球员数据

文章目录