Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球、足球、游戏电竞、运动装备、影视、汽车、数码、情感等一切人和事的见解,热闹、真实、有温度。
受害者地址
https://nba.hupu.com/stats/players
本文知识点:
- 系统分析网页性质
- 结构化的数据解析
- csv数据保存
环境介绍:
- python 3.6
- pycharm
- requests
- csv
爬虫案例的一般步骤
- 1.确定url地址(网页分析) 完成一半
- 2.发送网络请求 requests(js\html\css)
- 3.数据解析(筛选数据)
- 4.保存数据(本地文件\数据库)
部分代码
导入工具
import requests # 第三方工具
import parsel # 数据解析工具 (css\正则表达式\xpath)
import csv
确定url地址(网页分析) 完成一半 (静态网页\动态网页)
url = 'https://nba.hupu.com/stats/players/pts/{}'.format(page)
发送网络请求 requests(js\html\css)
response = requests.get(url=url)
html_data = response.text
数据解析(筛选数据)
selector = parsel.Selector(html_data)trs = selector.xpath('//tbody/tr[not(@class="color_font1 bg_a")]')for tr in trs:rank = tr.xpath('./td[1]/text()').get() # 排名player = tr.xpath('./td[2]/a/text()').get() # 球员team = tr.xpath('./td[3]/a/text()').get() # 球队score = tr.xpath('./td[4]/text()').get() # 得分hit_shot = tr.xpath('./td[5]/text()').get() # 命中-出手hit_rate = tr.xpath('./td[6]/text()').get() # 命中率hit_three = tr.xpath('./td[7]/text()').get() # 命中-三分three_rate = tr.xpath('./td[8]/text()').get() # 三分命中率hit_penalty = tr.xpath('./td[9]/text()').get() # 命中-罚球penalty_rate = tr.xpath('./td[10]/text()').get() # 罚球命中率session = tr.xpath('./td[11]/text()').get() # 场次playing_time = tr.xpath('./td[12]/text()').get() # 上场时间print(rank, player, team, score, hit_shot, hit_rate, hit_three,three_rate, hit_penalty, penalty_rate, session, playing_time)data_dict = {'排名': rank, '球员': player, '球队': team, '得分': score,'命中-出手': hit_shot, '命中率': hit_rate, '命中-三分': hit_three, '三分命中率': three_rate,'命中-罚球': hit_penalty, '罚球命中率': penalty_rate, '场次': session, '上场时间': playing_time}csv_write.writerow(data_dict)# 想要完整源码的同学可以关注我的公众号:松鼠爱吃饼干# 回复“虎扑NBA”即可免费获取
运行代码,效果如下
Python爬取NBA虎扑球员数据相关推荐
- python爬取虎扑评论_Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...
- python爬取NBA湖人队球星的数据,并且用Excel保存
前言 本文章教你如何爬取NBA湖人球队的球员信息 一.使用步骤 1.1引入库 import xlwt import requests import re from bs4 import Beautif ...
- 练习:使用Python爬取COVID-19疫情国内当日数据
练习:使用Python爬取COVID-19疫情国内当日数据 推荐公众号:数据酷客 (里面有超详细的教程) 代码来源数据酷客公众号教程 URL它是Uniform Resource Locator的缩写, ...
- python爬取股票信息_利用Python爬取网易上证所有股票数据(代码
利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
- 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据
原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...
- python如何爬取实时人流量_使用python爬取微信宜出行人流量数据
代码地址:https://liujiao111.github.io/2019/06/18/easygo/ 工具介绍: 该工具基于微信中的宜出行提供的数据接口进行爬取,能够爬取一定范围内的当前时间点的人 ...
- 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)
使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...
- python爬取火车票网的时刻表数据
python爬取火车票网的时刻表数据 导包 import re,requests,datetime,time,json from prettytable import PrettyTable from ...
- 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
- python 爬取自如租房的租房数据,使用图像识别获取价格信息
python 爬取自如租房的租房数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ziru #!/usr/bin/py ...
最新文章
- Spring-bean作用域
- 页面中的多选框的非空判断
- Google Chrome input 设置 line-height 后光标变得和input一样高
- java8 默认方法_Java 8的默认方法:可以做什么和不能做什么?
- 在python中、实例变量在类的内部通过_[宜配屋]听图阁
- JPA一对多循环引用的解决
- Qt文档阅读笔记-Image QML官方解析与实例
- 输入和用户界面——总结
- CWP中的排序算法:C语言
- py导入包异常跳出_马克的Python学习笔记#模块和包
- 路飞学城—Python—爬虫实战密训班 第三章
- 集成CCFlow工作流与GPM的办公系统驰骋CCOA介绍(三)
- 安装网卡驱动失败(已解决)
- 金融风控建模全流程(Python,收藏)
- maven仓库repositories和mirrors的配置及区别详解(轻松搞明白)
- 基于STM32CubeIDE的STM32H750 DCMI接口驱动OV2640读取JPEG结合自编上位机实现可以用的数字图传
- 工业企业外购材料进项税额的会计处理
- 小白建站教程 腾讯云快速建站教程
- 发送的邮件还能撤回吗?如何撤回已经发出的邮件?
- 美国L1签证申请的常见问题解析
热门文章
- 读取视频并将视频转换成图片
- 如何将STVP的option bytes的配置移植到另外的电脑
- Chrome 页面呈现原理与性能优化(内附分享 ppt)
- css中关于单行文本溢出部分用省略号显示
- WPS文档如何删除空白页
- ip 域名 端口了解
- python读入图片,可视化展示图片
- appium inspector连接appium service
- MDK5中F103C8T6的RCC时钟配置时指向RCC_AHB1PeriphClockCmd但报错identifier “RCC_AHB1Periph_GPIOB is undefined的解决
- 块/文件/对象三种存储的优缺点