虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球、足球、游戏电竞、运动装备、影视、汽车、数码、情感等一切人和事的见解,热闹、真实、有温度。

受害者地址

https://nba.hupu.com/stats/players

本文知识点:

  • 系统分析网页性质
  • 结构化的数据解析
  • csv数据保存

环境介绍:

  • python 3.6
  • pycharm
  • requests
  • csv

爬虫案例的一般步骤

  • 1.确定url地址(网页分析) 完成一半
  • 2.发送网络请求 requests(js\html\css)
  • 3.数据解析(筛选数据)
  • 4.保存数据(本地文件\数据库)

部分代码

导入工具

import requests  # 第三方工具
import parsel  # 数据解析工具  (css\正则表达式\xpath)
import csv

确定url地址(网页分析) 完成一半 (静态网页\动态网页)

url = 'https://nba.hupu.com/stats/players/pts/{}'.format(page)

发送网络请求 requests(js\html\css)

response = requests.get(url=url)
html_data = response.text

数据解析(筛选数据)

selector = parsel.Selector(html_data)trs = selector.xpath('//tbody/tr[not(@class="color_font1 bg_a")]')for tr in trs:rank = tr.xpath('./td[1]/text()').get()  # 排名player = tr.xpath('./td[2]/a/text()').get()  # 球员team = tr.xpath('./td[3]/a/text()').get()  # 球队score = tr.xpath('./td[4]/text()').get()  # 得分hit_shot = tr.xpath('./td[5]/text()').get()  # 命中-出手hit_rate = tr.xpath('./td[6]/text()').get()  # 命中率hit_three = tr.xpath('./td[7]/text()').get()  # 命中-三分three_rate = tr.xpath('./td[8]/text()').get()  # 三分命中率hit_penalty = tr.xpath('./td[9]/text()').get()  # 命中-罚球penalty_rate = tr.xpath('./td[10]/text()').get()  # 罚球命中率session = tr.xpath('./td[11]/text()').get()  # 场次playing_time = tr.xpath('./td[12]/text()').get()  # 上场时间print(rank, player, team, score, hit_shot, hit_rate, hit_three,three_rate, hit_penalty, penalty_rate, session, playing_time)data_dict = {'排名': rank, '球员': player, '球队': team, '得分': score,'命中-出手': hit_shot, '命中率': hit_rate, '命中-三分': hit_three, '三分命中率': three_rate,'命中-罚球': hit_penalty, '罚球命中率': penalty_rate, '场次': session, '上场时间': playing_time}csv_write.writerow(data_dict)#  想要完整源码的同学可以关注我的公众号:松鼠爱吃饼干#  回复“虎扑NBA”即可免费获取

运行代码,效果如下

Python爬取NBA虎扑球员数据相关推荐

  1. python爬取虎扑评论_Python爬取NBA虎扑球员数据

    虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...

  2. python爬取NBA湖人队球星的数据,并且用Excel保存

    前言 本文章教你如何爬取NBA湖人球队的球员信息 一.使用步骤 1.1引入库 import xlwt import requests import re from bs4 import Beautif ...

  3. 练习:使用Python爬取COVID-19疫情国内当日数据

    练习:使用Python爬取COVID-19疫情国内当日数据 推荐公众号:数据酷客 (里面有超详细的教程) 代码来源数据酷客公众号教程 URL它是Uniform Resource Locator的缩写, ...

  4. python爬取股票信息_利用Python爬取网易上证所有股票数据(代码

    利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...

  5. 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据

    原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...

  6. python如何爬取实时人流量_使用python爬取微信宜出行人流量数据

    代码地址:https://liujiao111.github.io/2019/06/18/easygo/ 工具介绍: 该工具基于微信中的宜出行提供的数据接口进行爬取,能够爬取一定范围内的当前时间点的人 ...

  7. 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)

    使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...

  8. python爬取火车票网的时刻表数据

    python爬取火车票网的时刻表数据 导包 import re,requests,datetime,time,json from prettytable import PrettyTable from ...

  9. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  10. python 爬取自如租房的租房数据,使用图像识别获取价格信息

    python 爬取自如租房的租房数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ziru #!/usr/bin/py ...

最新文章

  1. Spring-bean作用域
  2. 页面中的多选框的非空判断
  3. Google Chrome input 设置 line-height 后光标变得和input一样高
  4. java8 默认方法_Java 8的默认方法:可以做什么和不能做什么?
  5. 在python中、实例变量在类的内部通过_[宜配屋]听图阁
  6. JPA一对多循环引用的解决
  7. Qt文档阅读笔记-Image QML官方解析与实例
  8. 输入和用户界面——总结
  9. CWP中的排序算法:C语言
  10. py导入包异常跳出_马克的Python学习笔记#模块和包
  11. 路飞学城—Python—爬虫实战密训班 第三章
  12. 集成CCFlow工作流与GPM的办公系统驰骋CCOA介绍(三)
  13. 安装网卡驱动失败(已解决)
  14. 金融风控建模全流程(Python,收藏)
  15. maven仓库repositories和mirrors的配置及区别详解(轻松搞明白)
  16. 基于STM32CubeIDE的STM32H750 DCMI接口驱动OV2640读取JPEG结合自编上位机实现可以用的数字图传
  17. 工业企业外购材料进项税额的会计处理
  18. 小白建站教程 腾讯云快速建站教程
  19. 发送的邮件还能撤回吗?如何撤回已经发出的邮件?
  20. 美国L1签证申请的常见问题解析

热门文章

  1. 读取视频并将视频转换成图片
  2. 如何将STVP的option bytes的配置移植到另外的电脑
  3. Chrome 页面呈现原理与性能优化(内附分享 ppt)
  4. css中关于单行文本溢出部分用省略号显示
  5. WPS文档如何删除空白页
  6. ip 域名 端口了解
  7. python读入图片,可视化展示图片
  8. appium inspector连接appium service
  9. MDK5中F103C8T6的RCC时钟配置时指向RCC_AHB1PeriphClockCmd但报错identifier “RCC_AHB1Periph_GPIOB is undefined的解决
  10. 块/文件/对象三种存储的优缺点