【Python】爬取2019年男篮世界杯数据,并可视化
【Python】爬取2019年男篮世界杯数据,并可视化
本届男篮世界杯已经结束,本届比赛最让人失意的还是中国和美国两支队伍,一个本来以为可以小组出线,结果要去打奥运落选赛,另一个本来以为最起码进四强的,结果要去打7-8名排位赛。不过也有出乎意料的队伍,阿根廷和西班牙,这两支队伍辉煌的老一辈球员基本都没参赛,都是依然打到了决赛,强队底蕴一直都在,年轻球员也很给力。这个中国队真的可以取取经。话不多说,先爬到数据。
一,目标
本次爬取的网站新浪体育,有个模块是男篮世界杯的。2019年男篮世界杯
爬虫思路:爬取赛程页面,比赛数据统计来获取球队信息,比赛对战信息,球队比赛数据,球员个人数据。
二,页面分析
按照新浪的套路,直接请求相应的页面是肯定获取不到任何数据,一般都是动态加载json数据,所以要找到这些数据。通过浏览器的开发者工具没发现什么有用的信息,改用Fiddler试下,就有结果了。强烈安利Fiddler!!!
在加载赛程页面时,有一个响应中有很多json数据
看下里面数据有时间、球队id、比分之类的数据,虽然编码不对,但是基本确定这些数据就是我们需要的。赛程数据url
接下来看下比赛数据统计页面,同样的,可以发现有个响应携带了很多json数据。里面的数据带有球员名称之类的
请求的url是:http://events.sports.sina.com.cn/bps/peony/mersh/beitai/fiba/live/livejs?leagueid=433&scheduleid=100023360&dpc=1 其中的scheduleid应该是赛程中对用的场次id。
数据来源已经弄清楚了,接下就直接解析数据得到我们需要的数据。
三,代码实现
#下载的页面需要对编码进行转换获取到对应的数据。def download(self,url):"""页面下载:param url: 页面url:return: json格式数据"""headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}if url.startswith('http://events.sports.sina.com.cn/bkwc/'):response = requests.get(url, headers=headers)text = response.text.encode('utf-8').decode('unicode_escape')else:response = requests.get(url, headers=headers)text = str(response.content, 'utf-8')return text
完整代码已经上传github
https://github.com/yangjunjians/Crawlers/blob/master/PageParser/WorldCupParser.py
四,数据可视化
中国队5场比赛的得分以及命中率
球队的各项场均数据
中国的数据基本都是处于中等水平,都处于在20-名以后,甚至垫底和倒数的,比如场均助攻排在26,场均三分命中率排在29,场均罚球命中率排在32。看过比赛都知道,中国队基本每场球都是在三分线外互传,没机会,然后就靠个人单干。或者被对手放三分,并且三分很不稳定,没有射手。这些都不说先,基本的罚篮都是垫底的,怪不得大家都说国手们太飘了。
最后还是要说,中国队!总,,,
【Python】爬取2019年男篮世界杯数据,并可视化相关推荐
- 天冷了,我用Python爬取京东4950件羽绒服数据并可视化
前言 大家好,我是J哥. 前不久,我还穿着短袖羡慕着北方的下雪气氛.结果就在上周,深圳也迎来了降温,并成功加入"降温群聊"! 为了抵御严寒,我特地爬了下京东的羽绒服数据,以备不时之 ...
- python如何爬取实时人流量_使用python爬取微信宜出行人流量数据
代码地址:https://liujiao111.github.io/2019/06/18/easygo/ 工具介绍: 该工具基于微信中的宜出行提供的数据接口进行爬取,能够爬取一定范围内的当前时间点的人 ...
- python爬取火车票网的时刻表数据
python爬取火车票网的时刻表数据 导包 import re,requests,datetime,time,json from prettytable import PrettyTable from ...
- 练习:使用Python爬取COVID-19疫情国内当日数据
练习:使用Python爬取COVID-19疫情国内当日数据 推荐公众号:数据酷客 (里面有超详细的教程) 代码来源数据酷客公众号教程 URL它是Uniform Resource Locator的缩写, ...
- python爬取股票信息_利用Python爬取网易上证所有股票数据(代码
利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
- 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据
原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...
- 使用python爬取BOSS直聘岗位数据并做可视化(Boss直聘对网页做了一些修改,现在的代码已经不能用了)
使用python爬取BOSS直聘岗位数据并做可视化 结果展示 首页 岗位信息 岗位详情 薪资表 学历需求 公司排名 岗位关键词 福利关键词 代码展示 爬虫代码 一.导入库 二.爬取数据 1.爬取数据代 ...
- 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
- python 爬取自如租房的租房数据,使用图像识别获取价格信息
python 爬取自如租房的租房数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ziru #!/usr/bin/py ...
- 使用Python爬取51job招聘网的数据
使用Python爬取51job招聘网的数据 进行网站分析 获取职位信息 存储信息 最终代码 进行网站分析 进入https://www.51job.com/这个网站 我在这就以python为例搜索职位跳 ...
最新文章
- 编程能力差,学不好Python、AI、Java等技术,90%是输在了这点上!
- 抽象工厂和工厂设计模式之间有什么区别?
- 数据中心在疫情期间发挥的作用
- 爬虫模拟登陆手机验证码_Python+scrapy爬虫之模拟登陆
- 吃货都是怎么给自己找理由的? | 今日最佳
- [渝粤教育] 西南科技大学 货币银行学 在线考试复习资料(1)
- virtualenv environment怎么选_2020年阿里云双11内容安全怎么选? - 云计算分享家
- 95-241-102-源码-Flink语义-Flink的exectly-once系列之两阶段提交实现分析
- 使控件大小随窗口变化
- Prototype 学习——Function对象
- 【To Understand】动态规划:求最长公共子串/最长公共子序列
- 艾伟_转载:单元测试之道(使用NUnit)
- php中is_uploaded_file()函数的用法
- SQL:PostgreSQL+PostGIS的安装以及C# GDAL开发环境配置
- 为何汇新云汇聚了如此多的产品经理?
- ヴィアッカ / 风锤
- VBA怎样关闭工作簿和退出Excel
- 华为手机体验鸿蒙系统,再过40天,你就能在华为手机上,体验到鸿蒙系统了? - 区块网...
- Html5小游戏 转微信小程序,白鹭H5游戏转微信小游戏问题集锦,你关心的都在这里...
- 桌面 计算机屏蔽,Win10家庭版如何禁止别人修改电脑桌面壁纸?