python爬取率_Python实现爬虫爬取NBA数据功能示例
本文实例讲述了Python实现爬虫爬取NBA数据功能。分享给大家供大家参考,具体如下:
爬取的网站为:stat-nba.com,这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据
改变url_header和url_tail即可爬取特定的其他数据。
源代码如下:
#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import time
import urllib
from bs4 import BeautifulSoup
import re
from pyExcelerator import *
def getURLLists(url_header,url_tail,pages):
"""
获取所有页面的URL列表
"""
url_lists = []
url_0 = url_header+'0'+url_tail
print url_0
url_lists.append(url_0)
for i in range(1,pages+1):
url_temp = url_header+str(i)+url_tail
url_lists.append(url_temp)
return url_lists
def getNBAAllData(url_lists):
"""
获取所有2017赛季NBA常规赛数据
"""
datasets = ['']
for item in url_lists:
data1 = getNBASingleData(item)
datasets.extend(data1)
#去掉数据里的空元素
for item in datasets[:]:
if len(item) == 0:
datasets.remove(item)
return datasets
def getNBASingleData(url):
"""
获取1个页面NBA常规赛数据
"""
# url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'
# html = requests.get(url).text
html = urllib.urlopen(url).read()
# print html
soup = BeautifulSoup(html)
data = soup.html.body.find('tbody').text
list_data = data.split('\n')
# with open('nba_data.txt','a') as fp:
# fp.write(data)
# for item in list_data[:]:
# if len(item) == 0:
# list_data.remove(item)
return list_data
def saveDataToExcel(datasets,sheetname,filename):
book = Workbook()
sheet = book.add_sheet(sheetname)
sheet.write(0,0,u'序号')
sheet.write(0,1,u'球队')
sheet.write(0,2,u'时间')
sheet.write(0,3,u'结果')
sheet.write(0,4,u'主客')
sheet.write(0,5,u'比赛')
sheet.write(0,6,u'投篮命中率')
sheet.write(0,7,u'命中数')
sheet.write(0,8,u'出手数')
sheet.write(0,9,u'三分命中率')
sheet.write(0,10,u'三分命中数')
sheet.write(0,11,u'三分出手数')
sheet.write(0,12,u'罚球命中率')
sheet.write(0,13,u'罚球命中数')
sheet.write(0,14,u'罚球出手数')
sheet.write(0,15,u'篮板')
sheet.write(0,16,u'前场篮板')
sheet.write(0,17,u'后场篮板')
sheet.write(0,18,u'助攻')
sheet.write(0,19,u'抢断')
sheet.write(0,20,u'盖帽')
sheet.write(0,21,u'失误')
sheet.write(0,22,u'犯规')
sheet.write(0,23,u'得分')
num = 24
row_cnt = 0
data_cnt = 0
data_len = len(datasets)
print 'data_len:',data_len
while(data_cnt< data_len):
row_cnt += 1
print '序号:',row_cnt
for col in range(num):
# print col
sheet.write(row_cnt,col,datasets[data_cnt])
data_cnt += 1
book.save(filename)
def writeDataToTxt(datasets):
fp = open('nba_data.txt','w')
line_cnt = 1
for i in range(len(datasets)-1):
#球队名称对齐的操作:如果球队名字过短或者为76人队是 球队名字后面加两个table 否则加1个table
if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'费城76人':
fp.write(datasets[i]+'\t\t')
else:
fp.write(datasets[i]+'\t')
line_cnt += 1
if line_cnt % 24 == 1:
fp.write('\n')
fp.close()
if __name__ == "__main__":
pages = int(1132/150)
url_header = 'http://stat-nba.com/query_team.php?page='
url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'
url_lists = getURLLists(url_header,url_tail,pages)
datasets = getNBAAllData(url_lists)
writeDataToTxt(datasets)
sheetname = 'nba normal data 2016-2017'
str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))
filename = 'nba_normal_data'+str_time+'.xls'
saveDataToExcel(datasets,sheetname,filename)
希望本文所述对大家Python程序设计有所帮助。
python爬取率_Python实现爬虫爬取NBA数据功能示例相关推荐
- 爬虫python下载视频_Python视频爬虫实现下载头条视频功能示例
本文实例讲述了Python视频爬虫实现下载头条视频功能.分享给大家供大家参考,具体如下: 一.需求分析 抓取头条短视频 思路: 分析网页源码,查找解析出视频资源url(查看源代码,搜mp4) 对该ur ...
- python爬取新闻标题存入文本_Python视频爬虫实现下载头条视频功能示例
本文实例讲述了Python视频爬虫实现下载头条视频功能.分享给大家供大家参考,具体如下: 一.需求分析 抓取头条短视频 思路: 分析网页源码,查找解析出视频资源url(查看源代码,搜mp4) 对该ur ...
- python手机号码替换代码_python实现的按要求生成手机号功能示例
本文实例讲述了python实现的按要求生成手机号功能.分享给大家供大家参考,具体如下: 看到一个生成手机号的代码,于是自己优化了一下,可以支持按要求生成手机号. #!/usr/bin/python # ...
- python网络爬虫爬取视频_Python网络爬虫——爬取小视频网站源视频!自己偷偷看哦!...
学习前提1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 1.引入库 爬取网站视频需要引入的第三方库: impor ...
- python搞笑动态图_python小爬虫抓取搞笑图片
大部分小程序都是基于py2.7的,我于是便想直接出一个py3.4最新版本的教程.大致看一下第一篇了解一下的一些概念性的东西以及bs4第三方库的使用.请参考文末. 我们的第一个小程序的相关要求: 目标: ...
- python怎么建立画板_Python基于opencv实现的简单画板功能示例
本文实例讲述了Python基于opencv实现的简单画板功能.分享给大家供大家参考,具体如下: import cv2 import numpy as np drawing = False # true ...
- python绘制三维曲线图_Python基于matplotlib实现绘制三维图形功能示例
本文实例讲述了Python基于matplotlib实现绘制三维图形功能.分享给大家供大家参考,具体如下: 代码一: # coding=utf-8 import numpy as np import m ...
- python图片旋转脚本_Python实现PS滤镜的旋转模糊功能示例
本文实例讲述了Python实现PS滤镜的旋转模糊功能.分享给大家供大家参考,具体如下: 这里用 Python 实现 PS 滤镜中的旋转模糊,具体的算法原理和效果可以参考附录相关介绍.Python代码如 ...
- python读取邮箱邮件_Python实现读取邮箱中的邮件功能示例【含文本及附件】
本文实例讲述了Python实现读取邮箱中的邮件功能.分享给大家供大家参考,具体如下: #-*- encoding: utf-8 -*- import sys import locale import ...
最新文章
- mongodb 安装和配置auth验证
- Excel应该这么玩——5、三种数据:Excel也是系统
- 计算机文化基础知识在未来工作中的应用论文,大学计算机文化基础论文范文2篇...
- java中volatile
- redis之zskiplist
- macOS下使用anaconda相关系列
- Struts 中的自定义异常
- 使用Entity Framework Core访问数据库(DB2篇)
- [dp] LeetCode 91. Decode Ways
- oracle一些基本命令
- SSM框架客户管理系统
- [刀塔自走棋] 一些数据
- Linux常用命令:系统信息、关机重启、文件和目录操作、文件搜索、文件权限、挂载、磁盘空间、用户及群组、解压缩、备份等操作。
- 在纯Win10环境下部署DzzOffice+OnlyOffice协同办公系统
- python图像降噪
- 前端页面调用微信扫一扫功能
- 动态贴纸是通过什么技术实现的?为什么能火爆至今?
- 免疫的特异性和非特异性
- LTE default bearer dedicated bearer and radio bearer
- 内置 60V 功率 MOS 升压型 LED 恒流驱动器 OC6700
热门文章
- python中输入提示_如何利用Python设计语言控制用户输入提示
- 邮箱怎么设置自动回复,企业邮箱怎么设置自动回复?
- Linux-更改终端字体大小
- titan java 写入_Titan DB的一些问题
- iphone--关于iphone多国语言设置
- qt编写网易云界面(13)----一键换肤模块
- mysql create definer_mysql stored routine (存储例程) 中 definer 的作用 和实例
- php 基于ICMP协议实现一个ping命令
- 【CV面试】简述CNN、计算机视觉、人脸识别
- 【API接口工具】postman-Workspaces工作空间 VS Scratch Pad草稿面板