python爬取双色球2003-2022年所有数据

直接上代码：

import requests, bs4
import os, time
import operator
from itertools import combinations, permutations
import torchclass DoubleColorBall(object):def __init__(self):self.balls = {}self.baseUrl = 'http://tubiao.zhcw.com/tubiao/ssqNew/ssqJsp/ssqZongHeFengBuTuAsc.jsp'self.dataFile = './balls_data3.txt'def getHtml(self, url):headers = {'Referer': 'http://tubiao.zhcw.com/tubiao/ssqNew/ssqInc/ssqZongHeFengBuTuAsckj_year=2016.html','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}self.session = requests.Session()response = self.session.get(url, headers=headers)return response.textdef getBall(self):for year in range(2003, 2022):url = self.baseUrl + '?kj_year=%s' % (year,)print(url)html = self.getHtml(url)self.bs = bs4.BeautifulSoup(html, 'html.parser')if self.bs:data = self.bs.find_all(class_='hgt')self.parseBall(data)def parseBall(self, data):self.balls = {}for row in data:if not isinstance(row, bs4.element.Tag):continuecenter = row.find(class_="qh7").string.strip()print(center)if center.startswith("模拟"):breakredBalls = row.find_all(class_="redqiu")blueBall = row.find(class_="blueqiu3").string.strip()self.balls[center] = [r.string for r in redBalls] + [blueBall]self.saveBall(self.balls)def saveBall(self, data):with open(self.dataFile, 'a+') as f:for r in sorted(data, reverse=False):  #降序# for r in sorted(data, reverse=True):  #升序f.write(str(r) + ' ' + ' '.join(data[r]) + '\n')if __name__ == '__main__':ball = DoubleColorBall()ball.getBall()

如果想要了解爬完数据之后的数据预处理操作步骤，可以参考我的这篇博客：

利用python对得到的双色球数据预处理_心之所向521的博客-CSDN博客

python爬取双色球2003-2022年所有数据相关推荐

Python爬取王者荣耀英雄的皮肤数据并下载皮肤图片项目
Python爬取王者荣耀英雄的皮肤数据,并下载皮肤图片!高清的图片用来做桌面也不错哟~ 网址:https://pvp.qq.com/web201605/herolist.shtml 1.获得英雄信息, ...
利用python爬取丁香医生上新型肺炎数据，并下载到本地，附带经纬度信息
新增:国外疫情网站介绍已更新:爬取国外疫情数据已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...
python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据，并下载到本地，附带经纬度信息...
原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...
python爬取分析超级大乐透历史开奖数据
python爬取分析超级大乐透历史开奖数据博主作为爬虫初学者,本次使用了requests和beautifulsoup库进行数据的爬取爬取网站:http://datachart.500.com/dl ...
python爬取链家网的房屋数据
python爬取链家网的房屋数据爬取内容爬取源网站爬取内容爬取思路爬取的数据代码获取房屋url 获取房屋具体信息爬取内容爬取源网站北京二手房 https://bj.lianjia. ...
Python爬取南京地铁微博发布客流数据并进行分析
Python爬取南京地铁微博发布客流数据并进行分析之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁 ...
python爬取微博评论（无重复数据）
python爬取微博评论(无重复数据) 前言一.整体思路二.获取微博地址 1.获取ajax地址2.解析页面中的微博地址3.获取指定用户微博地址三.获取主评论四.获取子评论 1.解析子评论2.获 ...
python爬取b站弹幕并进行数据可视化
python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕我们随便打开一个b站视频打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件打开之后是这个样子的结构还是比 ...
利用Python爬取全国250m精度的人口数据
此次以GeoQ(智图)为基础,利用Python爬取全国250m精度的人口数据(GeoQ)这个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性.先得注册登录到达创建地图的界面. 看人口 ...
利用Python爬取全国250m精度的人口数据（GeoQ）、房价数据和公交站（线路）等数据
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 中原百科 GIS大师兄 PS:如有需要Python学习资料的小伙伴可 ...

python爬取双色球2003-2022年所有数据

python爬取双色球2003-2022年所有数据相关推荐

最新文章

热门文章