直接上代码:

import requests, bs4
import os, time
import operator
from itertools import combinations, permutations
import torchclass DoubleColorBall(object):def __init__(self):self.balls = {}self.baseUrl = 'http://tubiao.zhcw.com/tubiao/ssqNew/ssqJsp/ssqZongHeFengBuTuAsc.jsp'self.dataFile = './balls_data3.txt'def getHtml(self, url):headers = {'Referer': 'http://tubiao.zhcw.com/tubiao/ssqNew/ssqInc/ssqZongHeFengBuTuAsckj_year=2016.html','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}self.session = requests.Session()response = self.session.get(url, headers=headers)return response.textdef getBall(self):for year in range(2003, 2022):url = self.baseUrl + '?kj_year=%s' % (year,)print(url)html = self.getHtml(url)self.bs = bs4.BeautifulSoup(html, 'html.parser')if self.bs:data = self.bs.find_all(class_='hgt')self.parseBall(data)def parseBall(self, data):self.balls = {}for row in data:if not isinstance(row, bs4.element.Tag):continuecenter = row.find(class_="qh7").string.strip()print(center)if center.startswith("模拟"):breakredBalls = row.find_all(class_="redqiu")blueBall = row.find(class_="blueqiu3").string.strip()self.balls[center] = [r.string for r in redBalls] + [blueBall]self.saveBall(self.balls)def saveBall(self, data):with open(self.dataFile, 'a+') as f:for r in sorted(data, reverse=False):  #降序# for r in sorted(data, reverse=True):  #升序f.write(str(r) + ' ' + ' '.join(data[r]) + '\n')if __name__ == '__main__':ball = DoubleColorBall()ball.getBall()

如果想要了解爬完数据之后的数据预处理操作步骤,可以参考我的这篇博客:

利用python对得到的双色球数据预处理_心之所向521的博客-CSDN博客

python爬取双色球2003-2022年所有数据相关推荐

  1. Python爬取王者荣耀英雄的皮肤数据并下载皮肤图片项目

    Python爬取王者荣耀英雄的皮肤数据,并下载皮肤图片!高清的图片用来做桌面也不错哟~ 网址:https://pvp.qq.com/web201605/herolist.shtml 1.获得英雄信息, ...

  2. 利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息

    新增:国外疫情网站介绍 已更新:爬取国外疫情数据 已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...

  3. python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...

    原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...

  4. python爬取分析超级大乐透历史开奖数据

    python爬取分析超级大乐透历史开奖数据 博主作为爬虫初学者,本次使用了requests和beautifulsoup库进行数据的爬取 爬取网站:http://datachart.500.com/dl ...

  5. python爬取链家网的房屋数据

    python爬取链家网的房屋数据 爬取内容 爬取源网站 爬取内容 爬取思路 爬取的数据 代码 获取房屋url 获取房屋具体信息 爬取内容 爬取源网站 北京二手房 https://bj.lianjia. ...

  6. Python爬取南京地铁微博发布客流数据并进行分析

    Python爬取南京地铁微博发布客流数据并进行分析 之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁 ...

  7. python爬取微博评论(无重复数据)

    python爬取微博评论(无重复数据) 前言 一.整体思路 二.获取微博地址 1.获取ajax地址2.解析页面中的微博地址3.获取指定用户微博地址 三.获取主评论 四.获取子评论 1.解析子评论2.获 ...

  8. python爬取b站弹幕并进行数据可视化

    python爬取b站弹幕并进行数据可视化 1.第一步,爬取b站弹幕 我们随便打开一个b站视频 打开开发者模式,在network下搜索list,可以找到该视频的弹幕文件 打开之后是这个样子的 结构还是比 ...

  9. 利用Python爬取全国250m精度的人口数据

    此次以GeoQ(智图)为基础,利用Python爬取全国250m精度的人口数据(GeoQ)这个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性.先得注册登录到达创建地图的界面. 看人口 ...

  10. 利用Python爬取全国250m精度的人口数据(GeoQ)、房价数据和公交站(线路)等数据

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 中原百科 GIS大师兄 PS:如有需要Python学习资料的小伙伴可 ...

最新文章

  1. DNA提取方法对浮游生物群落研究结果的影响
  2. 一文读懂马斯克展示脑机接口:硬币大小芯片植入猪脑 实时读取猪脑信息
  3. 在WinRT中读取资源文件
  4. sql left join 去重_混入了一些奇怪的东西?SQL小技巧之数据去重
  5. 文献阅读(part1)--A Survey of Clustering With Deep Learning From the Perspective of Network Architecture
  6. 一键对频对讲机好吗_对讲机的基础知识你都知道多少呢?
  7. java序列化表单同步请求_Ajax serialize() 表单进行序列化方式上传文件
  8. suricata架构——数据结构和代码流程图解
  9. css hack 尽我所见
  10. 【转】Java多线程编程(十)-并发编程原理(分布式环境中并发问题)
  11. openstack cinder api对应的命令行接口
  12. java生存pdf资料
  13. 如何打开asm文件(学习汇编语言)
  14. matlab GUIz之guide
  15. 2018区块链技术及应用峰会(BTA)·中国全日程发布,大会倒计时5天
  16. 如何在阿里云中注册域名
  17. shell 四种循环详解
  18. JS中常用的判断函数
  19. Verilog 总结
  20. DS1602液晶显示学习笔记

热门文章

  1. 鸡尾酒会公式\帕金森定律(Parkinson's Law)
  2. LeetCode刷题-反转字符串中的元音字母
  3. php公告滚动源码,如何利用JavaScriptjQuery实现滚动公告栏(代码实例)
  4. 国内资深安全专家详谈网页***
  5. 新型智慧城市的技术诠释
  6. 四个技巧教你解决电磁干扰问题
  7. 云开发:未来的软件开发方式
  8. 管桩的弹性模量计算公式_400管桩单桩水平承载力特征值计算书
  9. 几分钟搞定,文件名称中文转英文
  10. JINK/SWD找不到内核,故障汇总