以下内容均为个人理解,如有错误,请评论留言,会尽快修改,谢谢!!!

爬取近一年双色球开奖记录

  • 前言
  • 一、数据来源与分析
  • 二、代码解释
    • 1.引入库
    • 2.获取数据
    • 3.提取数据
  • 完整代码示例及结果展示
  • 总结

前言

项目目的:获取近一年的双色球开奖记录,供爬虫热爱者学习!!!
数据来源:http://www.cwl.gov.cn/ygkj/wqkjgg/ssq/


提示:以下是本篇文章正文内容,下面案例可供参考

一、数据来源与分析


通过查看页面源代码可以分析出,我们所要的数据并不是存储在页面源代码中,而是后期渲染的。
打开开发者工具:

查看请求头和要传入的参数:

Request URL为http://www.cwl.gov.cn/cwl_admin/front/cwlkj/search/kjxx/findDrawNotice?name=ssq&issueCount=100&issueStart=&issueEnd=&dayStart=&dayEnd=
问号后面的部分是需要的参数,请求方式为 GET

二、代码解释

1.引入库

代码如下(示例):

import requests
from urllib.parse import urlencode#解析编码的库
import pandas as pd

2.获取数据

代码如下(示例):

url = 'http://www.cwl.gov.cn/cwl_admin/front/cwlkj/search/kjxx/findDrawNotice?'params = {'name': 'ssq','issueCount': '100','issueStart':'', 'issueEnd': '','dayStart': '','dayEnd': '',
}url = url+urlencode(params)#调用urlencode重新编码params
resp = requests.get(url = url)
print(resp.json())#注意要带括号,

urlencode的用法可以参考:https://blog.csdn.net/lly1122334/article/details/108402949

结果如下(json字典):


3.提取数据

codes,dates,numbers,sales,first_types,second_types,third_types = [[] for i in range(7)]#创建储存数据的空列表
for ssq in resp.json()['result']:code = ssq['code']codes.append(code)date = ssq['date']dates.append(date)number = ssq['red']+','+ssq['blue']numbers.append(number)sale = ssq['sales']sales.append(sale)first_type = ssq['prizegrades'][0]['type'], ssq['prizegrades'][0]['typenum'], ssq['prizegrades'][0]['typemoney']first_types.append(first_type)second_type = ssq['prizegrades'][1]['type'], ssq['prizegrades'][1]['typenum'], ssq['prizegrades'][1]['typemoney']second_types.append(second_type) third_type = ssq['prizegrades'][2]['type'], ssq['prizegrades'][2]['typenum'], ssq['prizegrades'][2]['typemoney']third_types.append(third_type)

完整代码示例及结果展示

import requests
from urllib.parse import urlencode
import pandas as pdurl = 'http://www.cwl.gov.cn/cwl_admin/front/cwlkj/search/kjxx/findDrawNotice?'params = {'name': 'ssq','issueCount': '100','issueStart':'', 'issueEnd': '','dayStart': '','dayEnd': '',
}url = url+urlencode(params)
resp = requests.get(url = url)
codes,dates,numbers,sales,first_types,second_types,third_types = [[] for i in range(7)]
for ssq in resp.json()['result']:code = ssq['code']codes.append(code)date = ssq['date']dates.append(date)number = ssq['red']+','+ssq['blue']numbers.append(number)sale = ssq['sales']sales.append(sale)first_type = ssq['prizegrades'][0]['type'], ssq['prizegrades'][0]['typenum'], ssq['prizegrades'][0]['typemoney']first_types.append(first_type)second_type = ssq['prizegrades'][1]['type'], ssq['prizegrades'][1]['typenum'], ssq['prizegrades'][1]['typemoney']second_types.append(second_type) third_type = ssq['prizegrades'][2]['type'], ssq['prizegrades'][2]['typenum'], ssq['prizegrades'][2]['typemoney']third_types.append(third_type)
#     print(code,date,number,sales,first_type,second_type,third_type)
dic = {'code':codes,'date':dates,'number':numbers,'sales':sale,'first_type':first_types,'second_type':second_types,'third_type':third_types}#创建字典为创建多维表做准备
frame = pd.DataFrame(dic)
# frame.to_csv('./data/ssq/ssq.csv')#可以选择将数据储存到CSV文件
print(frame)

结果展示:

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,爬取近100期双色球开奖记录,其中有一个比较好的方法,快速创建多个空列表的方法:
codes,dates,numbers,sales,first_types,second_types,third_types = [[] for i in range(7)]

python爬虫实战2:爬取近100期双色球开奖记录相关推荐

  1. 2.python爬虫实战:爬取近5年的中国大学排行榜信息【Python】(测试代码+api例程)

    目录 API说明: 思路 注意事项 完整代码 总结 欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 爬取近5年的中国大学排行榜信息,在python爬虫爬取2 ...

  2. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  3. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  4. Python爬虫实战之爬取百度贴吧帖子

    Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...

  5. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  6. Python爬虫实战之爬取网站全部图片(一)

    Python爬虫实战之爬取网站全部图片(二) Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三) 一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击e ...

  7. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

  8. Python爬虫实战之 爬取全国理工类大学数量+数据可视化

    上次爬取高考分数线这部分收了个尾,今天咱们来全面爬取全国各省有多少所理工类大学,并简单实现一个数据可视化.话不多说,咱们开始吧. 第一步,拿到url地址 第二步,获取高校数据 第三步,地图可视化 第四 ...

  9. Python爬虫实战 | (12) 爬取万方数据库文献摘要并存入MongoDB

    之前在Python爬虫实战(7)中曾爬取过万方,本篇博客的爬取解析过程和之前几乎完全一样,不同的是数据存储方式,之前是存储到文件中(csv,txt,json,excel等),这次我们将提取的论文信息存 ...

  10. python爬虫完整实例-python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

最新文章

  1. Php 获取xml中的节点值
  2. Servlet WEB过滤器
  3. UAC bypass 理论学习
  4. 转载:vscode gcc makefile git 配置入门
  5. Spring Boot 2.3.x 分层构建 Docker 镜像实战
  6. AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见”
  7. c语言 葬礼分号,其实从C语言用分号结尾开始,就是一个悲剧了……
  8. Ubuntu下安装Rabbitmq和golang环境
  9. 偶然翻开旧日记本,发现了好多的情诗(三)!!!!
  10. DevExpress控件学习之GridControl的Row拖拽
  11. 高斯拟合原理_数据分析中的插值与拟合(2) —— 拟合
  12. _beginthreadex,CreateThread和_beginthread
  13. android镊 姩瀹夎 apk,用java寫的jodconverter借用openoffice來轉換office成pdf的示例代碼...
  14. 如何在Nature杂志上发表文章
  15. 我们应能在哪个层次使用计算机,福师20秋《计算机应用基础》在线作业一题目【标准答案】...
  16. Redis数据类型及编码
  17. ArcGIS中裁剪(clip)出现000117错误的解决办法
  18. html 表格 锁定首行,教你实现首行及首列固定 Table
  19. html画布创建黑白象棋棋盘,Canvas绘制象棋棋盘
  20. hover前有无空格的区别

热门文章

  1. 程序员如何创建自己的网站
  2. 搜狗站长html标签验证,悦然建站分享:搜狗站长平台使用教程之添加网站
  3. H3C交换机SNMP配置
  4. HTML基础 - HTML文本格式
  5. P0 口输出级具有能带 8个 LSTTL 门负载能力(指每个端口线例如P0.0P0.1每条位线,而不是整个P0口反证P2地址高8位,如果只能带4个怎么用)这个是门电路的扇出系数也就扇出带门负载能力
  6. 【opencv14】cv::Mat---Desne数组类
  7. java实现火车票查询_java抓取12306火车余票信息
  8. flv 视频播放器代码
  9. 支付宝扫码转账到银行卡/飞行模式
  10. 数字涂色 疫情过后希望小学终于又重新开学了