将双色球信息排序下来，存储。使用python技术手段

1. 爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html

import requests
from bs4 import BeautifulSoup
import time
import xlrd
import xlwt
from xlutils.copy import copydef getHTML(url):'''通过url以get方式请求获取响应数据:param url::return: html/str'''try:res = requests.get(url)return res.content.decode(res.apparent_encoding, 'ignore')except Exception as e:passdef getPages(html):'''获取页面总数:param html::return: nums/int'''soup = BeautifulSoup(html, 'html.parser')nums = int(soup.findAll('p')[1].find('strong').get_text())return numsdef initExcel():'''初始化excel表:return: filePath/url'''f = xlwt.Workbook()sheet1 = f.add_sheet(u'double', cell_overwrite_ok=True)row0 = [u'开奖日期', u'期号', u'中奖号码', u'销售额(元)   ', u'一等奖人数', u'一等奖遍布地区', u'二等奖人数', u'中奖详情地址', u'中奖视频地址']for i in range(0, len(row0)):sheet1.write(0, i, row0[i])f.save(r'D:\积累\学习\python\爬虫\彩票预测\双色球.xls')return 'D:\积累\学习\python\爬虫\彩票预测\双色球.xls'def writeExcel(path, data):'''将数据追加写入excel:param path::param data::return:'''workbook = xlrd.open_workbook(path)sheets = workbook.sheet_names()worksheet = workbook.sheet_by_name(sheets[0])rows_old = worksheet.nrowsnew_workbook = copy(workbook)new_worksheet = new_workbook.get_sheet(0)raws = len(data)for _ in range(raws):for j in range(0, len(data[_])):try:new_worksheet.write(_ + rows_old, j, data[_][j])  # 追加写入数据，注意是从i+rows_old行开始写入except Exception as e:continuenew_workbook.save(path)def parseData(html):'''解析页面数据，获取目标数据:param html: html页面数据:return: res/list'''soup = BeautifulSoup(html, 'html.parser')trs = soup.findAll('tr')[2:-1]leng = len(trs)res = []for i in range(leng):res0 = []tds = trs[i].findAll('td')pFir = tds[4].get_text().replace(" ", "").split("\n")res0.append(tds[0].get_text())res0.append(tds[1].get_text())res0.append(str(tds[2].get_text()).replace("\n", ""))res0.append(tds[3].get_text())res0.append(pFir[0])res0.append(pFir[1])res0.append(tds[5].get_text())res0.append(tds[6].findAll('a')[0]['href'])res0.append(tds[6].findAll('a')[1]['href'])res.append(res0)return resdef getUrl(n):'''通过页索引获取页面地址:param n::return: url/str'''return 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_' + str(n) + '.html'def main():'''入口函数:return: None'''url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html'html = getHTML(url)# 获取总页数pageNo = getPages(html)# 初始化excel表path = initExcel()# 依次处理每一页数据for _ in range(1, pageNo + 1):print("正在爬取第%d页数据..." % _)url = getUrl(_)html = getHTML(url)# 解析数据excelData = parseData(html)# 追加存储数据writeExcel(path, excelData)print("第%d页数据爬取完成!" % _)time.sleep(3)print("爬取完成！")if __name__ == '__main__':main()

1.1 爬取效果

2.爬取http://datachart.500.com/ssq/history/newinc/history.php?start=00001&end=20130并使用matplotlib统计展示

import requests
from lxml import etree
import matplotlib.pyplot as plt
from pandas import Seriesurl = "http://datachart.500.com/ssq/history/newinc/history.php?start=00001&end=20130"
response = requests.get(url)
response = response.text
selector = etree.HTML(response)
reds = []
blues = []
for i in selector.xpath('//tr[@class="t_tr1"]'):datetime = i.xpath('td/text()')[0]red = i.xpath('td/text()')[1:7]blue = i.xpath('td/text()')[7]for i in red:reds.append(i)blues.append(blue)s_blues = Series(blues)
s_blues = s_blues.value_counts()
s_reds = Series(reds)
s_reds = s_reds.value_counts()def autolabel(rects):for rect in rects:height = rect.get_height()plt.text(rect.get_x(), 1.02*height, "%s" % height)labels = s_blues.index.tolist()
sizes = s_blues.values.tolist()
rect = plt.bar(range(len(sizes)) , sizes , tick_label = labels)
autolabel(rect)
plt.show()labels2 = s_reds.index.tolist()
sizes2 = s_reds.values.tolist()
rect2 = plt.bar(range(len(sizes2)), sizes2 , tick_label = labels2)
autolabel(rect2)
plt.show()

2.1 爬取效果

3.使用第二种网站地址，爬取数据到sqlite数据库中


import sqlite3
import requests
import xlwt
from lxml import etreeconn = sqlite3.connect(r'D:\积累\学习\python\爬虫\彩票预测\SSQ.db')
cursor = conn.cursor()
url = "http://datachart.500.com/ssq/history/newinc/history.php?start=00001&end=20130"
response = requests.get(url)
response = response.text
selector = etree.HTML(response)cursor.execute("delete from SSQ")
values=["",0,0,0,0,0,0,0]for i in selector.xpath('//tr[@class="t_tr1"]'):values[0] = i.xpath('td/text()')[0]red = i.xpath('td/text()')[1:7]for j in range(0,len(red)):values[j+1] = red[j]values[7] = i.xpath('td/text()')[7]cursor.execute("INSERT INTO SSQ VALUES (?, ?, ?, ?, ?,?, ?, ?)",values);conn.commit()

2.1 爬取效果

发家致富：爬取双色球信息并统计相关推荐

python爬取双色球数据+数据统计
2019独角兽企业重金招聘Python工程师标准>>> 彩票数据爬去---写入mysql: import requests import re#python中的正则表达式(re模块) ...
带你爬取双色球历史开奖信息并作可视化分析
爬取双色球历史开奖 + 可视化分析更多爬虫教程请移步 \color{red}更多爬虫教程请移步更多爬虫教
爬取双色球的历史记录
爬取双色球的历史记录 1.项目简介双色球是由中国福利彩票的一种玩法.双色球投注区分为红色球号码区和蓝色球号码区,红色球号码区由1-33共三十三个号码组成,蓝色球号码区由1-16共十六个号码组成. ...
python刷新页面_Python模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...
以下用于数据存储领域的python第三方库是-Python3爬虫学习之MySQL数据库存储爬取的信息详解...
本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息.分享给大家供大家参考,具体如下: 数据库存储爬取的信息(MySQL) 爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在 ...
MATLAB实战系列（二十八）-用matlab爬取火车票信息
前言之前博主使用matlab爬取火车票信息,博主觉得这个爬取过程还蛮有趣的,所以和大家分享一下如何用matlab爬取火车票信息. 比如我想要获取以下这些车次的始发站和终点站信息, 大家第一反应可能会 ...
[python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱
前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJ ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...
python小爬虫(爬取职位信息和博客文章信息)
1.python爬取招聘信息简单爬取智联招聘职位信息(仅供学习) # !/usr/bin/env python # -*-coding:utf-8-*- """ @Au ...
爬虫项目三：爬取选课信息
爬虫项目三:爬取whut-jwc选课信息项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息核心: 1.实现网页登陆 2.爬取课程信息一.网页信息登陆 from selenium imp ...

发家致富：爬取双色球信息并统计

1. 爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html

1.1 爬取效果

2.爬取http://datachart.500.com/ssq/history/newinc/history.php?start=00001&end=20130并使用matplotlib统计展示

2.1 爬取效果

3.使用第二种网站地址，爬取数据到sqlite数据库中

2.1 爬取效果

发家致富：爬取双色球信息并统计相关推荐

最新文章

热门文章