1.准备工作:

1.1安装requests: cmd >> pip install requests
1.2 安装lxml: cmd >>  pip install lxml
1.3安装wheel: cmd >>  pip install wheel
1.4 安装xlwt: cmd >> pip install xlwt

2. 编写代码

2.1使用requests.get获取页面

编译结果

2.2 使用lxml将数据改成xpath结构

2.3 精确获取数据

2.4 使用for in循环输出数据

注意:print(tr.xpath(".//td/text()"))中 如果没有加.只会循环相同的内容,上图就是没有加点

正确做法

2.5 只获取需要的数据

3.使用xlwt创建excel表,存储数据

3.1 创建excel表

运行结果

3.2 将数据添加到excel表中

3.3 批量添加数据(让j累加)

3.4 多页数据添加

最终代码

import requestsfrom lxml import etreeimport xlwt#设置浏览器的请求头,告诉服务器我们是从浏览器来的,作用是阻止被网站反爬

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36','Accept-Encoding': 'gzip, deflate','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3','Connection': 'keep-alive'}#创建一个工作簿

f = xlwt.Workbook()#添加一个工作表

sheet3d = f.add_sheet("3d", cell_overwrite_ok=True)#往表里添加表头

row0 = ['开奖日期','期号','中奖号码1','中奖号码2','中奖号码3','销售额(元)','返奖比例']for i in range(0,len(row0)):sheet3d.write(0,i,row0[i])j = 1for i in range(1, 21):url = "http://kaijiang.zhcw.com/zhcw/html/3d/list_{}.html".format(i)#发送请求 得到数据
response = requests.get(url=url,headers=headers)#print(response.text)#将数据改成xpath结构
res_xpath = etree.HTML(response.text)trs = res_xpath.xpath('/html/body/table//tr')# print(trs)# 写入循环for tr in trs[2:-1]:sheet3d.write(j,0,tr.xpath("./td[1]/text()")[0])sheet3d.write(j,1,tr.xpath("./td[2]/text()")[0])sheet3d.write(j,2,tr.xpath("./td[3]/em[1]/text()")[0])sheet3d.write(j,3,tr.xpath("./td[3]/em[2]/text()")[0])sheet3d.write(j,4,tr.xpath("./td[3]/em[3]/text()")[0])sheet3d.write(j,5,tr.xpath("./td[4]/text()")[0])sheet3d.write(j,6,tr.xpath("./td[5]/text()")[0])j += 1;f.save('3D.xls')

转载于:https://www.cnblogs.com/kinblog/p/10782452.html

python爬虫采集网站数据相关推荐

  1. python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  2. Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据

    随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...

  3. 如何用最简单的Python爬虫采集整个网站

    在之前的文章中Python实现"维基百科六度分隔理论"之基础爬虫,我们实现了在一个网站上随机地从一个链接到另一个链接,但是,如果我们需要系统地把整个网站按目录分类,或者要搜索网站上 ...

  4. python百度云盘搜索引擎_2016百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...

    品牌: 其他 语言: PHP 数据库: Mysql 源文件: 完全开源(含全部源文件) 授权: 免授权 规格: 整站源码 移动端: 无移动端 安装服务: 收费安装(另补差价) 操作系统: Window ...

  5. Python批量采集商品数据并使用多线程(含完整源码)

    前言 嗨喽,大家好,这里是魔王~ 本次目的: Python批量采集商品数据 知识点: 爬虫基本流程 非结构化数据解析 csv数据保存 线程池的使用 开发环境: python 3.8 pycharm r ...

  6. Python爬虫人工智能大数据全栈视频史上最全合辑教程分享!

    Python爬虫人工智能大数据全栈视频史上最全合辑教程分享! 毫无疑问Python是这两年最火的编程语言,不仅容易上手,且在多个行业都可应用.尤其今年人工智能及大数据的发展,Python将会展现更多的 ...

  7. Python爬虫学习之数据提取(Beautiful Soup)

    Python爬虫学习之数据提取Beautiful Soup 前期回顾 概述 解析器 准备工作 实例 节点选择器 方法选择器 find_all find 总结 前期回顾 Python爬虫学习之reque ...

  8. python爬虫获取基金数据2

    用sklearn分析基金数据<1> python爬虫获取基金数据<2> 数据预处理:数据清洗.生成样本数据<3> 用sklearn训练样本数据<4> 用 ...

  9. [Python爬虫] 三、数据抓取之Requests HTTP 库

    往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 一.urllib 模块 所谓网页抓取,就是把URL ...

最新文章

  1. Advanced Memory Allocation 内存分配进阶
  2. Java中static的作用详解_java中static作用详解
  3. oracle数据库link格式,Oracle创设DB Link
  4. 感知器的c++实现_使用FastAI和PyTorch的多层感知器
  5. 职场信念:人生的12种财富(转帖)
  6. 在阿里云 ECS 上试图安装 SAP Commerce Cloud 的 137 错误
  7. 设计模式笔记四:建造者模式
  8. vscode保存react时标签出现空格自动换行报错
  9. 【转发】 iphone开发随笔,有用的
  10. HDU 1234- 开门人和关门人
  11. java类加载机制之类加载过程、类加载器及双亲委派模型详解
  12. Android基于Ymodem协议升级嵌入式MCU主控
  13. java 逃逸_Java 逃逸分析
  14. 用Session记录实现页面数据的关联
  15. Vue3的生命周期的使用
  16. 商品详情页实现价格区间价
  17. OMAP3530资料
  18. 依托飞凌FETA40i-C核心板实现光时域反射仪的原理应用
  19. 东芝推出采用DIP4封装的大电流光继电器
  20. 火箭图标c语言的软件,PS手把手教你绘制酷炫有型的火箭图标

热门文章

  1. java plat停止_击按钮就停止运行,大牛帮我看看
  2. java可以转linux么_Java开发必会的Linux命令(转)
  3. 拼装sql_SQL优化最干货总结(2020最新版)
  4. python绘制坐标点画出半径_24行Python代码让小球“弹”起来
  5. c语言块级作用域_块级作用域问题ES5 ES6
  6. python360百科_python抓取360百科踩过的坑!
  7. 设置按峰值带宽计费_如何理解串联谐振电路中的带宽?
  8. windows kernel 可以直接读写文件系统资料吗_嵌入式杂谈之文件系统
  9. flag在java怎么用_JAVA flag怎么用
  10. location定位_旅游英语必备单词:location