今天给大家分享一个小网站的数据采集,并写到excel里面!

分析网站

目标网站是“小咪购”,这里有天猫所有的含有购物券的商品信息,我们今天就来抓它吧!

随便找一段文字,然后点击右键查看网页源代码,看看是否存在该文字,如果存在,那么这个网页就是静态网站了!很幸运,这个网站居然是静态的。

那就简单了,不需要去分析ajax加载数据或者找json包了,直接获取网页源代码==>>匹配相关内容==>>保存数据即可!

工具和库

Windows+python3.6

import random

import time

import requests

from lxml import etree

import xlwt

用这几个库就可以搞定了!注意xlwt和xlrd这2个库都是操作excel的,一个是保存数据,一个是读取数据,不要搞混了。

开始写代码

首先写一个函数,将所有的爬虫工作写到函数里,如下图

这个网站需要写上headers,不写是抓不到数据的!新建一个列表,将爬到的相关数据写入列表,它的形式大概是这样的:【【产品信息A1,2,3……】,【产品信息B1,2,3……】……】,这么写列表是因为我们最后要将他们写如excel表格,那么列表中的每一个元素(还是列表形式)都是一行数据,方便写入!

注意第33行,列表构成的时候,用+连接会将所有列表中的元素放入一个列表,比如:【1,2,3】+【4,5】=【1,2,3,4,5】,而用append()函数则会将后面的内容作为一个元素加入列表中,比如:[1,2,3].append([4,5])=[1,2,3,[4,5]]

下来就是写入excel了,首先是新建excel表格,并写入第一行数据

后面的数据,依次按格式写入并最后用wb.save(路径)的方式保存即可!完整代码及效果如下

由于网站更新的很快(官方说是10分钟。。。),所以也没有抓取那么多,所有的页面有大约600多页,一页100条信息,也就是说一共有6万多条商品信息,如果不用多线程的话会很慢!

代码在上传的过程中会有压缩,如果实在看不清楚的话,大家可以留言我获取源码!

Python爬虫自动领取满减优惠券,剁手党的福利!相关推荐

  1. 剁手党也有春天 -- 淘宝 UWP ”比较“功能诞生记

    前言 网购已经不再是现在的时髦,而变成了我们每天的日常生活.上网已经和买买买紧密地联系在了一起,成为了我们的人生信条.而逛街一词,越来越多地变成了一种情怀.有时候我们去逛街,要么是为了打发时间,要么是 ...

  2. 天猫乐活季乐活价是什么意思?如何参与天猫乐活价满减优惠券活动?

    天猫乐活季乐活价是什么意思? 天猫乐活季活动时间是从4月13日 20:00 至4月16日24:00,在活动时间内通过天猫商城挑选购买商品,带有乐活季的商品进入购买即可享受跨店满300减30元.优惠券满 ...

  3. 抓取安居客二手房经纪人数据,python爬虫自动翻页

    为什么80%的码农都做不了架构师?>>>    和链接不一样,安居客网站里面没有找到总页数,可能在json里面有,只是我没有找到. 基于此能不能做网页的循环爬取呢. 能否判断页面读取 ...

  4. 利用python爬虫自动登录人人网

    刚学python爬虫,使用python爬虫自动登录人人网,在运行代码时一直报错HTTPError /syshome urllib.error可以接收有urllib.request产生的异常.urlli ...

  5. Python 爬虫自动下载OpenAI Key Papers

    Spinning Up是OpenAI开源的面向初学者的深度强化学习资料,其中列出了105篇深度强化学习领域非常经典的文章, 见 Spinning Up: 博主使用Python爬虫自动爬取了所有文章,而 ...

  6. 2014年双11抢货宝典-双11促销商品价格对比清单---妈妈再也不用担心我成为剁手党啦

    2014年双11抢货宝典-双11促销商品价格对比清新鲜出炉,双十一当天使用抢货的宝典. 列出了20多万商品所有双十一货品的平时价格和双十一当天价格, 本次电商响应国家工商总局不得先提价后降价的要求,件 ...

  7. 阿里包下游轮送剁手党出国游!会员体系升级背后故事多

    阿里会员体系要实现用户.平台.商家三方共赢,会员的福利还会增加. 目前,淘气值最高的是4862分.淘气值超过2500分可获邀成为APASS会员:1000分以上是超级会员:然后是普通会员. 这或许是中国 ...

  8. “好评返现”违法,有商家被罚,双11剁手党们坐不住了

    "好评返现"违反<反不正当竞争法>. 26日,话题#商家外卖放好评返现卡被罚#登上微博热搜,不少网友发出疑问:"原来几乎每天都能收到的好评返现卡是违法的?&q ...

  9. 剁手党:过年想收快递!马云:照常送!最高补贴三千让快递员团圆

    春节将至,年货采购正当时!望着商场人挤人的壮观景象,网购年货越来越成为了多数人的选择.可是一想到有的货品年前下的单,年后才送到的"惨剧"就让人心疼不已. 不过,今年,大家可不用再担 ...

最新文章

  1. [NC15665]maze
  2. discuz“附件文件无法保存到远程服务器”故障的解决
  3. salt-api timeout 执行超时问题解决
  4. 华为开发者学院 | 卷积神经网络与图像处理,听这一节课就够了
  5. win8中计算机的工具在哪,Win8画图工具在哪,Win8怎么打开画图?
  6. 细看CRLF注入***的原理和其防范措施
  7. 回望2017:一个前端从业者砥砺前行的一年
  8. 程序默认在副屏显示_树莓派使用 OLED 屏显示图片及文字
  9. python的全局变量 local variable ‘xxx‘ referenced before assignment
  10. Eclipse下设置github开发环境
  11. 拓端tecdat|matlab使用Copula仿真优化市场风险
  12. Protel 99SE在Win10下按键就卡,无法使用
  13. EJB到底是什么,真的那么神秘吗??
  14. 操作系统:操作系统装进U盘的图解教程
  15. fla 优化思路 flash cs6
  16. 打印服务器 支持 佳能 2900+打印机,佳能LBP2900,夏普等特殊打印机如何实现打印?(虚拟USB软件用途之二)...
  17. android基础教程:多个页面时如何设置首页
  18. 跳一跳小游戏刷分解读
  19. 程序员如何成为架构师
  20. 浅谈月薪3万 iOS程序员 的职业规划与成长!(进阶篇)

热门文章

  1. java 视频边下边播,android 边下边播放mp3完美实现(有缓冲和播放进度效果)
  2. Mybatis if标签判断数字大小
  3. 一文说透企业风险管理的三大要素分别是什么
  4. 大数据应用对企业税务风险管理影响
  5. GetLastErr返回值ErrCode的宏定义以及含义
  6. chrome 打印布局_Chrome打印网页中的宽度控制
  7. 蚁群算法 c语言,蚁群算法(C语言实现)
  8. 传奇手游战神引擎开服教程架设教程工具全套图文教程
  9. netty的异常分析 IllegalReferenceCountException refCnt: 0, decrement: 1
  10. 拼多多砍价背后的逻辑