# 导入requests和re正则库
import requests
import re# 定义第一个函数实现获取网页数据
def getHTMLText(url,loginheaders):try:r = requests.get(url,headers=loginheaders, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingprint(r.text)return r.textexcept:return ""#定义一个函数实现把书包信息存储区来,包括编号,价格,名称
def parsePage(ilt, html):try:# 要明白 .* 代表的是任意个不同字符,而不是说必须是任意个相同的字符,其他的也是类似# re.findall()返回的是列表类型# 利用正则表达式查找价格("view_price":"任意个数的任意数字加点"),所以正则表达式还可在小数点后加两个0写成r'\"view_price\"\:\"[\d\.]*00\"'plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)# 利用正则表达式查找题目("raw_title":"任意个数的任意字符")tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)#循环遍历价格和题目,利用:分隔符获得值for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])# 添加到ilt列表当中,二维元组列表ilt.append([price, title])except:print("")# 打印题目和爬取的信息
def printGoodsList(ilt):# 定义输出格式tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))# 循环遍历打印爬取到的信息,第一种方式for i in range(len(ilt)):print(tplt.format(i + 1, ilt[i][0], ilt[i][1]))# 第二种方式,g是从ilt循环遍历每元组的每项,g[0],g[1]是价格和题目# count = 0# for g in ilt:#     count = count + 1#     print(tplt.format(count, g[0], g[1]))#定义主函数,写一下变量
def main():goods = '书包'# depth是爬取的深度,也就是爬取几页depth = 3start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44 * i)# 设置登录的头信息,注意cookie是登陆页面点击登录获取的头信息loginheaders = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36","cookie": "t=4ddf8b70981503ff445f594236c71e96; thw=cn; cookie2=12bdc5dde93e3514edca199a193f232f; _tb_token_=e45e8be4e50be; _samesite_flag_=true; enc=201s0rRJEHeguaLLCC6IAbLJao3k%2FWpbaR4FH6jpx1T6haa1auRivMShxlx1S0Ul3c3meKsTzPUcwTv3aEzt1Q%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; alitrackid=www.taobao.com; lastalitrackid=login.taobao.com; mt=ci=0_0; JSESSIONID=C7EA2D8019D08587402413BDBF38AFF0; cna=k8/5Fvt7vU8CAbfIPj2evd1M; l=eBxklgrHqCn48L6LBOfZourza77TlIRfguPzaNbMiT5P_2fH75cAWZjFnt8MCnGVnsZw-354uljQBrT8xyUBh6Yl3ZQ7XPQo3dTh.; isg=BFFRjiZN687i_QTKjM76nskzYF3rvsUwkMIhzjPmIpg42nAseQpbAHY4fK48Ul1o; tfstk=cwyCBJqLmeYQTTeeQzsZTKVPlrkPZj_sj6gLA5hd3EP90jECibvqlvj4ZFvtMc1..; sgcookie=EjxPeg5aM1t9jg2xwmUNw; unb=2639049752; uc1=cookie14=UoTUMtQjutczRQ%3D%3D&cookie21=VFC%2FuZ9ajC0X15Rzt0LhxQ%3D%3D&pas=0&existShop=false&cookie15=WqG3DMC9VAQiUQ%3D%3D&cookie16=VT5L2FSpNgq6fDudInPRgavC%2BQ%3D%3D; uc3=nk2=2nZbzUmLMMCi2g%3D%3D&vt3=F8dBxGXMemSB7fdhNUQ%3D&lg2=V32FPkk%2Fw0dUvg%3D%3D&id2=UU6idYdXStUjdg%3D%3D; csg=8948e7ae; lgc=%5Cu90ED%5Cu5DDD%5Cu5DDD1998; cookie17=UU6idYdXStUjdg%3D%3D; dnk=%5Cu90ED%5Cu5DDD%5Cu5DDD1998; skt=b778092dd81708b9; existShop=MTU4ODQ3NzIxNQ%3D%3D; uc4=id4=0%40U2xvIZeyY044%2Fg4ssnvrOTWRM69N&nk4=0%402EwyHO%2FQs1K5Yt3PADSqX0DTequA; tracknick=%5Cu90ED%5Cu5DDD%5Cu5DDD1998; _cc_=V32FPkk%2Fhw%3D%3D; _l_g_=Ug%3D%3D; sg=82b; _nk_=%5Cu90ED%5Cu5DDD%5Cu5DDD1998; cookie1=BvGDAyiO3yivOSSiEiVryF%2FdX85RndH78rFBY0y3kOc%3D"}html = getHTMLText(url, loginheaders)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

网络爬虫信息之实战淘宝书包信息爬取14相关推荐

  1. python爬虫—关于淘宝商品的爬取

    之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...

  2. Java网络爬虫--一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库

    一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库 目录 一步步使用Java网络爬虫技术实现豆瓣读书Top250数据的爬取,并插入数据库 第一步:创建项目,搭建项目结构 p ...

  3. 淘宝众筹数据爬取(1)

    众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注.然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦.前文中我们已经了解了静态网页 ...

  4. Python网络爬虫与信息提取(17)—— 题库爬取与整理+下载答案

    前言 上一节实现了题目的整理,没整理答案是不完整的,所以这一节加上答案的爬取. 上一节地址:Python网络爬虫与信息提取(16)-- 题库爬取与整理 效果 思路 爬答案有点难搞,像这种题库的答案都是 ...

  5. python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息

    python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...

  6. 网络爬虫与信息提取--正则表达式---淘宝商品比价定向爬虫

    淘宝商品比价定向爬虫 本实例爬取时间2019.9.11 由于淘宝代码的不断完善更新,本爬取代码已经不能爬取出商品信息内容 原因:结果为空:打印html看到,需要登录淘宝 在网上找解决方法,可以复制co ...

  7. Python3 网络爬虫:模拟登录淘宝,清空女朋友的购物车!

    前言 文字.图片.视频这类常规的内容下载.API 的使用,这些操作对你来说,应该轻而易举了. 那今天,就讲解一下高级一点的技能,「模拟登录」. 值此 618 之际,帮他/她清空一波购物车! 2 模拟登 ...

  8. Python爬虫实例之淘宝商品比价定向爬取!爬虫还是很有意思的!

    这次就模仿之前做的总结进行初次尝试 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 理解:获取淘宝的搜索接口淘宝页面的翻页处理 技术路线:requests--re 准备工作 获取淘宝搜索商品的 ...

  9. [笔记]python爬虫:淘宝商品价格信息爬取示例

    爬取的网站信息 网站地址 淘宝官网:https://www.taobao.com/ 爬取内容 碧根果价格信息 网页对应的部分源代码 从网页源代码中可以看到,需要爬取的商品以 "raw_tit ...

最新文章

  1. git回滚到历史版本,并且删除本地untracked file
  2. 18.12.04 有品面试小记
  3. vue php 文件上传,使用vue.js和laravel上传文件
  4. atitit. orm框架的hibernate 使用SQLQuery createSQLQuery addEntity
  5. Google Protobuf
  6. activiti 流程文件存哪里_JAVA-工作流引擎-activiti-Tasks介绍
  7. dmb: 数据库监控及灾备系统(for mysql)_MySQL企业级数据库灾备(备份)系统-DMB v2.1发布...
  8. r710 linux网卡驱动,Dell R710更换网卡驱动linux
  9. android qq 文件怎么恢复,恢复QQ接收文件的文件夹被误删除了的方法
  10. 图解:最短路径之迪杰斯特拉算法
  11. springboot中格林尼治时间转指定格式时间
  12. 完美适配Windows 11,搜狗输入法智能输入助手体验再升级
  13. 传微信要开直播业务:主流社交工具全面杀入直播战场
  14. 前端高效开发必备的 js 库
  15. 有哪些高含金量的编程竞赛?
  16. 常见的对称式加密与非对称式加密算法
  17. Java导出word 图片重复
  18. python Pygame的具体使用讲解
  19. php中如何导出表格,PHP如何实现表格Excel的导出
  20. 366. 斐波纳契数列

热门文章

  1. 地方门户类网站建设解决方案
  2. 计算机网络管理技术参考文献,报文网络论文,关于计算机网络管理相关技术相关参考文献资料-免费论文范文...
  3. JAVA_小小圣诞树
  4. 共享汽车倒下了,为何我感觉心中的石头终于落地?
  5. 174.123.15.31 index.php,腾讯内容开放平台
  6. 自从上了K8S,项目更新都不带停机的!
  7. unity初写游戏(四)怪物产生方式
  8. CMN_1022: [FreeTDS][SQL Server]The COMMIT TRANSACTION request has no corresponding BEGIN TRANSACTION
  9. 《黑头人》(暂定)开发日志
  10. 如何用Unity Shader制作类似《炉石传说》卡牌的动态效果?