*获取页面里没有商品信息而是登录页面是因为没有cookie信息,所以想要获取淘宝商品信息需要先登录自己的账号得到自己的cookie

获取淘宝cookie的方法:

首先先登录我们自己的淘宝账号

淘宝搜索任意内容后会出现一个新的第三步Name

源代码

import re
import requests
from bs4 import BeautifulSoup
url = 'https://s.taobao.com/search?q='# 设置cookie的值
cookie = 'xlly_s=1; alitrackid=www.taobao.com; cookie2=11684d2a4e006d3bb2b83ef3cfc4df49; t=0886ed00aad99aac5066105b8d39482a; _tb_token_=f15a6e17e8be7; hng=CN|zh-CN|CNY|156; thw=cn; _samesite_flag_=true; lastalitrackid=login.taobao.com; _uab_collina=162123837338555780261734; _m_h5_tk=84039b1ef1fc7b24d62625d23441f268_1621251566876; _m_h5_tk_enc=7bb20836687a0e761deda47c4daa356e; cna=pDaHFvnA1hACAWohEn0c+FxZ; sgcookie=E100yD+P4igrfk1gQkuePSkahKbbZC7Olb6yJv3ZulI+2xGu0W6WTjEEChg49ypic3zsJjhD4WloaC3u5cvrg8GzkQ==; unb=4149725860; uc3=lg2=URm48syIIVrSKA==&vt3=F8dCuwgmnFUwCjCMxrA=&id2=Vy0XFx9cRUBCZg==&nk2=AmkKA6aQ; csg=338fe594; lgc=axx299; cookie17=Vy0XFx9cRUBCZg==; dnk=axx299; skt=89f5d08b04a3b0c5; existShop=MTYyMTI0MjI2MA==; uc4=id4=0@VXqZhcZWJjDI9oEJEx/pgXFQmfUf&nk4=0@AII8YTsd27vacUliRCUDGvc=; tracknick=axx299; _cc_=URm48syIZQ==; _l_g_=Ug==; sg=906; _nk_=axx299; cookie1=W8Df+oB22CyNFBDcTj2SsDN04w346wIplNTEykc2Uek=; mt=ci=22_1; uc1=pas=0&cookie21=Vq8l+KCLivbdjeuVIQ2NTQ==&existShop=false&cookie14=Uoe2zEWtsBiCXw==&cookie16=W5iHLLyFPlMGbLDwA+dvAGZqLg==&cookie15=Vq8l+KCLz3/65A==; enc=FfEc/39WjXLL8BQr8K6FZ8MxZ+237MHcgvrTbCCEGdq0/CJ9tM5/26mrb3TNxxkQCOPvQHKiwaTU9tbDoJwSlQ==; x5sec=7b227365617263686170703b32223a223339383263646666326461306462393666656636366264353732306534663736434a726a69495547454c7a6a3038796f764d657a59786f4d4e4445304f5463794e5467324d4473784d4b6546677037382f2f2f2f2f77453d227d; JSESSIONID=D15E590BDEE6C0E9B6A58B6534D9523D; isg=BFlZcDxFXWqWPwH9JmyGJ5vVaEUz5k2YrQmcU3sOdgD1gnsUwTQOaILUhEb0aOXQ; tfstk=cpdABNao30mD9v7J8KHo1fMO_WdOZ4PAXrsU6q_I0t0_wUVOikdH9ZYqhwQtm4C..; l=eBaNRBMHj2s15dsFBO5Churza779VIRbzxFzaNbMiInca1l51EXiSNCC0t09RdtjgtCbSexyq4hFHRnp5i4dg2HvCbKrCyCuHxJO.'# 获取网页源代码
def gethtml(url):try:kv = {'cookie': cookie}r = requests.get(url, headers=kv, timeout=30)  # 把cookie写入头部r.raise_for_status()r.encoding = r.apparent_encodingsoup = BeautifulSoup(r.text, 'html.parser')return soup.prettify()except:return "产生异常"# 将商品信息写入列表
def getinfo(glist, html):jiage = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)mingcheng = re.findall(r'\"raw_title\"\:\".*?\"', html)chang = len(jiage)for i in range(chang):glist.append([mingcheng[i][13: -2], jiage[i][14: -2]])# 输出信息函数def prinlist(glist):for i in range(len(glist)):print('{0:^3}\t{2:{3}<5}\t{1:<30}'.format(i+1, glist[i][0], glist[i][1], chr(12288)))def main():goodsName = input("请输入要爬取的内容")pages = 2  # 想要爬取的商品名count = 0glist = []for page in range(pages):html = gethtml(url + goodsName + "&s=" + str(pages*page))getinfo(glist, html)prinlist(glist)main()

输出结果:

E:\python\python.exe G:/pytest/淘宝商品比价定向爬虫.py
请输入要爬取的内容书包1    149.0   鳄鱼男士双肩包商务休闲电脑背包大容量旅           2     138.0   多妙屋小学生书包女童一三四年级女孩彩虹减负护脊轻便儿童双肩 3     179.0   Nike耐克双肩包女2021夏季新款运动包学生书包小包绒面背包CU2574   85.0    男士个性虎头男中学创意仿真大老虎头背包狮子头虎头包书包双肩 5     89.0    小米 (MI)背包极简都市双肩包2男女笔记本电脑15.6英寸学生书6    149.0   小米双肩包商务简约书包男女士大学生时尚潮流旅行笔记本电脑背 7     59.0    双肩包男士大容量电脑旅行背包女时尚潮流大学生高中初中学生书 8     128.0   多妙屋书包小学生女童一三四年级公主女孩轻便儿童护脊减负双肩 9     119.0   Skechers斯凯奇2021新款书包大容量运动风大学生夏男士双肩背包
10  158.0   双肩包男士出差旅游大容量背包女运动休闲笔记本电脑包旅行书包
11  69.0    大容量男士双肩包休闲旅游旅行电脑背包女高中初中学生书包大学
12  619.0   MoonRock梦乐品牌书包减负1-3年级男女小学生儿童超轻便双肩背
13  499.0   fjallraven瑞典北极狐双肩包kanken书包女电脑背包官方旗舰2351
14  88.0    正品nike耐克双肩包男女休闲运动学生书包大容量旅行电脑时尚背
15  198.0   阳光8点 小学生书包一二三到六年级男女儿童超轻减压护脊轻便减
16  129.0   KK剑桥树书包小学生男孩一二三到六年级儿童6-12岁男童双肩包减
17  258.0   电视剧款JanSport杰斯伯2020年新款双肩包时尚潮女书包男电脑背
18  139.0   KVG书包小学生男1-3一二三到六年级4-6儿童超轻便减负女护脊背
19  298.0   Colins Keirs双肩包男士商务休闲大容量电脑包背包男旅行书包潮
20  129.0   KK剑桥树书包小学生女孩一二三到六年级儿童双肩包护脊减负6-12
21  208.0   2021款日本超轻书包小学生女大容量一二三到六年级儿童书包男护
22  59.0    双肩包男士大容量商务电脑旅游旅行背包女大学生高中初中学生书
23  88.0    凯蒂猫女童一二三到六年级女孩超轻护脊减负儿童双肩包小学生书
24  135.0   旅行背包男士大容量超大休闲出差旅游特大书包80升行李大号双肩
25  258.0   日本KYOSHO拉杆书包静音小学生男孩女生儿童大容量防水可爬楼初
26  49.0    双肩包女2021新款韩版牛津布小背包女士百搭时尚大容量帆布书包
27  149.0   uek小学生书包男孩女生一二三四五六年级护脊双肩6-12岁轻便儿
28  59.9    儿童书包男童一到三四五六年级男孩小学生背包大童卡通超轻便护
29  3105.0  金实佳 日本代购 ISSEYMIYAKE 三宅一生 双肩包 磨砂黑书包 背
30  79.0    诺狐婴幼儿园书包女孩男孩3岁5大班小班宝宝儿童防走失背包女
31  178.0   帆布共和国2021新款双肩包女男背包大容量简约时尚百搭撞色书包
32  59.0    巴布豆儿童书包男童1-3-4-6年级轻便减负防水护脊女童书包小学生
33  580.0   Samsonite/新秀丽双肩包女小包 休闲时尚双肩背包简约商务书包TQ
34  399.0   Fjallraven/北极狐双肩背包kanken mini 迷你情侣书包背包女2356
35  138.0   旅行包男户外登山休闲超大容量旅游双肩书包出差背包女行李多功
36  900.0   Gaston Luga电脑双肩包男皮大容量书包男时尚潮流百搭旅行背包
37  599.0   Samsonite/新秀丽儿童书包小学生一六低高年级男女孩双肩背包TU
38  249.0   国家地理背包女运动户外时尚电脑双肩包男旅行防水学生情侣书包
39  198.0   瑞士军刀双肩包男休闲大容量书包瑞士军士刀男士电脑商务旅行背
40  178.0   瑞士军士刀双肩包男背包商务出差电脑旅行包大容量初高中学生书
41  118.0   瑞士双肩包男超大容量休闲商务旅行电脑背包男士高中初中学生书
42  149.0   双肩包女2021新款时尚韩版百搭大容量牛津布简约旅行防盗背包书
43  58.0    双肩包男日系ins男士潮牌大容量休闲旅行包背包女潮酷书包大学
44  399.0   小众夏真皮牛皮包包2021新款时尚迷你百搭小书包女包双肩包女背
45  69.0    潮流双肩包男士休闲防水旅行包电脑包背包高中初中大学生书包男
46  398.0   【顺丰速发】日本书包小学生男儿童一二三到六年级护脊减负超轻
47  379.0   FILA斐乐童装儿童双肩包小学生书包2021新款男童女童低年级背
48  32.9    儿童书包小学生超轻三到六男童幼儿园一年级女二男孩四定制印log
49  149.0   小米双肩包商务简约书包男女士大学生时尚潮流旅行笔记本电脑背
50  59.0    双肩包男士大容量电脑旅行背包女时尚潮流大学生高中初中学生书
51  128.0   多妙屋书包小学生女童一三四年级公主女孩轻便儿童护脊减负双肩
52  119.0   Skechers斯凯奇2021新款书包大容量运动风大学生夏男士双肩背包
53  158.0   双肩包男士出差旅游大容量背包女运动休闲笔记本电脑包旅行书包
54  69.0    大容量男士双肩包休闲旅游旅行电脑背包女高中初中学生书包大学
55  59.0    迪士尼书包小学生男童女童儿童双肩包三到六年级一二护脊减负超
56  619.0   MoonRock梦乐品牌书包减负1-3年级男女小学生儿童超轻便双肩背
57  499.0   fjallraven瑞典北极狐双肩包kanken书包女电脑背包官方旗舰2351
58  88.0    正品nike耐克双肩包男女休闲运动学生书包大容量旅行电脑时尚背
59  198.0   阳光8点 小学生书包一二三到六年级男女儿童超轻减压护脊轻便减
60  129.0   KK剑桥树书包小学生男孩一二三到六年级儿童6-12岁男童双肩包减
61  258.0   电视剧款JanSport杰斯伯2020年新款双肩包时尚潮女书包男电脑背
62  139.0   KVG书包小学生男1-3一二三到六年级4-6儿童超轻便减负女护脊背
63  298.0   Colins Keirs双肩包男士商务休闲大容量电脑包背包男旅行书包潮
64  129.0   KK剑桥树书包小学生女孩一二三到六年级儿童双肩包护脊减负6-12
65  208.0   2021款日本超轻书包小学生女大容量一二三到六年级儿童书包男护
66  59.0    双肩包男士大容量商务电脑旅游旅行背包女大学生高中初中学生书
67  149.0   鳄鱼男士双肩包大容量商务休闲电脑背包旅行时尚潮流初中学生书
68  69.9    迪卡侬双肩包男背包书包户外包运动登山包女休闲旅行学生轻便ODA
69  88.0    凯蒂猫女童一二三到六年级女孩超轻护脊减负儿童双肩包小学生书
70  149.0   安踏背包男女双肩包2021新款黑色书包学生电脑包户外运动旅行背
71  135.0   旅行背包男士大容量超大休闲出差旅游特大书包80升行李大号双肩
72  258.0   日本KYOSHO拉杆书包静音小学生男孩女生儿童大容量防水可爬楼初
73  49.0    双肩包女2021新款韩版牛津布小背包女士百搭时尚大容量帆布书包
74  149.0   uek小学生书包男孩女生一二三四五六年级护脊双肩6-12岁轻便儿
75  59.9    儿童书包男童一到三四五六年级男孩小学生背包大童卡通超轻便护
76  3105.0  金实佳 日本代购 ISSEYMIYAKE 三宅一生 双肩包 磨砂黑书包 背
77  49.9    迪卡侬官方旗舰店官网儿童运动背包轻便登山包双肩包学生书包KID
78  79.0    诺狐婴幼儿园书包女孩男孩3岁5大班小班宝宝儿童防走失背包女
79  178.0   帆布共和国2021新款双肩包女男背包大容量简约时尚百搭撞色书包
80  118.0   迪士尼书包小学生男童三到六年级四五护脊减负一二儿童男2021新
81  59.0    巴布豆儿童书包男童1-3-4-6年级轻便减负防水护脊女童书包小学生
82  580.0   Samsonite/新秀丽双肩包女小包 休闲时尚双肩背包简约商务书包TQ
83  399.0   Fjallraven/北极狐双肩背包kanken mini 迷你情侣书包背包女2356
84  138.0   旅行包男户外登山休闲超大容量旅游双肩书包出差背包女行李多功
85  900.0   Gaston Luga电脑双肩包男皮大容量书包男时尚潮流百搭旅行背包
86  249.0   国家地理背包女运动户外时尚电脑双肩包男旅行防水学生情侣书包
87  599.0   Samsonite/新秀丽儿童书包小学生一六低高年级男女孩双肩背包TU
88  198.0   瑞士军刀双肩包男休闲大容量书包瑞士军士刀男士电脑商务旅行背
89  29.0    【急速发货】小米双肩包小背包男女运动包休闲双肩包学生书
90  178.0   瑞士军士刀双肩包男背包商务出差电脑旅行包大容量初高中学生书
91  118.0   瑞士双肩包男超大容量休闲商务旅行电脑背包男士高中初中学生书
92  149.0   双肩包女2021新款时尚韩版百搭大容量牛津布简约旅行防盗背包书Process finished with exit code 0

中国大学mooc实战项目之淘宝商品信息提取 python《网络爬虫与数据提取》相关推荐

  1. Python爬虫淘宝商品详情页价格、类似数据

      在讲爬取淘宝详情页数据之前,先来介绍一款 Chrome 插件:Toggle JavaScript (它可以选择让网页是否显示 js 动态加载的内容),如下图所示: 当这个插件处于关闭状态时,待爬取 ...

  2. 淘宝商品详情APi接口(原数据APP、h5)

    为了进行此平台API的调用,首先我们需要做下面几件事情. 1. 获取一个KEY. 2. 参考API文档里的接入方式和示例. 3.查看测试工具是否有需要的接口,响应实例的返回字段是否符合参数要求. 4. ...

  3. 淘宝API接口(网络爬虫数据)

    淘宝API接口(部分) item_get 获得淘宝商品详情 item_get_pro 获得淘宝商品详情高级版 item_review 获得淘宝商品评论 item_fee 获得淘宝商品快递费用 item ...

  4. Python爬虫实战之爬淘宝商品并做数据分析

    前言 是这样的,之前接了一个金主的单子,他想在淘宝开个小鱼零食的网店,想对目前这个市场上的商品做一些分析,本来手动去做统计和分析也是可以的,这些信息都是对外展示的,只是手动比较麻烦,所以想托我去帮个忙 ...

  5. Python网络爬虫及数据可视化(软科中国大学专业排名|计算机科学与技术)

    设计内容: 对中国大学专业排名网站中2021年,计算机科学与技术专业,进行数据爬取和数据可视化. URL地址:https://www.shanghairanking.cn/rankings/bcmr/ ...

  6. 淘宝api开放平台买家卖家订单接口,python网络爬虫采集数据

    custom-自定义API操作 公共参数 请求地址: https://console.open.onebound.cn/console/?i=Anzexi 名称 类型 必须 描述 key String ...

  7. ArcGIS Pro从0到1入门实战教程 书籍淘宝线上销售,免费下载数据和视频

    网址:https://m.tb.cn/h.USz9rbD?tk=cu0Vd2cABAV 购书后五星好评,加下面微信,截图发给我们:送Python电子书,下面是我们的微信 关注翎树文化,获得更多好书信息 ...

  8. 【Python网络爬虫与数据可视化实战案例】近15年的中国国内生产总值

    需求描述   打开东方财富网的中国国内数据总值数据页,进入如下页面.   现在需要把页面上的国内生产总值数据表爬取下来,写入CSV文件以持久化存储.在这之后,将CSV文件内的数据做成折线图,实现数据可 ...

  9. 数据采集技术python网络爬虫项目化教程_数据采集技术Python网络爬虫项目化教程 黄锐军课程资源.zip-KC17.pptx...

    原文件部分截取内容: 1.7.1 Web学生管理程序 Shenzhen Institute Of Information Technology 教师:黄锐军 深圳信息职业技术学院 学生的记录包括学号N ...

最新文章

  1. 王建春计算机应用基础,计算机应用基础(本)教学指南.pdf
  2. OpenCV读写YAML/XML文件
  3. DL之Mask R-CNN:2018.6.26世界杯阿根廷队VS尼日利亚比赛2:1实现Mask R-CNN目标检测
  4. 【若依(ruoyi)】No message found under code ‘xxx‘ for locale ‘zh_CN‘.
  5. python合法变量类型_Python 变量类型
  6. 数据结构与算法--二叉查找树转顺序排列双向链表
  7. jfinal调用mysql存储过程 封装_jfinal如何调用存储过程?
  8. C#回调函数应用示例,形象比喻方法助理解
  9. 如何方便快速在指定文件夹打开命令行
  10. Getting Started with Processing 第五章的easing问题(2)
  11. 1047: 对数表 ZZULIOJ
  12. 传感器的原理及应用有哪些
  13. Visual C++网络编程经典案例详解 第5章 网页浏览器 CHtmlView类 实现查看源文件功能步骤
  14. Nginx反向代理、配置ssl证书
  15. 炫我科技渲染集群管理软件
  16. ちょっとした難しい言葉まとめ③
  17. echarts图表主题--马卡龙macarons--自己配置主题颜色
  18. CentOS7环境下 人大金仓kes86数据库安装过程
  19. 一个dht网络的“磁力链接”搜索python代码
  20. altium designer芯片引脚间距规则过小

热门文章

  1. csol2服务器维护中 无法登陆游戏,csol2现在怎么登不上去?为什么?说服务...
  2. node.js调用Delphi写的Dll
  3. Mybatis环境搭建(仅供参考)
  4. 看完《互联网公司时尚穿搭指南》,百度程序员笑出了猪声!太逗了!
  5. 积分商城运营中,签到任务以及兑换任务的制定要点
  6. 斑马识别成狗,AI犯错的原因被斯坦福找到了丨开源
  7. Windows 下如何杀死进程
  8. AI系统能否理解3D现实世界?Facebook做了这些研究
  9. java怎么用doss窗口_Java基础1-环境变量的配置
  10. 增值税普通发票增版网上申请流程